> **来源:[研报客](https://pc.yanbaoke.cn)** # 华泰 | 再谈NV的下一个Mellanox:Groq LPU的整合总结 ## 核心观点 英伟达整合Groq的战略,与其2020年收购Mellanox一脉相承,核心在于吸收Groq的领先底层IP与人才,以补齐架构层面的结构性短板。此次整合旨在为Agentic AI时代奠定技术基础,预计从Feynman架构开始,将Groq的LPU能力内生化至CUDA及GPU软件栈中。2026年或为Agentic AI的元年,英伟达通过此整合,正从以吞吐为核心的模型训练阶段,转向以低时延为核心的代理AI部署阶段,掌握两种范式下的核心架构能力,建立技术壁垒。 ## Feynman架构与LPU整合 ### 1. 时间维度的前瞻布局 - Feynman架构预计采用台积电A16制程,具备关键的架构升级能力。 - 通过TSV与SoIC混合键合技术,Feynman将LPU以Chiplet形式与计算Die面对面集成。 - 引入高速SRAM存储层,专为代理AI的Chain-of-Thought推理场景优化,带宽可达约80TB/s。 ### 2. 制程条件具备 - A16制程引入SPR(Super Power Rail)背面供电技术,释放正面布线空间,支持垂直堆叠。 - 晶体管密度提升,为LPU SRAM Chiplet的封装复杂性提供缓冲空间。 ### 3. 系统级协同设计 - LPU与GPU的整合需完成联合流片验证、固件协同开发、热管理共同验证及跨异构Die的良率优化。 - 合并过程预计需要18-24个月,Rubin和Rubin Ultra架构难以承载首代整合任务,Feynman成为最早可行的整合平台。 ### 4. 工作负载成熟度匹配 - LPU价值基础建立在Agentic AI所需的多步骤推理与实时协同执行上。 - 2028年Feynman的推出时间窗口,与Agentic AI从技术验证迈向企业规模化应用的拐点相吻合。 ## CUDA软件生态整合 ### 1. 编译器与运行时层 - 将GroqWare的静态调度能力纳入CUDA编译流程,使确定性执行成为底层能力。 - TensorRT作为调度桥梁,自动识别低批次、低时延推理任务,并将其分发至LPU执行。 ### 2. 硬件抽象层 - LPU将被抽象为CUDA中的独立存储与执行层级,与Shared Memory、L2 Cache及HBM分层调用逻辑一致。 - 开发者可通过CUDA Memory API显式控制,或借助自动化工作负载分析实现隐式优化。 ### 3. 模型执行层 - 扩展CUDA Graph框架,使其能够在特定子图中引入静态调度机制。 - 保持CUDA统一接口,确定性执行作为编译器层面的实现机制,无需修改现有代码。 ## LPU的性能优势场景 ### 1. 低时延推理场景 - LPU专为低时延、高确定性执行的代理AI场景设计,如大模型自回归解码阶段。 - 在低批量、强时延约束的在线服务场景中,LPU通过片上SRAM消除内存带宽瓶颈,显著提升响应速度。 ### 2. 实时语音AI - 支持云端语音接口、实时翻译系统及AI Copilot等应用,对响应时间要求极高。 - LPU的高带宽、低时延特性,可保障语音代理AI的流畅交互体验。 ### 3. 高并发、低批量推理 - 适用于企业级持续在线代理AI部署,系统需同时承载大量并发会话。 - LPU在不同并发数量下均能保持稳定确定性吞吐,优于传统GPU在小批量场景下的表现。 ## 投资逻辑与风险提示 ### 1. 投资逻辑 - 英伟达通过此次整合,主动定义AI下半场的技术标准。 - 2026年将成为Agentic AI元年,计算范式向低延迟、确定性执行迁移。 - 英伟达在训练与推理两大范式中均掌握顶尖架构,建立对其他芯片厂商的先发优势。 ### 2. 风险提示 - 技术落地缓慢:生产技术推进与产品落地可能达不到预期。 - 芯片需求不及预期:市场需求可能低于预期,影响行业营收与利润。 ## Feynman+LPU封装架构 - 从2.5D平面式布局转向基于SoIC技术的真正三维Chiplet架构。 - LPU Chiplet通过混合键合方式与Feynman计算Die垂直集成,实现低时延数据通路。 - HBM堆叠维持原有布局,与LPU SRAM形成功能互补,而非替代关系。 ## LPU与RealScale互连的限制 - Groq的RealScale架构在约576颗芯片规模时面临确定性性能的物理上限。 - 通过将LPU封装于Feynman架构内部,英伟达绕开此限制,利用NVLink扩展能力,实现确定性执行与大规模部署的结合。 ## 结论 - 此次整合标志着英伟达在AI“下半场”的布局,旨在定义低延迟、确定性执行的新标准。 - 通过Feynman架构与CUDA生态的融合,英伟达在Agentic AI时代构建了双重技术壁垒,为未来提供更广泛的性能优势。