20260309-华泰证券-华泰_|_再谈NV的下一个Mellanox:Groq_LPU的整合_18页_1mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 华泰 | 再谈NV的下一个Mellanox：Groq LPU的整合总结 ## 核心观点 英伟达整合Groq的战略，与其2020年收购Mellanox一脉相承，核心在于吸收Groq的领先底层IP与人才，以补齐架构层面的结构性短板。此次整合旨在为Agentic AI时代奠定技术基础，预计从Feynman架构开始，将Groq的LPU能力内生化至CUDA及GPU软件栈中。2026年或为Agentic AI的元年，英伟达通过此整合，正从以吞吐为核心的模型训练阶段，转向以低时延为核心的代理AI部署阶段，掌握两种范式下的核心架构能力，建立技术壁垒。 ## Feynman架构与LPU整合 ### 1. 时间维度的前瞻布局 - Feynman架构预计采用台积电A16制程，具备关键的架构升级能力。 - 通过TSV与SoIC混合键合技术，Feynman将LPU以Chiplet形式与计算Die面对面集成。 - 引入高速SRAM存储层，专为代理AI的Chain-of-Thought推理场景优化，带宽可达约80TB/s。 ### 2. 制程条件具备 - A16制程引入SPR（Super Power Rail）背面供电技术，释放正面布线空间，支持垂直堆叠。 - 晶体管密度提升，为LPU SRAM Chiplet的封装复杂性提供缓冲空间。 ### 3. 系统级协同设计 - LPU与GPU的整合需完成联合流片验证、固件协同开发、热管理共同验证及跨异构Die的良率优化。 - 合并过程预计需要18-24个月，Rubin和Rubin Ultra架构难以承载首代整合任务，Feynman成为最早可行的整合平台。 ### 4. 工作负载成熟度匹配 - LPU价值基础建立在Agentic AI所需的多步骤推理与实时协同执行上。 - 2028年Feynman的推出时间窗口，与Agentic AI从技术验证迈向企业规模化应用的拐点相吻合。 ## CUDA软件生态整合 ### 1. 编译器与运行时层 - 将GroqWare的静态调度能力纳入CUDA编译流程，使确定性执行成为底层能力。 - TensorRT作为调度桥梁，自动识别低批次、低时延推理任务，并将其分发至LPU执行。 ### 2. 硬件抽象层 - LPU将被抽象为CUDA中的独立存储与执行层级，与Shared Memory、L2 Cache及HBM分层调用逻辑一致。 - 开发者可通过CUDA Memory API显式控制，或借助自动化工作负载分析实现隐式优化。 ### 3. 模型执行层 - 扩展CUDA Graph框架，使其能够在特定子图中引入静态调度机制。 - 保持CUDA统一接口，确定性执行作为编译器层面的实现机制，无需修改现有代码。 ## LPU的性能优势场景 ### 1. 低时延推理场景 - LPU专为低时延、高确定性执行的代理AI场景设计，如大模型自回归解码阶段。 - 在低批量、强时延约束的在线服务场景中，LPU通过片上SRAM消除内存带宽瓶颈，显著提升响应速度。 ### 2. 实时语音AI - 支持云端语音接口、实时翻译系统及AI Copilot等应用，对响应时间要求极高。 - LPU的高带宽、低时延特性，可保障语音代理AI的流畅交互体验。 ### 3. 高并发、低批量推理 - 适用于企业级持续在线代理AI部署，系统需同时承载大量并发会话。 - LPU在不同并发数量下均能保持稳定确定性吞吐，优于传统GPU在小批量场景下的表现。 ## 投资逻辑与风险提示 ### 1. 投资逻辑 - 英伟达通过此次整合，主动定义AI下半场的技术标准。 - 2026年将成为Agentic AI元年，计算范式向低延迟、确定性执行迁移。 - 英伟达在训练与推理两大范式中均掌握顶尖架构，建立对其他芯片厂商的先发优势。 ### 2. 风险提示 - 技术落地缓慢：生产技术推进与产品落地可能达不到预期。 - 芯片需求不及预期：市场需求可能低于预期，影响行业营收与利润。 ## Feynman+LPU封装架构 - 从2.5D平面式布局转向基于SoIC技术的真正三维Chiplet架构。 - LPU Chiplet通过混合键合方式与Feynman计算Die垂直集成，实现低时延数据通路。 - HBM堆叠维持原有布局，与LPU SRAM形成功能互补，而非替代关系。 ## LPU与RealScale互连的限制 - Groq的RealScale架构在约576颗芯片规模时面临确定性性能的物理上限。 - 通过将LPU封装于Feynman架构内部，英伟达绕开此限制，利用NVLink扩展能力，实现确定性执行与大规模部署的结合。 ## 结论 - 此次整合标志着英伟达在AI“下半场”的布局，旨在定义低延迟、确定性执行的新标准。 - 通过Feynman架构与CUDA生态的融合，英伟达在Agentic AI时代构建了双重技术壁垒，为未来提供更广泛的性能优势。