> **来源:[研报客](https://pc.yanbaoke.cn)** # 英伟达吸收Groq定义AI下半场! # 华泰研究 2026年1月12日|美国 专题研究 Groq交易是英伟达迄今披露的最大一笔交易,规模明显高于其2019年以69亿美元收购Mellanox。我们认为,Groq所掌握的低时延推理核心IP在战略层面的重要性,已与当年Mellanox的互连与网络技术处于同一量级。该交易进一步凸显英伟达对确定性、Batch Size=1推理的前瞻性布局,契合行业向Agentic AI演进的整体趋势。通过将Groq的确定性“反射式引擎”深度整合至CUDA与GPU技术栈,英伟达正加速推动Agentic经济走向主流,并在其已确立优势的AI“上半场”基础上,逐步奠定低时延为核心特征的“下半场”的技术与规则框架。 # Acqui-hire 模式锁定 Groq 的 LPU 人才与核心 IP 英伟达对价约200亿美元获得Groq推理技术的授权、收购部分知识产权,并引入Groq核心工程团队,包括创始人兼CEO JonathanRoss(原TPU架构师)与总裁SunnyMadra。此次交易价格较Groq25年9月最新私募融资估值的69亿美元隐含接近3倍溢价。从交易结构看,本次交易为IP授权叠加人才收购(Acqui-hire)的组合,而非完整的公司并购。GroqCloud云服务将作为独立公司继续运营,由原CFO SimonEdwards出任CEO。我们认为,这种“精准打击式”的交易结构,使英伟达能够在获取关键低时延推理IP的同时,有效规避整合硬件竞争对手带来的并购与监管不确定性。 # 英伟达以收购Groq定义AI“下半场”规则 我们认为,该交易反映英伟达对Agentic AI时代需求结构变化的判断,即时延正成为继算力之后的关键约束因素。据CNBC报道,英伟达CEO黄仁勋在内部邮件中指出,此次交易的核心目标在于将Groq的低时延技术整合进英伟达的AI工厂。在此基础上,英伟达通过引入面向Agentic AI的低时延加速器,开始主动定义AI“下半场”的技术标准。在2025年被普遍视为Physical AI元年之后,我们认为2026年有望成为Agentic AI元年,其核心特征在于,AI工作负载将从以吞吐量为导向的训练阶段,转向为对时延高度敏感、执行过程具备确定性的实时应用阶段。我们认为,英伟达将把握这一关键时间节点,通过收购Groq为Agentic应用的规模化落地提供关键支撑,通过整合专用推理IP与其CUDA和GPU技术体系,英伟达得以在训练与实时推理两种核心范式下同时建立领先能力,并在一定程度上削弱云厂商依托自研芯片、从推理侧切入竞赛的潜在空间。 # 从TPU到Dojo与Groq,计算架构趋同下的战略分化 我们认为,Groq、Tesla Dojo 以及谷歌 TPU 在底层均继承张量加速器的共同技术基因,但三者围绕 AI 工作负载的不同侧重点差异化设计。尽管 Dojo 与 Groq 同样依赖大规模片上 SRAM 与紧耦合的 Scale-up 互连,Tesla 选择将这一架构优势主要投向大规模、高吞吐的 FSD 训练场景,而非更适合发挥其低时延潜力的 Batch Size = 1 推理场景。相比之下,谷歌 TPU 虽起源于 Jonathan Ross 主导的“以推理为先”的设计理念,但其路线已演进为以 HBM 与 OCS 为核心的 Pod 级吞吐引擎,用于支撑大模型训练与推理。在体系结构上,TPU 与 Groq 的 Mega-Chip 理念存在呼应,但面向批处理的范式不同。我们认为,Groq 或延续并强化“推理优先”的设计理念,通过确定性调度与片上 SRAM 带宽的协同优化,重点覆盖 Agentic 时代的低时延、交互式推理场景,并形成对科技巨头自研加速器的差异化优势。 风险提示:技术落地缓慢、需求不及预期等。 # 科技 # 增持 (维持) 何翩翩 研究员 SAC No. S0570523020002 purdyho@htsc.com SFC No. ASI353 $+$ (852)36586000 重点推荐 <table><tr><td>股票名称</td><td>股票代码</td><td>目标价 (当地币种)</td><td>投资评级</td></tr><tr><td>英伟达(NVIDIA)</td><td>NVDA US</td><td>280.00</td><td>买入</td></tr></table> 资料来源:华泰研究预测 # 正文目录 问题1:Groq是什么?其架构在AI发展中有何战略意义? 问题2:Groq架构如何区别于GPU范式,从而实现确定性的时延优势? 3 问题3:Groq的存储配置、互连(Scale-Up与Scale-Out)及软件架构如何支撑低时延推理?其设计选择在结构层面与英伟达GPU有何差异? 问题4:Groq架构的主要结构性约束与经济性限制是什么? 问题5:哪些市场细分能够支撑Groq的前期资本投入?为何“时延敏感型推理”正在从小众需求变为主流?……10 问题6:如何理解英伟达25年12月收购Groq的战略动因? 11 问题7:Groq的LPU与英伟达GPU如何在训练与推理环节形成互补,共同支撑AgenticAI时代?……12 问题8:Groq与Tesla Dojo在定位、架构与存储配置上有何差异?其战略结果为何出现分化?……14 问题9:Groq与谷歌最新一代TPUv7如何对比?JonathanRoss的设计理念如何从TPUv1演进至LPU?..16 问题10:并入英伟达体系后,Groq“下一代”芯片将呈现哪些特征? 18 投资逻辑:英伟达布局AI“下半场”,奠定AgenticAI时代技术标准 19 风险提示 22 # 问题1:Groq是什么?其架构在AI发展中有何战略意义? Groq的核心产品是Language Processing Unit(LPU),是面向推理计算阶段专门设计的ASIC,其出发点并非追求更高的算力规模,而是解决通用GPU架构中长期存在的“时延-吞吐权衡(latency-throughput tradeoff)”问题。我们认为,Groq本质上体现对交互式Agentic AI趋势未来主流化的押注:在这一趋势下,性能评价指标正从“每单位价格所能处理的总token数量”转向“单次请求的响应速度”。 与以训练和高吞吐批处理为核心优化目标的英伟达GPU不同,Groq从设计开始即围绕实时、交互式推理场景进行设计,其核心价值主张在于Determinism(确定性)。LPU采用编译器驱动(compiler-driven)架构,在编译期对所有指令执行与内存访问进行预调度,从而消除动态调度所带来的不可预测的时延抖动(jitter)。本质上,Groq以数学和逻辑可控的执行时序,取代传统硬件的概率性执行,从而压低Batch Size $= 1$ 场景下的“时延下限”。 我们认为,当前AI计算正在发生结构性分化,将逐步演化为以训练导向以及以部署导向的两条技术路径。其中,英伟达路线本质上是“吞吐优先”:依托大容量HBM与复杂的动态调度机制,最大化系统层面的批处理吞吐能力(即单位时间内处理的总token数量)。这一架构在模型训练及异步、批量推理场景中具备最优性。相对应地,Groq路线则是“时延优先”:其目标客户为对“Time to First Token(第一个token的响应时间)”以及对token间时延高度敏感的实时、交互式的Agentic AI应用。通过移除动态硬件管理的系统开销,Groq可实现小于100ms级的实时响应,满足自然人机交互对即时性的要求。 从产业分工角度看,我们认为Groq与英伟达并非替代关系,而是高度互补。Groq更像是AI生命周期中推理阶段的专用计算层,服务于时延敏感型部署场景;而英伟达依旧是AI模型训练及高吞吐批量推理的通用标准,在大规模并行计算与内存密集型工作负载中具备不可替代的优势。我们认为英伟达架构在以超大内存容量与并行吞吐的场景中占据优势,而Groq正逐步成为时延敏感型推理的参考架构,为高性能的交互式部署提供支撑。 图表1:英伟达B300搭载288GBHBM3E 资料来源:英伟达官网,华泰研究 图表2:Grog LPU 搭载 230MB SRAM 资料来源:Grog官网,华泰研究 # 问题2:Groq架构如何区别于GPU范式,从而实现确定性的时延优势? Groq 的性能优势源于其以编译器为先的设计理念,即将控制从硬件侧转移至软件侧。相较之下,英伟达 GPU 需要依赖运行时调度机制,在多任务并发过程中动态协调计算与存储资源。在 Groq 架构下,LPU 本质上仅负责严格执行预先生成的指令与访存计划,硬件层面不再引入缓存与动态仲裁等不确定性机制,从而有效消除运行时抖动(jitter)。基于这一确定性执行模型,Groq 构建可同步扩展的 Scale-up 计算域,最多可将 576 颗芯片整合为一个同步运行的单一逻辑处理器(Mega-Chip)。 图表3:LPU的张量流处理器(TSP)的架构(右图)对比传统GPU采用多核布局(左图) 注:MXM用于执行矩阵运算,SXM用于向量的移位和旋转,MEM用于内存读写,VXM用于向量的运算;TSP内部各切片(slice)之间的流式数据传输,数据流可以沿东西方向流动。 资料来源:Groq官网,Groq论文《ThinkFast:A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads》,华泰研究 我们认为,Groq的架构优势并非体现在“更快”的单一性能指标上,而是一种结构性差异。其核心取舍在于:主动放弃以HBM为核心、强调算力密度的GPU架构,转而采用以SRAM为核心的静态执行体系,以换取更低时延与更强的确定性。在以交互响应速度与一致性作为主要价值驱动的应用场景中,该取舍使Groq具备显著的系统级竞争优势。从架构层面看,Groq相较传统GPU范式,主要体现在以下三项关键性的结构差异: # 1)以SRAM为中心的存储架构(规避HBM瓶颈) 传统GPU普遍依赖外置HBM作为主存储,尽管具备较高容量(如B300约288GB),其访问过程仍不可避免受到缓存未命中、内存控制器争用及刷新周期等因素影响,从而引入非确定性的时延抖动。相比之下,Groq的LPU通过移除外部存储、在单芯片内集成约230MB高速SRAM,将内存访问时延压缩至10ns以下,并实现80TB/s的确定性内存带宽,显著高于HBM3E约8TB/s的水平。该架构确保模型权重与激活数据可在计算所需时被精准、按时供给,从结构上削弱“内存墙”对推理场景的制约。但我们亦注意到,单颗LPU片上存储容量相对有限,大模型部署须依赖多芯片规模化扩展。例如,在INT8精度下部署一个70B参数模型(约需70GB内存),Groq需配置约576颗芯片(系统通常由8个机架、每架72颗芯片构成)以满足SRAM容量需求。我们认为,这一显著的资本与系统规模投入,本质上反映以牺牲存储密度换取确定性低时延所需承担的成本。 # 2)编译期的确定性调度(“零抖动”模型) GPU广泛采用运行时硬件调度机制(如warp调度器(warp schedulers,)、重排序缓冲区(reorder buffers)等),以在执行过程中动态管理数以千计的线程与指令流。当某一线程因等待HBM访问而阻塞时,调度器会切换至其他线程以提升整体吞吐率。该机制在高并发负载下有助于充分释放算力潜能,但也引入随机性的时延抖动。实际执行时间取决于运行时的缓存状态与资源争用情况。因此,在Batch Size = 1场景下,GPU往往因内存时延与kernel启动开销而严重欠利用。 Groq将系统控制权由硬件运行时调度前移至软件与编译阶段。其自研编译器GroqWare在模型部署前,对完整计算图进行静态解析与全局调度,提前确定每一条指令、每一次存储访问及数据传输在时序上的精确位置,从而消除运行时的不确定性(Zero Tail Latency)。在此基础上,Groq实现严格的确定性执行特征,系统不存在长尾时延问题,P99时延与中位时延基本一致。该能力在对话式智能体、实时推理等企业级应用场景中尤为关键:此类场景对响应一致性与时延可预测性要求极高,任何不可预期的卡顿都会直接影响用户体验。 # 3)软件定义的芯片互连(RealScale) 在GPU体系中,多卡扩展通常依赖NVLink或InfiniBand等网络互连方式,其底层仍涉及分组交换(packet switching)、握手(handshakes)等机制,因而不可避免地造成拥塞与不确定延迟。随着大模型参数持续扩大,单芯片已难以承载完整模型,而多GPU集群中的互联开销正逐步成为系统瓶颈。我们认为,Groq的RealScale互连体系采用由编译器统一调度的芯片直连结构。由于编译器能够精确掌握数据在不同芯片间的发送与到达时间,系统可在无冲突、无缓冲的条件下完成数据传送。RealScale使Groq能够在单一Mega-Chip中实现线性扩展,并协同多芯片系统同步运行。但我们认为,该同步系统的上限约为576颗芯片,超过该规模后仍需回退至标准以太网(Ethernet)互连。但在576颗芯片规模内,Groq能够实现GPU架构难以达到的、低时延的甚至完全同步的并行推理。 图表4:传统非确定性网络架构 资料来源:Groq官网,Groq论文《A Software-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning》,华泰研究 图表5:软件调度互联网络 资料来源:Groq官网,Groq论文《A Software-defined Tensor Streaming Multiprocessor for Large-scale Machine Learning》,华泰研究 图表6:Groq的软件与编译生态 <table><tr><td>GroqChip数量</td><td>峰值 INT8/FP16 性能</td><td>系统SRAM(GB)</td><td>维度数量</td><td>网络直径(跳数)</td><td>端到端时延(μs)</td></tr><tr><td>1</td><td>750 TeraOps</td><td>0.2</td><td>不适用</td><td>不适用</td><td>不适用</td></tr><tr><td></td><td>189 TeraFlops</td><td></td><td></td><td></td><td></td></tr><tr><td>8</td><td>6 PetaOps</td><td>1.76</td><td>0(单节点)</td><td>1</td><td>0.6</td></tr><tr><td>(1个GroqNode)</td><td>1.5 PetaFlops</td><td></td><td></td><td></td><td></td></tr><tr><td>16</td><td>12 PetaOps</td><td>3.5</td><td>1(2个节点)</td><td>2</td><td>1.2</td></tr><tr><td></td><td>3 PetaFlops</td><td></td><td></td><td></td><td></td></tr><tr><td>64</td><td>48 PetaOps</td><td>14</td><td>1(8个节点)</td><td>3</td><td>1.8</td></tr><tr><td>(1个GroqRack)</td><td>12 PetaFlops</td><td></td><td></td><td></td><td></td></tr></table> 资料来源:Groq官网,华泰研究 # 问题3:Groq的存储配置、互连(Scale-Up与Scale-Out)及软件架构如何支撑低时延推理?其设计选择在结构层面与英伟达GPU有何差异? 我们认为,Groq的系统架构更接近一件为特定工作负载打造的“精密仪器”,其优化目标高度聚焦于对时延极度敏感的Batch Size = 1推理场景,并在由576颗芯片Scale-up的系统中表现最优。相比之下,英伟达GPU更接近于一套通用型算力引擎,目标是在不同规模、不同负载形态下最大化吞吐与容量,并依托成熟的软件生态,在FP4/FP6/FP8等硬件原生精度支持上具备更强的灵活性(如B300所体现的能力)。 # 1)存储配置:速度 vs. 容量间的取舍 我们认为,存储体系的结构性差异是Groq与GPU时延差距的最核心因素。Groq采用SRAM设计,其LPU单芯片内集成约230MB片上SRAM,作为模型参数的主存储介质,存储带宽高达80TB/s。通过移除外置HBM,Groq避免任何跨芯片访存所带来的不可控时延,使权重访问可在<10ns的确定性窗口内完成;这一特性对于维持Batch Size=1场景下的高利用率至关重要。相比之下,以B300为代表的英伟达GPU依赖288GB外置HBM3E,在提供较高容量的同时,其带宽规模约为8TB/s。GPU的设计逻辑在于最大化容量密度(以更少芯片容纳更大模型),从而提升吞吐效率;而Groq则主动放弃内存容量以换取极低时延。这一取舍也意味着,Groq在承载大模型时需通过多芯片系统(例如576颗芯片容纳一个70B模型),其扩展目的在于补足SRAM容量本身的物理限制。 图表7:GroqChip可扩展架构 资料来源:Grog官网,华泰研究 # 2)Scale-Up互连:RealScale vs.NVLink 我们认为,若需要将多芯片组成一个同步的Mega-Chip,需要一套高效的互联体系。Groq采用RealScale互连,可最多支持576芯片(8个GroqRack)组成的同步系统。GroqWare编译器将网络互联的收发单元视作“功能单元”,把数据传输编排在特定时钟周期内。由于数据传输计划在编译期已被完全确定,即便在跨数百芯片完成模型参数计算时,系统仍可维持亚微秒级时延(sub-microsecond latency)。相比之下,英伟达B300采用第五代NVLink,单GPU提供约1.8TB/s双向带宽。NVLink的优势在于极高吞吐能力,但其调度依赖硬件仲裁机制,更适合大批量数据传输(尤其是训练场景)。从设计目标上看,NVLink面向带宽优先的规模化计算,而RealScale则定位于时延更敏感的推理任务。 # 3)Scale-Out:Groq的确定性扩展能力存在明确的物理边界(Determinism Cliff) 我们认为Groq的Scale-Up通常止步于576芯片互联;超过此规模,系统需退回至标准以太网进行扩展。我们认为,越过此“物理边界”后,Groq不可避免地重新引入其原本试图规避的网络抖动和非确定性时延,限制其架构效率。相比之下,英伟达采用InfiniBand与Spectrum-X用于集群级扩展。以B300系统为例,其通过计算与通信重叠以及大规模批处理来容忍网络波动,从而在Scale-out的训练与批量推理工作负载中,以可接受的时延波动换取极高的吞吐能力。 # 4)软件生态与数值精度:GroqWare vs.CUDA 软件栈决定硬件精度能力在实际推理中的使用方式。GroqWare 并未对模型采取统一量化路径(如整体强制 INT8),而是基于算子与数值敏感度实施差异化的精度管理策略。例如,Attention logits(Softmax 输入)仍维持 FP32 精度,以避免微小数值误差在长序列中被放大;MoE 权重则采用 Block Floating Point 形式,在牺牲部分精度的同时保留量级尺度;同时,Groq 引入 TruePoint 数值体系,通过约 100 bits 的高精度中间累加抑制量化噪声。在权重与激活值层面,Groq 主要支持 INT8 与 FP16,并依托 TruePoint 的高精度累加机制缓解量化误差影响。当前,Groq 尚未采用 GPU 体系下的 FP8 硬件算子,而是通过这一混合精度路径,在维持模型精度的前提下,相较 BF16 实现约 2-4 倍的性能提升。而英伟达在硬件层面原生支持 FP4、FP6,并同时覆盖 FP8、BF16 与 FP32 等多种数值格式,其软件生态(CUDA、TensorRT-LLM)成熟且高度灵活,开发者可在完善的库与工具链支持下,自主选择并调优不同精度组合。与之相比,Groq 软件生态更为封闭,精度控制在更大程度上由编译器侧(如 TruePoint 体系)统一管理,开发者手动调节空间相对有限。 图表8:GroqWare生态 资料来源:Grog官网,华泰研究 图表9:Groq 开发者工具 资料来源:Groq官网,华泰研究 # 问题4:Groq架构的主要结构性约束与经济性限制是什么? 我们认为,Groq的LPU架构面临两项核心约束:其一是限制同步扩展能力的明确物理边界(Determinism Cliff),其二是由SRAM带来的昂贵资本与运行开支(SRAM Tax);其在初始资本开支层面显著高于英伟达平台,但在以交互速度作为核心价值的Agentic经济中,更胜一筹。在此类场景下,Groq在Batch Size $= 1$ 条件下仍能维持较高算力利用率,使其在部分对实时性要求极高的应用场景中,具备相对可竞争的总体拥有成本(TCO)。从本质上看,Groq并非一项“算力最大化”投资,而是一项以客户体验为核心的系统性投入。尽管SRAM架构在模型规模与物理部署上存在天然约束,但其低时延的特性,为高实时要求的应用提供一条可验证的商业化路径,从而在特定场景下合理化较高的前期资本投入。 # 1)“确定性孤岛”(Determinism Island)边界:Scale-Out的结构性约束 Groq的核心技术优势(指令级确定性执行)在物理上受限于其互连体系。我们认为,Groq的RealScale互连在576颗芯片规模内,构成一个近乎理想的同步执行环境:所有计算与通信时序均在编译期被精确规划。然而,当模型规模进一步扩大(如万亿参数级别),系统不可避免地需要将多个576芯片域通过标准以太网进行连接。此时,网络拥塞、数据缓冲与不可预测的抖动重新出现,其在超大模型场景下的核心价值也随之被削弱。 # 2)SRAM带来的高资本开支强度(SRAM Tax) 我们认为,Groq选择SRAM而非HBM作为主存储介质,在时延上带来优势的同时,也在前期资本投入具备较高代价。以70B参数模型(INT8)为例,Groq需要部署576颗LPU、共8个机架,仅用于提供约70GB的SRAM容量;相比之下,同一模型在英伟达平台仅需1-2张B300GPU(单卡288GB HBM3E)。从资本开支角度测算,70B模型下,Groq集群的硬件投入约300万美元(约5千美元单颗芯片);而英伟达双B300卡配置仅需约8万美元(即便考虑以8卡构成的完整服务器节点,成本亦约40万美元)。在1T参数模型场景下(1000GB SRAM需求),这一差距进一步放大:Groq需约3,000万美元的部署成本,而英伟达仍可在单节点内完成(8卡服务器),资本投入维持在40万美元量级。需要强调的是,上述测算仅用于说明数量级差异,而非精确成本对比。但可以明确的是,该差异同时意味着Groq在功耗、散热、布线以及数据中心占地面积等方面承担显著更高的系统性开销。 图表10:Groq API 调用价格 <table><tr><td colspan="4">大语言模型</td></tr><tr><td>AI 模型</td><td>当前速度(每秒 tokens)</td><td>输入 Token 价格 (每百万 tokens)</td><td>输出 Token 价格 (每百万 tokens)</td></tr><tr><td>GPT OSS 20B 128k</td><td>1,000 TPS</td><td>$0.075</td><td>$0.30</td></tr><tr><td>GPT OSS Safeguard 20B</td><td>1,000 TPS</td><td>$0.075</td><td>$0.30</td></tr><tr><td>GPT OSS 120B 128k</td><td>500 TPS</td><td>$0.15</td><td>$0.60</td></tr><tr><td>Kimi K2-0905 1T 256k</td><td>200 TPS</td><td>$1.00</td><td>$3.00</td></tr><tr><td>Llama 4 Scout (17Bx16E) 128k</td><td>594 TPS</td><td>$0.11</td><td>$0.34</td></tr><tr><td>Llama 4 Maverick (17Bx128E) 128k</td><td>562 TPS</td><td>$0.20</td><td>$0.60</td></tr><tr><td>Llama Guard 4 12B 128k</td><td>325 TPS</td><td>$0.20</td><td>$0.20</td></tr><tr><td>Qwen3 32B 131k</td><td>662 TPS</td><td>$0.29</td><td>$0.59</td></tr><tr><td>Llama 3.3 70B Versatile 128k</td><td>394 TPS</td><td>$0.59</td><td>$0.79</td></tr><tr><td>Llama 3.1 8B Instant 128k</td><td>840 TPS</td><td>$0.05</td><td>$0.08</td></tr><tr><td colspan="4">文本转语音模型</td></tr><tr><td>AI 模型</td><td>速度(每秒字符数)</td><td>价格(每百万字符,美元)</td><td></td></tr><tr><td>Canopy Labs Orpheus English</td><td>100</td><td>22</td><td></td></tr><tr><td>Canopy Labs Orpheus Arabic Saudi</td><td>100</td><td>40</td><td></td></tr><tr><td colspan="4">自动语音识别(ASR)模型</td></tr><tr><td>AI 模型</td><td>速度系数</td><td>价格(每小时转录,美元)</td><td></td></tr><tr><td>Whisper V3 Large</td><td>217x</td><td>0.111</td><td></td></tr><tr><td>Whisper Large v3 Turbo</td><td>228x</td><td>0.04</td><td></td></tr><tr><td colspan="4">Prompt caching</td></tr><tr><td>模型</td><td>未缓存输入(每百万美元)</td><td>已缓存输入(每百万美元)</td><td>输出 Token(每百万美元)</td></tr><tr><td>moonshotai/kimi-k2-instruct-0905</td><td>1</td><td>0.5</td><td>3</td></tr><tr><td>openai/gpt-oss-120b</td><td>0.15</td><td>0.075</td><td>0.6</td></tr><tr><td>openai/gpt-oss-20b</td><td>0.075</td><td>0.0375</td><td>0.3</td></tr><tr><td colspan="4">内置工具(Compound)</td></tr><tr><td>工具</td><td>价格</td><td>参数</td><td></td></tr><tr><td>Basic Search</td><td>$5/1000 requests</td><td>web_search</td><td></td></tr><tr><td>Advanced Search</td><td>$8/1000 requests</td><td>web_search</td><td></td></tr><tr><td>Visit Website</td><td>$1/1000 requests</td><td>visitwebsite</td><td></td></tr><tr><td>Code Execution</td><td>$0.18/hour</td><td>code_interpreter</td><td></td></tr><tr><td>Browser Automation</td><td>$0.08/hour</td><td>browserautomation</td><td></td></tr><tr><td colspan="4">内置工具(GPT-OSS)</td></tr><tr><td>工具</td><td>价格</td><td>参数</td><td></td></tr><tr><td>Browser Search - Basic Search</td><td>$5/1000 requests</td><td>browser_search - browser.search</td><td></td></tr><tr><td>Browser Search - Visit Website</td><td>$1/1000 requests</td><td>browser_search - browser.open</td><td></td></tr><tr><td>Code Execution - Python</td><td>$0.18/hour</td><td>code_interpreter - python</td><td></td></tr></table> 资料来源:Groq官网,华泰研究 # 3)经济可行性:Token效率vs.容量规模 尽管前期资本开支明显,我们认为Groq在特定运行条件下仍具备经济可行性,其核心在于利用率结构的差异。GPU的成本效率高度依赖高并发负载,只有在被成千上万并发请求“填满”时,才能有效摊薄HBM访存时延。对于流量波动大、请求不可预测的应用,长期维持高负载GPU集群反而可能效率偏低。在Batch Size = 1情境下,B300 GPU往往因等待HBM3E数据而处于低利用状态;而Groq能够在单请求条件下维持较高算力占用,其单位token能耗显著更低(约1-3焦耳,而GPU通常为10-30焦耳)。在交互型、实时型业务中,这一差异可转化为更具竞争力的token运营成本。 # 4)混合部署范式: 我们认为,行业已逐步形成分工明确的混合部署策略,在Groq的速度优势与英伟达的容量优势之间取得平衡。英伟达GPU仍将作为高吞吐训练与大批量推理的基础设施,其大容量HBM以及统一的InfiniBand / Spectrum-X互连,使其成为“AIFactory”的底座。而Groq的LPU更适合作为面向用户的“接口层”,承担对时延高度敏感的“最后一公里”任务,在该层面上,速度本身即是产品。 # 问题5:哪些市场细分能够支撑Groq的前期资本投入?为何“时延敏感型推理”正在从小众需求变为主流? 我们认为,Groq的价值已不再局限于少数“特殊场景”。随着交互式、实时Agentic AI逐步走向主流,时延敏感型推理正从“特定需求”转变为“基础设施级需求”,其可服务市场正在显著扩张。我们认为,此结构性变化为Groq较高的前期较高的资本投入与“Token经济学”提供合理性,使其在AI基础设施栈中占据关键节点位置。 当交互响应速度成为产品的核心价值主张时,Batch Size=1不再是少数状态,而是系统的常态运行模式。在这一运行范式下,系统无法通过等待更多请求形成批处理(否则将引入额外排队时延),而必须对单次请求即时执行;而单请求执行效率并非GPU的主要优化目标。此时,单一用户或对话正在等待模型生成下一个 token,而端到端时延与尾时延(P99)将直接影响用户体验与转化效果。在标准GPU环境中,Batch Size=1在经济上效率较低,因为计算核心往往需要等待从HBM中取回权重数据而处于空闲状态。 对于绝大多数AI工作负载(如摘要、翻译、分类),单位token成本仍是唯一关键指标。在这些场景中,英伟达的GPU通过请求批处理实现极高吞吐,从而具备经济优势。因此,对于Groq而言,经济可行性最为明确、置信度最高的细分市场,集中在那些时延可以被直接变现,或时延本身即产品价值的应用中。对于交互式应用而言,人类大脑对超过200ms的延迟即可感知为对话或思维上的卡顿;若AI需要执行多步推理,例如Chain-of-Thought(CoT)智能体,则将叠加为数秒级等待,从而打断用户的认知连续性。 例如,在实时语音/电话推理场景中,时延是关乎用户体验的核心变量:人类对对话轮次切换的延迟具有即时感知,而尾时延尤为关键,因为“偶发性的卡顿”会破坏整体体验,并直接影响用户留存。同样,在具备严格 Time-to-First-Token 约束的交互式聊天场景(如客服助手、面向消费者的对话产品),若产品明确以“响应速度与即时交互”为核心卖点,而非最低的单位 token 成本,则客户在成本与体验权衡下,具备为更低且更稳定的时延支付溢价的合理性。 尽管大量Agentic工作流以异步方式运行,对时延具备一定容忍度,但在引入人类参与闭环(Human-in-the-Loop,HITL)的交互式智能体场景中,往往存在更为刚性的时延约束。以吞吐为核心设计目标的GPU,在架构层面难以系统性满足低时延需求。因此,有必要将“多步骤/Agentic工作流”与“时延敏感型工作负载”明确区分。具体而言,后台自动化任务(如发票处理、业务流程管理)以及多数研究型智能体,通常以吞吐效率或单位成本为核心指标,而非P99时延(低时延要求);另一方面,追求极致低时延的高频交易系统则属于纳秒级基础设施范畴,同样处于不同的技术区间。 即便 Batch Size = 1 在战略层面具有重要性,我们认为 Groq 的经济性仍受到其 SRAM 容量的制约:超大模型需要更高的芯片数量,从而增加系统体量与综合开销。SemiAnalysis 认为,一旦将平台级成本纳入考量,“高速 token”在 TCO 层面的相对优势在多数部署场景中并不显著。因此,对 Groq 需求的合理评估,关键在于:究竟有多少具备规模收入的产品对 Batch Size = 1 下的尾时延存在刚性要求,并愿意为此支付溢价?若这一数量显著上升(例如语音与实时交互式 AI 成为默认 UI),Groq 的确定性将更具经济相关性;反之,GPU 仍将是最优选择,其批处理实现吞吐效率与成本效益的更优平衡。 图表11:Groq与英伟达推理系统运行成本对比 <table><tr><td>指标</td><td>单位</td><td>GPU系统(低时延优化)</td><td>GPU系统(吞吐量优化)</td><td>Groq机柜(成本计价)</td><td>Groq机柜(60% GPM计价)</td></tr><tr><td>系统资本成本</td><td></td><td>8xH100</td><td>8xH100</td><td>8 Rack</td><td>8 Rack System</td></tr><tr><td>前期系统资本支出</td><td>USD</td><td>350000</td><td>350000</td><td>2520000</td><td>6350000</td></tr><tr><td>使用寿命</td><td>Years</td><td>5</td><td>5</td><td>5</td><td>5</td></tr><tr><td>月均摊销资本支出</td><td>USD/mth</td><td>3638</td><td>3638</td><td>26191</td><td>65998</td></tr><tr><td>资本成本/最低预期回报率</td><td>%</td><td>18%</td><td>18%</td><td>18%</td><td>18%</td></tr><tr><td>月均资本成本</td><td>USD/mth</td><td>5250</td><td>5250</td><td>37800</td><td>95250</td></tr><tr><td>月均系统总资本成本</td><td>USD/mth</td><td>8888</td><td>8888</td><td>63991</td><td>161248</td></tr><tr><td>系统托管成本</td><td></td><td></td><td></td><td></td><td></td></tr><tr><td>电网电价</td><td>USD/kWh</td><td>0.087</td><td>0.087</td><td>0.087</td><td>0.087</td></tr><tr><td>每月时长</td><td>Hours</td><td>730</td><td>730</td><td>730</td><td>730</td></tr><tr><td>利用率</td><td>%</td><td>80%</td><td>80%</td><td>80%</td><td>80%</td></tr><tr><td>电源使用效率(PUE)</td><td>Ratio</td><td>1.25</td><td>1.25</td><td>1.25</td><td>1.25</td></tr><tr><td>每千瓦月均有效电费</td><td>USD/kW/mth</td><td>63.5</td><td>63.5</td><td>63.5</td><td>63.5</td></tr><tr><td>托管服务费</td><td>USD/mth</td><td>190</td><td>190</td><td>190</td><td>190</td></tr><tr><td>每千瓦月均总托管成本</td><td>USD/kW/mth</td><td>253.5</td><td>253.5</td><td>253.5</td><td>253.5</td></tr><tr><td>系统功耗</td><td>kW</td><td>10.2</td><td>10.2</td><td>230.4</td><td>230.4</td></tr><tr><td>月均系统总托管成本</td><td>USD/mth</td><td>2586</td><td>2586</td><td>58409</td><td>58409</td></tr><tr><td>月均资本成本占系统总成本比例</td><td>%</td><td>77%</td><td>77%</td><td>52%</td><td>52%</td></tr><tr><td>月均资本+托管总成本</td><td>USD/mth</td><td>11474</td><td>11474</td><td>122400</td><td>219657</td></tr><tr><td>资本+托管小时总成本</td><td>USD/hour</td><td>15.7</td><td>15.7</td><td>167.7</td><td>300.9</td></tr><tr><td>单系统芯片数量</td><td>Chips</td><td>8</td><td>8</td><td>576</td><td>576</td></tr><tr><td>单推理单元芯片数量</td><td>Chips</td><td>8</td><td>2</td><td>576</td><td>576</td></tr><tr><td>单系统推理单元数量</td><td>Units</td><td>1</td><td>4</td><td>1</td><td>1</td></tr><tr><td>单推理单元小时租赁成本</td><td>USD/hour</td><td>15.7</td><td>3.9</td><td>167.7</td><td>300.9</td></tr><tr><td>单用户每秒Token数</td><td>Tok/s/user</td><td>420</td><td>30</td><td>500</td><td>500</td></tr><tr><td>批处理大小</td><td>-</td><td>2</td><td>64</td><td>3</td><td>3</td></tr><tr><td>流水线并行度</td><td>-</td><td>1</td><td>1</td><td>16</td><td>16</td></tr><tr><td>单推理单元并发用户数</td><td>Users</td><td>2</td><td>64</td><td>48</td><td>48</td></tr><tr><td>单推理单元每秒总处理令牌数</td><td>Tok/s</td><td>840</td><td>1920</td><td>24000</td><td>24000</td></tr><tr><td>单推理单元每小时总处理令牌数</td><td>Tok/hour</td><td>3024000</td><td>6912000</td><td>86400000</td><td>86400000</td></tr><tr><td>每百万Token成本</td><td>USD/1MTok</td><td>5.20</td><td>0.57</td><td>1.94</td><td>3.48</td></tr></table> 资料来源:Groq官网,SemiAnalysis,华泰研究 # 问题6:如何理解英伟达25年12月收购Groq的战略动因? 我们认为,英伟达以约200亿美元收购Groq,本质上是一项前瞻性战略布局,旨在引入一类专门面向实时Agentic推理的超低时延AI加速器架构。该举措使英伟达得以在AI产业“下半场”(以Agentic推理为核心)率先确立技术标准,并补齐低时延推理的短板。 GPU架构以HBM与动态硬件调度为核心,在高吞吐任务中效率极高,但在Agent所需的多步骤推理中,仍可能出现时延抖动与尾时延放大。通过引入Groq的片上SRAM架构与确定性执行机制,英伟达有望在现有计算体系中补齐低时延短板,为复杂AgenticAI场景提供稳定、可预测的推理性能。我们认为,该举措有助于英伟达在Agentic时代率先构建更为完整的AI加速平台能力,并进一步巩固其平台级竞争壁垒。 从更宏观的视角看,英伟达在巩固训练端主导地位(AI上半场)之后,已开始前瞻性布局以Agentic推理为核心的AI下半场,提升实时交互能力。通过将确定性计算的先行者Groq纳入自身体系,英伟达旨在确保面向实时交互的Agentic工作负载(如交互式AI助手)仍持续运行于其GPU+CUDA生态之上。我们认为,英伟达正推动AgenticAI走向规模化部署,并演进至一种统一的“反射式(reflex)”系统架构:即便工作负载从大规模训练迁移至低batch、强时效的实时推理阶段,其平台级中心地位仍可维持。其战略核心在于构建一套异构的Agentic技术栈,由GPU承担高吞吐训练与批量推理,而Groq的确定性技术则作为“反射层”,专门服务于对时延高度敏感的实时Agentic推理场景。 我们认为,此次交易并非意在“封堵竞争对手”的防守动作,而是一次将确定性计算DNA主动注入CUDA生态的进攻型整合。通过架构融合,英伟达希望确保其平台仍是Agentic AI时代的核心,且开发者能够在CUDA环境下构建更复杂、更自主的智能体系统。从执行层面看,交易的重要组成部分在于引入Groq创始人Jonathan Ross及其系统架构团队,以加速英伟达 Rubin平台及后续路线图的推进。Groq的RealScale Scale-up互联技术提供确定性的通信结构,使整个集群能够在逻辑上作为一个低时延的Mega-Chip协同运行。我们认为,在多数竞争对手仍聚焦追赶英伟达训练性能之际,英伟达已将竞争焦点前移至实时Agentic推理,在战略层面削弱科技巨头为实时Agentic场景自研、整合ASIC的威胁。 # 问题7:Groq的LPU与英伟达GPU如何在训练与推理环节形成互补,共同支撑AgenticAI时代? 我们认为,GPU与LPU的混合协同,为AgenticAI时代提供关键基础设施,而AgenticAI有望在2026年成为AI应用演进的主线。英伟达在训练环节的长期主导地位,与Groq在推理侧所具备的速度优势相结合,构成Agentic经济中极具吸引力的技术组合:一方面,英伟达GPU仍是模型训练阶段不可替代的AI工厂;另一方面,Groq的LPU架构则在实时自主智能体场景中,充当专用的“推理引擎”。在用户交互这一关键环节,系统以牺牲GPU的部分通用性为代价,换取LPU所提供的速度与确定性。我们预计,这种分工将建立AgenticAI时代的全生命周期服务,从训练阶段的模型生成,到面向用户的实时推理与决策。 # 1)从Chatbot向Agent的转变 我们认为,2026年的核心变化在于AI形态从被动响应式Chatbot,转向具备主动性的Agent。与传统Chatbot不同,AI Agent并非仅对提示作出回应,而是能够自主拆解目标、规划执行路径,并通过内部的思维链(CoT)完成多步骤推理,且可在多智能体协同的体系中运行。该模式下,单一用户请求往往会触发数万token规模的内部推理、规划与反思过程。在推理执行层面,Groq的LPU通过推测式解码(speculative decoding)可实现约1,000-1,600+tokens/秒的生成速度,使智能体能够运行较长的内部CoT推理流程,同时在用户体验层面仍保持“即时响应”的感知。相比之下,英伟达GPU依然在基础模型训练、微调以及高吞吐推理方面具备不可替代的优势。 在此背景下,我们认为2025年12月Meta对Manus的收购具有重要的行业信号意义。该交易为Meta历史上规模第三大的并购,我们判断,这一举动象征着“Chatbot时代的结束”与“Agentic时代的开启”。Meta通过收购推动Agent在WhatsApp、Instagram等核心产品中的落地,旨在验证多步骤、持续运行的智能体将成为主流产品形态的战略判断。我们亦认为,这进一步强化GPU+LPU混合算力架构作为底层基础设施的合理性:由GPU负责生成、训练与持续更新智能体的能力边界,由LPU负责在交互端支撑智能体以极高速度完成“思考与推理”,且不会造成用户侧的可感知时延。这一分工模式,或将成为AgenticAI走向规模化落地的自然选择。 # 2)Agentic推理闭环:当“速度”本身成为智能 我们认为,在Agentic经济中,系统性能的核心瓶颈已不再是人类的阅读或理解速度,而是智能体内部的推理与决策速度。新一代交互式智能体要求底层硬件能够以“机器速度”完成思考,才能在用户侧维持连贯、自然的体验。对于运行在用户屏幕上的实时智能体(如Manus),其“思考-行动”闭环必须接近即时完成。若智能体在实时界面中为决定下一步操作需要生成2,000个token的内部推理,Groq LPU(约1,600+ token/秒)的推理可在约1.2秒内完成,从而使实时自主交互成为可能。同样,为避免打断对话节奏,在语音交互场景中,系统对整体时延的容忍度更为严格(总体时延通常需500ms以内)。我们认为,在该混合架构下,GPU的作用更接近“大脑皮层”:依托高密度HBM承载海量参数、提供基础智能;而Groq LPU的作用更像“反射系统”,以80TB/s速度调度模型权重(约为HBM3E的10倍),以亚毫秒级精度执行推理闭环。 # 3)多智能体工作流的确定性扩展 随着AgenticAI的普及,借助RealScale互连将数千颗芯片同步为Mega-Chip的能力,正逐步演化为关键竞争优势。在多智能体工作流中,任务需要频繁交接;一旦交接环节出现抖动或非确定性时延,整体自主流程即可能发生失步,进而影响系统稳定性与执行效率。在体系分工上,英伟达提供面向全局AI工厂的Scale-out基础设施(InfiniBand/Spectrum-X),而Groq的RealScale为本地推理集群提供Scale-up的确定性执行。由此,Agent闭环在能力上实现分工协同:在英伟达平台上完成高质量训练,确保“足够聪明”;在Groq平台上进行确定性、低时延执行,体现“足够主动”。我们认为,具备确定性行为能力,是企业级自主智能体在专业化、实时场景中满足严格用户交互要求的关键前提。 # 4)Groq式推理能力如何纳入英伟达路线图 我们认为,交易完成后的核心问题在于,英伟达如何将Groq的确定性推理编织进整体平台以承载Agentic负载。我们预计,Rubin、Feynman及后续架构将在传统吞吐模式之外,引入明确面向智能体的“Agent优化”运行模式。从落地路径看,整合体现在三层,1)硬件层:Groq的编译期互连调度与定时张量并行,将影响未来系统在长CoT序列下的运行方式,显著降低抖动;2)软件层:GroqWare式静态调度与混合精度可吸收进CUDA/TensorRT,在不改变开发者编程模型的前提下优化Batch Size=1;3)部署层:客户可进行分层部署,GPU层承担训练与后台任务,LPU衍生层支撑在线需求、增强用户的智能体体验。 图表12:Manus 2025 年进展、架构和工作流 资料来源:Manus官网,华泰研究 # 问题8:Groq与Tesla Dojo在定位、架构与存储配置上有何差异?其战略结果为何出现分化? 我们认为,Groq与Tesla Dojo在架构层面具有相似性:二者均采取对片上SRAM的高度依赖,以绕开传统基于HBM的GPU所面临的“存储墙”瓶颈。然而,在设计目标与落地执行上,二者却呈现出根本性的分化。Dojo试图作为面向自动驾驶的高吞吐训练工厂,但受制于制造复杂度高,以及英伟达GPU在训练领域所形成的压倒性优势,最终未能取得成功;相比之下,Groq则通过聚焦确定性、速度,成功将自身定位为服务于交互式AI的专用“推理引擎”。尽管Tesla在2025年末对其硬件路线图进行整合调整,我们认为,这一对比仍然构成一个典型案例,展示同样基于片上SRAM的架构,如何被用于两种几乎完全相反的目标。我们认为,Dojo更像是一项面向晶圆级训练硬件的“登月式尝试”,其失败主要源于制造复杂度过高以及产品迭代节奏滞后;而Groq的成功,则来自其对确定性推理引擎的专注,该架构恰好满足Agentic AI对实时交互能力的核心要求。 # 1)定位差异:训练工厂 vs. 推理工具 Tesla Dojo 的设计目标是一套高吞吐训练型超级计算系统,用于处理数十亿帧视频数据,以支撑特斯拉 FSD 模型的训练需求。相比之下,Groq 则是一款专注于推理的 ASIC,其核心目标是在大模型与 Agentic AI 的推理闭环中,提供确定性、实时的响应能力。 Dojo 为何未能成功?我们认为是其试图解决的是训练阶段所面临的大规模数据并行问题。我们认为,其受挫主要源于若干基础性硬件限制:包括晶圆级封装所带来的极高系统复杂度、HBM与计算核心之间物理距离过远所导致的存储层级效率问题,以及在产品迭代节奏上难以跟上英伟达的快速更新周期。 Groq 为何能够成功?我们认为是其并未选择在 AI 训练市场与英伟达正面竞争,而是将重心放在一个技术上可行且边界清晰的细分场景,即 Batch Size =1 的推理任务。这一聚焦使其在独立的大模型推理基准测试中取得领先表现(可达 1,600+ tokens/秒),并将自身定位为 Agentic 经济中承担快速响应职责的“反射系统”。 图表13:Tesla Dojo 单节点配置 1.25MB SRAM 资料来源:SemiAnalysis,Tesla AI Day 2021, 华泰研究 # 2)架构差异:动态Mesh vs.静态确定性 - Dojo采用的是高性能动态Mesh架构,其本质是一套以硬件为中心的训练型超级计算机,通过定制化的片上网络(NoC)路由器,在二维Mesh中动态调度通信流量,以最大化满足Physical AI与FSD训练所需的超大规模数据流吞吐。同时,Dojo依赖硬件级流控机制来缓解大规模训练过程中的网络拥塞问题。 Groq则建立在纯粹的静态确定性之上。其LPU采用“软件定义硬件”架构,彻底移除运行时控制逻辑,包括分支预测器与硬件调度器等。GroqWare编译器在执行前即对所有数据流动与指令执行进行逐时钟周期的预计算与排程。这种“指令级确定性”是多智能体工作流的必要条件。从功能定位看,Dojo的动态Mesh更适合承担大批量训练中的“皮层(cortex)”角色;而Groq的静态确定性架构则更适合作为面向实时推理的横向标准。 # 3)存储配置:分布式SRAM vs.层级化存储 两种系统均选择以SRAM的超高带宽,替代HBM的高容量,但在存储层级的组织方式上采取不同路径。Dojo的存储层级成为其关键掣肘。尽管每个计算核心配备1.25MB的SRAM(单D1芯片SRAM容量达440MB),但HBM与计算核心之间的物理距离过远,内存访问请求需要穿越复杂的片上互连网络,带来较高的访问时延,从而抵消本地SRAM的带宽优势。相比之下,Groq将230MB的SRAM直接集成于芯片之上,并作为主参数存储,以80TB/s的带宽向计算单元供数。该设计使模型能够在单用户请求场景下以极高速度在处理器中流动,实质上缓解推理场景中由存储时延所形成的时延问题。 # 4)数值精度:可配置FP8vs.策略性混合精度 - Dojo 采用的是可配置 FP8(CFP8)数值格式,旨在最大化梯度计算中的向量处理效率;相比之下,Groq 使用 TruePoint 数值体系,通过 100bits 高精度累加,确保以 INT8 存储的权重不会受到噪声的影响。同时,Groq 对关键的 Attention logits 专门维持 FP32 精度,以避免误差在计算过程中发生传播,从而满足 Agentic AI 中复杂 CoT 推理所需的高精度要求。 # 5)互连方式:晶圆级封装vs.软件定义互连 Dojo的受挫在很大程度上源于封装层面的失败。其依赖台积电的System-on-Wafer(InFO_SoW)技术,将25颗芯片键合为单一的“训练Tile”。这种极端复杂的封装方案导致良率偏低,并带来显著的散热管理问题;其中,与芯片共同封装的HBM尤其容易因热膨胀失配而发生故障。相比之下,Groq通过RealScale避开晶圆级封装所带来的风险。由于编译器能够精确掌握芯片间数据包的传输时序,Groq得以将最多576芯片(8机架)同步为一个Mega-Chip,并实现零网络拥塞的协同运行。 图表14:354 个功能单元构成的一颗 Dojo 芯片 资料来源:SemiAnalysis,Tesla AI Day 2021,华泰研究 图表15:每个 Training Tile 由 25 颗 Dojo 芯片组成 资料来源:SemiAnalysis,Tesla AI Day 2021,华泰研究 # 问题9:Groq与谷歌最新一代TPUv7如何对比?JonathanRoss的设计理念如何从TPUv1演进至LPU? 我们认为,Groq与谷歌最初的TPUv1(由JonathanRoss任职谷歌期间主导设计)在理念上具有一致性,二者均是以推理为优先、专门用于加速矩阵计算的ASIC。TPUv1于2015年投入部署,其设计目标是在满足严格的在线时延SLA的同时,实现相较当时CPU/GPU的吞吐效率(在代表性负载下,P99响应时间经验证可达7ms)。从技术脉络看,Groq架构延续并强化Ross提出的“软件定义硬件”思想,通过将调度与控制完全前移至编译期,将早期TPU中残留的运行时不确定性,系统性演化为逐周期可预测的确定性执行流水线。 长期以来,谷歌依托纵向一体化的TPU体系及配套自研互连,在Search、YouTube、Gemini等核心内部业务中持续验证,其在特定工作负载下的性能与性价比可超越通用GPU,从而对英伟达的市场主导地位形成实质性挑战。其成功的关键在于,谷歌对TPU在不同推理负载下的适配性与性价比边界具有高度清晰的判断。尽管TPU的目标已从最初的推理,演进为面向超大规模训练与服务的平台,但Groq则将“推理优先”基因进一步演化为面向Agentic AI的确定性计算工具。我们认为,这种战略目标的分化使得TPU在超大规模吞吐方面表现突出,而Groq则在自主智能体所需的亚毫秒级推理闭环上,保持标杆地位。 我们认为,谷歌TPU纵向整合模式的战略威胁,是推动英伟达与Groq达成交易的重要动因之一。将深谙谷歌TPU路线图的Jonathan Ross引入英伟达,本质上是面对TPU竞争的反制措施。通过内化Ross的经验,英伟达不仅推动其Rubin及其后续架构能够吸收确定性、低时延的核心优势,也将成为应对TPU竞争的关键手段,在事实上补齐“推理侧缺口”的短板。通过此次战略协同,英伟达有望确保下一代低时延推理理念仍在其CUDA生态中完成演进,确立Agentic经济下的全球性技术标准。 # 1)从TPUv1到GroqLPU 我们认为,Groq与最初的TPUv1在结构层面的相似性,源于JonathanRoss对传统动态硬件调度范式的反思,均体现以通过高度专用化的张量引擎绕开“冯·诺依曼瓶颈”的设计思路。最初TPUv1是一款专用于AI推理的ASIC,起源于Ross在谷歌任职期间的“20%项目”。Ross认为,脉动阵列通过在计算单元之间实现数据的直接、有序流动,使得仅需一套精简的矩阵计算引擎,便可在推理场景下较当时主流CPU/GPU架构实现约15-30倍的性能提升。Ross在Groq中延续并强化这一设计理念,从硬件主导的执行模式转向由编译器统一编排的执行模式。Groq不再依赖动态硬件调度,而是几乎完全移除运行时控制复杂度与指令集开销,使芯片成为一个被动执行单元,仅按照编译器生成的、精确到时钟周期的预计算执行计划运行。相较之下,现代TPU为管理大规模训练Pod与混合负载,重新引入较为复杂的硬件控制逻辑。我们认为,Groq的LPU有意保持高度架构刚性,通过GroqWare在编译期对每个时钟周期进行预调度,实现指令级确定性,这也成为Ross继TPU之后架构演进的标志性特征。 图表16:谷歌TPUv1架构 资料来源:谷歌官网,华泰研究 图表17:Groq LPU芯片架构 资料来源:Grog官网,华泰研究 # 2)架构取向:脉动阵列集群 vs. 确定性数据流 尽管两类芯片同样源自矩阵计算加速的技术谱系,但我们认为其定位已分化。谷歌的TPU为面向超大规模部署的“吞吐型引擎”,其优化目标在于批处理规模,以全局集群的单位时间的token处理量为最核心的经济指标;而Groq则面向交互场景的专用计算,重点服务于新兴Agentic经济中对极低时延的需求。 TPU的架构核心围绕大规模矩阵乘单元(MXU)与脉动阵列展开,主要面向AI训练相关的计算。以最新一代TPU v7(Ironwood)为例,其核心为一套 $256 \times 256$ 的脉动阵列,单芯片理论峰值性能达4,614 TFLOPS。该架构通过硬件管理的调度机制来掩盖存储时延,以最大化数据的整体吞吐能力,从而成为高并发批量推理与基础模型训练的理想引擎。 相比之下,Groq LPU 是一款专为 Batch Size = 1 与实时 Agentic 推理打造的计算工具;采用张量流(Tensor Streaming)设计,将矩阵、向量与存储等功能单元交织于同一条同步流水线中。通过移除内核调用、硬件缓冲区与上下文切换,GroqWare 编译器以指令级确定性对每一次操作进行预先排程。这使得 LPU 的 token 生成速度可超过 $1,600 \mathrm{t} / \mathrm{s}$ ,从而在复杂的 CoT 推理场景中显著压缩 Time to First Token,并确保实时的用户智能体使用感知。 # 3)存储配置:HBM容量vs.SRAM带宽 两种架构通过不同的存储层级设计来应对“存储墙”问题。以TPU v7为例,其面向万亿参数级模型(如Gemini3)的承载需求进行设计,单芯片配备192GB HBM3E,内存带宽约7.4TB/s。这一以HBM为中心的方案侧重于容量,以便在Pod级规模(单个Pod可达9,216颗芯片)内运行模型。相比之下,Groq延续Ross尽量减少外部存储访问的设计理念,完全移除外部HBM,以片上SRAM作为主存储介质,从而规避“存储墙”带来的时延。每颗LPU集成230MB片上SRAM,内部带宽达80TB/s,约为TPU v7 HBM带宽的10倍。这一设计使Groq成为Batch Size = 1推理的理想引擎。 图表18:主流 AI 芯片参数对比 <table><tr><td>特点</td><td>Groq LPU (TSP)</td><td>Nvidia B300</td><td>Google TPU v7p</td><td>Cerebras CS-3</td></tr><tr><td>核心侧重点</td><td>Inference (Latency)</td><td>Training & Inference</td><td>Training & Inference</td><td>Training & Inference</td></tr><tr><td>内存架构</td><td>On-chip SRAM</td><td>Off-chip HBM3</td><td>Off-chip HBM</td><td>On-Wafer SRAM</td></tr><tr><td>内存容量</td><td>230 MB</td><td>288 GB</td><td>192 GB</td><td>44 GB</td></tr><tr><td>内存带宽</td><td>80 TB/s (Internal)</td><td>8.0 TB/s (External)</td><td>7.4 TB/s (External)</td><td>21 PB/s (Internal)</td></tr><tr><td>控制逻辑</td><td>Software (Compiler)</td><td>Hardware (Scheduler)</td><td>Hybrid (XLA)</td><td>Software (Compiler)</td></tr><tr><td>网络连接</td><td>RealScale (Switchless)</td><td>NVLink + InfiniBand</td><td>ICI (Torus)</td><td>SwarmX</td></tr><tr><td>单批次效率</td><td>Extremely High</td><td>Low (Memory Bound)</td><td>Medium</td><td>High</td></tr></table> 资料来源:Medium,Groq官网,英伟达官网,谷歌官网,Cerebras官网,华泰研究 图表19:RealScale 互联与传统互联对比 资料来源:Grog官网,华泰研究 # 4)互连与扩展:OCS Pod vs. RealScale 确定性互连 随着AI工作负载向多智能体协同演进,扩展策略也成为区分两种架构的重要维度。TPU v7采用光路交换(OCS)与三维环面(3D torus)互连,单Pod最多集成9,216颗芯片,聚合算力可达42.5EFLOPS。Groq则通过RealScale互连,侧重于Scale-up层面的确定性执行。不同于依赖硬件仲裁的TPU网络,Groq的编译器将芯片间链路视作功能单元,并在时钟级别对每一次数据包传输进行预先排程。由此,最多576颗芯片可作为一个同步运行的Mega-Chip协同工作,实现零网络抖动,这对于对话式AI与自主Agentic工作所需的“反射式响应”至关重要。在Pod/Mega-Chip边界之外,两种体系均回退至标准以太网。Groq的时延优势也将随之消失;而TPU由于其面向可容忍网络抖动的超大规模训练负载进行优化,仍能保持效率优势。 # 5)软件生态:谷歌的纵向体系 vs. 英伟达-Groq 的横向体系 我们预计,英伟达与Groq的合作模式将成为行业新范式。该交易将Ross及其技术经验引入英伟达生态中,使Groq的低时延“反射系统”能力被整合进全球领先的AI软件栈(CUDA)之中。相比之下,TPU的软件生态相对闭塞,其围绕JAX、TensorFlow与XLA打造。 # 问题10:并入英伟达体系后,Groq“下一代”芯片将呈现哪些特征? 我们认为,英伟达与Groq的交易本质上是“授权+人才并购(license +acqui-hire)”,其核心目的在于将确定性推理能力整合进全球领先的AI计算平台,并顺应交互式AI走向主流的趋势。通过将Groq的确定性调度机制与TruePoint数值体系(混合精度计算)纳入CUDA/TensorRT技术栈,英伟达得以确保其平台在Agentic AI时代仍保持领先。 英伟达已获得Groq LPU技术的非独家授权,并吸纳包括创始人Jonathan Ross在内的核心工程团队,将相关IP纳入自身硬件路线图加速演进。我们认为,其战略意图在于,同时掌握AI训练侧的吞吐能力与Agentic推理侧的速度优势,并构建一套异构计算体系,由GPU承担高容量的“认知皮层”角色,由LPU担当高速、低时延的“反射系统”。随着这类“软件定义”的关键IP被融入Rubin及其后续架构,英伟达有望在Agentic时代提供明确面向智能体优化的运行模式,在保留GPU原算力优势的同时,实现确定性、零抖动的响应。 从Groq的独立硬件路线图来看,我们认为其具备三大核心方向:1)制程演进:GroqChip(LPU v1)由GlobalFoundries采用14nm工艺制造。下一代芯片或与Samsung合作,基于其4nm(SF4X)制程开发。虽然最初预计于2025年末投产,但截至2025年底,尚无报道可确认下一代芯片实现规模化出货。2)存储配置:当前LPU v1在单芯片上集成230MB的片上SRAM。向4nm制程迁移,旨在提升晶体管密度,从而显著增加单芯片SRAM容量,以提高单die的有效存储规模,降低单一模型所需的芯片数量。目前,下一代芯片的具体SRAM容量尚未公开披露。3)互连与扩展能力:我们认为,下一代Groq技术的核心目标之一,在于扩大同步计算域的规模。在LPU v1中,系统最多仅维持576颗芯片组成的同步域(即Mega-Chip)。我们认为,RealScale 2.0或将提升这一同步扩展上限。 图表20:GrogChip v1 资料来源:Groq官网,华泰研究 图表21:GroqChip v1 资料来源:Groq官网,华泰研究 # 投资逻辑:英伟达布局AI“下半场”,奠定AgenticAI时代技术标准 英伟达正通过推出专为实时Agentic AI优化的新型低延迟AI加速器,主动定义AI竞赛下半场的技术标准。继2025年被视为“物理AI元年”之后,我们认为2026年或为“Agentic AI元年”;核心特征是向“低延迟、确定性执行”的转变。我们认为,英伟达此番布局,直指“延迟即瓶颈”的新战场。凭借此次整合,当市场从“重吞吐的训练阶段”转向“延迟关键的实时推理阶段”时,英伟达在训练与推理两大范式中均握有顶尖架构,提前化解科技巨头以定制芯片强攻“推理鸿沟”的战略威胁。 图表22:英伟达2025年投融资 <table><tr><td>序号</td><td>公司名称</td><td>交易日期</td><td>交易类型</td><td>交易金额(百万美元)</td><td>所属领域</td></tr><tr><td>1</td><td>Hippocratic AI</td><td>2025/1/9</td><td>早期风投</td><td>141</td><td>人工智能与机器学习、数字医疗</td></tr><tr><td>2</td><td>Synthesia</td><td>2025/1/15</td><td>后期风投</td><td>184</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>3</td><td>Generalist</td><td>2025/1/27</td><td>早期风投</td><td>128</td><td>人工智能与机器学习、机器人与无人机、软件即服务</td></tr><tr><td>4</td><td>Baskit</td><td>2025/1/27</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习、大数据、金融科技、软件即服务、供应链技术</td></tr><tr><td>5</td><td>seqSight</td><td>2025/2/2</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习、医疗科技、生命科学、软件即服务</td></tr><tr><td>6</td><td>Playbox</td><td>2025/2/4</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习</td></tr><tr><td>7</td><td>MyWorker Al</td><td>2025/2/7</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>8</td><td>Lambda</td><td>2025/2/19</td><td>后期风投</td><td>480</td><td>人工智能与机器学习、云技术与开发运维、软件即服务</td></tr><tr><td>9</td><td>Gamerboom</td><td>2025/2/19</td><td>早期风投</td><td>9</td><td>人工智能与机器学习、加密货币 / 区块链、游戏</td></tr><tr><td>10</td><td>Together Al</td><td>2025/2/20</td><td>早期风投</td><td>305</td><td>人工智能与机器学习、云技术与开发运维、软件即服务</td></tr><tr><td>11</td><td>Achira</td><td>2025/2/21</td><td>种子轮融资</td><td>33</td><td>医疗科技、生命科学</td></tr><tr><td>12</td><td>Ubitus</td><td>2025/2/26</td><td>后期风投</td><td>30</td><td>游戏、移动互联网、软件即服务</td></tr><tr><td>13</td><td>Gretel</td><td>2025/3/19</td><td>兼并 / 收购</td><td>320</td><td>人工智能与机器学习、大数据</td></tr><tr><td>14</td><td>Lepton Al</td><td>2025/3/27</td><td>兼并 / 收购</td><td>-</td><td>人工智能与机器学习</td></tr><tr><td>15</td><td>Hibit</td><td>2025/3/31</td><td>早期风投</td><td>5</td><td>人工智能与机器学习、加密货币 / 区块链、金融科技</td></tr><tr><td>16</td><td>Runway Al</td><td>2025/4/3</td><td>后期风投</td><td>307</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>17</td><td>SandboxAQ</td><td>2025/4/4</td><td>后期风投</td><td>450</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>18</td><td>nEye Systems</td><td>2025/4/10</td><td>后期风投</td><td>58</td><td>人工智能与机器学习</td></tr><tr><td>19</td><td>StrateSea Technology</td><td>2025/4/10</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>20</td><td>Safe Superintelligence (与谷歌、绿橡树资本等联合投资)</td><td>2025/4/11</td><td>早期风投</td><td>2000</td><td>人工智能与机器学习</td></tr><tr><td>21</td><td>Nvidia (Manufacturing Space)</td><td>2025/4/14</td><td>企业资产收购</td><td>-</td><td>-</td></tr><tr><td>22</td><td>Utilidata</td><td>2025/4/29</td><td>后期风投</td><td>60</td><td>先进制造业、人工智能与机器学习、大数据、清洁能源技术、气候技术、工业技</td></tr><tr><td>23</td><td>Confidios</td><td>2025/4/30</td><td>加速器 / 孵化器孵化</td><td>-</td><td>大数据</td></tr><tr><td>24</td><td>Al21 Labs</td><td>2025/5/11</td><td>后期风投</td><td>300</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>25</td><td>Skild Al</td><td>2025/5/16</td><td>早期风投</td><td>500</td><td>先进制造业、人工智能与机器学习、大数据、制造业、机器人与无人机</td></tr><tr><td>26</td><td>JV (Nvidia / Mistral AI / Bpifrance / MGX)</td><td>2025/5/19</td><td>合资企业</td><td>-</td><td>人工智能与机器学习</td></tr><tr><td>27</td><td>Figure Al (Parkway Venture Capital领投,英特尔等联合出资)</td><td>2025/5/22</td><td>后期风投</td><td>1500</td><td>先进制造业、人工智能与机器学习、制造业、机器人与无人机</td></tr><tr><td>28</td><td>Lyzer</td><td>2025/5/22</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习、大数据</td></tr><tr><td>29</td><td>Perplexity AI</td><td>2025/6/4</td><td>后期风投</td><td>600</td><td>人工智能与机器学习、移动互联网、软件即服务</td></tr><tr><td>30</td><td>Repello AI</td><td>2025/6/12</td><td>种子轮融资</td><td>1</td><td>人工智能与机器学习、网络安全、软件即服务</td></tr><tr><td>31</td><td>CentML</td><td>2025/6/13</td><td>兼并 / 收购</td><td>400</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>32</td><td>Cohere</td><td>2025/6/17</td><td>后期风投</td><td>-</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>33</td><td>Thinking Machines Lab (与AMD、Cisco等联合投资20亿)</td><td>2025/6/20</td><td>种子轮融资</td><td>2000</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>34</td><td>Commonwealth Fusion Systems</td><td>2025/6/26</td><td>后期风投</td><td>863</td><td>清洁能源技术、气候技术</td></tr><tr><td>35</td><td>xAI (与安德森-雷洛维茨、Blackrock等多家企业联合出资)</td><td>2025/7/10</td><td>后期风投</td><td>20000</td><td>人工智能与机器学习、移动互联网、软件即服务</td></tr><tr><td>36</td><td>Reka</td><td>2025/7/22</td><td>早期风投</td><td>110</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>37</td><td>Factory AI</td><td>2025/7/25</td><td>早期风投</td><td>50</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>38</td><td>FieldAI</td><td>2025/7/29</td><td>早期风投</td><td>315</td><td>人工智能与机器学习、机器人与无人机</td></tr><tr><td>39</td><td>DeepAware AI</td><td>2025/8/1</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习、机器人与无人机、软件即服务</td></tr><tr><td>40</td><td>PhysicsX</td><td>2025/8/3</td><td>后期风投</td><td>209</td><td>先进制造业、人工智能与机器学习、大数据</td></tr><tr><td>41</td><td>Uber Freight</td><td>2025/8/13</td><td>后期风投</td><td>-</td><td>先进制造业、人工智能与机器学习、软件即服务、供应链技术</td></tr><tr><td>42</td><td>Nuro</td><td>2025/8/21</td><td>后期风投</td><td>200</td><td>人工智能与机器学习、自动驾驶汽车、移动出行技术、机器人与无人机</td></tr><tr><td>43</td><td>Sferical AI</td><td>2025/8/21</td><td>合资企业</td><td>-</td><td>-</td></tr><tr><td>44</td><td>Scintill Photonics</td><td>2025/8/29</td><td>后期风投</td><td>58</td><td>人工智能与机器学习</td></tr><tr><td>45</td><td>CHARM Therapeutics</td><td>2025/9/2</td><td>早期风投</td><td>80</td><td>人工智能与机器学习、生命科学、肿瘤学</td></tr><tr><td>46</td><td>Solver</td><td>2025/9/2</td><td>兼并 / 收购</td><td>-</td><td>人工智能与机器学习</td></tr><tr><td>47</td><td>Periodic Labs</td><td>2025/9/3</td><td>种子轮融资</td><td>300</td><td>人工智能与机器学习</td></tr><tr><td>48</td><td>Mistral AI (ASML领投,英伟达参与)</td><td>2025/9/9</td><td>后期风投</td><td>1518</td><td>人工智能与机器学习、移动互联网、软件即服务</td></tr><tr><td>49</td><td>PsiQuantum</td><td>2025/9/10</td><td>后期风投</td><td>750</td><td>先进制造业</td></tr><tr><td>50</td><td>A.A.A C(H+A)RM</td><td>2025/9/13</td><td>种子轮融资</td><td>4</td><td>人工智能与机器学习</td></tr><tr><td>51</td><td>AAA C(H+A)RM</td><td>2025/9/15</td><td>种子轮融资</td><td>4</td><td>人工智能与机器学习</td></tr><tr><td>52</td><td>Intel (NAS: INTC)</td><td>2025/9/18</td><td>私募股权投资</td><td>5000</td><td>人工智能与机器学习、物联网、制造业</td></tr><tr><td>53</td><td>Blue Water Autonomy</td><td>2025/9/23</td><td>加速器 / 孵化器孵化</td><td>-</td><td>-</td></tr><tr><td>54</td><td>Cohere</td><td>2025/9/24</td><td>后期风投</td><td>700</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>55</td><td>Nscale (与Blue OW、戴尔、诺基亚等联合投资)</td><td>2025/9/25</td><td>后期风投</td><td>1487</td><td>人工智能与机器学习、大数据、云技术与开发运维</td></tr><tr><td>56</td><td>Phaidra</td><td>2025/10/1</td><td>后期风投</td><td>50</td><td>先进制造业、人工智能与机器学习</td></tr><tr><td>57</td><td>Nscale</td><td>2025/10/1</td><td>私募股权成长 / 扩张融资</td><td>1</td><td>人工智能与机器学习、大数据、云技术与开发运维</td></tr><tr><td>58</td><td>VAST Data</td><td>2025/10/5</td><td>后期风投</td><td>-</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>59</td><td>David Al (Delaware)</td><td>2025/10/8</td><td>早期风投</td><td>50</td><td>人工智能与机器学习</td></tr><tr><td>60</td><td>Bonvago</td><td>2025/10/16</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习、加密货币 / 区块链、电子商务、金融科技</td></tr><tr><td>61</td><td>Uniphore</td><td>2025/10/22</td><td>后期风投</td><td>296</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>62</td><td>EMCOOL</td><td>2025/10/23</td><td>加速器 / 孵化器孵化</td><td>-</td><td>人工智能与机器学习、电子商务、制造业、纳米技术</td></tr><tr><td>63</td><td>Crucose (Valor Equity Partners、阿布扎比主权财富基金 Mubadala Capital领投,英伟达参与)</td><td>2025/10/24</td><td>后期风投</td><td>1375</td><td>人工智能与机器学习、云技术与开发运维、软件即服务</td></tr><tr><td>64</td><td>Cassava Technologies</td><td>2025/10/24</td><td>早期风投</td><td>-</td><td>人工智能与机器学习、清洁能源技术、云技术与开发运维、网络安全、金融科技</td></tr><tr><td>65</td><td>Nokia</td><td>2025/10/28</td><td>私募股权投资</td><td>1003</td><td>-</td></tr><tr><td>66</td><td>Cartesia</td><td>2025/10/29</td><td>早期风投</td><td>100</td><td>人工智能与机器学习</td></tr><tr><td>67</td><td>Emerald AI</td><td>2025/10/30</td><td>种子轮融资</td><td>52</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>68</td><td>Quantinum</td><td>2025/11/5</td><td>早期风投</td><td>839</td><td>人工智能与机器学习</td></tr><tr><td>69</td><td>Risorius</td><td>2025/11/6</td><td>加速器 / 孵化器孵化</td><td>-</td><td>医疗科技</td></tr><tr><td>70</td><td>Reflection AI (与花旗、红杉资本等联合投资)</td><td>2025/11/12</td><td>早期风投</td><td>2000</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>71</td><td>Anysphere (与谷歌等联合出资)</td><td>2025/11/13</td><td>后期风投</td><td>2300</td><td>人工智能与机器学习</td></tr><tr><td>72</td><td>Firmus Technologies</td><td>2025/11/14</td><td>后期风投</td><td>541</td><td>人工智能与机器学习、云技术与开发运维</td></tr><tr><td>73</td><td>Anthropic (与微软联合投资)</td><td>2025/11/19</td><td>后期风投</td><td>15000</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>74</td><td>Aligned Data Centers (与微软、xAI、BlackRock联合出资)</td><td>2025/11/26</td><td>收购 / 杠杆收购</td><td>40000</td><td>-</td></tr><tr><td>75</td><td>Synopsys</td><td>2025/12/1</td><td>私募股权投资</td><td>2000</td><td>-</td></tr><tr><td>76</td><td>Black Forest Labs</td><td>2025/12/15</td><td>兼并 / 收购</td><td>-</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>77</td><td>SchedMD</td><td>2025/12/16</td><td>早期风投</td><td>81</td><td>人工智能与机器学习、网络安全、软件即服务</td></tr><tr><td>78</td><td>Adaptive</td><td>2025/12/26</td><td>兼并 / 收购</td><td>20000</td><td>人工智能与机器学习、大数据、云技术与开发运维、软件即服务</td></tr><tr><td>79</td><td>Groq</td><td>2025/12/26</td><td>兼并 / 收购</td><td>20000</td><td>人工智能与机器学习、大数据、云技术与开发运维、软件即服务</td></tr></table> 资料来源:Pitchbook,华泰研究 图表23:英伟达2024年投融资 <table><tr><td>序号</td><td>公司名称</td><td>交易日期</td><td>交易类型</td><td>交易金额(百万美元)</td><td>所属行业</td></tr><tr><td>1</td><td>FieldAI</td><td>2024/1/1</td><td>早期风险投资</td><td>91</td><td>人工智能与机器学习、机器人与无人机</td></tr><tr><td>2</td><td>Dynamo</td><td>2024/1/1</td><td>早期风险投资</td><td>-</td><td>人工智能与机器学习、清洁能源科技、气候科技、移动技术</td></tr><tr><td>3</td><td>Cohesity</td><td>2024/2/7</td><td>后期风险投资</td><td>150</td><td>人工智能与机器学习、大数据、云技术与开发运维、网络安全、软件即服务</td></tr><tr><td>4</td><td>LIMA Technologies</td><td>2024/2/13</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、生命科学</td></tr><tr><td>5</td><td>PT Blink</td><td>2024/2/22</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>气候科技、建筑科技、房地产科技、软件即服务</td></tr><tr><td>6</td><td>Mistral AI</td><td>2024/2/26</td><td>早期风险投资</td><td>431</td><td>人工智能与机器学习、移动技术、软件即服务</td></tr><tr><td>7</td><td>Talus Network</td><td>2024/2/26</td><td>早期风险投资</td><td>3</td><td>人工智能与机器学习、大数据、加密货币 / 区域链</td></tr><tr><td>8</td><td>Figure AI</td><td>2024/2/29</td><td>早期风险投资</td><td>675</td><td>先进制造业、人工智能与机器学习、制造业、机器人与无人机</td></tr><tr><td>9</td><td>Medvise</td><td>2024/3/10</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、健康科技、软件即服务</td></tr><tr><td>10</td><td>Union</td><td>2024/3/13</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>11</td><td>Hippocratic AI</td><td>2024/3/18</td><td>早期风险投资</td><td>72</td><td>人工智能与机器学习、数字医疗</td></tr><tr><td>12</td><td>DATS Project</td><td>2024/3/23</td><td>政府 / 机构补贴</td><td>0</td><td>加密货币 / 区域链、网络安全</td></tr><tr><td>13</td><td>Perplexity AI</td><td>2024/3/25</td><td>早期风险投资</td><td>135</td><td>人工智能与机器学习、移动技术、软件即服务</td></tr><tr><td>14</td><td>Bright Machines</td><td>2024/4/19</td><td>后期风险投资</td><td>126</td><td>先进制造业、人工智能与机器学习、机器人与无人机</td></tr><tr><td>15</td><td>Deci</td><td>2024/5/2</td><td>并购</td><td>300</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>16</td><td>Wayve(软银、Balderton等联合投资)</td><td>2024/5/6</td><td>后期风险投资</td><td>1027</td><td>人工智能与机器学习、自动驾驶汽车、移动技术、软件即服务</td></tr><tr><td>17</td><td>WEKA</td><td>2024/5/15</td><td>后期风险投资</td><td>140</td><td>人工智能与机器学习、大数据、金融科技、生命科学、软件即服务、科技媒体通信</td></tr><tr><td>18</td><td>PolyAI</td><td>2024/5/16</td><td>后期风险投资</td><td>51</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>19</td><td>Mistral AI</td><td>2024/6/11</td><td>早期风险投资</td><td>651</td><td>人工智能与机器学习、移动技术、软件即服务</td></tr><tr><td>20</td><td>Arrus</td><td>2024/6/11</td><td>后期风险投资</td><td>30</td><td>云技术与开发运维、软件即服务</td></tr><tr><td>21</td><td>Waabi</td><td>2024/6/16</td><td>早期风险投资</td><td>200</td><td>人工智能与机器学习、自动驾驶汽车、大数据、移动技术、软件即服务</td></tr><tr><td>22</td><td>Factory AI</td><td>2024/6/18</td><td>早期风险投资</td><td>15</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>23</td><td>Shoreline.io</td><td>2024/7/1</td><td>并购</td><td>100</td><td>云技术与开发运维</td></tr><tr><td>24</td><td>Hayden AI</td><td>2024/7/3</td><td>后期风险投资</td><td>95</td><td>人工智能与机器学习、自动驾驶汽车、大数据、移动技术</td></tr><tr><td>25</td><td>SimProBot</td><td>2024/7/12</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、大数据、云技术与开发运维、移动技术、软件即服务</td></tr><tr><td>26</td><td>CytoReason</td><td>2024/7/15</td><td>后期风险投资</td><td>80</td><td>人工智能与机器学习、大数据、数字医疗、健康科技、生命科学、肿瘤学</td></tr><tr><td>27</td><td>Mazing</td><td>2024/7/16</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、增强现实、软件即服务、虚拟现实</td></tr><tr><td>28</td><td>Brev.Dev</td><td>2024/7/17</td><td>并购</td><td>-</td><td>云技术与开发运维、软件即服务</td></tr><tr><td>29</td><td>Accuknox</td><td>2024/7/19</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、网络安全、软件即服务</td></tr><tr><td>30</td><td>Cohere</td><td>2024/7/22</td><td>后期风险投资</td><td>500</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>31</td><td>Odyssey</td><td>2024/8/1</td><td>早期风险投资</td><td>-</td><td>人工智能与机器学习、软件即服务、航天技术</td></tr><tr><td>32</td><td>Fireworks AI</td><td>2024/8/7</td><td>早期风险投资</td><td>52</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>33</td><td>Safe Superintelligence(与Andreessen Horowitz、Sequolia Capital等联合投资)</td><td>2024/9/4</td><td>早期风险投资</td><td>1000</td><td>人工智能与机器学习</td></tr><tr><td>34</td><td>you.com</td><td>2024/9/4</td><td>早期风险投资</td><td>54</td><td>人工智能与机器学习、软件即服务、科技媒体通信</td></tr><tr><td>35</td><td>Xscape Photonics</td><td>2024/9/4</td><td>早期风险投资</td><td>47</td><td>人工智能与机器学习</td></tr><tr><td>36</td><td>W.AI</td><td>2024/9/4</td><td>种子轮融资</td><td>9</td><td>人工智能与机器学习、移动技术</td></tr><tr><td>37</td><td>Applied Digital (NAS: APLD)</td><td>2024/9/6</td><td>私募股权投资</td><td>160</td><td>人工智能与机器学习</td></tr><tr><td>38</td><td>OctoAI</td><td>2024/9/10</td><td>并购</td><td>250</td><td>人工智能与机器学习、云技术与开发运维、软件即服务</td></tr><tr><td>39</td><td>World Labs</td><td>2024/9/13</td><td>早期风险投资</td><td>230</td><td>人工智能与机器学习、增强现实、软件即服务、虚拟现实</td></tr><tr><td>40</td><td>Achira Labs</td><td>2024/9/16</td><td>后期风险投资</td><td>-</td><td>人工智能与机器学习、数字医疗、健康科技、生命科学</td></tr><tr><td>41</td><td>Sakana AI</td><td>2024/9/17</td><td>早期风险投资</td><td>214</td><td>人工智能与机器学习</td></tr><tr><td>42</td><td>AlMerch</td><td>2024/9/17</td><td>种子轮融资</td><td>0</td><td>人工智能与机器学习、制造业</td></tr><tr><td>43</td><td>OpenAI(Thrive Capital领投,与微软、软银等联合投资)</td><td>2024/10/2</td><td>后期风险投资</td><td>6600</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>44</td><td>Poolside (Software Development Applications)</td><td>2024/10/2</td><td>早期风险投资</td><td>500</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>45</td><td>Artisight</td><td>2024/10/23</td><td>后期风险投资</td><td>42</td><td>人工智能与机器学习、健康科技、物联网</td></tr><tr><td>46</td><td>Warburg AI</td><td>2024/10/26</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、大数据、金融科技</td></tr><tr><td>47</td><td>1910</td><td>2024/10/31</td><td>后期风险投资</td><td>-</td><td>人工智能与机器学习、大数据、健康科技、生命科学</td></tr><tr><td>48</td><td>Blomso</td><td>2024/11/1</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>农业科技、人工智能与机器学习、软件即服务</td></tr><tr><td>49</td><td>CentML</td><td>2024/11/6</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>50</td><td>SuperAnnotate</td><td>2024/11/18</td><td>后期风险投资</td><td>36</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>51</td><td>xAI(与A16Z、Blackrock等联合投资)</td><td>2024/11/20</td><td>后期风险投资</td><td>6000</td><td>人工智能与机器学习、移动技术、软件即服务</td></tr><tr><td>52</td><td>Ainovis</td><td>2024/11/20</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、健康科技</td></tr><tr><td>53</td><td>Nebulon</td><td>2024/11/20</td><td>并购</td><td>-</td><td>云技术与开发运维、软件即服务</td></tr><tr><td>54</td><td>Varjo</td><td>2024/11/25</td><td>后期风险投资</td><td>-</td><td>增强现实、游戏、科技媒体通信、虚拟现实</td></tr><tr><td>55</td><td>Black Forest Labs</td><td>2024/11/26</td><td>早期风险投资</td><td>126</td><td>人工智能与机器学习、软件即服务</td></tr><tr><td>56</td><td>Augtera Networks</td><td>2024/12/1</td><td>并购</td><td>-</td><td>人工智能与机器学习、大数据、软件即服务</td></tr><tr><td>57</td><td>Nebius Group</td><td>2024/12/2</td><td>私募股权投资</td><td>700</td><td>人工智能与机器学习、大数据、科技媒体通信</td></tr><tr><td>58</td><td>Yandex</td><td>2024/12/2</td><td>私募股权投资</td><td>700</td><td>大数据</td></tr><tr><td>59</td><td>Primech AI</td><td>2024/12/5</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>制造业、机器人与无人机</td></tr><tr><td>60</td><td>VinBrain</td><td>2024/12/6</td><td>并购</td><td>-</td><td>人工智能与机器学习、大数据、健康科技、肿瘤学、科技媒体通信</td></tr><tr><td>61</td><td>Lightning AI</td><td>2024/12/10</td><td>后期风险投资</td><td>50</td><td>人工智能与机器学习、大数据、云计算、云技术与开发运维、软件即服务</td></tr><tr><td>62</td><td>Ayar Labs</td><td>2024/12/11</td><td>后期风险投资</td><td>155</td><td>先进制造业、人工智能与机器学习、金融科技</td></tr><tr><td>63</td><td>Crusoe</td><td>2024/12/12</td><td>后期风险投资</td><td>686</td><td>人工智能与机器学习、云技术与开发运维、软件即服务</td></tr><tr><td>64</td><td>Perplexity AI</td><td>2024/12/16</td><td>后期风险投资</td><td>500</td><td>人工智能与机器学习、移动技术、软件即服务</td></tr><tr><td>65</td><td>Piano</td><td>2024/12/24</td><td>加速器 / 蝴化器孵化</td><td>-</td><td>人工智能与机器学习、机器人与无人机、软件即服务</td></tr><tr><td>66</td><td>Run:AI</td><td>2024/12/30</td><td>并购</td><td>700</td><td>人工智能与机器学习、软件即服务</td></tr></table> 资料来源:Pitchbook,华泰研究 # 风险提示 技术落地缓慢:公司的生产技术推进和产品落地可能达不到预期,或影响营收及利润。 芯片需求不及预期:市场的芯片需求规模可能不及预期,影响行业营收及利润。 图表24:重点公司推荐一览表 <table><tr><td></td><td></td><td colspan="2">最新收盘价</td><td>目标价(百万)</td><td colspan="4">EPS(元)</td><td colspan="4">PE(倍)</td><td></td></tr><tr><td>股票名称</td><td>股票代码</td><td>投资评级</td><td>(当地币种)</td><td>(当地币种)</td><td>(当地币种)</td><td>2024</td><td>2025E</td><td>2026E</td><td>2027E</td><td>2024</td><td>2025E</td><td>2026E</td><td>2027E</td></tr><tr><td>英伟达(NVIDIA)</td><td>NVDA US</td><td>买入</td><td>184.86</td><td>280.00</td><td>4,491,913</td><td>1.33</td><td>2.99</td><td>4.96</td><td>8.48</td><td>139.02</td><td>61.74</td><td>37.27</td><td>21.79</td></tr></table> 资料来源:Bloomberg,华泰研究预测 图表25:重点推荐公司最新观点 <table><tr><td>股票名称</td><td>最新观点</td></tr><tr><td>英伟达(NVIDIA)(NVDA US)</td><td>路透社美东12月8日报道,美国政府已批准英伟达对华出口H200芯片。受此利好提振,英伟达股价盘后最高涨约3.0%。美国政府将对每块出口芯片征收25%费用,且特朗普表示,新政策同样适用于AMD、英特尔等厂商。我们认为,此举反映政策预期有望保持温和改善。我们在7月《H20恢复对华出口》报告中指出,英伟达H20与AMD MI308已恢复对华出口。但受限于芯片性能,市场反响平平。本次获准出口的H200在性能上更具优势,但仍属于上一代Hopper架构产品。鉴于此次政策缓和或可被视作以H200替代Blackwell合规产品出口的信号,政策仍具进一步改善空间,后续Blackwell合规版的出口或仍可期待。相比之下,B30A在中国市场的竞争力更强,我们预计将延续B20规格,支持FP4/FP6算力,并搭载大容量的HBM3e。此外,财富12月2日报道,英伟达CFO指出,与OpenAI的合作尚未计入当前约5,000亿美元的Blackwell与Rubin订单,英伟达中长期收入或仍具上行空间。重申“买入”。展望26年,若以台积电CoWoS年产能约100-120万片计,我们预计英伟达可获得其约60%晶圆份额,叠加台积电外溢CoWoS约5万片,并假设GPU ASP约3.0-3.5万美元;此次H200对华出口或新增约200亿美元收入;总计对应数据中心业务收入可超过3300亿美元。我们维持FY26营收净利预测,考虑到新增Blackwell和Rubin的订单将于明年放量,上调FY27-28E营收5.6/28.7%到3629/5020亿美元,上调FY27-28E Non-GAAP净利润5.6/28.7%到2062/2811亿美元。考虑到公司历史上增速中等的年份PE估值在30x附近,维持给予33xFY27EPE。重申“买入”。风险提示:技术落地缓慢、中美贸易摩擦、需求不及预期等。报告发布日期:2025年12月10日点击下载全文:英伟达(NVIDIA)(NVDA US,买入):政策缓和推动H200对华出口</td></tr></table> 资料来源:Bloomberg,华泰研究预测 # 免责声明 # 分析师声明 本人,何翩翩,兹证明本报告所表达的观点准确地反映了分析师对标的证券或发行人的个人意见;彼以往、现在或未来并无就其研究报告所提供的具体建议或所表达的意见直接或间接收取任何报酬。 # 一般声明及披露 本报告由华泰证券股份有限公司或其关联机构制作,华泰证券股份有限公司和其关联机构统称为“华泰证券”(华泰证券股份有限公司已具备中国证监会批准的证券投资咨询业务资格)。本报告所载资料是仅供接收人的严格保密资料。本报告仅供华泰证券及其客户和其关联机构使用。华泰证券不因接收人收到本报告而视其为客户。 本报告基于华泰证券认为可靠的、已公开的信息编制,但华泰证券对该等信息的准确性及完整性不作任何保证。 本报告所载的意见、评估及预测仅反映报告发布当日的观点和判断。在不同时期,华泰证券可能会发出与本报告所载意见、评估及预测不一致的研究报告。同时,本报告所指的证券或投资标的价格、价值及投资收入可能会波动。以往表现并不能指引未来,未来回报并不能得到保证,并存在损失本金的可能。华泰证券不保证本报告所含信息保持在最新状态。华泰证券对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。 华泰证券(华泰证券(美国)有限公司除外)不是FINRA的注册会员,其研究分析师亦没有注册为FINRA的研究分析师/不具有FINRA分析师的注册资格。 华泰证券力求报告内容客观、公正,但本报告所载的观点、结论和建议仅供参考,不构成购买或出售所述证券的要约或招揽。该等观点、建议并未考虑到个别投资者的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。对依据或者使用本报告所造成的一切后果,华泰证券及作者均不承担任何法律责任。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。 除非另行说明,本报告中所引用的关于业绩的数据代表过往表现,过往的业绩表现不应作为日后回报的预示。华泰证券不承诺也不保证任何预示的回报会得以实现,分析中所做的预测可能是基于相应的假设,任何假设的变化可能会显著影响所预测的回报。 华泰证券及作者在自身所知情的范围内,与本报告所指的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下,华泰证券可能会持有报告中提到的公司所发行的证券头寸并进行交易,为该公司提供投资银行、财务顾问或者金融产品等相关服务或向该公司招揽业务。 华泰证券的销售人员、交易人员或其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报告意见及建议不一致的市场评论和/或交易观点。华泰证券没有将此意见及建议向报告所有接收者进行更新的义务。华泰证券的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。投资者应当考虑到华泰证券及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突。投资者请勿将本报告视为投资或其他决定的唯一信赖依据。有关该方面的具体披露请参照本报告尾部。 本报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布的机构或人员,也并非意图发送、发布给因可得到、使用本报告的行为而使华泰证券违反或受制于当地法律或监管规则的机构或人员。 本报告版权仅为华泰证券所有。未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人(无论整份或部分)等任何形式侵犯华泰证券版权。如征得华泰证券同意进行引用、刊发的,需在允许的范围内使用,并需在使用前获取独立的法律意见,以确定该引用、刊发符合当地适用法规的要求,同时注明出处为“华泰证券研究所”,且不得对本报告进行任何有悖原意的引用、删节和修改。华泰证券保留追究相关责任的权利。所有本报告中使用的商标、服务标记及标记均为华泰证券的商标、服务标记及标记。 # 中国香港 本报告由华泰证券股份有限公司或其关联机构制作,在香港由华泰金融控股(香港)有限公司向符合《证券及期货条例》及其附属法律规定的机构投资者和专业投资者的客户进行分发。华泰金融控股(香港)有限公司受香港证券及期货事务监察委员会监管,是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。在香港获得本报告的人员若有任何有关本报告的问题,请与华泰金融控股(香港)有限公司联系。 # 香港-重要监管披露 - 华泰金融控股(香港)有限公司的雇员或其关联人士没有担任本报告中提及的公司或发行人的高级人员。 - 有关重要的披露信息,请参华泰金融控股(香港)有限公司的网页 https://www.htsc.com.hk/stock_disclosure其他信息请参见下方“美国-重要监管披露”。 # 美国 在美国本报告由华泰证券(美国)有限公司向符合美国监管规定的机构投资者进行发表与分发。华泰证券(美国)有限公司是美国注册经纪商和美国金融业监管局(FINRA)的注册会员。对于其在美国分发的研究报告,华泰证券(美国)有限公司根据《1934年证券交易法》(修订版)第15a-6条规定以及美国证券交易委员会人员解释,对本研究报告内容负责。华泰证券(美国)有限公司联营公司的分析师不具有美国金融监管(FINRA)分析师的注册资格,可能不属于华泰证券(美国)有限公司的关联人员,因此可能不受FINRA关于分析师与标的公司沟通、公开露面和所持交易证券的限制。华泰证券(美国)有限公司是华泰国际金融控股有限公司的全资子公司,后者为华泰证券股份有限公司的全资子公司。任何直接从华泰证券(美国)有限公司收到此报告并希望就本报告所述任何证券进行交易的人士,应通过华泰证券(美国)有限公司进行交易。 # 美国-重要监管披露 - 分析师何翩翩本人及相关人士并不担任本报告所提及的标的证券或发行人的高级人员、董事或顾问。分析师及相关人士与本报告所提及的标的证券或发行人并无任何相关财务利益。本披露中所提及的“相关人士”包括FINRA定义下分析师的家庭成员。分析师根据华泰证券的整体收入和盈利能力获得薪酬,包括源自公司投资银行业务的收入。 - 华泰证券股份有限公司、其子公司和/或其联营公司,及/或不时会以自身或代理形式向客户出售及购买华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)华泰证券研究所覆盖公司的证券/衍生工具,包括股票及债券(包括衍生品)。 - 华泰证券股份有限公司、其子公司和/或其联营公司,及/或其高级管理层、董事和雇员可能会持有本报告中所提到的任何证券(或任何相关投资)头寸,并可能不时进行增持或减持该证券(或投资)。因此,投资者应该意识到可能存在利益冲