20260302-东兴证券-通信_超节点与Scale_up网络行业_谷歌_AMD_国产超节点持续发力_打破英伟达独大格局_68页_5mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 超节点与 Scale up 网络行业：谷歌、AMD、国产超节点持续发力，打破英伟达独大格局 2026年3月2日 看好/维持 通信 行业报告 分析师 石伟晶 电话：021-25102907 邮箱：shi_wj@dxzq.net.cn 执业证书编号：S1480518080001 # 投资摘要： 超节点与Scale-up网络是突破算力与通信瓶颈、支撑万亿级大模型与高实时性应用的关键基础设施。本篇超节点与Scale-up网络行业深度报告，详细研究英伟达、谷歌、AMD以及华为四家头部AI算力芯片厂商在此领域的布局进展以及各自优势。我们认为，超节点与Scale-up网络正处于快速发展期，并将成为算力芯片、网络部件（PCB板、交换芯片、光器件、高速铜缆）、存储部件、供电和散热设施部件等新兴技术的重要应用市场。 # （1）英伟达：超节点领先优势建立在NVLink和NVLink Switch。 在超节点技术方案上，英伟达处于领先优势。2024-2025年，英伟达陆续推出GH200 NVL72、GB200/GB300 NVL72等成熟超节点解决方案。根据大摩预测，2025年英伟达GB200/300 NVL72出货量约2800台。展望2026-2027年，英伟达计划推出Vera Rubin NVL144和Rubin Ultra NVL576。互联GPU数将从72颗进一步向576颗发展。届时，英伟达将发布新一代Kyber机架，架构引入NVLink Switch Blade(NVLink交换机刀片)，通过PCB中板替代传统 $5000+$ 根有源铜缆。可以看到，Rubin Ultra NVL576仍保持较强的工程创新能力。 英伟达超节点的优势建立在NVLink和NVLink Switch。为实现AI训练集群高带宽与低延迟数据传输，NVLink重新设计通信架构，并引入一系列先进技术，包括网状拓扑、差分信号传输、流量调度信用机制、多Lane绑定技术、统一内存空间等。截止2025年，NVLink 5 Switch实现支持单GPU到GPU带宽1800GB/s，可构建72 GPU的NVLink域，总带宽达130 TB/s（双向），支持72 GPU全互联通信。在后续计划中，NVSwitch Gen6和Gen7的GPU-to-GPU通信带宽继续升级为3.6TB/s。 但另一方面，Scaleup网络兴起源于满足大模型分布式训练和推理中的张量并行(TP)与专家并行(EP)。目前AI产业也在探索降低TP与EP规模的技术方案，从而降低Scaleup网络规模的上限。我们认为，Scaleup网络的发展空间或限制英伟达在超节点领域的领先优势。为保持领先优势，实现Scaleup网络和Scaleout网络融合或将成为英伟达超节点新的发展趋势。 # (2）华为：对外开放灵衢互联协议，超节点性能追赶英伟达。 国内ScaleUp协议尚未统一，华为灵衢协议尚未被国内业界广泛接受。在ScaleUp协议方面，华为推出灵衢协议，并从2.0版本起转向开放标准。除此之外，国内其他厂商正探索多种互联协议，包括中移OISA、腾讯ETH-X、高通量以太网 $\mathsf{ETH}+$ 以及中兴通讯OLink等。为打破生态壁垒，国内正积极推动标准统一，比如工信部正牵头推动CLink协议，旨在形成统一的国内标准。 华为超节点依靠集群化方式实现性能追赶。Atlas 950 超节点预计 2026 年第四季度发布，相比英伟达同样将在 2026 年下半年上市的 NVL144 总算力 2.52 EFLOPS (FP8)，其算力达到 8 EFLOPS (FP8)。此外，Atlas 950 超节点在内存容量 1152TB 与互联带宽 16.3PB/s，也实现大幅领先。我们认为，短期内，华为超 节点依靠集群化实现性能追赶，但在超节点复杂性、可靠性、功耗等维度需要平衡。从整体解决方案看，英伟达在超节点的芯片工艺、软件生态与系统集成上的优势仍难以撼动。 Atlas950超节点互联方案或将调整，显示华为超节点技术在标准化阶段仍需夯实。相比上一代超节点，华为Atlas950超节点不再使用全光互联架构，其通过“柜内正交铜互联+柜间光互联”的混合设计，在机柜内部利用铜互联实现高可靠、低成本和低功耗的连接，跨机柜则通过光互联保障系统的可扩展性，从而在维持系统可扩展性的同时，有效控制总体拥有成本（TCO）。 # (3) 谷歌：建立光互联超节点，与英伟达形成不对称竞争。 谷歌TPU超节点建立成熟的光互联Scaleup网络。从技术成熟度看，2023-2025年谷歌陆续推出TPUv4、TPUv5p、TPUv7三代超节点，完成了技术路线探索和方案标准化。此外TPUv7也获得外部企业认可。2026年，Anthropic将直接从博通采购近100万颗TPUv7IronwoodAI芯片，本地部署在其控制的数据中心。2027年，谷歌将推出第8代TPU，对标NvidiaVeraRubin。可以看到，届时谷歌TPU超节点的性能指标进一步优化提升。 谷歌TPU超节点竞争优势建立在OCS交换机，技术路线独树一帜。相比英伟达、华为、AMD等超节点厂商，谷歌是全球首个将光电路交换机（OCS）大规模商用部署于Scaleup网络的企业，技术路线独树一帜。谷歌OCS交换机，涉及精密光学、机械工程与半导体工艺的深度交叉应用，在光互联领域构筑一道高壁垒的技术护城河。 相较于电分组交换机，光电路交换技术具备诸多优势：光电路交换机可跨多代光收发模块技术复用、光电路交换机的每比特能耗较电分组交换机低数个数量级、光电路交换机引入的时延极小。 OCS 交换机商用落地存在多重困难：光电路交换机需扩展至数百个端口以支撑足够数量 NPU 互连；受限于光电路交换机的控制软件和反射镜配置时延，商用光电路交换机的交换时延通常为 10~20 毫秒；为降低链路功率，光电路交换机插入损需要控制在理想水平。 为搭建高性价比、大规模的光交换层，谷歌创新研发三大核心硬件组件：光电路交换机、波分复用光收发模块和光环形器。其中谷歌Palomar光电路交换机的光学核心模块是实现光转向功能的MEMS微反射镜；波分复用光收发模块是提升布线效率、支撑大规模且持续扩张数据中心的关键；光环形器是实现光电路交换机链路双向通信的核心器件，将所需的光电路交换机端口和光纤数量减半。 # (4) AMD: UALink 成为重要开放标准，超节点有望成为英伟达有力竞品。 作为Scaleup网络开放技术路线方，UALink成为重要标准。2025年1.0版本规范正式发布；2026年，UALink2.0版本有望发布。我们认为，目前UALink正处于从标准制定阶段走向产品落地阶段，预计UALink生态将在2027年迎来突破发展，被众多数据中心接纳。目前UALink联盟受到业内广泛支持，截止2026年1月底，成员单位超过100家，将成为英伟达NVLink有利挑战方。 AMD超节点Helios机架有望成为行业主流选择。Helios机架采用双宽机架设计，宽度从1个机架提升到2个机架，在复杂性、可靠性和性能间实现良好平衡。从算力、内存、互联带宽等指标，MI455x系列Helios机柜是目前业界最能挑战英伟达的NVL72机柜的竞品；而在功耗领域，对比GB200NVL72机柜，Helios机架优势显著。此外，双宽结构为未来升级预留物理空间，例如可扩展至144GPU配置，而无需重新设计机架基础设施。 # 投资策略： 自2025年开始，超节点成为AI算力网络重要的技术创新方向。从AI基建竞争维度，AI芯片厂商从芯片算力性能竞争延续至芯片+Scaleup网络的双战场。因此，除了原先英伟达、华为、AMD以及谷歌等芯片公司，全球更多厂商加入超节点赛道的竞争，包括微软、Meta、Amazon、中国移动、阿里巴巴、字节跳动、腾讯、百度、中科曙光、中兴通讯、浪潮信息、紫光股份（新华三）、海光信息、沐曦股份、恒为科技等。 全球超节点竞争格局尚未确立。英伟达目前处于领先地位，但谷歌、AMD、华为等巨头在超节点领域的持续发力已经对英伟达一家独大的格局构成挑战。从股价表现看，2023-2024年，英伟达股价大幅跑赢谷歌、AMD以及A股中证算力指数。但在2025年，英伟达股价累计涨幅 $38\%$ ，显著落后于谷歌、AMD以及A股中证算力指数。我们认为，在超节点技术发展中，市场将继续对谷歌、AMD以及国产超节点板块价值重估。 投资建议：（1）看好谷歌、AMD以及国内超节点厂商；（2）看好英伟达、谷歌与AMD超节点供应链，包括PCB背板、高速铜缆、光模块、供电与液冷系统等；（3）基于交换机及芯片是Scaleup网络互联的关键设备，看好谷歌光路交换机（OCS）核心零部件供应商以及UALink标准下的交换机芯片研发商。 风险提示：（1）LLM训练与推理技术路径变化；（2）超节点性能与功耗有待平衡；（3）受供应链影响，各厂商超节点出货量低于预期；（4）AI应用端增长不及预期。 # 目录 1. LLM 训练要求高带宽与延迟，驱动超节点成为 AI 算力网络创新方向 2.英伟达：超节点领先优势建立在NVLink和NVLink Switch 12 2.1 Scale up 网络核心技术：NVLink 与 NVLink 交换机 ..... 12 2.2 GB200 NVL72 超节点：铜缆互联，总交换容量 129.6TB/s 2.3 VR200 NVL72 超节点：延续 GB200 NVL72 工程技艺，总交换容量翻倍 21 2.4总结：处于领先优势，互联GPU数将从72颗进一步向576颗发展 24 3. 华为：对外开放灵衡互联协议，超节点性能追赶英伟达 ..... 27 3.1 华为自研灵衢互联协议，并对外开放 27 3.2 华为 CloudMatrix 384 超节点：两层拓扑架构，全光互联 35 3.3总结：灵衢协议尚未被国内业界广泛接受，集群化方式实现性能追赶 41 4. 谷歌：建立光互联超节点，与英伟达形成不对称竞争 42 4.1 Scale up网络核心技术：创新应用光电路交换机（OCS） 42 4.2 谷歌TPUv7超节点：Cube+3D Torus+OCS光交换实现扩展 48 4.3总结：光互联Scaleup网络实现技术标准化，技术路线独树一帜 54 5.AMD:UALink成为重要开放标准，超节点有望成为英伟达有力竞品 55 5.1 UALink：代表开放标准路线，受到业内广泛支持 55 5.2 AMD 超节点：英伟达 NVL72 系列有力竞品，有望实现市场突破 59 5.3总结：UALink成为重要标准，Helios机架有望成为行业主流选择 64 6.投资建议 65 7. 风险提示 66 # 插图目录 图1：Scaleup网络（左）与Scaleout网络（右）特点对比 8 图2：英伟达NVL72超节点示意 9 图3：全球主流算力方案对应ScaleUp协议 10 图4：全球主流算力芯片厂商旗下Scaleup协议特点 11 图5：NVLink技术规格参数对比 12 图6：NVLink交换机规格参数对比 12 图7：NVLink网状拓扑结构提供高速双向带宽 13 图8：NVLink交换网络的演进过程（1） 14 图9：NVLink交换网络的演进过程（2） 14 图10：英伟达GB300NVL72超节点外观 15 图11：GB200NVL72机柜外观与内部构件细节 16 图12：GB200NVL72中计算托盘 17 图13：GB200NVL72中NVLink交换机托盘 17 图14：GB200NVL72中NVLink电缆盒 18 图15：B200端口Port示意图 19 图16：NVLINK Switch5芯片Port示意图 19 图17：GB200/300NVL72单层计算托架的互联拓扑 19 图18：英伟达GB200NVL72机柜后置铜线背板 20 图19：VR200NVL72机柜计算托盘 21 图20：Vera Rubin NVL72机柜交换机托盘 21 图21：英伟达Vera Rubin GPU芯片互联方式 22 图22：VR200NVL72机柜中GPU互联拓扑结构 22 图23：Vera Rubin NVL72机柜交换机托盘无缆线设计 23 图24：英伟达 Rubin NVL576 新一代 Kyber 机架 26 图25：英伟达算力芯片发布时间表 26 图26：UB协议栈 27 图27：基于灵衡协议部署的超节点架构 28 图28：灵衡总线交换设备外观 29 图29：灵衡总线交换设备物理结构图 30 图30：灵衡总线交换设备逻辑框图 31 图31：UB物理层支持两种模式 31 图32：UB-Mesh中的nD-FullMesh拓扑示意 32 图33：1D-FullMesh拓扑示意 32 图34：2D-FullMesh拓扑示意 33 图35：2D-FullMesh+Clos混合拓扑示意 33 图36：UB融合组网和光交换组网示意 34 图37：CloudMatrix384超节点外观 36 图38：CloudMatrix384超节点组网方案 37 图39：CloudMatrix384三层网络平面 38 图40：CloudMatrix384中Ascend910CNPU芯片架构 38 图41：CloudMatrix384单个计算节点网络拓扑 39 图42：谷歌PalomarOCS光信号传输路径 43 图43：谷歌Palomar OCS实物图 44 图44：MEMS微镜模块实物图 45 图45：MEMS微镜模块热成像图 45 图46：谷歌Palomar OCS机箱机构图以及实物机箱后视图 46 图47：谷歌超节点单个机架实物图 49 图48：TPU $4\times 4\times 4$ 立方体互联逻辑示意图 图49：TPUv7128（ $4\times 4\times 8$ ）TPU拓扑示意图 图50：谷歌TPUv4超节点网络拓扑 52 图51：谷歌TPUv7超节点网络拓扑 52 图52：UALink发展时间线 55 图53：UALink联盟成员名单 56 图54：UALink协议栈架构 57 图55：AMD Helios AI Rack MI455X 72x GPU超节点外观. 59 图56：AMDMI455x系列Helios机架外观 61 图57：AMDMI450XUALoE72Helio机架示意图 62 图58：AMDMI400sUALoE72ScaleUp拓扑示意图 63 图59：2023-2026年2月英伟达/谷歌/超威半导体/中证算力当年累计涨跌幅对比 65 # 表格目录 表 1: AI 大语言模型训练中多种并行计算方式对比 表 2: GB200 NVL72 超节点算力与通信性能 ..... 16 表 3：英伟达超节点 Scale up 迭代路线 ..... 24 表 4：华为超节点迭代路线及性能对比 35 表 5: GB200 NVL72 超节点与 CloudMatrix 384 算力与通信性能对比 表 6：华为 CloudMatrix 384 超节点网络架构与互联方案. 40 表 7：华为超节点 Scale up 迭代路线. 41 表 8：谷歌 ICI Link 协议 VS 英伟达 NVLink 协议. 42 表 9: 各类光电路交换技术的成本、规模、性能及可靠性/可用性对比 ..... 47 表 10: 谷歌超节点迭代路线及性能对比 ..... 48 表 11：英伟达 GB200 芯片与与谷歌 TPUv7 性能对比 48 表 12: 谷歌 Scale up 网络演进与 TPU 代际发展紧密同步 ..... 53 表 13: UALink 与 SUE 技术对比 ..... 58 表 14：AMD MI455x 系列 Helios 与英伟达 Vera Rubin NVL72 参数对比. 60 超节点与Scale-up网络是突破算力与通信瓶颈、支撑万亿级大模型与高实时性应用的关键基础设施。本篇超节点与Scale-up网络行业深度报告，详细研究英伟达、谷歌、AMD以及华为四家头部AI算力芯片厂商在此领域的布局进展以及各自优势。我们认为，超节点与Scale-up网络正处于快速发展期，并将成为算力芯片、网络部件（PCB板、交换芯片、光器件、高速铜缆）、存储部件、供电和散热设施部件等新兴技术的重要应用市场。 # 1. LLM 训练要求高带宽与延迟，驱动超节点成为 AI 算力网络创新方向 大语言模型（LLM）参数规模从千亿级向万亿级乃至十万亿级演进，跨服务器张量并行（TP）成为必然选择；此外混合专家（MoE）模型在Transformer架构LLM中的规模化应用，更使跨服务器专家并行（EP）成为分布式训练和推理的关键技术需求。为应对TP和EP对网络带宽与延迟的极为严苛的要求，构建超高带宽、超低延迟的Scaleup网络（纵向扩张网络）成为业界主流技术路径。 表1：AI大语言模型训练中多种并行计算方式对比 并行方式 带宽要求 延迟要求 说明 张量并行(TP) 数百至数千GB/s级 延迟要求极高 将单个运算（如矩阵乘法）拆分到不同GPU上运行，通常在机内完成 专家并行(EP) 数百至数千GB/s级 延迟要求极高 基于不同的任务选择不同专家进行训练，引入All to All流量，适合机内完成 流水线并行（PP） MB/s至GB/s级 延迟要求较高 将模型的不同层划分为若干个阶段，每个阶段可以在不同的GPU上执行，通常在机间完成 数据并行（DP） GB/s级 延迟要求较高 将同一批数据分割成多个子集，并将每个子集分配给不同GPU上（模型实例相同）运行，通常在机间完成 资料来源：网络技术趋势洞察公众号，东兴证券研究所 根据阿里云给出的定义为：Scaleup是在一定范围内，于成本和互联技术约束下实现的超高带宽互联。其范围固定且带宽是Scaleout的数倍以上，可在协议层面优化以支持内存语义。我们对Scaleup网络与Scaleout网络特点对比如下： Scale up（左）vs Scale out（右） - 算力规模：数十卡至千卡级VS万卡至十万卡级； 资源利用率： $80\%$ 以上vs $30\% -50\%$ 通信延迟：百纳秒级VS微秒级； - 内存访问：统一内存或全局地址空间 vs 独立内存空间； - 标准化：定制化程度高 VS 基于开放网络标准，相对统一。 图1：Scaleup网络（左）与Scaleout网络（右）特点对比 资料来源：AI数智码云公众号，东兴证券研究所 超节点主要由计算节点、交换节点和 Scale-up 网络互联构成。通过 Scale up 网络，可将几十、上百甚至上千张 XPU 高速互联构建为超节点（SuperPoD），像一台超级 XPU 服务器一样实现高效的计算和通信协同能力。 其中 Scale up 网络互联是超节点的核心要素。Scale up 网络互联方案直接影响超节点系统的功耗、散热、成本、规模、可靠性和可维护性等关键指标。目前主流的互联方案有铜缆互联和光纤互联两大类： - 铜缆互联方案（如英伟达的NVL72超节点及NVSwitch Scale-Up网络采用的DAC即无源铜缆技术）具有功耗低、成本低、可靠性高的明显优势。不过，受限于铜缆的信号传输距离，单个超节点的规模较小，目前商用的英伟达NVL72超节点最大支持72张XPU卡。 - 光纤互联方案(如华为的 CloudMatrix384 超节点及 Unified Bus (UB) Scale-Up 网络采用的 AOC 技术)则突破铜缆距离限制，超节点规模可以做的更大，目前商用的华为 CloudMatrix384 超节点可支持多达 384 张 XPU 卡，但这种互联技术方案也存在明显短板，如光模块功耗大，成本高，故障率高。 图2：英伟达NVL72超节点示意 资料来源：中国移动《超节点Scale-Up网络互联技术白皮书》，东兴证券研究所 目前英伟达、谷歌、AMD以及华为四家头部AI算力芯片厂商均推出各自的Scaleup协议。英伟达在AI数据中心的Scaleup网络中采用自研的NVLink高速互连技术；AMD与AWS、思科、谷歌等公司组成超以太网联盟（UALink）；Google采用私有ICI协议，机柜之间运用OCS光交换技术；华为推出自研的灵衢协议技术（UB）。 图3：全球主流算力方案对应ScaleUp协议 资料来源：傅里叶的猫公众号，东兴证券研究所 Scale up网络主要有两个技术方向。一是封闭的私有技术方向，以英伟达、Google为典型代表，二者均采用专有协议：NVLink仅向第三方半开放CPU/Chiplet接入权限；GoogleIClLink则服务于自研TPU集群；二是基于Ethernet的开放技术方向，以各大互联网和云计算公司以及一些GPU芯片公司为代表。开放标准以UALink和华为灵衢为代表，UALink基于标准以太网组件打造开放互联协议，华为灵衢协议从2.0版本起转向开放标准。目前两者均处于生态建设初期。 图4：全球主流算力芯片厂商旗下Scaleup协议特点 NVIDIA NVLinkTM Google·ICl·Link 主导方。 英伟达 谷歌。 超以太网联盟（Meta、微软、英特尔、AMD等）。 华为。 协议性质。 专有协议。 专有协议。 开放标准。 自灵徽2.0起开放标准。 技术标准。 基于SerDes的私有协议。 ICI协议(支持3D环面拓扑)。 使用标准以太网组件。 基于高速SerDes的物理层。 连接形式。 机柜内通过铜缆实现GPU互联。 结合铜缆与光缆连接，立方体内部使用铜缆连接，立方体外部使用光缆连接。 同时支持铜缆和光缆。 机柜内使用电缆互联，不采用光模块。 生态支持。 NVLink Fusion，通过半定制CPU或Chiplet向第三方GPU开放生态系统。 需通过XLA编译器将计算图转为TPU机器码，深度绑定Google生态。 兼容多厂商GPU（如AMD·Instinct·MI系列、英特尔Gaudi等）。 全栈开放协议，处于建设初期，第三方商用GPU产品尚未大规模上市。 资料来源：SemiAnalysis，CSDN，东兴证券研究所 # 2.英伟达：超节点领先优势建立在NVLink和NVLink Switch # 2.1 Scale up 网络核心技术：NVLink 与 NVLink 交换机 NVLink与NVLink交换机是英伟达构建单机柜Scaleup网络的核心技术组合。二者协同演进，从早期点对点互联发展到如今全互联通信，并支持多代GPU架构算力芯片。2026年1月，英伟达发布第六代NVLink以及NVLink交换机,两者支持最新的Rubin架构。从性能指标看，第六代NVLink交换机支持的GPU-to-GPU通信带宽为3.6TB/s；在VR NVL72系统中提供260TB/s聚合带宽。其中每GPU的NVLink带宽保持不变，与NVLink5.0一致，仍为100GB/s。 图5：NVLink技术规格参数对比 资料来源：英伟达官网，东兴证券研究所 图6：NVLink交换机规格参数对比 资料来源：英伟达官网，东兴证券研究所 NVLink重新设计通信架构，推出网状拓扑理念。为实现AI训练集群高带宽与低延迟数据传输，NVLink允许GPU之间形成多对多的直接通信网络，每个GPU都可以同时与多个其他GPU建立高速通信链路。NVLink协议创新如下： 在物理层面，NVLink采用差分信号传输技术，具有高带宽和高抗干扰性能。每个链路由多对差分信号线组成，每对信号线负责传输一个方向的数据。SerDes模块是NVLink物理层的核心组件，负责将并行数据转换为高速串行流，并在接收端进行反向转换。NVLink的SerDes设计采用时钟数据恢复技术，以及集成复杂的自适应均衡电路。 在链路层，NVLink定义多种类型的符号，包括数据符号、控制符号和填充符号，实现复杂的通信协议功能；设计精细的信用机制，实现不同优先级的流量调度。 除此之外，NVLink其他创新之处包括多Lane绑定技术、统一内存空间等。 图7：NVLink网状拓扑结构提供高速双向带宽 BANDWIDTH EVOLUTION 资料来源：仰望7866公众号，东兴证券研究所 NVSwitch 是实现 Scale up 网络复杂交换的关键设备。 早期的NVLink实现主要采用点对点连接模式，GPU之间通过直接的串行链路进行通信。当系统包含多个GPU时，点对点模式的连接复杂度呈平方级增长。 作为专门的交换芯片，NVSwitch 可以提供多端口的高速交换能力。NVLink 的交换网络采用多阶 Clos 网络架构，Clos 网络通过多级交换结构实现输入端口到输出端口的任意连接。 图8：NVLink交换网络的演进过程（1） 资料来源：仰望7866公众号，东兴证券研究所 图9：NVLink交换网络的演进过程（2） 资料来源：仰望7866公众号，东兴证券研究所 # 2.2 GB200 NVL72 超节点：铜缆互联，总交换容量 129.6TB/s 目前英伟达超节点已经推出成熟方案，在行业中处于领先地位。2024-2026年，英伟达陆续推出GH200NVL72、GB200/GB300NVL72、VR200NVL72三代超节点。 - Hopper 架构开启超节点 Scale up 初步探索。GH200 通过 NVLink 和 NVLink-C2C（Chip-to-Chip）技术，使得每个 GPU 可以访问其他所有 CPU 和 GPU 芯片的内存，实现 GPU 与 CPU 内存统一编址。 - Blackwell 架构推动 Scale up 标准化。GB200 NVL72 将 Scale-up 规模稳定在 72 个 GPU/机柜，形成可复制标准化方案。NVL72 由 18 个 Compute Tray（计算托架）和 9 个 Switch Tray（网络交换托架）构成。其中，Compute Tray 是计算核心单元，负责提供强大的计算能力；Switch Tray 是高速通信枢纽，用于实现 GPU 之间的高速数据交换。NVL72 背板通过“NVLink5 私有协议 + 铜线缆”将 18 个 Compute Tray 中的 72 颗 B200 GPU 和 9 个 Switch Tray 中的 18 颗 NVSwitch 芯片进行满带宽全连接。 - Rubin架构推动Scale up方案带宽倍增。2026年1月CES展会，英伟达发布Rubin架构VR200 NVL72。其中NVLink 6 Switch实现单GPU的互连带宽提升至3.6TB/s，上代为1.8TB/s。Scale out方面，Spectrum-6交换机支持CPO（共封装光学）技术，将32个1.6Tb/s硅光光学引擎与交换芯片直接封装集成。 图10：英伟达GB300NVL72超节点外观 资料来源：传热之道公众号，东兴证券研究所 目前全球算力芯片公司进入芯片性能与超节点性能并行竞争的新阶段。GB200 NVL72作为全球超节点发展的标杆产品，我们将从多个维度拆解其硬件构成以及重点性能指标。 从算力和通信性能看：GB200 NVL72 提供 180 PFLOP 的 TF32 Tensor Core 算力，总内存容量 13.8TB，内存带宽 576TB/s；Scale up 单向带宽 64800 GB/s。 表2：GB200 NVL72 超节点算力与通信性能 单位 GB200 NVL72 算力（TF32 Tensor 核心） PFLOPS 180 HBM 内存 TB 13.4 HBM 带宽 TB/s 576 Scale up 带宽 单向 GB/s 64800 Scale up 计算单元 GPUs 72 功耗 KW 145 资料来源：SemiAnalysis，Nvidia，华为，东兴证券研究所 除了算力与通信性能，尺寸、重量、功耗均是超节点TCO（总体拥有成本）的关键影响因素。GB200NVL72机柜尺寸为长1068毫米、宽600毫米、高2495毫米；重约1.36吨；功耗145KW。 图11：GB200NVL72机柜外观与内部构件细节 All-to-All 130 TByte/s GPU Injects 7.2 Tbit/s 资料来源：光芯公众号，东兴证券研究所 单台GB200NVL72机柜有18个计算节点。GB200NVL72超节点主要由18个ComputeTray（计算托盘）和9个SwitchTray（网络交换托盘）构成。每个计算托盘容纳4颗B200GPU和2颗GraceCPU，构成两个GB200超级芯片。 图12：GB200 NVL72中计算托盘 GB200 SUPERCHIP 40 PETAFLOPS FP4 AI INFERENCE 20 PETAFLOPS FP8 AI TRAINING 864GB FAST MEMORY GB200 SUPERCHIP COMPUTE TRAY 2x GB200 80 PETAFLOPS FP4 AI INFERENCE 40 PETAFLOPS FP8 AI TRAINING 1728GB FAST MEMORY 1U Liquid Cooled 18 Per Rack 资料来源：光芯公众号，东兴证券研究所 GB200NVL72机柜有9个网络交换托盘。每个网络交换托盘中包含两颗NVLINKSwitch5芯片，合计18颗NVSwitch5芯片。单颗NVSwitch5芯片交换容量为7.2TB/s，总交换容量129.6TB/s。网络交换托架中金色电缆用于NVLink连接，与电缆盒相连，机箱前面的蓝色电缆用于OSFP接口，实现不同版本的扩展。 图13：GB200NVL72中NVLink交换机托盘 资料来源：光芯公众号，东兴证券研究所 电缆盒负责垂直方向信号重组。电缆盒有8个底部连接器和10个顶部连接器，每个连接器可处理一个GPU的全部带宽。 图14：GB200 NVL72 中 NVLink 电缆盒 资料来源：光芯公众号，东兴证券研究所 GB200 NVL72 实现 72 颗 B200 完全互联，总交换带宽 129.6TB/s。 计算节点访存带宽为7.2TB/s：B200设置18个端口（Port）。每个端口采用224G Serdes，由四对差分线构成。每个端口的传输速率为 $200\mathrm{Gbps}^* 4$ （4对差分线）/8=100GB/s（双向)。每个计算托盘容纳4颗B200GPU，则每个计算节点72个NVLink5Port，总访存带宽为7.2TB/s。 交换节点访存带宽为14.4TB/s：NVSwitch5芯片由72个NVLINKPort（上下各36个Port)。同样，每个Port采用双路200Gbps速率的SerDes高速串行接口，则每个Port带宽为100GB/s。每个交换托盘两颗NVLINKSwitch5芯片。每个交换节点144个NVLINKPort，总访存带宽为14.4TB/s。 图15：B200端口Port示意图 资料来源：zartbot公众号，东兴证券研究所 图16：NVLINK Switch5芯片Port示意图 资料来源：zartbot公众号，东兴证券研究所 图17：GB200/300 NVL72 单层计算托架的互联拓扑 资料来源：西贝吹风公众号，东兴证券研究所 GB200 NVL 72 Scale up 方案中以铜缆互联为主。GB200 NVL72 在互联方案中主要采用直连铜缆 (DAC)，在某些特殊场景（如跨托盘连接或需要稍长传输距离的场景）中，会采用 ACC 铜缆。ACC（主动铜缆，在 DAC 基础上增加有源信号处理芯片）的信号增强能力可以弥补 DAC 在较长距离传输时的信号衰减问题，确保数据传输的稳定性和可靠性。 在GB200 NVL72中所需铜缆数量：18（托盘数量） $\times 4$ （GPU数量） $\times 4$ （GPU到NVSwtich单端口铜缆数量） $\times 18$ （NVSwtich数量） $=5184$ 根。（100GB/s单端口由4根DAC铜缆组成） 图18：英伟达GB200 NVL72机柜后置铜线背板 资料来源：英伟达GTC，东兴证券研究所 # 2.3 VR200 NVL72 超节点：延续 GB200 NVL72 工程技艺，总交换容量翻倍 2026年1月6日在CES2026展会上，英伟达发布新一代超节点VR200NVL72。我们认为，相比GB200NVL72，新一代VR200NVL72属于连续性创新，而非破坏性创新。具体对比如下： 计算节点：Rubin NVL72 机架通过无缆互联架构整合 18 个计算托盘，每个托盘 2 颗超级芯片，每颗超级芯片集成 1 个 Vera CPU 与 2 块 Rubin GPU，共 72 GPU 与 36 CPU。 图19：VR200NVL72机柜计算托盘 资料来源：光芯之路公众号，东兴证券研究所 交换节点：VR200 NVL72配置9个交换托盘，每个托盘集成4颗第六代NVSwitch芯片，全机柜部署36颗NVSwitch。相比GB200 NVL72，NVSwitch芯片数量实现翻倍。单颗第六代NVSwitch交换容量为7.2TB/s，相比NVSwitch5芯片，保持不变。 图20：Vera Rubin NVL72 机柜交换机托盘 资料来源：西北吹雪公众号，东兴证券研究所 VR200 NVL72 Scale up 方案实现总交换容量 259.2TB/s，对比 GB200 NVL72，提升一倍。 计算节点：VR200设置72个端口。每个端口带宽100GB/s。每个计算托盘2颗VR200GPU，则每个计算节点144个NVLink6.0端口，总访存带宽为14.4TB//s。 交换节点：NVSwitch6芯片72个NVLink6.0端口。每个NVLinkPort交换容量100GB/s。每个交换托盘4个NVLink6 Switch芯片，每个交换节点288个NVLinkPort，总访存带宽为28.8TB/s。 此外，VR200 NVL72依托NVLink-C2C实现1.8TB/sCPU-GPU互联，相比GB200 NVL72的NVLink-C2C的速率为900GB/s，提升一倍。 图21：英伟达 Vera Rubin GPU 芯片互联方式 资料来源：英伟达官网，东兴证券研究所 图22：VR200 NVL72 机柜中 GPU 互联拓扑结构 资料来源：英伟达官网，东兴证券研究所 VR200 NVL72 Scale up 方案延续铜缆互联方案。稍有不同之处，VR200 用中板取代计算托盘内部的线缆，中板采用覆铜板技术。此外，基于 Rubin 平台 NVLink6.0 升级至 448G SerDes 通道速率。因此，GPU 到每个 NVSwtich 铜缆连接由 4 根变为 2 根。 主干铜缆数量 $= 18$ （托盘数量）*4（GPU数量）*2（GPU到NVSwtich铜缆数量）*36（NVSwtich数量） $= 5184$ 根。 图23：Vera Rubin NVL72 机柜交换机托盘无缆线设计 资料来源：西北吹雪公众号，东兴证券研究所 # 2.4总结：处于领先优势，互联GPU数将从72颗进一步向576颗发展 在超节点技术方案上，英伟达处于领先优势。2024-2025年，英伟达陆续推出GH200 NVL72、GB200/GB300NVL72等成熟超节点解决方案。根据大摩预测，2025年英伟达GB200/300NVL72出货量约2800台。展望2026-2027年，英伟达计划推出Vera Rubin NVL144和Rubin Ultra NVL576。互联GPU数将从72颗进一步向576颗发展。届时，英伟达将发布新一代Kyber机架，架构引入NVLink Switch Blade（NVLink交换机刀片），通过PCB中板替代传统 $5000+$ 根有源铜缆。可以看到，Rubin Ultra NVL576仍保持较强的工程创新能力。 英伟达超节点的优势建立在NVLink和NVLink Switch。为实现AI训练集群高带宽与低延迟数据传输，NVLink重新设计通信架构，并引入一系列先进技术，包括网状拓扑、差分信号传输、流量调度信用机制、多Lane绑定技术、统一内存空间等。截止2025年，NVLink 5 Switch实现支持单GPU到GPU带宽1800GB/s，可构建72GPU的NVLink域，总带宽达130TB/s(双向)，支持72GPU全互联通信。在后续计划中，NVSwitchGen6和Gen7的GPU-to-GPU通信带宽继续升级为3.6TB/s。 但另一方面，Scale up网络兴起源于满足大模型分布式训练和推理中的张量并行(TP)与专家并行(EP)。目前AI产业也在探索降低TP与EP规模的技术方案，从而降低Scale up网络规模的上限。我们认为，Scale up网络的发展空间或限制英伟达在超节点领域的领先优势。为保持领先优势，实现Scale up网络和Scale out网络融合或将成为英伟达超节点新的发展趋势。 表3：英伟达超节点 Scale up 迭代路线 架构 Blackwell Ultra Vera Rubin NVL72 Vera Rubin NVL144 Rubin Ultra NVL576 Feunman 首发时间 2025-03 2026-01 预计2026下半年 预计2027年 预计2028年 核心平台 GB300 NVL72 VR200 NVL72 VR200 NVL144 Rubin Ultra NVL576 Feynman NVL1152 计算托盘 18个(单盘4GPU+2CPU) 18个(单盘4GPU+2CPU) 36个(单盘4GPU+2CPU) 72个(单盘8GPU+4CPU) 144个(单盘8GPU+4CPU) CPU 36 Grace CPUs(72核) 36 Vera CPUs(72核) 72 Vera CPUs(88核) 288 Vera Ultra CPUs(176核) 576 Feynman CPUs(256核) 单颗内存带宽3.6Tpbs 单颗内存带宽4.8Tpbs 单颗内存带宽4.8Tpbs 单颗内存带宽9.6Tpbs 单颗内存带宽19.2Tpbs NVLink C2C 0.9Tpbs NVLink C2C 1.8Tpbs NVLink C2C 1.8Tpbs NVLink C2C 3.6Tpbs NVLink C2C 7.2Tpbs GPU 72 GB300 GPUs 72 VR200 GPUs 144 VR200 GPUs 576 VR300 GPUs 1152 Feynman GPUs 单颗288G HBM3E 单颗512G HBM3E 单颗512G HBM3E 单颗1TB HBM4E 单颗2TB HBM5E 单颗MVFP4 15PFLOPS 单颗MVFP450PFLOPS 单颗MVFP450PFLOPS 单颗MVFP4100PFLOPS 单颗MVFP4200PFLOPS Scale up 铜缆背板 铜缆背板 铜缆背板+板载无源光引擎(非CPO) 3.2T CPO 硅光(规划) 6.4T CPO 硅光(规划) 18个NVLink5 36个NVLink6 72个NVLink6 144个NVLink7 72个NVLink8 硅光交换机 单个144*200G 28.8T 单个72*400G 28.8T 单个72*400G 28.8T 单个144*800G115.2T 单个288*1.6T 460.8T GPU侧NVLink带宽18*1.8TBps GPU侧NVLink带宽18*3.6TBps GPU侧NVLink带宽18*3.6TBps GPU侧NVLink带宽36*7.2TBps GPU侧NVLink带宽72*14.4TBps Scale out Spectrum-5 800G OSFP 可插拔 Spectrum-6 CPO 硅光 Spectrum-6 CPO 硅光 Spectrum-7 CPO 硅光 Spectrum-8 CPO 硅光 64*800G 51.2T 128*800G 102.4T 128*800G 102.4T 256*1.6T 409.6T 512*3.2T 1638.4T 注：28.8Tbps=3.6TBps 信息来源：光芯之路公众号，东兴证券研究所 Rubin NVL576由单个计算柜配置一个Kyber SideCar机柜构成。计算柜内由4个NVL144的计算机框构成，每个计算框包含18个ComputeTray；Switch Blade垂直插入机架后部，与计算刀片通过中板直接连接。 图24：英伟达 Rubin NVL576 新一代 Kyber 机架 资料来源：GTC2025，东兴证券研究所 后续NVSwitch Gen6和Gen7的GPU-to-GPU通信带宽为3.6TB/s。 图25：英伟达算力芯片发布时间表 资料来源：GTC2025，东兴证券研究所 # 3. 华为：对外开放灵衢互联协议，超节点性能追赶英伟达 # 3.1 华为自研灵衢互联协议，并对外开放 对标英伟达UVLink，华为自研Scale Up网络协议灵衢。2025年，华为在全联接大会上发布的灵衢”（Unified Bus，简称UB)。根据华为官方白皮书定义，灵衢（UnifiedBus，UB）是一种面向超节点的互联协议，将IO、内存访问和各类处理单元间的通信统一在同一互联技术体系，实现高性能数据搬移、资源统一管理、资源灵活组合、处理单元间高效协同和高效编程。我们认为，华为UB协议栈定义全面完整，涉及物理层、数据链路层、网络层、传输层、事务层、功能层、UB内存管理单元、UBFM（负责系统内的计算资源管理、互连资源管理和通信管理）。 图26：UB协议栈 资料来源：华为《灵珮基础规范》官方文档，东兴证券研究所 基于灵衡建立的计算系统部署范围可以从单台服务器到全数据中心。基于统一互联，灵衢系统中的所有处理单元地位平等、所有资源均可池化。此外，UB支持链路层的虚通道机制、网络层逐包/逐流多路径路由机制，传输层传输通道组共享机制，从而支持nd-mesh、Clos、torus等在内的任意拓扑或拓扑组合，以提升系统性能、增进容错性、支持大规模连接、降低部署成本。 图27：基于灵衡协议部署的超节点架构 资料来源：华为《灵珮基础规范》官方文档，东兴证券研究所 根据灵衢互联协议，华为超节点自研灵衢总线设备。灵衢总线交换设备（灵衢交换机）内置的高性能交换芯片，从而为超节点的智算服务器提供高速网络连接，该设备具有高性能、高带宽、低延迟等特点。 图28：灵衢总线交换设备外观 资料来源：华为《Atlas800TA3超节点技术白皮书》，东兴证券研究所 图29：灵衢总线交换设备物理结构图 1 QSFP-DD接口板 2 QSFP-DD理线架 3 导风板 4 CPU扣卡 5 CPU底板 6 机箱 7 管理板 8 风扇模块 9 电源模块 10 电源转接板 11 铜排 12 散热器 13 业务交换板 - - 资料来源：华为《Atlas800TA3超节点技术白皮书》，东兴证券研究所 一台灵衢总线交换设备交换容量为19.2TB/s，约为单颗NVSwitch5芯片的3倍。灵衢总线交换设备包含两个交换芯片，共有48个端口。2个交换芯片分别出一个200G到每个端口，组成一个400GQSFP-DD端口。（支持192*112GSerDes) （注：单颗NVSwitch5芯片交换容量为7.2TB/s。由72个NVLINKPort（上下各36个Port），每个NVLINKPort交换容量100GB/s构成。） 图30：灵衢总线交换设备逻辑框图 资料来源：华为《Atlas800T A3超节点技术白皮书》，东兴证券研究所 UB支持电链路，也支持光链路。在UB物理层和链路层定义方面，UB物理层利用创新的串行通信技术，同时支持短距离电缆和长距离光纤。采用PAM4调制，支持线性光组件场景53.125Gbps和106.25Gbps速率。 图31：UB物理层支持两种模式 模式 PHY Mode-1 PHY Mode-2 数据速率（Gbps） 4.0，自定义速率 2.578125, 25.78125, 53.125, 106.25 调制模式 4.0 Gbps: NRZ 2.578125/25.78125 Gbps: NRZ 自定义速率：NRZ或PAM4 53.125/106.25 Gbps: PAM4 资料来源：华为《灵儒基础规范》官方文档，东兴证券研究所 华为UB交换网络支持UB-MESH。UBPU是指支持UB协议栈的处理单元，其为超节点提供UB-Mesh以及基于光交换的组网技术。（UB-Mesh: a Hierarchically Localized nD-FullMesh Datacenter Network Architecture） UB-Mesh中的nD-FullMesh拓扑技术特征是充分利用业务数据局部性，优先考虑短程直接互连路径，以最大限度减少数据移动距离并减少交换机使用为目标，是一种兼具高性能和低成本的拓扑组网。从互联距离角度出发，可简单理解为单板上的若干块NPU之间是1D全连接，同一机架内叫2D全连接，跨机柜同屋子里叫3D全连接，楼层机柜组的4D全连接，乃至整栋建筑的5D全连接等。 图32：UB-Mesh中的nD-FullMesh拓扑示意 资料来源：华为《基于灵圜的超节点架构参考白皮书》,东兴证券研究所 在华为超节点1D/2D-FullMesh拓扑均采用电缆互连方式。 1D-FullMesh 即指 NPU 单板内的若干个 NPU 芯片之间实现 FullMesh 互联。 图33：1D-FullMesh拓扑示意 资料来源：攀爬科技树公众号，东兴证券研究所 2D-FullMesh是nD-FullMesh在极致低时延场景的应用，减少交换引入的时延开销，可用于内存共享和内存借用等场景。 图34：2D-FullMesh拓扑示意 资料来源：华为《基于灵衢的超节点架构参考白皮书》,东兴证券研究所 混合拓扑一层交换互联支持DPO/LPO光模块。UB-Mesh支持混合拓扑，Rack内采用2D-FullMesh组网，Rack间采用一层UBSwitch互连，支持从64卡线性扩展到8192卡。 图35：2D-FullMesh + Clos 混合拓扑示意 资料来源：华为《基于灵衢的超节点架构参考白皮书》,东兴证券研究所 UB支持融合组网、光交换组网。为了进一步扩大组网规模，UB除了支持采用多级UBSwitch扩展组网之外，还支持通过UBoE与以太Switch对接，实现融合组网；以及通过OCS（光交换）组网，实现可变拓扑，匹配业务动态流量。（OCS是一种直接在光域完成信号路由与交换的技术，无需像传统设备那样进行“光-电-光”转换。） 图36：UB融合组网和光交换组网示意 资料来源：华为《基于灵珮的超节点架构参考白皮书》，东兴证券研究所 # 3.2华为CloudMatrix384超节点：两层拓扑架构，全光互联 加入超节点发展潮流，华为推出第一代超节点CloudMatrix384。2025年4月，华为推出CloudMatrix384（Atlas900SuperPod)。对标英伟达GB200NVL72：从时间维度，CloudMatrix384推出时间落后英伟达GB200NVL72（2024年3月发布）约1年时间。在后续超节点发布节奏方面，华为与英伟达接近，均为一年一代新产品。华为计划2026年第四季度发布Atlas950SuperPod，以及2027年第四季度发布Atlas960SuperPod。 表4：华为超节点迭代路线及性能对比 CloudMatrix 384 (Atlas 900 SuperPod) Atlas 950 SuperPod Atlas 960 SuperPod 推出时间 2025年4月 预计2026年第四季度发布 预计2027年第四季度发布 NPU数量 384昇腾 910C NPUs 8192昇腾 910DT NPUs 15488昇腾 960 NPUs 计算机柜数 12 128 176 互联机柜数 4 32 44 系统算力 300 PFLOPS (BF16) 8 EFLOPS (FP8) 30 EFLOPS (FP8) 16 EFLOPS (FP4) 60 EFLOPS (FP4) 内存容量 49.2TB 1152TB 4460TB 互联协议 灵衢1.0 灵衢2.0 灵衢2.0 总互联带宽 269TB/s 16.3PB/s 34PB/s 训练总吞吐 280k TPS 4.9mn TPS 15.9mn TPS 推理总吞吐 740k TPS 19.6mn TPS 80.5mn TPS 资料来源：华为全连接大会，SemiAnalysis，科技攀爬树公众号，东兴证券研究所 CloudMatrix384以芯片互联规模实现Scaleup网络性能。GB200NVL72采用整机柜型超节点方案，Scaleup计算单元72个GPU芯片；华为CloudMatrix384则采用分机柜超节点方案，其计算节点和交换节点分别安装在不同机柜（包含12个计算柜和4个交换柜)，Scaleup计算单元由384个Ascend910C芯片组成。昇腾芯片数量增加五倍，弥补每个图形处理器（GPU）性能仅为英伟达布莱克韦尔（Blackwell）芯片三分之一的不足。从算力性能维度，华为CloudMatrix384的BF16密集算力约300PFLOPS，与GB200NVL72接近； 此外，华为CloudMatrix384Scaleup单向带宽134400GB/s，约是GB200NVL72的2.1倍。 表5：GB200 NVL72 超节点与 CloudMatrix 384 算力与通信性能对比 单位 GB200 NVL72 CloudMatrix 384 倍数 算力 PFLOPS 180 (TF32 Tensor核心) 300 (BF16 dense) 接近 HBM内存 TB 13.8 49.2 3.6X HBM带宽 TB/s 576 1229 2.1X Scale up带宽 单向GB/s 64800 134400 2.1X Scale up计算单元 GPUs 72 384 5.3X 功耗 kW 145 600 4.1X 资料来源：SemiAnalysis，东兴证券研究所 除了算力与通信性能，尺寸、重量、功耗均是超节点TCO（总体拥有成本）的关键影响因素。CloudMatrix 384超节点16个机柜，占地面积约20平米；总功耗约600kW。（GB200 NVL72机柜尺寸为长1068毫米、宽600毫米、高2495毫米；重约1.36吨；功耗145KW。） 图37：CloudMatrix 384 超节点外观 资料来源：华为，东兴证券研究所 CloudMatrix 384 Scale up 网络采取两层扁平拓扑架构。CloudMatrix 384 互联网络通过华为自研的灵衢网络和灵衢总线设备实现互联组网。灵衢网络 L1 层由超节点的交换网板承载，L2 层通过总线设备柜中的灵衢总线设备组成，L1-L2 分别通过光纤组成不同规模的超节点集群。 L1层：每个计算节点集成了8个昇腾910C NPU、4个鲲鹏CPU，每个计算节点内部放置了7颗板载UB交换芯片。 L2层（机柜间）：划分为7个独立子平面，每个子平面包含16个L2UB交换芯片。L1交换芯片扇出16条链路到对应L2子平面的每个交换芯片，实现无阻塞全对等拓扑。 图38：CloudMatrix 384 超节点组网方案 资料来源：华为《Atlas800T A3超节点技术白皮书》，东兴证券研究所 # CloudMatrix384 两层扁平拓扑架构形成三个网络平面。 - UB 平面构成超级节点内主要的超高带宽 Scale-UP 扩展结构。它以无阻塞的全对全拓扑直接互连所有 384 个 NPU 和 192 个 CPU。 - RDMA 平面支持 CloudMatrix384 超级节点和外部 RDMA 兼容系统之间的向外 Scale-OUT 通信。 - 虚拟私有云（VPC）平面是通过高速网卡（华为的青天河卡）将 CloudMatrix384 超级节点连接到更广泛的数据中心网络。 图39：CloudMatrix 384三层网络平面 资料来源：架构师技术联盟公众号，东兴证券研究所 Ascend 910C NPU 芯片采用双 Die 封装，通过高带宽总线实现芯片互连，单向传输速率为 $270\mathrm{GB/s}$ 。对比 GB200 NVL72，其芯片内部通过 NVLink-C2C 的双向传输速率为 $900\mathrm{GB/s}$ 。 图40：CloudMatrix 384 中 Ascend 910C NPU 芯片架构 资料来源：曦微有光公众号，东兴证券研究所 # CloudMatrix 384 计算节点 48 个；单个计算节点传输带宽 5.6TB/s。 CloudMatrix384设置12个计算柜，每个计算柜4个计算节点。华为CloudMatrix384每个计算节点集成了8个昇腾910C NPU、4个鲲鹏CPU，每个计算节点内部放置了7颗板载UB交换芯片。12个处理器（8个NPU + 4个CPU）通过UB链路连接到这些板载交换机，在节点内创建单级UB平面。 每个昇腾910C贡献392GB/s单向带宽（底层通过 $14^{*}400\mathrm{Gbps}$ 以太接口互联)，按400Gbps接口换算，每个NPU分别与7颗交换芯片双400G接口互联，通过提供 $14^{*}400\mathrm{GB / s} = 5.6\mathrm{TB / s}$ 传输带宽。 图41：CloudMatrix 384 单个计算节点网络拓扑 资料来源：曦微有光公众号，东兴证券研究所 # CLoudMatrix 384 通过 3168 根光纤和 6912 个 400G LPO 模块构建高速互连总线。 （1）UB平面：384（NPU总数） $\times 7$ （每个NPU需要7个400G光模块） $\times 2$ （双向互联）=5376个，L1层和L2层之间不采用400G光模块互联； (2) RDMA 平面: 384 (与服务器互联, 每个 GPU 配 1 个 400G 网卡) + 768 (RDMA 网络平面采用 2 层胖树架构, 叶层交换机端口翻倍) + 384 (脊层交换机需同等数量) = 1536 个; (3) VPC 平面: 将 CloudMatrix384 超节点连接到更广泛的数据中心网络, 是超节点外的运用, 使用的光模块数量不计入统计。 表6：华为 CloudMatrix 384 超节点网络架构与互联方案 CloudMatrix 384 NPU数量 384昇腾910C NPUs CPU数量 192鲲鹏 CPUs 系统算力 BF16密集算力300PFLOPS,与GB200NVL72接近 总内存容量 49.2TB,是英伟达GB200NVL72的3.6倍 总内存带宽 1229TB/s,是英伟达GB200NVL72的2.1倍 网络架构 三平面网络设计:(1)UB平面(392GB/s卡间带宽,全对等互联);(2)RDMA平面(400Gbps/NPU,支持165K NPU扩展);(3)VPC平面(管理控制与存储) 互联方案 去铜全光,每个NPU通过7个400GLPO Sipho光模块实现互联,单节点总用量达6912个光模块,配合3168根光纤构建全光互联网络 UB平面 完成超节点Scale-Up,采用两层扁平拓扑架构:(1)L1层(节点内),每个超节点集成8个昇腾910CNPU+4个鲲鹏CPU+7颗板载L1UB交换芯片+1擎天卡;(2)L2层(机柜间),划分为7个独立子平面,每个子平面包含16个L2UB交换芯片;L1交换芯片扇出16条链路到对应L2子平面的每个交换芯片,实现无阻塞全对等拓扑 L1UB交换芯片 上行链路带宽为448GB/s,可支持48个400G接口 RDMA平面 支持跨CloudMatrix384超节点和外部RDMA兼容系统的Scale-out通信,采用RoCE协议以兼容标准的RDMA生态,该平面主要连接NPU,每个NPU提供400GB/s的单向RDMA带宽 VPC平面 通过高速NIC(华为擎天卡)将CloudMatrix384超节点接入更广泛的数据中心网络,每个超节点提供400 GB/s的单向带宽 光模块用量 (1)UB平面:384(NPU总数)×7(每个NPU需要7个400G光模块)×2(双向互联)=5376个,L1层和L2层之间不采用400G光模块互联(2)RDMA平面:384(与服务器互联,每个GPU配1个400G网卡)+768(RDMA网络平面采用2层胖树架构,叶层交换机端口翻倍)+384(脊层交换机需同等数量)=1536个(3)VPC平面:将CloudMatrix384超节点连接到更广泛的数据中心网络,是超节点外的运用,使用的光模块数量不计入统计 资料来源：SemiAnalysis，架构师技术联盟公众号，曦微有光公众号，东兴证券研究所 # 3.3总结：灵衢协议尚未被国内业界广泛接受，集群化方式实现性能追赶 国内ScaleUp协议尚未统一，华为灵衢协议尚未被国内业界广泛接受。在ScaleUp协议方面，华为推出灵衢协议，并从2.0版本起转向开放标准。除此之外，国内其他厂商正探索多种互联协议，包括中移OISA、腾讯ETH-X、高通量以太网 $\mathsf{ETH}+$ 以及中兴通讯OLink等。为打破生态壁垒，国内正积极推动标准统一，比如工信部正牵头推动CLink协议，旨在形成统一的国内标准。 华为超节点依靠集群化方式实现性能追赶。Atlas950超节点预计2026年第四季度发布，相比英伟达同样将在2026年下半年上市的NVL144总算力2.52EFLOPS（FP8），其算力达到8EFLOPS（FP8）。此外，Atlas950超节点在内存容量1152TB与互联带宽16.3PB/s，也实现大幅领先。我们认为，短期内，华为超节点依靠集群化实现性能追赶，但在超节点复杂性、可靠性、功耗等维度需要平衡。从整体解决方案看，英伟达在超节点的芯片工艺、软件生态与系统集成上的优势仍难以撼动。 Atlas950超节点互联方案或将调整，显示华为超节点技术在标准化阶段仍需夯实。相比上一代超节点，华为Atlas950超节点不再使用全光互联架构，其通过“柜内正交铜互联+柜间光互联”的混合设计，在机柜内部利用铜互联实现高可靠、低成本和低功耗的连接，跨机柜则通过光互联保障系统的可扩展性，从而在维持系统可扩展性的同时，有效控制总体拥有成本（TCO）。 表7：华为超节点 Scale up 迭代路线 Atlas 800T A3 Atlas 900 SuperPod TaiShan 950 Superpod Atlas 850 Atlas 950 SuperPod 首发时间 2025年4月 2025年9月华为全连接大会 上市时间 2025年Q2 预计2026年Q1 预计2026年Q4 产品定位 企业级AI服务器 旗舰级AI集群 首个通用计算超节点 企业级AI服务器 旗舰级AI集群 卡数 单机8NPUs 384 NPUs 单机32 CPUs 单机8NPUs 8192 NPUs 形态 单机柜,支持多柜灵活部署 12计算柜+4总线设备柜 单机柜,支持多柜灵活部署 单机柜,支持多柜灵活部署 128计算柜+32总线设备柜 系统算力 6 PFLOFPS(FP16)12 POPS(INT8) 300 PFLOPS(FP16) 未公布 8 PFLOPS(FP8)16 PFLOPS(FP4) 8 EFLOPS(FP8)16 EFLOPS(FP4) 内存容量 1024GB 48TB 48TB 1152GB 1152TB D2D互联带宽 784GB/s 784GB/s / 2TB/s 2TB/s 总互联带宽 / 269TB/s / / 16.3PB/s 资料来源：华为官网，华为全连接大会，东兴证券研究所 # 4. 谷歌：建立光互联超节点，与英伟达形成不对称竞争 # 4.1 Scale up 网络核心技术：创新应用光电路交换机（OCS） 相比英伟达NVLink，谷歌超节点ScaleUp协议具有显著差异。谷歌超节点ScaleUp协议主要基于其自研的ICI（Chip-to-ChipInterconnect）协议，结合光电路交换（OCS）技术，用于实现TPU集群内的高速互联。对英伟达而言，NVLink与NVLink交换机是英伟达构建单机柜Scaleup网络的核心技术组合，顶级交换机芯片提供无阻塞高性能带宽；而谷歌ICI协议精简不必要的功能模块，专注于芯片间高效数据传输，降低协议开销和延迟，协议复杂度低，追求实用主义，与英伟达形成不对称竞争。 表8：谷歌 ICI Link 协议 VS 英伟达 NVLink 协议 维度 Google TPU (v4/v7) NVIDIA (H100/GB200) 互联协议 G-ICl(私有轻量级，Credit-based) NVLink+InfiniBand/RoCE 网络层级 物理隔离：ICI和DCN存储分离 分层架构：Scale-up与Scale-out分层 故障恢复 物理重构：OCS旋转镜面隔离坏点 协议重传：依赖IB/RoCE重传机制 软件耦合 强耦合：XLA编译器需感知物理拓扑 解耦：CUDA生态屏蔽底层拓扑差异 核心哲学 静态极致：通过OCS光交换网络构建确定拓扑 带宽堆叠：顶级芯片提供无阻塞带宽 信息来源：AGI小咖公众号，东兴证券研究所 对比英伟达Nvlink电交换机，谷歌自研光交换机。“阿波罗计划”（Project Apollo）致力于革新传统的“Clos”网络架构，用光路交换机（OCS）取代原有的电子分组交换机（EPS）。谷歌第一代光交换机代号“帕洛玛”（Palomar），与传统架构需要在核心层多次进行电-光-电信号转换不同，OCS采用全光互联技术，不读取数据包头、不进行光电转化。而是通过镜面反射引导携带数据的光束，实现源端口到目标端口的直接传输。在Palomar OCS机箱内部光信号的传输路径呈现出一个经典的“W”形状，最大限度减少插入损耗和实现任意端口间的互联。 W形光路设计：光纤准直器>二向色分光镜 >2D MEMS阵列I>二向色分光镜 >2D MEMS阵列II>二向色分光镜>光纤准直器。 图42：谷歌Palomar OCS光信号传输路径 资料来源：Google论文《Mission Apollo_Landing Optical Circuit Switching》（作者：Ryohei Urata, Hong Liu等），东兴证券研究所 谷歌 Palomar OCS 设备主要构成：a) 光纤准直器（fiber collimators）；b) 相机模块（camera modules）；c) MEMS 微镜模块（packaged MEMS）；d) 监视模块（injection modules）；e) 二向色分光镜&合光镜（dichroic splitter and combiners）。 工作原理：输入光信号通过二维光纤准直器阵列进入光学核心模块，每个准直器阵列由N×N光纤阵列和二维透镜阵列组成；光学核心模块包含两组2D MEMS微镜模块，光信号将依次通过两个准直器阵列的端口和两个MEMS微镜模块。通过驱动反射镜倾斜，将光信号导向对应的输出准直器光纤。 在信号光路的基础上，增设监测信道辅助反射镜的调谐：两级2D MEMS设计实现了三维空间内的精准光束操纵，二向色分光镜作为允许1310nm业务光透射，同时反射850nm监控光的核心滤光组件，与Injection Module + Camera Module联动实现带内运维监控和驱动2D MEMS的微秒级微调。 图43：谷歌Palomar OCS实物图 资料来源：Google论文《Mission Apollo_Landing Optical Circuit Switching》（作者：Ryohei Urata, Hong Liu等），东兴证券研究所 谷歌Palomar OCS设备端口数为 $136\times 136$ ，支持输入输出端口的任意双向互连。Palomar OCS为实现任意输入到任意输出的光束转向，系统采用两个微机电系统反射镜封装组件，提供四个自由度，确保光信号从输入端口到输出端口的最佳耦合。MEMS陶瓷封装内部包含一块大型微机电系统芯片，集成176个独立可控的反射镜，经筛选后，在全校准系统中保留136个可用反射镜。 MEMS是微机电系统（Micro-Electro-Mechanical Systems）的缩写。这类器件将微型机械结构与电子元件集成，通过微细加工技术制造，实现了机械与电学功能的微型化融合。 图44：MEMS微镜模块实物图 资料来源：Google论文《Mission Apollo_Landing Optical Circuit Switching》（作者：Ryohei Urata, Hong Liu等），东兴证券研究所 图45：MEMS微镜模块热成像图 资料来源：Google论文《Mission Apollo_Landing Optical Circuit Switching》（作者：Ryohei Urata, Hong Liu等），东兴证券研究所 谷歌Palomar OCS设备最大功耗为108W，仅为同交换容量电分组交换机功耗的一小部分。谷歌在过去十年间制造并部署了数万台 $136\times 136$ 全双工端口的光电路交换机（含8个备用端口）。为量产Palomar光电路交换机，谷歌研发了定制化的测试、对准和组装设备，覆盖MEMS微镜模块、光纤准直器、光学核心模块等组件，乃至整台交换机。每个MEMS微镜模块反射镜在晶圆代工厂完成全量测试，采用探针台方案，单次接触即可对芯片上的176个反射镜进行检测；研发了定制化的自动对准设备，将二维透镜阵列以亚微米级精度贴合在光纤准直器表面；最终，每台交换机均需完成微机电系统反射镜的全量校准，以确定端口选型。 图46：谷歌Palomar OCS机箱机构图以及实物机箱后视图 a) b) 资料来源：Google论文《Mission Apollo_Landing Optical Circuit Switching》（作者：Ryohei Urata, Hong Liu等），东兴证券研究所 基于MEMS路径的谷歌Palomar OCS设备具备长期迭代发展的潜力。从实际商业落地角度，压电驱动（Piezo）、Robotic和MEMS三类技术路径下的光电路交换系统已经实现有限的商用落地。从发展潜力看，基于成本可控的前提下支撑数据中心应用所需的大端口数，MEMS具备长远发展潜力，已实现超 $1000\times 1000$ 端口的互连规模。 表9：各类光电路交换技术的成本、规模、性能及可靠性/可用性对比 技术类型 相对成本 端口数 交换时延 插入损耗 驱动电压(伏 特) 锁存功能 MEMS 中等 320×320 毫秒级 数百伏 无 Robotic 中等 1008×1008 分钟级 — 有 Piezo 高 384×384 毫秒级 十余伏 无 Guided Wave 低 16×16 毫秒级 1伏 无 Wavelength Switching 待定 100×100 纳秒级 0 有 信息来源：Google论文《Mission Apollo_Landing Optical Circuit Switching》（作者：Ryohei Urata, Hong Liu等），东兴证券研究所 # 4.2 谷歌TPUv7超节点：Cube+3D Torus+OCS光交换实现扩展 基于光互连技术，谷歌建立独特且成熟的超节点技术方案。自2017年TPUv2至2025年TPUv7，谷歌逐步将光互连技术融入TPU系统，超节点互联芯片数量从256颗增长至9216颗。正如英伟达超节点发展历程，谷歌在超节点领域也同样经历技术路线探索（TPUv4）与方案标准化（TPUv5p），目前已经处于性能指标优化提升阶段。2025年谷歌发布TPUv7（代号Ironwood)，超级集群芯片数最多可支持9216颗，保持3D环面拓扑，OCS技术继续沿用。 表10：谷歌超节点迭代路线及性能对比 TPU v2 TPU v3 TPU v4 TPU v5p TPU v7 首发时间 2017 2018 2022 2023 2025 单芯片峰值算力 （FP16） 45.9T 123.2T 275T 459T 2307T 单芯片HBM内存 16GB 32GB 32GB 95GB 192GB 机柜数 4 16 64 140 144 互连拓扑 2D环面 2D环面 3D环面 3D环面 3D环面 分布 16×16 32×32 4×4×4 4×4×4 4×4×4 OCS数量 - - 48 48 48 芯片数 256 1024 4096 8960 9216 信息来源：AI闲谈公众号，东兴证券研究所 谷歌TPUv7单芯片算力不及GB200，但在大规模训练扩展性上占优。在单个算力芯片性能指标上，TPUv7提供2307TFLOPs的BF16算力，内存是192G HBM3e，内存带宽是7.3TB/s。与GB200相比，TPUv7提供的FLOPs和内存带宽差距较小，产品上市时间落后约一年时间。在Scale-Up网络性能上，TPUv7可通过 $4\times 4\times 4$ Cube+3D Torus+OCS光交换的层级架构实现从单芯片到全Pod的无缝扩展，Scale-Up最多可支持9216块芯片集群，适用于千亿/万亿参数LLM训练、大规模MoE模型。 表11：英伟达 GB200 芯片与与谷歌 TPUv7 性能对比 Unit GB200 TPU v7 (internal) TPU v7 (external) FP8 dense TFLOPS TFLOPS 5000 4614 4614 BF16 dense TFLOPS TFLOPS 2500 2307 2307 HBM capacity GB 192 192 192 HBM bandwidth TB/s 8.0TB 7.3 7.3 单向互连带宽 Gb/s 7200 4800 4800 TCO per Marketed FP8 Dense PFLOP $/hr per PFLOP 0.46 0.28 0.4 TCO per Memory Bandwidth $/hr per TB/s 0.28 0.18 0.25 TCO per Memory Capacity $/hr per TB 11.87 6.67 9.65 资料来源：SemiAnalysis，Nvidia，Google，东兴证券研究所 谷歌单个机架采用“4×4×4立方体构建块”，包含64颗TPU。在过去的几代产品中，谷歌TPU机架设计基本保持一致。每个机架包含：16个TPU Tray、16个或8个Host CPU Tray（取决于散热配置）、一台ToR交换机、电源模块，以及BBU。每个TPU tray包含一块带有4个TPU封装的TPU板。每个Ironwood TPU配备4个用于ICI连接的OSFP cage，以及1个用于连接Host CPU的CDFP PCIe cage。 图47：谷歌超节点单个机架实物图 资料来源：Google，东兴证券研究所 谷歌v4、v5p及v7超节点架构组网均采用“ $4 \times 4 \times 4$ 立方体构建块”作为核心架构单元。 单元组成：由 $4(\mathrm{X})\times 4(\mathrm{Y})\times 4(\mathrm{Z})$ 共64块TPU芯片构成。 链路总数：每块TPU芯片引出6条ICI(Inter-Chip Interconnect)高速互联链路，分别对应三维坐标系的 $\pm X,$ $\pm Y,\pm Z$ 六个方向，构建起3D Torus的基础网格。 具体来说，每个TPU的互联方式如下： - 位于立方体内部的 TPU (8 个): 2 根 PCB+4 根 DAC copper - 位于立方体面的TPU（24个）：2根PCB+3根DAC copper+1个光模块 - 位于立方体边缘的TPU（24个）：2根PCB+2根DAC copper+2个光模块 - 位于立方体角落的TPU（8个）：2根PCB+1根DAC+3个光模块 因此，单个 $4 \times 4 \times 4$ 的立方体需要96个光模块，平均下来单个TPU需要1根PCB、1.25根DAC copper和1.5个光模块。光模块能够连接OCS交换机，使得立方体（机架）与立方体（机架）之间得以互连。 图48：TPU $4\times 4\times 4$ 立方体互联逻辑示意图 资料来源：SemiAnalysis，东兴证券研究所 TPU v7 引入 Twisted 3D Torus，不局限于 $4 \times 4 \times 4$ 立方体的拓扑单元。TPUv7 升级了标准的 3D Torus，引入了步长的概念来构建了 Twisted 3D Torus（扭曲环面）拓扑以降低通信跳数。以 TPUv7 架构中 128 TPU Slice（ $4 \times 4 \times 8$ 拓扑）为例，位于 Cube A 边界的节点 TPU 414 并没有像标准 3D Torus $4 \times 4 \times 4$ 拓扑那样回环至自身的起点 TPU 411 而是通过 Twisted 3D Torus 和 OCS 构建类似于“虫洞”的跳跃式链接至逻辑相邻的 Cube B 起始节点 TPU 415 上。这意味着网络拓扑可以被重构，从而支持大量不同拓扑——理论上可达数千种。目前，谷歌支持将 TPU v7 配置成从 4 颗 TPU 到 2048 颗 TPU 之间的 10 种不同 slice 大小。 图49：TPUv7 128（ $4 \times 4 \times 8$ ）TPU拓扑示意图 资料来源：SemiAnalysis，东兴证券研究所 谷歌TPU v4超节点设置64个3D Torus，单个3D Torus对外互联带宽4.8TB/s。可以看到，谷歌TPU v4超节点单个3D Torus对外互联带宽，低于英伟达GB200 NVL72计算节点访存带宽7.2TB/s，以及低于华为CloudMatrix 384单个计算节点传输带宽5.6TB/s。 谷歌TPU v4超节点最大支持4096个TPUv4芯片互联，由64个3D Torus以及48个OCS交换机构成。具体来讲：每个3D Torus连接 $6^{*}16 / 2 = 48$ 个OCS；一个OCS对应136个端口，其中128个端口用于连接3D TorusTPUv4，8个用于测试或备份。考虑到3D Torus中需要两个相对Link连接到一个OCS，因此每个OCS连接 $128 / 2 = 64$ 个3D Torus。 3D Torus之间互联互通光模块和OCS光交换机实现。单个3D Torus对外引出96条光链路，TPUv4每Link50GB/s，则单个3D Torus对外互联带宽4.8TB/s。 图50：谷歌TPUv4超节点网络拓扑 资料来源：AI闭谈公众号公众号，东兴证券研究所 同理，谷歌TPUv7Ironwood超节点(9216芯片)设置144个3D Torus，单个3D Torus对外互联带宽19.2TB/s。图51：谷歌TPU v7超节点网络拓扑 资料来源：AI闭谈公众号公众号，东兴证券研究所 附：谷歌TPU Scale up网络演进与TPU代际发展紧密同步。 - TPU v2 首次引入 ICI Link，配置 4 条 Link，每条带宽 62 GB/s，ICI 总带宽为 248 GB/s，尚未引入光模块。 - TPU v3 保持了与 v2 相同的 Link 数，每条带宽从 62 GB/s 提升至 82GB/s，ICI 总带宽达到 328GB/s，首次引入光互连技术，采用 400Gbps 有源光缆（AOC），光通道波特率为 50G。 - TPU v4采用3D拓扑，在降低单条Link带宽的情况下，Link数量提升至6条，ICI总带宽达到300GB/s，光模块升级为400GOSFP，同时引入光交叉连接（OCS），光通道波特率仍为50G。 - TPU v5p，采用3D环面设计，Link数量保持6条，单链路带宽从50GB/s翻倍提升至100GB/s，ICI总带宽达到600GB/s，光模块升级为800GOSFP，光通道波特率提升至100G。 - TPU v7 延续 3D 环面设计，Link 数量保持 6 条，单链路带宽从 100GB/s 翻倍提升至 200GB/s，ICI 总带宽提升至 1200GB/s，沿用 800G OSFP 光模块，光通道波特率提升至 200G。 表12：谷歌 Scale up 网络演进与 TPU 代际发展紧密同步 TPU v2 TPU v3 TPU v4 TPU v5p TPU v7 首发时间 2017 2018 2022 2023 2025 互连拓扑 2D环面 2D环面 3D环面 3D环面 3D环面 Link数 4 4 6 6 6 带宽/Link 62GB/s 82GB/s 50GB/s 100GB/s 200GB/s OCS数量 \ \ 48 48 48 ICI带宽 248GB/s 328GB/s 300GB/s 600GB/s 1200GB/s ICI光模块 \ 400Gbps AOC 400G OSFP 800G OSFP 800G OSFP 光通道速率 \ 50G 50G 100G 200G 信息来源：AI闲谈公众号，东兴证券研究所 # 4.3总结：光互联Scaleup网络实现技术标准化，技术路线独树一帜 谷歌TPU超节点建立成熟的光互联Scaleup网络。从技术成熟度看，2023-2025年谷歌陆续推出TPUv4、TPUv5p、TPUv7三代超节点，完成了技术路线探索和方案标准化。此外TPUv7也获得外部企业认可。2026年，Anthropic将直接从博通采购近100万颗TPUv7IronwoodAI芯片，本地部署在其控制的数据中心。2027年，谷歌将推出第8代TPU，对标NvidiaVeraRubin。可以看到，届时谷歌TPU超节点的性能指标进一步优化提升。 谷歌TPU超节点竞争优势建立在OCS交换机，技术路线独树一帜。相比英伟达、华为、AMD等超节点厂商，谷歌是全球首个将光电路交换机（OCS）大规模商用部署于Scaleup网络的企业，技术路线独树一帜。谷歌OCS交换机，涉及精密光学、机械工程与半导体工艺的深度交叉应用，在光互联领域构筑一道高壁垒的技术护城河。 相较于电分组交换机，光电路交换技术具备诸多优势：光电路交换机可跨多代光收发模块技术复用、光电路交换机的每比特能耗较电分组交换机低数个数量级、光电路交换机引入的时延极小。 OCS 交换机商用落地存在多重困难：光电路交换机需扩展至数百个端口以支撑足够数量 NPU 互连；受限于光电路交换机的控制软件和反射镜配置时延，商用光电路交换机的交换时延通常为 10~20 毫秒；为降低链路功率，光电路交换机插入损需要控制在理想水平。 为搭建高性价比、大规模的光交换层，谷歌创新研发三大核心硬件组件：光电路交换机、波分复用光收发模块和光环形器。其中谷歌Palomar光电路交换机的光学核心模块是实现光转向功能的MEMS微反射镜；波分复用光收发模块是提升布线效率、支撑大规模且持续扩张数据中心的关键；光环形器是实现光电路交换机链路双向通信的核心器件，将所需的光电路交换机端口和光纤数量减半。 # 5. AMD：UALink 成为重要开放标准，超节点有望成为英伟达有力竞品 # 5.1 UALink：代表开放标准路线，受到业内广泛支持 相比英伟达NVLink以及谷歌ICl协议，UALink通过联合制定标准来避免被单一厂商锁定。UALink（UltraAccelerator Link）是用于连接AI加速器的开放、高效的Scale-Up互联标准，代表开放标准路线，旨在打破单一厂商垄断，使得基于开放标准的异构融合将成为可能。我们认为，UALink在Scale-up中的产业定位类似移动互联网发展历程中的“安卓”开放生态。经历一年多发展，UALink协议1.0持续完善，具体历程如下： - 2024年5月，AMD、博通、思科、谷歌、惠普（HPE）、英特尔、Meta和微软携手成立UALink小组，旨在推动数据中心AI连接。 2024年10月，博通退出董事会，新增亚马逊网络服务（AWS）、Astera Labs两家公司为董事会成员，UALink联盟正式成立，主推AI服务器Scale UP互连协议—UALink。 2025年1月，阿里巴巴、Apple、Synopsys当选为UALink联盟新增董事会成员，进一步扩大联盟影响力。 2025年2月，发布UALink200G候选规范，为正式标准奠定基础。 2025年4月，正式发布UALink200G1.0规范，并充分考虑中国市场落地，定义了AI计算舱中加速器和交换机之间通信的低延迟、高带宽互连，支持最多1024个加速器实现每通道200G的扩展连接。 2025年12月，UALink $1.0+$ 协议陆续发布，新增INC在网计算、IO Die、12G DL/PL。 图52：UALink发展时间线 资料来源：半导体行业观察公众号，东兴证券研究所 UALink 联盟受到业内广泛支持，成员单位超过 100 家（截止 2026 年 1 月底）。目前 UALink 联盟董事会成员有阿里巴巴、AMD、苹果、Astera Labs、AWS、CISCO、谷歌、HPE、Intel、Meta、Microsoft、Synopsys等行业巨头以及产业链关键厂商。在 100 多家 UALink 联盟成员单位中，美国企业约 44 家，中国企业约 37 家，其中字节跳动、盛科通信、新华三、海光信息、中兴通讯等中国企业均加入 UALink 联盟。 图53：UALink 联盟成员名单 采用成员（39家） 资料来源：UALink官网，东兴证券研究所 Scale-Up 互联协议在物理层上已基本收敛至以太网。在超节点 Scale-Up 场景中，GPU 卡间互联物理层主要有 PCIe 和以太网两种技术路线。以太网物理层 SerDes 技术凭借更高的单通道速率（当前主流达 112Gbps，224Gbps 已商用），相较 PCIe 5.0 x16（双向约 128GB/s）具备显著的带宽扩展潜力。 UALink 定义全栈开放协议，物理层采用标准以太网 PHY，但链路层和传输层完全重新定义，旨在实现总线级的性能。UALink 协议栈自底向上分为物理层（PL）、数据链路层（DL）、事务层（TL）和协议层（UPLI）。 图54：UALink协议栈架构 资料来源：UALink《Scale-Up互联技术白皮书》，东兴证券研究所 对比博通SUE协议，UALink可实现单节点1024个加速器互联。博通作为以太网交换芯片的领导者，选择中途退出UALink董事会转向推动SUE，采用“网络总线化”思路，在传统以太网协议和交换技术基础上，针对Scale-Up需求进行协议优化和交换芯片架构创新，意在将其市场主导地位从Scale-Out自然延伸至Scale-Up领域。而UALink采用“总线网络化”思路，以传统总线技术为基础，结合网络技术元素，满足Scale-Up高带宽和扩展性需求。 （1）延迟优化方面，UALink通过更短线缆（≤4米）和优化的协议栈实现更低的端到端延迟。SUE则通过报头压缩和交换芯片优化，在较长线缆（≤10米）条件下仍保持较低延迟。 (2）互连规模方面，UALink通过专用交换机实现更大规模的单Pod互联（1024个加速器)。SUE则通过与标准以太网设备的兼容性，支持更灵活的扩展架构，如两层Clos架构可支持10万+XPU。 （3）应用场景方面，UALink更专注于超节点内部的GPU协同计算，特别是需要显存共享的大模型训练场景。SUE则兼顾单机架Scale-Up和跨机架Scale-Out，支持更广泛的混合架构部署。 表13：UALink 与 SUE 技术对比 性能指标 UALINK SUE 物理层 基于以太网 SerDes 完全兼容标准以太网 SerDes 数据链路层 封装64B事务为640B数据帧，添加CRC校验 保留以太网MAC层，新增10BA转发包头 传输层 事务层（压缩寻址，直接内存操作）和协议层（内存语义逻辑） 简化协议栈，直接处理内存语义通信，避免IP/UDP层开销 单通道带宽 200Gb/s 200Gb/s 链路数量 x1，x2，x4 x1，x2，x4 延迟 交换机延迟100-150ns，端到端RTT 交换机延迟250ns，端到端RTT 互联规模 单Pod支持最多1024个加速器 单跳支持512个加速器，扩展至1024个加速器 线缆长度限制 不超过4米 不超过10米 显存共享支持 完整支持，实现GPU间显存直接访问 不直接支持，通过集体操作卸载优化通信效率 生态兼容性 需专用交换机，兼容PCIe/CXL等服务器协议 完全兼容标准以太网设备和工具链 资料来源：中国信息通信研究院信息化与工业化融合研究所《超节点关键技术与产业发展态势研究》,架构师技术联盟公众号,东兴证券研究所 UALink 交换芯片预计 2027 年商用。UALink 交换机 ASIC 芯片主要供应商有 Cisco、Arista、Marvell、HPE 等。产品落地进展方面，Siemens EDA 已推出 UALink VIP（验证 IP），Broadcom、Marvell 等正在开发 UALink 兼容交换机芯片，Astera Labs 等厂商已发布支持 UALink 的连接芯片和模块。 # 5.2 AMD 超节点：英伟达 NVL72 系列有力竞品，有望实现市场突破 AMD超节点方案进入标准化阶段。2024年，MI300系列超节点方案单节点最高8卡，被超微、HPE等集成到4U/8U高密度服务器，用于中小模型训练与推理。2025年-2026年，AMD陆续正式发布MI400系列Helios机柜，单柜最大72卡，面向超大规模模型训练。其中，在2026年CES大会，AMD发布Helios机架级平台，搭载72颗MI455GPU的UALoE72纵向扩展域。 从时间维度，MI455超节点推出时间落后英伟达GB200 NVL72（2024年3月发布）约2年时间，但由于AMD在算力芯片先进制程优势，双方差距有望快速缩小。在后续超节点发布节奏方面，AMD将于2027年推出下一代超节点MI500 UAL256。该超节点支持256卡规模，采用开放解构架构，整体由三个互联的机柜构成。 图55：AMD Helios AI Rack MI455X 72x GPU 超节点外观 资料来源：企业存储技术公众号，东兴证券研究所 MI455x系列Helios机柜具有较强竞争力，有望实现市场突破。MI455x系列Helios机柜是AMD在机柜设计上的一次跨越级产品，AMD称之为UALoE72（UALink over Ethernet)，是目前业界最能挑战英伟达的NVL72机柜的竞品，计划2026年下半年出货，有望实现市场突破。算力方面，UALoE72的FP4算力达2.9EFLOPS，与Vera Rubin的3.6 EFLOPS差距不大；内存方面，UALoE72配备31TB HBM4内存容量，是Vera Rubin NVL72的1.5倍；此外，Helios采用开放标准的UALink协议，互联总带宽与Vera Rubin持平。 表14：AMD MI455x 系列 Helios 与英伟达 Vera Rubin NVL72 参数对比 AMD Helios Vera Rubin NVL72 GPU数量 72 Instinct MI455X GPUs 72 Rubin GPUs CPU数量 18 EPYC Venice CPUs 36 Vera CPUs CPU核心数量 4608 Zen6 Cores 3168 NVIDIA Olympus Cores 制造工艺 Advanced 2nm/3nm TSMC Custom 2nm/3nm FP4算力 2.9EFLOPS 3.6EFLOPS 互联技术 UALink NVLink6 互联总带宽 260TB/s 260TB/s 内存容量 31TB HBM4 20.7TB HBM4 资料来源：公司官网,智能计算芯世界公众号,新智元公众号,东兴证券研究所 对比GB200NVL72机柜，Helios机架在功耗领域优势显著。Helios机架采用双宽机架设计,宽度从1个机架提升到2个机架。双宽机架设计主要源于大型数据中心中的关键限制因素是功耗而不是占地面积，双机架宽度在复杂性、可靠性和性能间实现平衡。Helios超宽机柜总功耗64.8kW，重量约3.2吨。 (GB200 NVL72 机柜尺寸为长 1068 毫米、宽 600 毫米、高 2495 毫米；重约 1.36 吨；功耗 145KW。) 图56：AMD MI455x 系列 Helios 机架外观 资料来源：AMD，东兴证券研究所 单台Helios机架布置18个计算节点与6个交换节点。MI450 Helios机架由18个计算托盘（顶部9个，底部9个）与6个交换托盘交错排列，每个计算托盘容纳4颗MI450 GPU，整机柜形成72GPU的统一计算域；每个交换托盘包含两个Tomahawk 6 102.4T以太网交换机。双宽结构为未来升级预留物理空间，例如可扩展至144GPU配置，而无需重新设计机架基础设施。 图57：AMD MI450X UALoE72 Helio 机架示意图 资料来源：semianalysis，东兴证券研究所 MI400系列Helios机柜Scaleup方案实现总交换容量260TB/s，与VR200NVL72持平。 计算节点：MI400使用每条200Gbit/s的72条通道实现的单GPU1.8TB/s（单向）纵向扩展带宽； 交换节点：交换托盘包含两个Tomahawk 6102.4T以太网交换机和四个连接器。每个连接器有432个差分对，相当于216条UALink通道，每条通道200G。每个102.4T交换机提供512个端口，交换托盘总共有1024个端口。由于每个连接器仅输入216条通道，总共864条通道，导致TH6以太网交换机有160个未使用的端口。 图58：AMD MI400s UALoE72 Scale Up 拓扑示意图 资料来源：semianalysis，东兴证券研究所 # 5.3总结：UALink成为重要标准，Helios机架有望成为行业主流选择 作为Scaleup网络开放技术路线方，UALink成为重要标准。2025年1.0版本规范正式发布；2026年，UALink2.0版本有望发布。我们认为，目前UALink正处于从标准制定阶段走向产品落地阶段，预计UALink生态将在2027年迎来突破发展，被众多数据中心接纳。目前UALink联盟受到业内广泛支持，截止2026年1月底，成员单位超过100家，将成为英伟达NVLink有利挑战方。 AMD超节点Helios机架有望成为行业主流选择。Helios机架采用双宽机架设计,宽度从1个机架提升到2个机架,在复杂性、可靠性和性能间实现良好平衡。从算力、内存、互联带宽等指标,MI455x系列Helios机柜是目前业界最能挑战英伟达NVL72机柜的竞品;而在功耗领域,对比GB200NVL72机柜,Helios机架优势显著。此外,双宽结构为未来升级预留物理空间,例如可扩展至144GPU配置,而无需重新设计机架基础设施。 # 6. 投资建议 自2025年开始，超节点成为AI算力网络重要的技术创新方向。从AI基建竞争维度，AI芯片厂商从芯片算力性能竞争延续至芯片+Scaleup网络的双战场。因此，除了原先英伟达、华为、AMD以及谷歌等芯片公司，全球更多厂商加入超节点赛道的竞争，包括微软、Meta、Amazon、中国移动、阿里巴巴、字节跳动、腾讯、百度、中科曙光、中兴通讯、浪潮信息、紫光股份（新华三）、海光信息、沐曦股份、恒为科技等。 全球超节点竞争格局尚未确立。英伟达目前处于领先地位，但谷歌、AMD、华为等巨头在超节点领域的持续发力已经对英伟达一家独大的格局构成挑战。从股价表现看，2023-2024年，英伟达股价大幅跑赢谷歌、AMD以及A股中证算力指数。但在2025年，英伟达股价累计涨幅 $38\%$ ，显著落后于谷歌、AMD以及A股中证算力指数。我们认为，在超节点技术发展中，市场将继续对谷歌、AMD以及国产超节点板块价值重估。 投资建议：（1）看好谷歌、AMD以及国内超节点厂商；（2）看好英伟达、谷歌与AMD超节点供应链，包括PCB背板、高速铜缆、光模块、供电与液冷系统等；（3）基于交换机及芯片是Scaleup网络互联的关键设备，看好谷歌光路交换机（OCS）核心零部件供应商以及UALink标准下的交换机芯片研发商。 图59：2023-2026年2月英伟达/谷歌/超威半导体/中证算力当年累计涨跌幅对比 资料来源：iFinD，东兴证券研究所 # 7. 风险提示 (1) LLM 训练与推理技术路径变化；(2) 超节点性能与功耗有待平衡；(3) 受供应链影响，各厂商超节点出货量低于预期；(4) AI 应用端增长不及预期。 # 分析师简介 # 石伟晶 首席分析师，覆盖传媒、互联网、云计算、通信等行业。上海交通大学工学硕士。10年证券从业经验，曾供职于华创证券、安信证券，2018年加入东兴证券研究所。 # 分析师承诺 负责本研究报告全部或部分内容的每一位证券分析师，在此申明，本报告的观点、逻辑和论据均为分析师本人研究成果，引用的相关信息和文字均已注明出处。本报告依据公开的信息来源，力求清晰、准确地反映分析师本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与，未来也将不会与本报告中的具体推荐或观点直接或间接相关。 # 风险提示 本证券研究报告所载的信息、观点、结论等内容仅供投资者决策参考。在任何情况下，本公司证券研究报告均不构成对任何机构和个人的投资建议，市场有风险，投资者在决定投资前，务必要审慎。投资者应自主作出投资决策，自行承担投资风险。 # 免责声明 本研究报告由东兴证券股份有限公司研究所撰写，东兴证券股份有限公司是具有合法证券投资咨询业务资格的机构。本研究报告中所引用信息均来源于公开资料，我公司对这些信息的准确性和完整性不作任何保证，也不保证所包含的信息和建议不会发生任何变更。我们已力求报告内容的客观、公正，但文中的观点、结论和建议仅供参考，报告中的信息或意见并不构成所述证券的买卖出价或征价，投资者据此做出的任何投资决策与本公司和作者无关。 我公司及报告作者在自身所知情的范围内，与本报告所评价或推荐的证券或投资标的不存在法律禁止的利害关系。在法律许可的情况下，我公司及其所属关联机构可能会持有报告中提到的公司所发行的证券头寸并进行交易，也可能为这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。本报告版权仅为我公司所有，未经书面许可，任何机构和个人不得以任何形式翻版、复制和发布。如引用、刊发，需注明出处为东兴证券研究所，且不得对本报告进行有悖原意的引用、删节和修改。 本研究报告仅供东兴证券股份有限公司客户和经本公司授权刊载机构的客户使用，未经授权私自刊载研究报告的机构以及其阅读和使用者应慎重使用报告、防止被误导，本公司不承担由于非授权机构私自刊发和非授权客户使用该报告所产生的相关风险和责任。 # 行业评级体系 公司投资评级（A股市场基准为沪深300指数，香港市场基准为恒生指数，美国市场基准为标普500指数）：以报告日后的6个月内，公司股价相对于同期市场基准指数的表现为标准定义： 强烈推荐：相对强于市场基准指数收益率 $15\%$ 以上； 推荐：相对强于市场基准指数收益率 $5\% \sim 15\%$ 之间； 中性：相对于市场基准指数收益率介于 $-5\% \sim +5\%$ 之间； 回避：相对弱于市场基准指数收益率 $5\%$ 以上。 行业投资评级（A股市场基准为沪深300指数，香港市场基准为恒生指数，美国市场基准为标普500指数）：以报告日后的6个月内，行业指数相对于同期市场基准指数的表现为标准定义： 看好：相对强于市场基准指数收益率 $5\%$ 以上； 中性：相对于市场基准指数收益率介于 $-5\% \sim +5\%$ 之间； 看淡：相对弱于市场基准指数收益率 $5\%$ 以上。 # 东兴证券研究所 北京 西城区金融大街5号新盛大厦座16层 邮编：100033 电话：010-66554070 传真：010-66554008 上海 B虹口区杨树浦路248号瑞丰国际大厦23层 邮编：200082 电话：021-25102800 传真：021-25102881 深圳 福田区益田路6009号新世界中心46F 邮编：518038 电话：0755-83239601 传真：0755-23824526