> **来源:[研报客](https://pc.yanbaoke.cn)** # 中兴通讯超节点白皮书总结 ## 核心内容概述 本白皮书系统阐述了中兴通讯在AI算力架构演进、超节点系统设计、AI工厂构建以及全栈AI基础设施方面的技术理念与实践路径。随着AI模型参数规模的持续增长,传统算力架构已无法满足高性能、高密度、高能效的算力需求,超节点系统成为下一代AI基础设施的关键形态。中兴通讯通过自主研发的OEX架构、大容量交换芯片及软硬协同优化,打造了具备高扩展性、高可靠性与高能效的超节点系统,推动AI算力从“项目”向“工厂”范式转变,为未来智算中心提供完整的解决方案。 --- ## 主要观点 ### 1. AI算力架构演进趋势 - 从芯片堆砌向系统级协同演进,突破单芯片性能瓶颈。 - 高带宽域(HBD)互联成为提升算力密度和效率的核心路径。 - 系统性能提升依赖于算力、显存与互联带宽的协同匹配,而非单纯增加芯片数量。 ### 2. 超节点系统架构设计 - 超节点是一种通过高速互联协议与专用交换芯片构建的高带宽域(HBD),将多颗GPU逻辑整合为统一计算单元。 - 架构需满足四大核心前提:芯片能力均衡、互联架构有效性、内存访问便捷性、扩展原生性。 ### 3. 芯片与互联技术协同 - GPU与CPU在算力芯片层级需实现“带宽-算力-显存”三角协同匹配。 - 互联协议需支持千卡级HBD扩展,如NVLink、UALink、SUE、ETH-X等。 - 中兴通讯自主研发凌云大容量交换芯片,支持多种协议,实现高性能互联。 ### 4. 高速互联技术突破 - 以太网物理层具备显著的带宽扩展潜力,成为未来超节点互联的主流选择。 - 互联协议生态呈现“垂直整合封闭”与“开放架构”并行的发展趋势。 - 中兴通讯推动OEX正交无背板互联架构,实现高密度、高可靠性的超节点设计。 ### 5. 液冷技术与供电方案 - 液冷技术是超节点高密度算力的必要配套,包括单相冷板式、硅基微通道、两相冷板、浸没式液冷等。 - 随着芯片功率密度的提升,液冷将成为大规模AI基础设施的标配。 - HVDC(高压直流)供电架构成为支撑兆瓦级算力集群的必然路径,显著降低电流强度与配电损耗。 ### 6. AI工厂构建路径 - AI工厂是基于超节点构建的全栈协同平台,实现标准化、规模化、自动化的智能生产系统。 - 构建路径分为三个层面:物理层、系统层与架构层,分别聚焦于高性能基础模组、软硬协同优化与模块化灵活组装。 - 通过算力仿真平台,实现对不同硬件配置、并行策略的性能预测与优化。 ### 7. 超节点的商业价值与竞争优势 - AI工厂能显著缩短业务上线周期、支持架构平滑演进、优化TCO(总体拥有成本)并降低系统集成风险。 - 通过全栈协同设计,中兴通讯构建了具备高集成度、高兼容性与高扩展性的AI基础设施,满足未来大规模AI训练与推理需求。 --- ## 关键信息 ### 芯片能力与互联要求 - GPU需实现互联可扩展性与算力、显存同步升级。 - CPU需具备高单核性能与IO扩展能力,支持微秒级延迟处理与多通道I/O支持。 ### 超节点互联技术 - 主流技术路线包括PCIe与以太网,其中以太网具备更高的带宽扩展潜力。 - OEX架构实现正交无背板互联,提升信号完整性、散热效率与系统可靠性。 - 集群超节点采用“电交换+光互联”或“光交换+光互联”技术,实现大规模互联。 ### 液冷与供电技术 - 单相冷板式液冷为主流方案,硅基微通道冷板、两相冷板及浸没式液冷正在加速发展。 - HVDC供电架构显著降低电流强度,提升系统能效,是未来智算中心的必然选择。 ### AI工厂的构建与优势 - AI工厂通过超节点实现从“项目”到“工厂”的范式转变,提升AI开发效率与资源利用率。 - 架构支持Scale-Up与Scale-Out融合,实现灵活扩展与高能效运行。 - 算力仿真平台是AI工厂设计的关键工具,支持性能预测与方案优化。 ### 中兴通讯的技术优势 - 自主研发OEX架构,支持第三方组件标准化接入,推动开放生态建设。 - 拥有全栈协同能力,涵盖芯片、整机、集群与软件,支持从底层到上层的系统集成。 - 推动国产AI算力底座标准化,开源Co-Sight协议,构建开放智算生态。 --- ## 未来展望 - Token经济学将成为衡量AI基础设施竞争力的核心框架,推动从“FLOPS”导向向“Token/Watt”导向的转变。 - 中兴通讯将持续推进开放解耦理念,构建面向未来的AI基础设施生态。 - 通过全栈协同、标准化设计与开源合作,中兴通讯致力于打造高效、可扩展、可持续的AI工厂,赋能千行百业的智能化升级。