> **来源:[研报客](https://pc.yanbaoke.cn)** # 先进计算产业发展联盟技术分享总结 ## 核心内容概述 本报告围绕**GW级AIDC(吉瓦级开放智算中心)**展开,分析了AI算力需求的指数级增长趋势,以及由此引发的**数据中心技术变革**。报告从**时代背景**、**核心挑战**、**开放系统蓝图**、**供电与散热革命**、**网络架构演进**、**全球实践案例**、**中国发展路径**和**未来趋势**等方面进行了深入探讨。 ## 主要观点 ### 1. AI算力需求激增 - AI模型参数从亿级增长到万亿级,数据中心规模从MW走向GW。 - 算力需求增长超过5个数量级,NVIDIA Blackwell+Rubin 2027前订单达1万亿美元。 - 中国智能算力CAGR为46.2%(2023–2028),占全球29%(仅次于美国34%)。 ### 2. GW级AIDC的“五道墙” - **算力墙**:单芯片FLOPs增速放缓,需Chiplet、3D封装和异构计算。 - **内存墙**:万亿参数模型对HBM容量和带宽提出更高要求,需Context Memory Storage和CXL扩展。 - **能耗墙**:单机柜功率密度达1MW+,需800V HVDC和源网荷储一体化。 - **散热墙**:单芯片TDP突破3000W,需两相液冷技术。 - **互连墙**:Scale-Up与Scale-Out互连技术成为关键瓶颈,需开放协议支持。 ### 3. 供电革命:800V HVDC - 800V HVDC成为GW级AIDC的“黄金标准”,具备更高效率(92–95%)和更低的母线电流。 - 驱动因素包括NVIDIA Kyber机架、OCP LVDC规范、GaN/SiC功率半导体、BBU取代UPS等。 - 中国正在推动“算电协同”,PUE 1.15成为硬性要求,液冷渗透率预计2026年达70%。 ### 4. 散热革命:液冷与两相技术 - 液冷从“可选配置”转向“强制标配”,两相液冷成为GW级AIDC的必然路径。 - 液冷技术演进分为三代:冷板式液冷、单相浸没、两相浸没。 - 中国液冷技术已具备一定竞争力,拥有1000+液冷核心专利和20+液冷标准。 ### 5. 网络革命:Scale-Up与开放协议 - 从Scale-Out转向Scale-Up,NVLink/PCIe/UALink/ESUN等协议成为主流。 - OCP推动开放协议生态,如ESUN、SUE-T、UALink等,实现跨XPU统一互连。 - Scale-Across技术正在发展,用于跨数据中心的负载均衡与协同。 ### 6. 全球GW级AIDC实践 - **NVIDIA**:Vera Rubin DSX参考架构落地,Kyber系列推动800V HVDC与液冷。 - **Meta**:Prometheus集群多GW级,Catalina与ORW规范引领开放设计。 - **Microsoft**:Azure AI Supercomputer,2026年实现GW级交付。 - **AMD**:Helios AI Rack适配ORW规范,推动开放计算。 - **OpenAI**:Stargate项目采用NVIDIA与AMD双供,OCP蓝图推动Scale-Across。 - **xAI**:Colossus项目快速部署,液冷与自建电网协同。 - **Oracle**:OCI Supercluster与NVIDIA合作,推动技术落地。 ### 7. 中国GW级AIDC路径 - 中国以“开放系统+国产算力+自主标准”三轨并行发展。 - “东数西算”与“双碳”政策推动数据中心建设,液冷成为核心能效标准。 - 浪潮信息推出元脑智算算力仓、SD200超节点,实现高密度与高效能。 - 国家级项目如天府智算西南算力中心,推动绿色数据中心与算电协同。 ## 关键信息 ### 技术演进阶段 - **Phase 1**:服务器即计算机(2012–2022),风冷为主,InfiniBand Scale-Out。 - **Phase 2**:整机柜即计算机(2023–2026),液冷+800V HVDC,NVLink Scale-Up。 - **Phase 3**:智算中心即计算机(2026–2030),Vera Rubin DSX参考架构,跨园区Scale-Across。 ### 技术趋势与展望 - **开放化**:OCP社区推动全栈开放,实现Chip-to-Grid协同。 - **专用化**:推理与训练分离,专用推理芯片如Groq LPX、Cerebras入场。 - **全栈协同**:供电、散热、网络需协同设计,实现高效能与低PUE。 - **Agent-First数据中心**:算力调度从“人提交任务”转向“Agent自主调度”,支持Token计费与秒级扩缩容。 ### 分布式算力中心 vs GW级AIDC - **分布式算力中心**:选址在能源富余地区,规模10–100MW,核心任务为训练与批处理。 - **GW级AIDC**:选址在枢纽节点,规模500MW–GW,核心任务为推理与实时业务。 - 二者互补,形成“主干+末梢”架构,算力跟着能源走。 ## 总结与建议 ### 1. AIDC已进入“GW级AI Factory”时代 - 训练算力增长5个数量级,单机柜功率从100kW走向1MW+,园区规模从MW走向GW。 - 不是单点优化,而是从芯片到电网的结构性变革。 ### 2. 三大物理革命同时发生 - **供电**(800V HVDC)、**散热**(两相液冷)、**网络**(Scale-Up开放协议)。 - 三者耦合,解决一个需协同其他两个。 ### 3. 开放生态是中国的核心机会 - OCP社区汇聚全球超大规模玩家,中国应以系统化设计为中心,实现追赶与超越。 - 通过开放的AI基础设施实现算力普惠,加速智能平权。 ### 4. 未来趋势:效率优先、全栈协同、Agent-First - 从规模扩张转向效率优先,实现价值重构。 - 开放协议生态推动系统化协同,支持跨园区AI Super-Factory。 - Agent-First架构成为新趋势,支持动态算力调度与Token计费。 ## 附录:关键数据 | 年份 | 全球AI训练算力需求(FLOPs) | 中国智能算力CAGR | 液冷渗透率 | PUE目标 | |------|-----------------------------|------------------|------------|---------| | 2018 | 1 | - | - | - | | 2020 | 30 | - | - | - | | 2022 | 1500 | - | - | - | | 2024 | 50000 | - | 10% | - | | 2025 | 200000 | 46.2% | 30% | 1.15 | | 2026 | 800000 | - | 70% | 1.04 | | 2027E | 3000000 | - | - | - | | 2028E | 10000000 | - | - | - | ### 全球AI支出预测(2026) | 类别 | 预计支出(美元) | 占比 | |------------------|------------------|--------| | 全球AI总支出 | 2.59万亿 | - | | AI基础设施 | 1.37万亿 | 53% | | 全球IT总支出 | 6.31万亿 | - | | AI相关投资 | 2.60万亿 | 41% | ## 结语 GW级AIDC是AI发展的重要基础设施,其建设涉及从芯片到电网的全栈协同。中国在开放生态、国产算力和自主标准方面具备优势,应抓住机遇,推动系统化设计,实现与全球领先者的同步发展。