> **来源:[研报客](https://pc.yanbaoke.cn)** # 先进计算产业发展联盟技术分享总结 ## 核心内容概述 本报告围绕**GW-Scale Open AIDC(吉瓦级开放智算中心)**展开,探讨了AI算力需求爆发背景下,超大规模智算中心的技术演进、核心挑战与未来趋势。重点分析了从“GPU服务器堆叠”到“GW级AI Factory”的三阶段发展路径,以及供电、散热、网络等关键技术的变革。同时,报告强调了中国在开放生态、国产算力和自主标准方面的战略布局,并展望了未来3-5年AIDC的发展方向。 --- ## 主要观点与关键信息 ### 1. AI算力需求的指数级增长 - **AI模型参数**从亿级增长到万亿级,**数据中心规模**从MW走向GW。 - **算力需求**在2018-2028年间增长超过5个数量级,预计2028年达到10,000亿FLOPs。 - **中国智能算力CAGR**为46.2%,占全球29%(仅次于美国34%)。 ### 2. GW级AIDC的“五道墙”挑战 - **算力墙**:单芯片FLOPs增速放缓,需Chiplet、3D封装、异构计算。 - **内存墙**:万亿参数模型带来KV-Cache压力,需CXL扩展、Context Memory Storage。 - **能耗墙**:单机柜功率密度提升至1MW+,需800V HVDC、源网荷储一体化。 - **散热墙**:单芯片TDP突破3000W,需两相液冷、冷板、UQD等技术。 - **互连墙**:Scale-Up与Scale-Out并行,需开放协议如ESUN、SUE-T、UALink。 ### 3. 破局之道:以系统设计为中心 - **传统范式**依赖单点优化,而**新范式**强调**协同设计**。 - **开放生态**是解决GW级AIDC挑战的关键,涵盖芯片、整机柜、供电、散热、网络、设施等全栈协同。 ### 4. 供电革命:800V HVDC成为新标配 - **800V HVDC**能降低母线电流,提升整体效率(92-95%),是未来GW级AIDC的供电标准。 - **BBU(电池备份单元)**逐步取代UPS,实现分布式、直流微电网供电。 - **算电协同**成为战略重点,如“东数西算”工程、绿电利用、算力REITs融资模式。 ### 5. 散热革命:液冷技术全面普及 - **液冷渗透率**预计从2026年的30%跃升至70%,两相液冷是GW级AIDC的必然选择。 - **液冷三代技术**:冷板式(≤132kW)、单相浸没(≤200kW)、两相浸没(MW级)。 - **PUE**可降至1.04,单芯片解热能力≥3000W。 ### 6. 网络革命:Scale-Up与开放协议 - **Scale-Up**成为AI性能的新前沿,强调**内存语义互连**。 - **开放协议**包括PCIe、ESUN、SUE-T、UALink,以实现跨机柜、跨园区的高效互连。 - **Scale-Out**和**Scale-Across**技术同步发展,支持大规模数据并行与跨域负载平衡。 ### 7. OCP开放系统蓝图 - **OCP中国社区**推动GW级AIDC标准化,形成**Open Rack Wide (ORW)**、**MGX**、**Catalina**、**Mt Diablo**等开放规范。 - **FCSA(Foundation Chiplet System Architecture)**实现Chiplet互通,支持自动驾驶与边缘计算。 - **OCP 2026.04交付**涵盖:Next-Gen ML Infra Design Principles、LVDC规范、BBU、ESUN、UALink等。 ### 8. 全球GW级AIDC实践 - **NVIDIA**:Vera Rubin DSX参考架构落地,Kyber NVL576与Feynman 2028展望。 - **Meta**:Prometheus多GW集群,Catalina+ORW,NSF网络架构。 - **Microsoft**:Azure AI Supercomputer,首家上线NVL72,GPT-4成本下降93%。 - **xAI**:Colossus项目,200K H100→1.2M GPU,建设周期快,液冷应用广泛。 - **AMD**:Helios AI Rack,适配ORW规范,推动UALink与Pensando网络。 - **OpenAI**:Stargate项目,NVIDIA+AMD双供,OCP自有蓝图(Scale-Across)。 ### 9. 中国GW级AIDC路径 - **政策驱动**:东数西算、双碳、OCP中国社区,推动开放生态。 - **关键指标**: - 2025年中国智能算力规模预计1037 EFlops - 国产AI芯片供应占比2024年为30%,2025年受出口管制影响持续提升。 - **浪潮信息实践**:元脑智算算力仓、SD200超节点、800V HVDC供电、原生液冷架构。 - **天府智算中心**:成渝算力枢纽,入选2025年先进计算案例,整体节能25%+,节省用地60%。 - **超节点创新联合体**:由北京市科委牵头,推动开放互连协议、统一算力底座与多场景应用部署。 ### 10. 演进趋势与展望 - **三大方向**:开放化、专用化(推理 vs 训练)、全栈协同(Chip-to-Grid)。 - **六大趋势**: - 整机柜→AI Factory - 800V HVDC全面铺开 - 两相液冷+CDU标准化 - Scale-Up开放化 - 推理时代崛起(Token经济) - 源网荷储一体化 - **Agent-First Datacenter**:从“人提交任务”转向“Agent自主调度算力”,实现弹性、定价、调度与安全。 - **算力REITs**:成为GW级AIDC融资新模式,润泽科技张家口智算中心已获深交所受理。 - **全球AI投资热潮**:Gartner预测2026年全球AI支出达2.59万亿美元,其中AI基础设施占53%(1.37万亿美元)。 --- ## 总结与建议 1. **AIDC进入GW级AI Factory时代**:从芯片到电网的结构性变革,推动算力与电力协同。 2. **三大物理革命同步发生**:供电(800V HVDC)、散热(两相液冷)、网络(Scale-Up开放协议)。 3. **开放生态是中国核心机会**:OCP中国社区推动标准化与协同设计,助力中国在GW级AIDC领域实现追赶与超越。 4. **分布式算力中心与GW级AIDC互补共生**:前者服务于能源富余地区,后者聚焦高密度、高效率的AI工厂。 5. **算力跟着能源走**:训练向低电价地区集中,推理向城市边缘下沉,形成“主干+末梢”的协同网络。 --- ## 关键信号 - **NVIDIA**:2027年数据中心订单指引达1万亿美元,GB200/NVL72已量产。 - **阿里云**:新建数据中心100%液冷,2024年冷板单价下降40%。 - **Meta**:贡献ORW规范,推动NSF网络架构。 - **沙特PIF**:追加50亿美元投资中国西部智算,推动中国方案输出。 - **Gartner预测**:2026年全球AI支出达2.59万亿美元,AI基础设施占比53%。 --- ## 未来展望 - **技术融合**:800V HVDC、两相液冷、开放Scale-Up协议成为GW级AIDC的三大支柱。 - **政策与市场**:算电协同、绿色数据中心、REITs退出机制推动行业可持续发展。 - **生态建设**:中国需加快构建开放系统生态,推动国产算力与标准的国际化应用。