> **来源:[研报客](https://pc.yanbaoke.cn)** # 华为384超节点测试验收白皮书总结 ## 核心内容 华为昇腾384超节点是专为大模型时代设计的高性能AI算力基础设施,基于Atlas900A3SuperPoD构建,通过高速互联技术与模块化设计,实现了大规模模型训练与推理任务的高效支持。该系统具备大带宽、低时延、内存统一编址三大核心能力,能够显著提升分布式训练效率、降低通信瓶颈,并增强系统可扩展性与稳定性。 ## 主要观点 - 升腾384超节点通过灵衢总线与全光互联技术,实现384张910C智算卡的紧密耦合,形成大型算力单元。 - 该系统采用8U机框结构,支持19英寸机柜安装,具备高集成密度和易维护特性。 - 升腾384超节点搭载鲲鹏920系列处理器,支持超线程和DDR5 5200内存,提升整体计算与存储性能。 - 通过与openEuler操作系统、昇腾AI软硬件栈的深度集成,实现了系统级统一编址与高效调度。 - 验收测试覆盖芯片基础性能、模型训练、模型推理、文生图推理等多个维度,确保系统在实际应用中的可靠性与扩展性。 ## 关键信息 ### 架构创新 - **硬件构成**:基于Atlas900A3SuperPoD,集成CPU抽屉、NPU抽屉、灵衢总线板、IO框等。 - **互联技术**:内部采用灵衢总线和全光互联,支持NPU对等互联;跨节点采用400Gbps/NPU RoCE等高带宽通信方案。 - **系统统一编址**:实现不同NPU间统一内存访问模型,降低分布式编程复杂度。 ### 测试方法与体系 - **芯片基础性能测试**:包括D2H/H2D、P2P、FP16算力、ROCE、集合通信、CPU/存储基准等。 - **多机模型训练测试**:基于Qwen3-30B模型,采用数据并行与模型并行混合策略,验证分布式训练效率。 - **单机与多机推理测试**:使用Qwen3-235B、DeepSeek等主流模型,通过MindIE或vLLM框架实现多机协同推理。 - **文生图推理测试**:基于Qwen-Image模型,验证图像生成质量与系统稳定性。 ### 测试指标 - **带宽/时延**:卡内/卡间/跨节点P2P带宽(GB/s)、集合通信延时(ms)。 - **可靠性与能效**:NPU/机箱功耗(W)。 - **计算性能**:FP16浮点算力、Tokens/s、首Token时延(TTFT)、单Token生成时延(TPOT)等。 ### 测试环境 - 采用4台和8台Atlas900A3SuperPoD计算节点,通过灵衢总线或光纤实现全互联。 - 支持NFS-Turbo、HPFS共享存储,或本地NVMe存储。 ### 测试成果 - 在8机规模下,训练过程稳定,通信无明显瓶颈,验证了超节点在大规模模型训练中的可行性。 - DeepSeek 671B模型在优化后,单卡吞吐性能提升2.5~4.3倍,TTFT为1.28s,TPOT为50ms,较业界最佳性能提升9.2%。 - 通过系统级优化,实现了芯片、存储、网络等多维度性能的最优表现。 ## 应用价值 ### 大模型训练 - 通过高效通信机制,降低大规模并行训练中的通信开销,提升训练与微调效率。 - 支持更大参数规模与更高计算复杂度的模型训练需求,加快模型迭代周期。 ### 大模型推理 - 提供高并发、低时延的推理服务,支撑在线推理场景。 - 统一算力调度能力,提升推理效率并减少系统资源浪费。 ### 系统稳定性 - 系统级架构设计降低跨节点通信复杂度,提升整体运行稳定性与可维护性。 - 为长时间运行的大模型训练任务和持续在线推理服务提供可靠保障。 ## 应用场景 昇腾384超节点适用于数字政府、互联网、运营商、金融等行业的大模型训练与推理场景,支持从传统业务到新型大数据、人工智能等创新应用的全面需求。 ## 合作方介绍 - **龙岗数据**:深圳市龙岗区数据有限公司,成立于2024年12月31日,注册资本10亿元,是龙岗区首个国有全资大数据企业,提供信息系统集成、数据处理、大数据服务等。 - **中国电信**:深圳分公司是全国最大的地市级分公司之一,用户规模超1400万户,年收入约150亿元,推动数字信息基础设施建设。 - **华为**:全球领先的ICT基础设施和智能终端提供商,致力于构建万物互联的智能世界,提供多样化的算力与AI解决方案。 ## 结论与展望 本次测试成功验证了昇腾384超节点在大规模模型训练与推理场景下的性能表现,为深圳首个商用落地案例提供了坚实基础。未来,将进一步优化混合精度训练策略、分层存储体系设计,以及与数据平台和模型工具链的协同,以提升系统在实际应用中的成本效率与工程易用性。