> **来源:[研报客](https://pc.yanbaoke.cn)** # AI/ML 数据中心网络验证总结 ## 核心内容 AI 和机器学习工作负载正在深刻改变数据中心的设计和运营方式。随着模型训练规模的扩大,数据中心需要部署大量 GPU 和 xPU,并通过高速互连网络实现高效的数据处理与同步。网络已成为 AI 基础设施的关键性能组件,直接影响训练效率和系统稳定性。为了确保网络在 AI 环境中的可靠运行,需要专门的测试方法和工具。 ## 主要观点 - **AI 工作负载特性**:AI 训练涉及大量并行计算,依赖特定的通信模式,如 AllReduce、AlltoAll、RingAllReduce 和 Halving Doubling,这些模式对网络性能提出了高要求。 - **网络性能需求**:AI 工作负载需要低延迟、高吞吐量和无损通信,任何数据包丢失或延迟都可能导致训练中断。 - **关键网络协议**:RoCEv2 是基于融合以太网的 RDMA 协议,支持跨大规模网络的高效数据传输,其拥塞控制机制依赖 DCQCN 和 PFC。 - **拥塞控制机制**:DCQCN 和 PFC 是保障 RoCEv2 网络性能的核心机制。DCQCN 通过动态调整传输速率防止拥塞,而 PFC 在数据链路层防止数据包丢失。 - **测试挑战**:AI 流量模式与传统流量差异显著,需要专门的测试策略以模拟同步数据爆发、东西向流量和拥塞管理配置问题。 - **解决方案**:VIAVI 的 TestCenter 测试平台支持 AI 流量模式的模拟,包括 RoCEv2 和 CCL 操作,可进行高密度、多速率的性能测试,并提供详细的分析报告和交互式仪表板。 ## 关键信息 ### AI 流量模式与集合通信库 (CCL) AI 训练依赖于特定的通信模式,如: - **RingAllReduce**:设备按环形排列,通过 ReduceScatter 和 AllGather 阶段实现梯度同步,具有低延迟和高带宽特性。 - **AlltoAll**:每个节点与其他节点交换数据,适用于大规模并行计算。NVIDIA NCCL 2.12 引入 PXN 优化消息路径。 - **双二叉树**:一种高效的通信拓扑结构,提供满带宽和对数级延迟,适用于大规模训练。 - **Halving Doubling**:结合 ReduceScatter 和 AllGather 的递归算法,用于优化数据同步过程。 ### RoCEv2 协议与拥塞控制 - **RoCEv2**:基于融合以太网的 RDMA 协议,支持跨三层网络的路由,降低 CPU 开销,提升传输效率。 - **DCQCN**:一种动态拥塞控制算法,通过 CNP 数据包进行拥塞通知,调整传输速率以防止网络拥塞。 - **PFC**:优先级流量控制,用于在第二层防止数据包丢失,通过暂停特定优先级的数据流来缓解缓冲区溢出。 ### AI 测试挑战 - **同步数据爆发**:AI 工作负载在训练期间会产生大量同步数据,可能造成网络缓冲区压力。 - **东西向流量主导**:AI 集群中 GPU 之间的数据交换占主导地位,对交换结构提出更高要求。 - **拥塞管理配置不当**:可能导致数据包丢失、训练延迟或网络利用率低下。 - **QoS 配置错误**:如 VLAN 标记错误或队列映射不当,会影响网络性能并增加故障排查难度。 - **复杂根因定位**:AI 工作负载的规模和依赖性使得问题排查涉及多个组件和网络层。 ### TestCenter 测试解决方案 - **支持 RoCEv2 和 CCL 模式**:TestCenter 可模拟多种 AI 流量模式,包括 AlltoAll、RingAllReduce 等。 - **高密度与多速率测试**:A1 系列支持 400G 端口,B3 系列支持 800G 端口,适用于大规模 AI 集群测试。 - **自动化与集成**:TestCenter 提供自动化测试框架,支持持续集成(CI/CD)工作流,帮助优化网络配置。 - **高级分析功能**:提供可操作的统计数据,如数据包丢失、尾部延迟、作业完成时间 (JCT) 等,帮助识别网络瓶颈和性能问题。 ## 测试指标与问题分析 | 观测到的问题 | 可能的原因 | 测试洞察 | |--------------|------------|----------| | 高峰负载期间的数据包丢失 | PFC 阈值配置错误或交换机缓冲器溢出 | 查明受影响的 QP 或交换机端口,并确定丢失开始时的负载级别 | | 训练中的长尾部延迟 | 流路径不平衡或资源争用 | 揭示哪些链路或流被延迟,并将其与拓扑和配置相关联 | | 高 JCT 方差 | 不一致的 ECN/CNP 响应或队列堆积 | 比较负载下的算法性能,跟踪 JCT 变化及性能下降的迭代轮次 | | 无速率下降的拥塞 | ECMP 算法或网络拓扑需要优化 | 验证 STC 是否在拥塞期间降低流量速率 | ## 结论 AI/ML 数据中心网络验证是确保大规模训练和推理任务顺利进行的关键环节。网络需要支持低延迟、高吞吐量和无损通信,同时具备高效的拥塞控制机制。通过模拟 AI 流量模式、使用自动化测试工具如 VIAVI 的 TestCenter 平台,组织可以提前识别网络瓶颈,优化配置,并确保 AI 基础设施的可靠性和扩展性。 ## 参考文献 - [参考文献1](https://www.thefastmode.com/expert-opinion/39865-how-ai-changes-the-game-for-high-speed-ethernet) - [参考文献2](https://developer.nvidia.com/nccl) - [参考文献3](https://andrew.gibiansky.com/blog/machine-learning/baidu-allreduce/) - [参考文献4](https://github.com/nvidia/nccl-tests) - [参考文献5](https://developer.nvidia.com/blog/doubling-all2all-performance-with-nvidia-collective-communication-library-2-12/) - [参考文献6](https://developer.nvidia.com/blog/massively-scale-deep-learning-training-nccl-2-4/) - [参考文献7](https://www.springer.com/gp/book/10.1007/978-3-540-24664-5_14) - [参考文献8](https://en.wikipedia.org/wiki/RDMA_over_Converged_Ethernet) - [参考文献9](https://medium.com/@ravikishorechitakani/optimizing-ai-ml-and-hpc-workloads-exploring-rdma-rocev2-for-high-performance-data-center-8d130cda74ae) - [参考文献10](https://medium.com/@ravikishorechitakani/optimizing-ai-ml-and-hpc-workloads-exploring-rdma-rocev2-for-high-performance-data-center-8d130cda74ae)