> **来源:[研报客](https://pc.yanbaoke.cn)** # RDMA Telemetry 技术白皮书总结 ## 核心内容概述 RDMA(Remote Direct Memory Access)是一种高速网络互联技术,其设计目标是减少数据传输过程中的处理延迟和 CPU 资源消耗。随着 RDMA 技术的发展,特别是 RoCEv2 的出现,它在通用以太网上实现了 RDMA 的广泛应用,成为智算中心构建高性能计算的重要基础。 RDMA Telemetry 技术是为了满足 RoCEv2 网络的高精度、实时性需求而诞生的网络质量监控技术,旨在实现对 RDMA 网络的全面可视化监控,提升智算中心的网络运维效率和稳定性。 --- ## 主要观点 ### 1. RDMA 技术发展历程 - **InfiniBand 时代**:RDMA 技术最初由 InfiniBand Trade Association 提出,具备极低延迟(<1μs)、高吞吐(40Gbps+)和无损网络特性,但因依赖专用设备,难以大规模部署。 - **RoCEv2 的出现**:解决了 InfiniBand 的封闭性问题,支持跨子网路由和 ECN 等机制,成为现代数据中心的主流 RDMA 协议,具备高性能与良好兼容性。 ### 2. RDMA 与智算中心融合 - 智算中心通常由计算层(GPU 服务器)、网络层(高性能交换机)和存储层(分布式存储)组成。 - RoCEv2 在智算中心中主要用于: - **计算平面通信**:GPU 间同步(如梯度、参数交换),实现微秒级通信。 - **存储平面访问**:NVMe over Fabrics over RoCEv2,实现 GPU 与存储的低延迟数据读写。 ### 3. RDMA 网络质量监控需求与挑战 - 传统网络监控技术(如 SNMP)无法满足 RoCEv2 的微秒级监控需求,存在以下问题: - **精度不足**:采样间隔通常在毫秒级,无法捕捉微秒级延迟变化。 - **检测粗糙**:丢包检测依赖软件计数器,无法精确定位。 - **实时性差**:被动轮询方式存在监控盲区,难以实时感知网络问题。 ### 4. RDMA Telemetry 技术的诞生 - RDMA Telemetry 专为 RoCEv2 网络设计,提供以下两大核心功能: - **I/O 质量可视**:测量 GPU 与存储之间的 I/O 读写时延。 - **吞吐量可视**:测量 GPU 之间的写操作吞吐量与丢包情况。 - 通过端到端、分段式实时监控,为高性能数据中心网络提供全面的可视化解决方案。 --- ## 关键信息 ### 1. RDMA Telemetry 技术优点 - **精准的故障定位能力**:将存储路径划分为三段(计算侧、网络路径、存储侧)进行独立监控。 - **实时性能监控**:基于硬件级计数器,支持微秒级测量精度,无采样延迟。 - **智能化运维支持**:支持自定义告警、异常事件标注、历史数据分析与趋势预测。 - **广泛场景适应性**:适配 AI 训练、分布式存储、金融交易等多种场景。 ### 2. I/O 质量可视功能 - **测量对象**:NVMe over Fabrics over RoCEv2 的 I/O 读写操作。 - **分段测量**: - **计算侧**:计算节点到交换机的时延(IOL1)。 - **网络路径**:交换机之间的时延(RTT)。 - **存储侧**:存储节点到交换机的时延(IOL2)。 - **测量指标**: - **DPL**:计算侧数据准备时延,用于评估数据准备效率。 - **RTT**:网络往返时延,用于衡量网络性能。 - **DAL**:存储侧数据访问时延,用于评估存储处理效率。 - **读写操作交互流程**: - **读操作**:GPU 发起请求,存储服务器响应并写入数据,最终完成确认。 - **写操作**:GPU 发起写请求,存储服务器拉取数据并持久化,最终完成确认。 ### 3. 吞吐量可视功能 - **测量对象**:GPU 之间的 RDMA Write 流量,用于梯度同步等关键通信。 - **测量策略**: - **全量监控模式**:持续监控所有 RoCEv2 流量,适用于资源充足的场景。 - **轮询监控模式**:按周期对部分接口进行监控,适用于大规模部署。 - **核心指标**: - **FCT(Flow Completion Time)**:流完成时间,反映通信延迟。 - **FET(Flow Effective Throughput)**:流有效吞吐率,反映带宽利用率。 - **FNR(Flow NAK Rate)**:流重传率,反映网络可靠性。 - **运行机制**: - 设备识别 RoCEv2 报文,记录首包和末包时间戳。 - 统计 NAK 重传报文,区分有效与无效吞吐。 - 通过 gRPC 上报数据至分析器,实现可视化展示。 ### 4. RDMA Telemetry 可视化 - 与 SeerAnalyzer-DC 配合,实现 RDMA 测量数据的可视化展示。 - 支持: - 按主机 IP 或存储 IP 展示 I/O 时延、数据准备时延、数据访问时延等。 - 查看 I/O 详情和拓扑图,分析时延趋势和网络性能瓶颈。 --- ## 典型组网应用 ### 1. AI 训练存储网络 I/O 质量监测 - **应用场景**:GPU 服务器与存储服务器之间的 I/O 读写操作。 - **测量价值**: - 快速定位 I/O 性能问题,区分计算、网络、存储各环节责任。 - 提升跨团队协作效率,提供统一的性能视图和量化数据。 - 指导基础设施优化,如 CPU/内存扩容、QoS 调整、缓存策略改进。 ### 2. AI 训练计算平面梯度同步性能优化 - **应用场景**:GPU 之间的 RDMA 写操作,用于 All-Reduce 等集合通信。 - **测量价值**: - 实现微秒级时延监控,保障训练效率。 - 快速定位网络拥塞或 GPU 计算瓶颈,优化通信性能。 --- ## 总结 RDMA Telemetry 技术通过提供高精度、实时的网络性能监控,解决了传统网络监控技术在 RoCEv2 网络中的不足。它不仅实现了对 I/O 操作和吞吐量的分段式测量,还支持智能化的运维分析和可视化展示,为 AI 训练等高性能计算场景提供了可靠的网络质量保障。该技术在智算中心中具有重要的应用价值,能够显著提升计算效率和资源利用率。