> **来源:[研报客](https://pc.yanbaoke.cn)** # 守护 AI 数据:GPU 如何重塑格局 总结 ## 核心内容 本白皮书探讨了GPU在AI数据存储架构中的关键作用,特别是通过**SupremeRAID™ 2.0**与**InnoGrit N3X SLC NVMe SSD**的结合,如何突破传统RAID在性能与数据保护之间的权衡,为大规模并行AI工作负载提供更高效、更稳定的存储解决方案。 ## 主要观点 - **AI工作负载特点**:AI训练、推理和数据准备过程对存储系统有极高的并行性、随机性与突发性需求,传统存储控制器难以满足。 - **奇偶校验RAID的挑战**:RAID5/6在高强度随机写入和降级模式下性能下降显著,成为AI部署中的瓶颈。 - **GPU卸载技术的突破**:SupremeRAID™ 2.0利用NVIDIA RTX 2000E Ada GPU处理RAID计算,显著提升性能并降低CPU负担。 - **性能与效率提升**:SupremeRAID™ 2.0在4K和1M随机读写场景中展现出远超传统Linux MD的性能表现,尤其在降级模式下仍能保持稳定吞吐能力。 - **高能效设计**:采用仅50W功耗的NVIDIA RTX 2000E Ada GPU,结合SLC NVMe SSD,实现高密度、低延迟、高吞吐的存储架构。 ## 关键信息 ### 硬件配置 - **RAID控制器**:SupremeRAID™ Ultra,搭载NVIDIA RTX 2000E Ada GPU(50W功耗,单插槽设计) - **存储介质**:24块InnoGrit N3X SLC NVMe SSD,基于KIOXIA XL-flash™技术,提供低延迟与确定性性能 - **测试平台**:双路AMD EPYC 9755 128核处理器,32GB DDR5-6400 RDIMM × 24,Ubuntu 24.04.2 LTS操作系统,fio-3.40作为基准测试工具 ### 性能对比(单位:IOPS/GB/s) | 工作负载 | Linux MD | SupremeRAID™ 2.0 | 提升倍数 | |----------|----------|------------------|----------| | **4K随机读取(RAID5最佳)** | 28.6M | 36.2M | +26% | | **4K随机读取(RAID5降级)** | 0.163M | 12.6M | 77x | | **4K随机写入(RAID5最佳)** | 0.223M | 6.477M | 29x | | **4K随机写入(RAID5降级)** | 0.246M | 6.466M | 26x | | **1M随机读取(RAID5最佳)** | 323GB/s | 322GB/s | - | | **1M随机读取(RAID5降级)** | 12.9GB/s | 210GB/s | 16x | | **1M随机写入(RAID5最佳)** | 14.8GB/s | 242GB/s | 16x | | **1M随机写入(RAID5降级)** | 14.2GB/s | 218GB/s | 15x | ### CPU效率分析 - **4K随机读取**: - Linux MD:CPU使用率100%,标准化成本3.50% - SupremeRAID™:CPU使用率26.88%,标准化成本0.74%,效率提升4.7x - **1M随机读取**: - Linux MD:CPU使用率76.06%,标准化成本2.35% - SupremeRAID™:CPU使用率3.04%,标准化成本0.09%,效率提升26x - **4K随机写入**: - Linux MD:CPU使用率17.23%,标准化成本77.26% - SupremeRAID™:CPU使用率12.09%,标准化成本1.87%,效率提升41x - **1M随机写入**: - Linux MD:CPU使用率49.20%,标准化成本33.24% - SupremeRAID™:CPU使用率7.60%,标准化成本0.31%,效率提升107x ### 降级模式表现 - **RAID5降级**: - Linux MD在4K随机读取中仅达到163k IOPS,SupremeRAID™达到12.6M IOPS,性能提升77倍 - Linux MD在1M随机写入中仅达到13.3GiB/s,SupremeRAID™达到203GiB/s,性能提升15倍 - **RAID6降级**: - Linux MD在4K随机读取中仅达到186k IOPS,SupremeRAID™达到12.6M IOPS,性能提升67倍 - Linux MD在1M随机写入中仅达到14.7GiB/s,SupremeRAID™达到197GiB/s,性能提升13倍 ## 结论 SupremeRAID™ 2.0通过将RAID计算任务卸载至GPU,显著提升了AI工作负载下的存储性能与系统稳定性。其在降级模式下仍能维持高吞吐量,避免了传统软件RAID在故障时性能骤降的问题。结合InnoGrit N3X SLC NVMe SSD,该方案不仅提高了数据保护能力,还释放了主机CPU资源,为AI训练、推理和数据准备等任务提供了更高效的底层支持。 ## 附录要点 - **测试命令**:提供了创建RAID组、标记设备为离线、运行FIO测试的详细指令。 - **基准测试配置**:定义了测试参数,包括I/O引擎、块大小、线程数等,以确保测试结果的可重复性。 - **免责声明**:性能结果受系统配置和工作负载影响,需在特定条件下参考。 ## 技术背景 - **Graid Technology**:由硅谷和台湾团队共同研发,专注于存储解决方案的创新,其SupremeRAID™技术通过GPU实现RAID计算卸载,突破传统性能瓶颈。 - **技术优势**: - 高效GPU加速RAID运算 - 低功耗设计(50W) - 支持RAID5/6,兼顾数据保护与性能 - 优化I/O路径,提升吞吐与延迟表现 - 在降级模式下保持稳定性能输出 该方案为AI基础设施提供了全新的存储架构,使数据采集、元数据操作、模型训练等关键环节更加高效可靠,是下一代AI存储节点的理想选择。