> **来源:[研报客](https://pc.yanbaoke.cn)** # 算力、GPU、AI服务器详解总结 ## 核心内容概述 本文详细介绍了算力、GPU及AI服务器的相关概念、市场规模、技术特征、应用场景、算力单位与计算方式、主流AI芯片及其性能对比、智算中心的技术架构与产品形态等内容。同时,也探讨了不同精度的算力(如FP32、FP16、BF16等)及其对计算效率与性能的影响。 ## 算力的概念与市场规模 ### 算力定义 算力即“计算能力”,是IT设备处理数据的能力。随着国家政策如“智算中心”、“新基建”、“东数西算”等推动,算力成为当前热门话题。 ### 市场规模 - 2020-2028年中国智算市场规模:年均复合增长率(CAGR)为46.3% - 2020-2027年中国智算算力规模:年均复合增长率(CAGR)为33.9% ## 智算时代的算力特征 ### 训练算力 - 需要高计算性能和海量数据 - 集群内网络时延要求高,适合集中高密部署 - 通常部署在西部地区,如蒙贵甘宁,电力供应充足,能源成本低 ### 推理算力 - 需要低时延、高可靠性和高弹性 - 可部署在贴近用户的数据中心 - 主要集中在京津冀、长三角、大湾区等重点区域 ## 算力分类与单位 ### 算力分类 1. **基础算力**:以CPU为主,适用于通用计算 2. **智能算力**:以GPU、FPGA、ASIC等为主,侧重人工智能 3. **超算算力**:以超算(HPC)为主,用于科研、国防、高端制造等领域 ### 算力单位 - **FLOPS**:每秒浮点运算次数,如1GFLOPS=10^9次浮点运算 - **其他单位**:MIPS、DMIPS、OPS、Hash/s等 ## AI算力对应的芯片路线 | 芯片类型 | 定制化程度 | 可编辑性 | 价格 | 优点 | 缺点 | 应用场景 | |----------|------------|----------|------|------|------|----------| | GPU | 通用性强 | 强 | 高 | 通用性强,适合大规模并行运算 | 并行运算能力在推理侧无法完全发挥 | 高级且复杂算法和通用性AI平台 | | FPGA | 半定制化 | 强 | 中 | 灵活配置,平均性能高,功耗低 | 量产单价高,编程门槛高 | 各种具体行业应用 | | ASIC | 全定制化 | 弱 | 低 | 极致性能和能效,成本最低 | 前期投入成本高,研发周期长 | 特殊且专用领域 | | 类脑芯片 | 模拟人脑 | 强 | NA | 低功耗、通信效率高、认知能力强 | 技术成熟度差 | 实时高效解决复杂问题 | ## GPU算力的典型业务场景 ### 大型模型训练 - 需要高性能GPU,如英伟达H800,单卡700W,单台服务器11kW - 举例:OpenAI采购三万多张英伟达顶级GPU,总价值30亿人民币 ### 高性能计算(HPC) - CPU+GPU是HPC的基础,CPU负责逻辑控制和串行运算,GPU负责大规模并发计算 ### AI推理 - 需求低时延、高性价比、低功耗 - 常见GPU如英伟达T4,单卡70W,单台服务器1kW ### 图形渲染 - 需要高显存和高带宽,如广电媒资、游戏开发、AR/VR等 ### 云游戏 - 高性能GPU如GeForce系列,也常用于企业级应用 ## 算力规模的统计标准 信通院发布的《中国算力发展智算白皮书》明确了算力规模的统计方式: - **基础算力**:以FP32为标准 - **智能算力**:以FP16为标准 - **超算算力**:以FP64为标准 - 常见的统计方式为统一折算为FP32 ## 主流AI芯片的算力情况(含国产) | GPU型号 | 单卡算力 FP16稠密 | 显存 | 显存带宽 | TDP | 适用场景 | |----------------|-------------------|------|----------|-----|----------| | NVIDIA H100/800 SXM | 约1P | 80GB | 3.35TB/s | 700W | 训练、推理 | | NVIDIA A100/800 SXM | 312T | 80GB | 2TB/s | 400W | 训练、推理 | | NVIDIA RTX 4090 | 330T | 24GB | 1TB/s | 450W | 推理、渲染 | | NVIDIA H20 SXM | 148T | 96GB | 4TB/s | 400W | 训练、推理 | | NVIDIA L40 | 119.5T | 48GB | 864GB/s | 275W | 推理 | | 华为昇腾910B | 376T | 64GB | 1.6TB/s | 400W | 推理 | | 天数 天垓150 | 190T | 64GB | 1.6TB/s | 350W | 训练、推理 | | 太初 元甚 T100 | 240T | 64GB | 1.8TB/s | 300W | 训练、推理 | | 沐曦 曦云C500 OAM | 240T | 64GB | 1.8TB/s | 350W | 训练、推理 | | 摩尔显存 S4000 OAM | 800T | 48GB | 768GB/s | 450W | 推理 | | 燧原 云燧T21 OAM | 100T | 32GB | 1.6TB/s | 300W | 推理 | | 昆仑芯 P800 | 128T | 96GB | 1.8TB/s | 300W | 推理 | ## GPU算力的计算方式 ### GPU峰值算力公式 $$ \text{Peak FLOPS} = F_{clk} * N_{SM} * T_{ins} * 2 $$ 其中: - $F_{clk}$:GPU运行频率(单位:GHz) - $N_{SM}$:GPU SM数量 - $T_{ins}$:单个SM一个时钟周期内特定数据类型的指令吞吐量(单位:FLOPS/Cycle) ### NVIDIA A100算力示例 - **FP16**:312 TFLOPS - **FP64**:32 TFLOPS - **FP64 Tensor Core**:64 TFLOPS - **FP32**:64 TFLOPS - **TF32**:512 TFLOPS - **BF16**:1024 TFLOPS - **FP16 Tensor Core**:1024 TFLOPS - **TF32 Tensor Core**:989 TFLOPS ## GPU服务器与标准服务器的区别 ### 主流GPU服务器分类 1. **PCIE机型**:GPU通过PCIE链路通信,带宽受限,适合小规模应用 2. **NvLink机型**:GPU之间通过NvLink互联,带宽高,适合大规模训练 ### NvLink与PCIE带宽对比 | 类型 | GPU型号 | 双向互联带宽 | |------------|---------|--------------| | PCIE互联 | A100 | 128GB/s | | PCIE互联 | H100 | 256GB/s | | NvLink互联 | A100 | 600GB/s | | NvLink互联 | H100 | 900GB/s | ### NvLink机型产品特点 - **HGX模组**:NvLink机型的核心,支持多GPU互联,带宽可达900GB/s - **模块化设计**:便于维护,如超聚变G8600 V7采用模块化设计,各部分可单独维护 - **灵活扩展**:支持最多10个全高四宽加速卡,带宽可达7.2TB/s ## 智算中心技术架构与产品类型 ### 行业应用层 - 自然语言处理 - 图像识别 - 多模态 - 语音处理 - 视频处理 - 智慧医疗 - 智能制造 - 金融科技 - 智慧城市 - 电子商务 - 教育科技 - 农业智慧化 - 智慧交通 ### 算力服务 - 提供计算资源,支持按需使用和弹性扩展 ### 数据服务 - 数据存储、处理、分析等 ### 算法服务 - 提供深度学习框架(如TensorFlow、PyTorch、PaddlePaddle) - 模型训练、评估、优化、部署等 ### 平台管理层 - 支持虚拟化、容器化、算力池化 - 包括并行文件系统、分布式存储、集群管理等 ### 基础设施层 - AI推理服务器、AI训练服务器 - 支持信创与非信创 - 高吞吐量、智能管理、网络虚拟化、液冷技术等 ## NVIDIA A100服务器规格 | 规格 | 描述 | |--------------|------| | GPU数量 | 8x NVIDIA A100 | | 显存 | 320GB | | 峰值性能 | 5 petaFLOPS AI | | NVLink带宽 | 600GB/s | | PCIe带宽 | 128GB/s | | CPU | 2颗第四代/第五代英特尔®至强®可扩展处理器 | | 内存 | 1TB | | 显存带宽 | 3.35TB/s | | 电源 | 支持2+2或3+1冗余 | | 产品形态 | 6U机架式 | | 互联方式 | NVLink直连 | ## 产品亮点 - **高效互联**:采用NVLink直连,提高数据交互效率 - **极致扩展**:支持20个PCIe 5.0扩展插槽,最多支持10个全高四宽加速卡 - **模块化设计**:便于维护和升级 ## 主流GPU服务器分类 ### NvLink机型 - **HGX模组**:支持多GPU互联,带宽高 - **超聚变G8600 V7**:模块化设计,支持8x2.5英寸硬盘 ### PCIE机型 - **R8628 G13**:支持10张全高四宽GPU,提供最高600W功率 ## 算力服务与行业应用 ### 行业应用层 - 提供各类AI服务,如自然语言处理、图像识别、多模态、语音、视频等 ### 算力服务 - 支持按需使用和弹性扩展 ### 数据服务 - 数据存储、处理、分析等 ### 算法服务 - 提供模型训练、评估、优化、部署等服务 ## 安全与绿色低碳 - **绿色低碳**:采用液冷、微模块机房、绿色供电等技术 - **安全**:确保算力基础设施的安全性 ## 总结 本文全面解析了算力、GPU及AI服务器的核心概念、市场规模、技术特征、应用场景、算力单位与计算方式、主流AI芯片及其性能对比、智算中心的技术架构与产品形态等内容,为理解AI算力的发展提供了详尽的参考资料。