> **来源:[研报客](https://pc.yanbaoke.cn)** # 算力、GPU、AI服务器详解 # 算力的概念和市场规模 # 一、什么是算力 算力顾名思义是“计算能力”的缩写,指的是IT设备的计算能力,在以“智算中心”“新基建”、“数字经济”以及“东数西算”等国家政策导向驱动下,“算力”相关话题近两年热度非常高,大家对算力的关注度也持续攀升。 # 二、算力的规模情况 GAGR=46.3% 2020-2028年中国智算市场规模 数据来源:艾瑞咨询数据研究院 GAGR=33.9% 2020-2027年中国智算算力规模 来源:IDC《2023-2024年中国人工智能计算力发展评估报告》 # 智算时代的算力特征 # 智算特征—训练算力集中高密部署,推理算力贴近客户快速交互 □ 训练:需要较高计算性能及海量数据,集群内网络时延性能要求高,需要集中高密部署;耗电量大,无需靠近最终用户,电力供应充足、能源成本低的蒙贵甘宁等西部区域数据中心有一定优势 □推理:需要低时延、高弹性的计算,需要与模型实时交互,可部署在贴近用户的数据中心,当前主要集中在训推一体的京津冀、长三角、大湾区等重点区域 # 训练过程 是指通过大数据训练出一个复杂的神经网络模型,训练过程需要较高的计算性能、需要海量的数据、训练出的网络具有一定通用性。 # 需求特点 - 需要低时延、零丢包、大带宽的高性能网络,集中高密部署,每个算力集群建议控制在50m以内 - 芯片类型:GPU为主 - 英伟达:H800,单卡700W,单台服务器11kW 华为:昇腾910B,单卡392W,单台服务器5.2kW 单机柜功耗:10~60kW # 推理过程 又称判断过程,是指利用训练好的模型,使用新数据推理出各种结论。 # 需求特点 - 需要低时延、高可靠性和高弹性的计算,需要与模型实时交互,贴近用户部署 - 芯片类型:GPU与ASIC/FPGA/NPU均可 - 英伟达:T4,单卡70W,单台服务器1kW 华为:昇腾Atlas300iPro,单卡72W,单台服务器800W 单机柜功耗:6~10kW # 算力的分类和单位 # 算力分类 1、基础算力:以CPU的计算能力为主。适用于各个领域的计算。 2、智能算力:以GPU、FPGA、ASIC芯片等输出的计算能力为主,侧重人工智能领域。 3、超算算力:以超算(HPC)集群输出的计算能力为主,科研、国防、高端制造等领域。 上述算力分类是从狭义的角度进行的统计,目前和信息技术有关的一切,其实都可以笼统称为算力领域,算力及服务的时代,除了狭义上的算力,还包括存储的存力、网络的传输能力、算法的能力等等。 算力的单位通常采用FLOPS(Floating Point Operations Per Second)表示每秒钟能够完成的浮点运算或指令数,例如一台计算机每秒钟可以完成10亿次浮点运算,那么它的FLOPS值就是1GFLOPS(1Giga FLOPS) <table><tr><td>衡量单位</td><td>英文全称</td><td>中文全称</td></tr><tr><td>MFLOPS</td><td>megaFLOPS</td><td>每秒一百万 (=10^6) 次的浮点运算</td></tr><tr><td>GFLOPS</td><td>gigaFLOPS</td><td>每秒十亿 (=10^9) 次的浮点运算</td></tr><tr><td>TFLOPS</td><td>teraFLOPS</td><td>每秒一万亿 (=10^12) 次的浮点运算</td></tr><tr><td>PFLOPS</td><td>petaFLOPS</td><td>每秒一千万亿 (=10^15) 次的浮点运算</td></tr><tr><td>EFLOPS</td><td>exaFLOPS</td><td>每秒一百亿亿 (=10^18) 次的浮点运算</td></tr><tr><td>ZFLOPS</td><td>zettaFLOPS</td><td>每秒十万亿亿 (=10^21) 次的浮点运算</td></tr></table> 除了FLOPS还有其他多种不同的衡量方法。主要有如下: (1) MIPS (每秒钟执行的百万指令数); (2) DMIPS(Dhrystone每秒钟执行的百万指令数); (3) OPS (每秒操作次数, Operations Per Second); (4) Hash/s(每秒哈希运算次数,Hash Per Second)等。 # AI算力对应的芯片路线 <table><tr><td>技术架构</td><td>定制化程度</td><td>可编辑性</td><td>价格</td><td>优点</td><td>缺点</td><td>应用场景</td></tr><tr><td>GPU</td><td>通用性强</td><td>强</td><td>高</td><td>通用性强,且适合大规模并行运算,设计和制造工艺成熟。</td><td>并行运算能力在推理侧无法完全发挥。</td><td>高级且复杂算法和通用性AI平台</td></tr><tr><td>FPGA</td><td>半定制化</td><td>强</td><td>中</td><td>可通过编译灵活配置芯片架构适应算法迭代,平均性能较高;功耗较低,开发时间较短(半年左右)</td><td>量产单价高,峰值算力较低,编程门槛高</td><td>各种具体的行业应用</td></tr><tr><td>ASIC</td><td>全定制化</td><td>弱</td><td>低</td><td>通过算法固话实现极致的性能和能效,功耗低、体积小、量产后成本最低</td><td>前期投入成本高、研发周期较长(1年以上)技术风险高。</td><td>特殊且专用的领域。</td></tr><tr><td>类脑芯片</td><td>模拟人脑</td><td>强</td><td>NA</td><td>低功耗、通信效率高、认知能力强</td><td>目前技术成熟度差</td><td>实时高效地解决不确定及复杂环境下的问题</td></tr></table> # GPU算力的典型业务场景 # 大型模型训练 OpenAI从英伟达采购了三万多张顶级人工智能芯片,每枚价值近十万元,光是这批芯片,就价值三十亿人民币。 # 高性能计算 CPU+GPU是HPC发展重要基石,CPU擅长逻辑控制,串行的运算和通用类型数据运算,GPU擅大规模并发计算。 # AI推理 AI推理的场景非常广泛、比如:安防监控、自动驾驶、各类边缘计算场景等。对GPU卡的要求是性价比高、功耗底。 # 图形渲染 以广电媒资、游戏开发、工程3D建模,AR、VR等主要对GPU的视频处理、图形渲染要求高,同时还要支持视频接口输出等。 # 云游戏 大型3D游戏对显卡性能要求极高。对应英伟达 GeForce消费类卡,但是由于卡的高性价比也经常被用于企业级应用中。 # 算力规模的统计标准 信通院发布了《中国算力发展智算白皮书》,作为权威机构的材料,对如何衡量“基础算力”、“智能算力”和“超算算力”给出了明确的解释。 结论归纳:与智算中心或者AI相关(默认是FP16)、超算HPC(默认是FP64)、部分情况为了便于统计,会统一换算为FP32(目前见到的不多),通常都会备注清楚。 # 中国算力发展指数白皮书(2023年) # 附件一:算力指数测算框架 基于中国算力发展指数2.0,算力指数包括算力规模、算力产业、算力技术、算力环境和算力应用五个维度。 维度一:算力规模。主要基于计算设备算力和基础设施算力两个方面来衡量。计算设备算力主要是根据各地区近六年的算力设备市场 分布,分别从通用服务器、AI服务器、超级计算机三大类产品来衡量基础算力、智能算力、超算算力规模,其中基础算力主要聚焦各地区服务器算力规模,采用单精度浮点数(FP32)计算能力来衡量算力性能15;智能算力主要聚焦各地区AI服务器算力规模,采用主流的半精度浮点算力数(FP16)计算能力来衡量算力性能;超算算力主要是基于国际知名排行榜TOP500、中国高性能计算机性能TOP100,并参考超算生产商的相关数据,采用双精度浮点数(FP64)计算能力来衡量 超算的算力性能。基础设施算力主要是基于中国信息通信研究院关于数据中心、智能计算中心算力统计数据。算力规模测算时统一折算为单精度浮点数(FP32)算力进行统计。 # 杨杰:中国移动年内将投产多个超万卡智算中心 观点网·2024-05-24 14:39 中国移动正在加快完善算网基础设施体系、关键技术体系,优化全国性智算中心和边缘智算节点布局,全网智算规模达到17EFLOPS(FP16),年内还将投产多个超万卡智算中心。 # 全国领先!宁波人工智能超算中心项目(一期)上线 2023年1月10日未来二期计划迭代升级达到300P(FP16)半精度人工智能算力和15P(FP64)双精度高性能计算算力规模的综合型人工智能超算中 心,整体将达到国内领先水平。市大数据局相关负责介绍,人工智... 宁波发布 播报 # 展开分析FP32、FP16等算力精度-1 标准的FP英文全称是Floating Point,是IEEE定义的标准浮点数类型。由符号位(sign)、指数位(exponent)和小数位(fraction)三部分组成。和FP类似的还有TF32(全称Tensor Float 32),是英伟达提出的特殊的数值类型,用于替换FP32,当然也有google提出的BF16(Brain Float 16)。 FP16也叫float16,全称是Half-precision floating-point(半精度浮点数),在计算机的角度是用16位二进制来表示的 <table><tr><td>问题</td><td>简单分析</td></tr><tr><td>怎么理解精度?</td><td>在计算机世界里面,浮点数精度,跟存储方式有关,占用bit越多,精度越高,表示的越准确。以圆周率π为例,3.14后面还有很多小数,但是如果要更高精度,小数点后面可以有无数位。</td></tr><tr><td>为何存在多个精度?</td><td>精度越高肯定更准确,但是也会带来更高的计算和存储成本。较低的精度会降低计算精度,但可以提高计算效率和性能。所以多种不同精度,可以让你在不同情况下选择最适合的一种。举例--------→</td></tr></table> # 展开分析FP32、FP16等算力精度-2 FP32和FP64都是二进制表示的,为了让计算机能看懂,那么和十进制的数值如何转换呢? 一、以FP32为例,我们将9.625这个十进制转换为FP32精度格式的二进制。 十进制的9.625 整数部分:9 二进制转换 小数部分: 0.625 整数部分:1001 小数部分:0.101 1001.101 $= 1.001101^{*}2^{3}$ FP32表示 指数部分要加127偏移, 即为 $3 + 127 = 130$ $2^{130} = 10000010$ 小数位要补齐23位后,拼接如下: 0 10000010 001101000000000000000 二、以FP32为例,我们将FP32精度格式的二进制转化为十进制。 转换公式 $$ x = (- 1) ^ {S} \times 2 ^ {E - 1 2 7} \times 1. M $$ 十进制结果 $$ \begin{array}{l} x = (- 1) ^ {0} \times 2 ^ {1 3 0 - 1 2 7} \times 1. 0 0 1 1 0 1 \\ = 8 \times 1 \frac {1 3}{6 4} = \frac {7 7}{8} = 9. 6 2 5 \\ \end{array} $$ <table><tr><td>类型</td><td>符号位长度</td><td>指数位长度</td><td>小数位长度</td><td>偏移</td></tr><tr><td>半精度FP16</td><td>1</td><td>5</td><td>10</td><td>15</td></tr><tr><td>单精度FP32</td><td>1</td><td>8</td><td>23</td><td>127</td></tr><tr><td>双精度FP64</td><td>1</td><td>11</td><td>52</td><td>1023</td></tr></table> 注:偏移的量是根据IEEE754的规范规定的,我理解是为了更好的显示和计算。 # 算力的计算方式—CPU算力 # CPU算力计算公式: Flops = 【CPU核数】*【单核主频】*【CPU单个周期浮点计算能力】以6348 CPU为例,支持AVX512指令集,且FMA系数 = 2,所以CPU每周期算力值为: CPU单周期双精度浮点计算能力 = 2(FMA数量)*2(同时加法和乘法)*512/64 = 32 CPU单周期单精度浮点计算能力 = 2(FMA数量)*2(同时加法和乘法)*512/32 = 64 6348双精算力 $= 28 \times 2.6$ (109) x (32) / (1012) =2.3Tflops 6348单精算力 $= 28 \times 2.6$ (109) x (64) / (1012) =4.6Tflops 英特尔® 至强® Gold 6348处理器,28c,2.60 GHz # AVX-512 FMA 单元数 英特尔高级矢量扩展512(AVX-512),新的指令集扩展,提供超宽(512位)矢量操作能力,以高达2FMA(融合乘法加法)的指令为您最苛刻的计算任务性能加速。 # 常见的CPU算力跑分举例 SPEC 是一个由计算机硬件厂商、软件公司、大学、研究机构、系统集成商出版发型及咨询机构组成的非营利性组织,致力于创建、维护并引导一个计算机系统及业界公认的系统指标。得到众多国际软硬件厂商的支持和参与,被金融、电信、证券等关键行业用户作为选择IT系统一项权威的选型指标。 SPEC CPU是一系列的测试工具,比如 SPEC CPU 2017是最新版本的评估整机计算处理能力工具,它包括Cint和Cfp两个子项目,前者用于测量和对比整型性能,而后者则用于测量和对比浮点性能。 # 相同工艺下性能比上一代产品大幅提高 - 测试数据均来自电子四院报告,3A5000数据2021年测试(不含SPEC CPU2017),3A6000数据2023年测试 单线程通用处理性能提升 $60\%$ ,多进程通用处理性能提升 $100\%$ - SMT技术有效提升多核效率(自测单核双线程定点分值>50分) 龙芯3A6000跑分宣传 # 算力的计算方式—GPU算力(A100)-1 GPU峰值算力的测算公式为: 峰值计算能力=GPU Core的运行频率*GPU SM数量*单个SM一个时钟周期内特定数据类型的指令吞吐量*2 $$ \text {P e a k F L O P S} = F _ {\text {c l k}} * N _ {\text {S M}} * T _ {\text {i n s}} * 2 $$ 公众号·IT技术分享-老张 运行频率的单位为GHz,一个时钟周期内特定数据类型的指令吞吐量单位为FLOPS/Cycle,其中不太好理解是后面2项;1、单个SM一个时钟周期内特定数据类型的指令吞吐量,与英伟达每一代的GPU架构设计有关,与基于标准CUDA Core还是通过Tenser core加速也有关,在不同精度的表现也都不一样,具体如图(图片来自网络); 2、公式里面的“2”是因为Tensor Core融合了乘和加的指令,每次执行指令会计算一次乘法和一次加法,视作两次浮点运算所以乘以2; <table><tr><td></td><td colspan="4">CUDA Cores</td><td colspan="6">Tensor Cores</td></tr><tr><td>NVIDIA Architecture</td><td>FP64</td><td>FP32</td><td>FP16</td><td>INT8</td><td>FP64</td><td>TF32</td><td>FP16</td><td>INT8</td><td>INT4</td><td>INT1</td></tr><tr><td>Volta</td><td>32</td><td>64</td><td>128</td><td>256</td><td></td><td></td><td>512</td><td></td><td></td><td></td></tr><tr><td>Turing</td><td>2</td><td>64</td><td>128</td><td>256</td><td></td><td></td><td>512</td><td>1024</td><td>2048</td><td>8192</td></tr><tr><td>Ampere (A100)</td><td>32</td><td>64</td><td>256</td><td>256</td><td>64</td><td>512</td><td>1024</td><td>2048</td><td>4096</td><td>16384</td></tr><tr><td>Ampere, sparse</td><td></td><td></td><td></td><td></td><td></td><td>1024</td><td>2048</td><td>4096</td><td>8192</td><td>老张</td></tr></table> # 算力的计算方式—GPU算力(A100)-2 1、FP64 Tenser core的峰值算力为: 1.41x108x64x2≈19492GFlops,换算成T为 19.5Tflops,与彩页里的官方公布的算力数值一致。 2、FP16 Tenser core的峰值算力: 1.41x108x1024x2≈311869GFlops,换算成T为312TFlops,同样也和彩页里的数值一致。 3、稀疏算力对应的“周期内特定数据类型的指令吞吐量”是标准Tenser core下的2倍,所以算力也是2倍的关系。 NVIDIA A100 TENSOR CORE GPU 规格 (SXM4 和 PCIE 外形规格) <table><tr><td>GPU显存</td><td>80GB HBM2e</td><td>80GB HBM2e</td></tr><tr><td>GPU显存带宽</td><td>1935GB/s</td><td>2039GB/s</td></tr><tr><td>最大热设计功耗 (TDP)</td><td>300瓦</td><td>400瓦*** 公众号·IT技术分享</td></tr></table> # GPU算力的综合指标 <table><tr><td>芯片指标</td><td>定义分析</td></tr><tr><td>算力</td><td>GPU执行浮点运算的能力,通常以TFLOPS(每秒浮点操作次数)为单位衡量。高计算能力对科学计算、模拟和深度学习等计算密集型任务至关重要。它能加速模型训练、数据分析以及复杂模拟的处理速度。</td></tr><tr><td>显存</td><td>是GPU用于存储数据和纹理的专用内存,与系统内存(RAM)不同,显存具有更高的带宽和更快的访问速度。显存的大小和性能直接影响GPU处理大规模数据的能力。</td></tr><tr><td>显存带宽</td><td>作为GPU与显存之间数据传输的桥梁;显存带宽=显存位宽x显存频率</td></tr><tr><td>功耗</td><td>指单位时间内的能量消耗,反应消耗能量的速率,单位是瓦特(W)。</td></tr><tr><td>卡间互联</td><td>NVIDIA® NVLink™ 是世界首项高速 GPU 互连技术,与传统的 PCIe方案相比,能为多 GPU间提供更快速的互联方案。</td></tr></table> # 英伟达GPU的“稀疏算力” 自 Ampere 架构开始,随着 A100 Tensor Core GPU 的推出,NVIDIA GPU 提供了可用于加速推理的细粒度结构化稀疏功能。 该功能可以加速推理。由稀疏 Tensor Core 提供,这些稀疏 Tensor Core 需要 2:4 的稀疏模式。也就是说,以 4 个相邻权重为一组,其中至少有 2 个权重必须为 0,即 $50\%$ 的稀疏率。这种稀疏模式可实现高效的内存访问能力,有效的模型推理加速,并可轻松恢复模型精度。 渐进式稀疏训练方法。腾讯机器学习平台部门 (MLPD) 利用了渐进式训练方法,简化了稀疏模型训练并实现了更高的模型精度。借助稀疏功能和量化技术,他们在腾讯的离线服务中实现了 1.3 倍~1.8 倍的加速。(网上数据) # 结构化稀疏 AI网络拥有数百万至数十亿个参数。实现准确预测并非要使用所有参数,而且我们还可将某些 参数转换为零,以在无损准确性的前提下使模型变得“稀疏”。A100中的Tensor Core可为稀疏模型提供高达2倍的性能提升。稀疏功能不仅更容易使AI推理受益,同时还能提升模型的训练性能。 # 以H100为例不同精度算力数值理解 目前智算中心建设中。使用最多,讨论最多的依然是H100\H800型号的GPU和NvLink整机,但是还是有很多同学对H100 GPU卡的参数不清楚,智算中心以AI算力为主,该用哪个数值呢?和FP16相关的竟然有三个,我们设计方案时会采用FP16 Tenser加速的989TFPOPS,约1个P,个人简单总结如下: Table 1. NVIDIA H100 Tensor Core GPU Performance Specs <table><tr><td></td><td>NVIDIA H100 SXM5</td><td>NVIDIA H100 PCIe</td></tr><tr><td>Peak FP64</td><td>33.5 TFLOPS</td><td>25.6 TFLOPS</td></tr><tr><td>Peak FP64 Tensor Core</td><td>66.9 TFLOPS</td><td>51.2 TFLOPS</td></tr><tr><td>Peak FP32</td><td>66.9 TFLOPS</td><td>51.2 TFLOPS</td></tr><tr><td>Peak FP16</td><td>133.8 TFLOPS</td><td>102.4 TFLOPS</td></tr><tr><td>Peak BF16</td><td>133.8 TFLOPS</td><td>102.4 TFLOPS</td></tr><tr><td>Peak TF32 Tensor Core</td><td>494.7 TFLOPS | 989.4 TFLOPS1</td><td>378 TFLOPS | 756 TFLOPS1</td></tr><tr><td>Peak FP16 Tensor Core</td><td>989.4 TFLOPS | 1978.9 TFLOPS1</td><td>756 TFLOPS | 1513 TFLOPS1</td></tr><tr><td>Peak BF16 Tensor Core</td><td>989.4 TFLOPS | 1978.9 TFLOPS1</td><td>756 TFLOPS | 1513 TFLOPS2</td></tr><tr><td>Peak FP8 Tensor Core</td><td>1978.9 TFLOPS | 3957.8 TFLOPS1</td><td>1513 TFLOPS | 3026 TFLOPS1</td></tr><tr><td>Peak INT8 Tensor Core</td><td>1978.9 TOPS | 3957.8 TOPS1</td><td>1513 TOPS | 3026 TOPS1</td></tr></table> 1. Effective TFLOPS / TOPS using the Sparsity feature 标准算力 - Tenser core加速后的算力 - Tenser core+ 稀疏矩阵加速后的算力 $\Leftrightarrow$ 英伟达视角:为了体现自身技术牛 $x$ ,一般用稀疏矩阵加速后数值做营销(夸大的成分); • 政府层面:为了突出“业绩”,有时候也会用稀疏矩阵的数值(有面子); 客户视角:会采用FP16,1个P的算力作为指标(实用为主),会备注要求稠密算力; # GPU厂商英伟达的AI算力卡分类 # NVIDIA的显卡目前可以按照应用领域大致分为三种类型: $\spadesuit$ GeForce消费卡:面向游戏娱乐领域:如 GeForce RTX™ 4090、 GeForce RTX™ 3080等。 $\spadesuit$ Quadro专业卡:面向专业设计和虚拟化领域:如NVIDIA RTX™ A6000、 NVIDIA® T1000等。 Tesla企业级卡:面向深度学习、人工智能和高性能计算领域:如NVIDIA A100\A30 Tensor Core GPU等。 # 数据中心GPU H100 A100 A2 A10 A16 A30 A40 L40 V100 RTX40系列 RTX 4090 RTX 4080 RTX 4070 Ti / 4070 RTX 4060 Ti / 4060 RTX30系列 RTX 3090 Ti / 3090 RTX 3080 Ti/3080 RTX 3070 Ti/3070 RTX 3060 Ti/3060 RTX 3050 RTX20系列 GTX16系列 NVIDIA RTX 6000 Ada Generation NVIDIA RTX A6000 NVIDIA RTX A5500 NVIDIA RTX A5000 NVIDIA RTX A4500 NVIDIA RTX A4000 NVIDIA RTX A2000 | NVIDIA RTX A2000 12GB NVIDIA T1000I NVIDIA T1000 8GB NVIDIA T400 4GB Quadro GV100 # 不同类型英伟达GPU算力的对比 各GPU横向对比 AI训练 (TF32) A100 > A30 >= A40 AI推理 (TF16) A10 > T4 HPC应用(FP32,FP64) A100 > A30 数据分析(FP32,FP64,INT8) A100 > A30 图形渲染(RT Core) A40 > A10 > T4 云桌面,视频编解码 A16 > A40 > A10 > T4 数据来源:NVIDIA # 主流AI芯片(含国产)的算力情况 目前市场上除了英伟达GPU外,国产主流的厂商在10家以上,AIDC算力规划通常以FP16(稠密)算力为标准,同时考虑显存的大小和带宽、互联速率等,如下表格筛选了常见的AI芯片型号。 <table><tr><td>GPU型号</td><td>H100/800 SXM</td><td>A100/800 SXM</td><td>RTX 4090</td><td>H20 SXM</td><td>L20</td><td>910B OAM</td><td>天数 天垓150</td><td>太初 元甚 T100</td><td>沐曦 曦云C500 OAM</td><td>摩尔显存 S4000 OAM</td><td>燧原 云燧T21 OAM</td><td>昆仑芯 P800</td></tr><tr><td>单卡算力 FP16稠密</td><td>990T约1P</td><td>312T</td><td>330T</td><td>148T</td><td>119.5T</td><td>376T</td><td>190T</td><td>240 T</td><td>240T</td><td>100T</td><td>128T</td><td>375T</td></tr><tr><td>整机8卡</td><td>约8P</td><td>约2.5P</td><td>约2.6P</td><td>1.2P</td><td>0.95P</td><td>约3P</td><td>1.5P</td><td>1.9P</td><td>1.9P</td><td>800T</td><td>1P</td><td>3P</td></tr><tr><td>显存</td><td>80G HBM3</td><td>80GB HBM2e</td><td>24G GDDR6x</td><td>96G HBM3 141G HBM3e</td><td>48G GDDR6x</td><td>64G HBM2e</td><td>64G HBM2e</td><td>64GB HBM2e</td><td>64GB HBM2e</td><td>48GB GDDR6</td><td>32GB HBM2E</td><td>96GB HBM2?</td></tr><tr><td>显存带宽</td><td>3.35TB/s</td><td>2TB/s</td><td>1TB/s</td><td>4TB/s 4.8T/s</td><td>864GB/s</td><td>1.6 TB/s</td><td>1.6 TB/s?</td><td>1.2TB/s</td><td>1.84TB/s</td><td>768GB/s</td><td>1.6TB/s</td><td>1.8TB/S?</td></tr><tr><td>GPU互联</td><td>900/400GB /s</td><td>600/400GB /s</td><td>理论64GB/s</td><td>900GB/s</td><td>64GB/s</td><td>392GB/s</td><td>64GB/s</td><td>128GB/s</td><td>896GB/s</td><td>240GB/s</td><td>64GB/s</td><td>200GB/s?</td></tr><tr><td>TDP</td><td>700W</td><td>400W</td><td>450W</td><td>400W</td><td>275W</td><td>400W</td><td>350W</td><td>300W</td><td>350W</td><td>450W</td><td>300W</td><td>?</td></tr><tr><td>适用场景</td><td colspan="2">训练、微调和推理场景</td><td>微调和推理、 渲染场景</td><td>训练、微 调和推理 场景</td><td>微调和推 理场景</td><td colspan="6">训练、微调和推理场景</td><td>微调和推理场 景</td></tr><tr><td>干P算力8 卡机台数 FP16稠密</td><td>128台</td><td>410台</td><td>400台</td><td>854台</td><td>1078台</td><td>342台</td><td>683台</td><td>540台</td><td>540台</td><td>1311台</td><td>1024台</td><td>342台</td></tr></table> # 主流国产AI芯片的算力情况(供参考) <table><tr><td>AI芯片</td><td>架构</td><td>算力精度及大小</td><td>显存类型</td><td>显存大小</td><td>显存带宽</td><td>互联带宽</td><td>PCIe</td></tr><tr><td>H100</td><td>GPGPU</td><td>算力精度:从FP64到FP8均支持算力大小:FP16(稠密)990 TFLOPSFP8(稠密)1,979 TFLOPS</td><td>HBM3</td><td>80GB</td><td>3.35TB/s</td><td>Nvlink900GB/s</td><td>5.0</td></tr><tr><td>HWST 910C</td><td>ASIC</td><td>算力精度:FP32、FP16算力大小:FP16:752T(910C采用双Die封装)每个芯片约376 TFLOPS的BF16/FP16算力</td><td>HBM2e</td><td>128GB</td><td>3.2TB/s</td><td>784GB/s</td><td>5.0</td></tr><tr><td>KLX P800</td><td>ASIC</td><td>算力精度:FP32、FP16、INT8算力大小:FP16:375T,其他不详</td><td>HBM2e</td><td>96GB</td><td>1.8TB/S</td><td>400GB/s</td><td>5.0</td></tr><tr><td>HGDCU BW1000</td><td>GPGPU</td><td>算力精度:FP64、FP32、FP16算力大小:FP32:240TFP16:480T</td><td>HBM2e</td><td>64GB</td><td>1.8TB/s</td><td>448GB/s</td><td>5.0</td></tr><tr><td>MX C550</td><td>GPGPU</td><td>算力精度:FP64、FP32、FP16算力大小:FP16:280T,其他不详</td><td>HBM2e</td><td>64GB</td><td>1.8TB/S</td><td>448GB/s</td><td>5.0</td></tr></table> <table><tr><td>AI芯片</td><td>架构</td><td>算力精度及大小</td><td>显存类型</td><td>显存大小</td><td>显存带宽</td><td>互联带宽</td><td>PCIe</td></tr><tr><td>TS TG200</td><td>GPGPU</td><td>算力精度: FP64、FP32、FP16 算力大小: FP16: 400T, 其他不详</td><td>HBM2e</td><td>128GB</td><td>3.6TB/s</td><td>512GB/s</td><td>5.0</td></tr><tr><td>HWJ MLU590</td><td>ASIC</td><td>算力精度: FP32、FP16、FP8 算力大小: FP16: 314.6T, 其他不详</td><td>HBM2e</td><td>96GB</td><td>2765GB/s</td><td>371GB/s</td><td>5.0</td></tr><tr><td>SY L600</td><td>ASIC</td><td>不详</td><td>HBM3</td><td>144GB</td><td>3.6TB/s</td><td>不详</td><td>5.0</td></tr><tr><td>MRXC S5000</td><td>GPGPU</td><td>算力精度: FP64、FP32、FP16、FP8 算力大小: FP16: 512T FP8:1P</td><td>GDDR</td><td>80GB</td><td>1.6TB/s</td><td>784GB/s</td><td>5.0</td></tr><tr><td>ALI APG</td><td>GPGPU</td><td>算力精度: FP32、FP16 算力大小: FP16: 120T, 其他不详</td><td>HBM2e</td><td>96GB</td><td>2765GB/s</td><td>700GB/s</td><td>5.0</td></tr><tr><td>SN SC11 FP300</td><td>RISC-V</td><td>算力精度: TF32/FP32/BF16/FP16/FP8/INT8 算力大小(网上搜集): INT8/FP8算力超400 TOPS FP16/BF16算力超200 TFLOPS FP32算力超25 TFLOPS</td><td>LPDDR5X</td><td>256GB</td><td>1.1TB/s</td><td>256GB/s</td><td>5.0</td></tr></table> # 智算中心技术架构-产品类型 # 行业应用层 产业创新聚集平台 智能生态建设平台 数据开放共享平台 行业平台 自然语言处理 图像 多模态 语音 视频 智慧医疗 智能制造 金融科技 智慧城市 电子商务 教育科技 农业智慧化 智慧交通 行业应用 # 算力服务 # 数据服务 # 算法服务 # 大模型开发平台层 TensorFlow PyTorch PaddlePaddle 深度学习框架与库 开发接口 机器学习工具 模型部署管理 开发工具 数据预处理 模型设计训练 模型评估验证 模型训练 模型优化 模型部署 模型集成嵌入 模型推理 运营服务平台 # 平台管理层 CPU、GPU 内存、显存 虚拟化 容器化 算力池化 并行文件系统 分布式 持久化 集群存储 共享超分 可扩展高性能集群 按需使用、弹性 算力调度 平台监控 数据管理 用户管理 监控管理 运维监控管理平台 # 基础设施层 AI推理服务器 AI训练服务器 信创非信创 计算 随需扩展 高吞吐量 智能管理 存储 网络虚拟化 网络卸载 RDMA(IB RoCE) 网络 液冷 微模块机房 绿色供电 IDC # 安全 # 智算中心算力基础设施产品组成 # 产品品类齐全 # 算力类型多元 # 绿色低碳加持 # 实施交付便捷 液冷+方案 冷板式液冷整机柜 浸没液冷整机柜 通道微模块数据中心 集装箱数据中心 # 智算中心AI算力服务器-主流 # 千亿级大模型 HGX训推 R8868 G13 OAM训推服务器 R8868 G13 # 百亿级大模型 Intel训推8卡机 R8428 (4代) INTEL推理8卡机 R8428 G12 (3代) AMD推理8卡机 R8428 A14 (Genoa) 性价比推理8卡机 R8428 A12/A13 AMD Rome/Milan Intel推理4卡机 R8428 G12/G13 Intel 3代、4代 # 集训练 # 微调训练 # 中心推理 # 边缘推理 # 智算中心算力的核心载体-服务器 - 服务器通常是指那些具有较高计算能力,能够提供给多个用户使用的计算机。服务器与PC机的不同点很多,例如PC机在一个时刻通常只为一个用户服务。服务器与主机不同,主机是通过终端给用户使用的,服务器是通过网络给客户端用户使用的,所以除了要拥有终端设备,还要利用网络才能使用服务器电脑,但用户连上线后就能使用服务器上的特定服务了。 - AI服务器是一种能够提供人工智能(AI)计算的服务器。它既可以用来支持本地应用程序和网页,也可以为云和本地服务器提供复杂的AI模型和服务。AI服务器有助于为各种实时AI应用提供实时计算服务。AI服务器按应用场景可分为训练和推理两种,其中训练对芯片算力要求更高,推理对算力的要求偏低。 # 服务器的主要分类 CPU指令集类型 x86服务器 ARM服务器 MIPS服务器 其他CPU服务器 产品形态 塔式服务器 机架式服务器 刀片服务器 高密服务器 处理器数量 单路服务器 双路服务器 多路服务器 用途 AI加速服务器 应用服务器 边缘计算服务器 # # NVIDIA A100服务器 <table><tr><td>GPUs</td><td>8x NVIDIA A100</td></tr><tr><td>GPU Memory</td><td>320 GB total</td></tr><tr><td>Peak performance</td><td>5 petaFLOPS AI | 10 petaOPS INT8</td></tr><tr><td>NVSwitches</td><td>6</td></tr><tr><td>System Power Usage</td><td>6.5kW max</td></tr><tr><td>CPU</td><td>Dual AMD Rome 7742 128 cores total, 2.25 GHz(base), 3.4GHz (max boost)</td></tr><tr><td>System Memory</td><td>1TB</td></tr><tr><td>Networking</td><td>8x Single-Port Mellanox ConnectX-6 200Gb/s HDR Infiniband (Compute Network) 1x (or 2x*) Dual-Port Mellanox ConnectX-6 200GB/s HDR Infiniband (Storage Network also used for Eth*)</td></tr><tr><td>Storage</td><td>OS: 2x 1.92TB M.2 NVME drives Internal Storage: 15TB (4x 3.84TB) U.2 NVME drives</td></tr><tr><td>Software</td><td>Ubuntu Linux OS (5.3+ kernel)</td></tr><tr><td>System Weight</td><td>271 lbs (123 kgs)</td></tr><tr><td>Packaged System Weight</td><td>315 lbs (143 kgs)</td></tr><tr><td>Height</td><td>6U</td></tr><tr><td>Operating temp range</td><td>5°C to 30°C (41°F to 86°F)</td></tr></table> * Optional upgrades # GPU服务器与标准服务器的10点区别 # 智算中心算力-适配RTX5090的服务器 R8628 G13 产品图 # 训练优化·新一代 双路 6U 线下训练 视频加速 # 产品概述 超云 R8628 G13是超云推出的新一代人工智能服务器。基于英特尔®至强®第四代/第五代可扩展列处理器平台打造,在6U空间中支持最大10张全高四宽GPU,提供最高600W功率及PCIe 5.0 x16速率支持,为用户的灵活需求提供优质差异化解决方案。 # 规格 # 旗舰级AI服务器 产品形态 :6U机架式 处理器型号 2颗第四代/第五代英特尔®至强®可扩展处理器,TDP≤350W 内存插槽 :32\*DDR5 DIMM/LDIMM插槽,最高支持DDR5- 5600内存 硬盘数量 :最大支持12个标准3.5/2.5英寸热插拔硬盘 :可选支持4个U.2 NVMe硬盘 RAID支持 :支持RAID0、1、10、5、50、6、60,支持超级电容 PCIe扩展 :支持10*PCIe 5.0*16或20*PCIe 5.0*8标准PCIe插槽 GPU卡 最大支持10片四宽全高AI加速卡,TDP最高600W 电源 :支持2+2或3+1冗余(2000W/2700W/3200W) # 高效互联 采用GPU-CPU直通架构设计,无需经过PCIe Switch通信, 大大提高数据交互效率 # 极致扩展 最大支持20个PCIe 5.0扩展插槽,最多支持10个全高四宽加速卡,供电 功率最高可达600W # 产品亮点 # 典型的GPU服务器常见问题 # 1、常见问题汇总 近三年AI市场的火爆,带动了GPU服务器的市场需求,尤其是以高端GPU为主的A800\H800的Nvlink八卡机。 问题1:标准PCIE与Nvlink全互联的GPU服务器差在哪儿? 问题2:Nvlink的GPU服务器还需要PCIE吗? 问题3:Nvlink桥接器能把PCIE服务器变成Nvlink服务器吗? 问题4:Nvlink和SXM是什么关系? # 2、NVIDIA高端GPU的两种外观,以A800为例 PCIe接口的GPU卡 SXM接口的GPU卡 # GPU服务器的2种主流机型 # GPU服务器按照GPU芯片之间的互联方式可分为两类: 1、PCIE机型:常规的服务器,GPU直接通过PCIE链路进行通信,受限于PCIE的带宽上限,卡与卡双向互联带宽低,不满足大模型训练需求。 2、Nvlink机型:也习惯叫SXM机型,指的是在服务器内部,GPU卡之间通过Nvlink链路互联,相比PCIE带宽更高,更适合于大模型训练场景。 两种方案的带宽对比: <table><tr><td>类型</td><td>GPU</td><td>通道数</td><td>双向互联带宽</td></tr><tr><td rowspan="2">PCIE互联</td><td>A100</td><td>PCIE 4.0 x16</td><td>2GBx16x2 =64GB/s</td></tr><tr><td>H100</td><td>PCIE 5.0 x16</td><td>4GBx16x2 =128GB/s</td></tr><tr><td rowspan="2">NVLink互联</td><td>A100</td><td>每个GPU链路Nvlink x12</td><td>25GBx12x2 =600GB/s</td></tr><tr><td>H100</td><td>每个GPU链路Nvlink x18</td><td>25GBx18x2 =900GB/s</td></tr></table> Nvlink的互联带宽几乎是PCIE的数倍(7-10倍) 英伟达Nvlink技术 Nvlink升级变化 # GPU服务器-Nvlink全互联 # 标准GPU服务器的GPU和CPU之间的互联架构 1、标准的GPU服务器CPU和GPU,GPU之间都是通过PCIE链路互联。 2、只能在成对的GPU之间通过NVLink桥接器连接,无法做到全互联。 3、受限于PCIE的协议的速率,以PCIE 5.0为例,一张GPU为PCIE x16,双向互联带宽仅为128GB/s,远低于Nvlink的900GB/s。 4、对比SXM机型,PCIE更加灵活,包括GPU卡的数量,以及PCIE的拓扑都可以调整。 # GPU服务器三类GPU拓扑介绍 □ 同样的一台8卡GPU服务器,可以根据场景不同。 □ 通过调整主板上PCIE SW的链接线缆可实现不同拓扑的切换,有些厂商宣称可以一键切换,可能其他把线缆全部链接,再通过软件控制。 # Balance拓扑 - 适合GPU直通虚拟化 - 中/小规模深度学习训练推理、公有云和HPC # Common拓扑 AI训练性能优异 - 适用于多数的深度学习训练场景 # Cascade拓扑 部分AI训练模型性能最优 - 适用于多参数模型的大规模深度学习训练场景 # PCIe机型的NVLink扩展 为了尽可能的普及Nvlink技术,英伟达专门推出了配套PCIE高端型号GPU卡的桥接器,通常只能实现两卡之间的互联,局限性强,以A100为例支持最多3个,满配三个时互联带宽可达600GB/s 注:很多注意事项,同属于一个CPU下,以及只能相邻槽位等 对NVIDIA RTX A6000、RTX A5000或A100 PCIe、A40等专业卡来说,可供其使用的NVIDIA NVLink桥接器在双卡互联时带宽最高可以达到:600GB/s:NVIDIA A100、A30 112GB/s:NVIDIA A40、RTX A6000、RTX A5000、A5500、A4500 Figure 4. NVLink Topology - Top Views CORRECT INCORRECT CORRECT INCORRECT 桥接器互联正确和错误实例 # Nvlink机型的核心-HGX模组 <table><tr><td>GPUs</td><td>HGX H100 8 GPU</td></tr><tr><td>外形规格</td><td>8个NVIDIA H100 SXM</td></tr><tr><td>HPC和AI计算(FP64/TF32/FP16/FP8/INT8)</td><td>535TF / 8PF / 16PF / 32PF / 32POPS</td></tr><tr><td>显存</td><td>高达640GB</td></tr><tr><td>NVLink</td><td>第四代</td></tr><tr><td>NVSwitch</td><td>第三代</td></tr><tr><td>NVLink Switch</td><td>不适用</td></tr><tr><td>NVSwitch互联GPU间带宽</td><td>900 GB/s</td></tr><tr><td>聚合总带宽</td><td>7.2 TB/s</td></tr></table> Nvlink机型各个厂商都基于英伟达的HGX-GPU模组设计,整机在高度上通常是6U或8U,其中最核心也是价格占比最高是英伟达的GPU模组,可以理解成是一个有8个物理GPU组成的一个大的逻辑“GPU”。 超聚变-第四代至强NVLink8卡机 # Nvlink机型产品形态-超聚变G8600 V7 以超聚变Nvlink H800整机G8600 V7为例,产品采用模块化设计,GPU模组,系统模块,IO模组,风扇模组,电源模组,各个模块均可单独维护。 因为厂商围绕HGX模组进行设计,其他部分的差异化较大。 图3-1前视物理结构(示例: $8\times 2.5$ 英寸硬盘配置) <table><tr><td>1</td><td>GPU模组框</td><td>2</td><td>系统框系统框</td></tr><tr><td>3</td><td>54V双输入电源模组</td><td>4</td><td>机箱</td></tr></table> 图3-2后视物理结构(示例:8x2.5英寸硬盘配置) <table><tr><td>1</td><td>GPU区风扇模块</td><td>2</td><td>IO模组1</td></tr><tr><td>3</td><td>IO模组2</td><td>4</td><td>IO模组3</td></tr><tr><td>5</td><td>IO模组4</td><td>6</td><td>12V电源模块</td></tr><tr><td>7</td><td>机箱</td><td>-</td><td>-</td></tr></table> # Nvlink机型-主板逻辑图分析 1. 与PCIE机型的GPU服务器不同,Nvlink机型的主板不需要直接支持GPU。 2. 主板通过四个PCIE Switch提供PCIE通道与 HGX模组互联,每个PCIE Switch与2个GPU 互联,到每个GPU的链路为PCIEx16。 3. Intel SPR CPU支持80个PCIE通道,CPU到每个PCIE Switch通常也是PCIEx16。 4. 2个CPU到4个PCIE Switch采用对称设计,架构上实现了PCIE资源的均衡和CPU性能的平均。 # H200 SXM单芯片性能提升 英伟达官方视频里展示全新的H200和B100,芯片性能加倍升级。以推理1750亿参数的GPT-3为例,H100是前代A100性能的11倍,近期上市的H200相对于H100则有超过 $60\%$ 的提升,而再之后的B200,性能将有更大提升。 <table><tr><td colspan="2">Technical Specifications</td></tr><tr><td></td><td>H100 SXM</td></tr><tr><td>FP64</td><td>34 teraFLOPS</td></tr><tr><td>FP64 Tensor Core</td><td>67 teraFLOPS</td></tr><tr><td>FP32</td><td>67 teraFLOPS</td></tr><tr><td>TF32 Tensor Core</td><td>989 teraFLOPS2</td></tr><tr><td>BFLOAT16 Tensor Core</td><td>1,979 teraFLOPS2</td></tr><tr><td>FP16 Tensor Core</td><td>1,979 teraFLOPS2</td></tr><tr><td>FP8 Tensor Core</td><td>3,958 teraFLOPS2</td></tr><tr><td>INT8 Tensor Core</td><td>3,958 TOPS2</td></tr><tr><td>GPU memory</td><td>80GB</td></tr><tr><td>GPU memory bandwidth</td><td>3.35TB/s</td></tr><tr><td>Decoders</td><td>7 NVDEC 7 JPEG</td></tr><tr><td>Max thermal design power (TDP)</td><td>Up to 700W (configurable)</td></tr><tr><td>Multi-instance GPUs</td><td>Up to 7 MIGs @ 10GB each</td></tr><tr><td>Form factor</td><td>SXM</td></tr><tr><td>Interconnect</td><td>NVLink: > 900GB/s PCIe > Gen5: 128GB/s</td></tr><tr><td rowspan="2">Server options</td><td>NVIDIA HGX™ H100 partner and NVIDIA Certified Systems™ with 4 or 8 GPUs</td></tr><tr><td>NVIDIA DGX™ H100 with 8 GPUs</td></tr><tr><td>NVIDIA Enterprise</td><td>Add-on</td></tr></table> aPreliminary specifications. May be subject to change. Specifications shown for 2x Technical Specifications <table><tr><td>Form Factor</td><td>H200 SXM1</td></tr><tr><td>FP64</td><td>34 TFLOPS</td></tr><tr><td>FP64 Tensor Core</td><td>67 TFLOPS</td></tr><tr><td>FP32</td><td>67 TFLOPS</td></tr><tr><td>TF32 Tensor Core</td><td>989 TFLOPS2</td></tr><tr><td>BFLOAT16 Tensor Core</td><td>1,979 TFLOPS2</td></tr><tr><td>FP16 Tensor Core</td><td>1,979 TFLOPS2</td></tr><tr><td>FP8 Tensor Core</td><td>3,958 TFLOPS2</td></tr><tr><td>INT8 Tensor Core</td><td>3,958 TFLOPS2</td></tr><tr><td>GPU Memory</td><td>141GB</td></tr><tr><td>GPU Memory Bandwidth</td><td>4.8TB/s</td></tr><tr><td>Decoders</td><td>7 NVDEC 7 JPEG</td></tr><tr><td>Max Thermal Design Power (TDP)</td><td>Up to 700W (configurable)</td></tr><tr><td>Multi-Instance GPUs</td><td>Up to 7 MIGs @16.5GB each</td></tr><tr><td>Form Factor</td><td>SXM</td></tr><tr><td>Interconnect</td><td>NVIDIA NVLink®: > 900GB/s > PCIe Gen5: 128GB/s</td></tr><tr><td>Server Options</td><td>NVIDIA HGX™ H200 partner and NVIDIA-Certified Systems™ with 4 or 8 GPUs</td></tr><tr><td>NVIDIA AI Enterprise</td><td>Add-on</td></tr></table> PERPETUAL INNOVATION. PERPETUAL PERFORMANCE LEAPS. http://www.RTLLM.O1.2023.H100TemporRTLLMOct2023 # HGX H200模组参数及产品迭代 HGX H200与H100完全兼容,也就是说H200可以直接用在原来H100的系统里。接口、尺寸等均完全一致。 H200预计在2024年Q2上市,真正的产品迭代是在2024年的Q4,基于新架构Blackwell的B100也将发布,但是具体的性能还不确定,从英伟达的发布的迭代图显示,升级肯定不会小。 <table><tr><td rowspan="2"></td><td colspan="2">HGX H200</td></tr><tr><td>4-GPU</td><td>8-GPU</td></tr><tr><td>GPUs</td><td>HGX H200 4-GPU</td><td>HGX H200 8-GPU</td></tr><tr><td>Form factor</td><td>4x NVIDIA H200 SXM</td><td>8x NVIDIA H200 SXM</td></tr><tr><td>HPC and AI compute (FP64/TF32/FP16/FP8/INT8)</td><td>268TF/4PF/8PF/16PF/16 POPS</td><td>535TF/8PF/16PF/32PF/32 POPS</td></tr><tr><td>Memory</td><td>Up to 564GB</td><td>Up to 1.1TB</td></tr><tr><td>NVLink</td><td>Fourth generation</td><td>Fourth generation</td></tr><tr><td>NVSwitch</td><td>N/A</td><td>Third generation</td></tr><tr><td>NVSwitch GPU-to-GPU bandwidth</td><td>N/A</td><td>900GB/s</td></tr><tr><td>Total aggregate bandwidth</td><td>3.6TB/s</td><td>7.2TB/s</td></tr></table> 很多同学看到HGX H100、DGX H100、还有DGX Pod、DGX GH200等等搞不清楚 # 英伟达各种“某GX”的产品 1、HGX H100:GPU模组,通常把8张H100SXM加上Nv switch板子整合一起,逻辑上是一个大的“GPU”。 2、DGX H100:英伟达官方整机,含了HGX H100,还有服务器的其他部件,机箱、主板、CPU、内存、硬盘等。 3、DGX POD:以DGX H100为核心的集群方案还包括了IB网络、IP网络、存储、管理节点等。 HGX H100 DGX H100 4、DGX GH200:由 NVIDIA Grace Hopper 超级芯片和 NVIDIA NVLink® Switch System 驱动的 NVIDIA DGXTM 超级计算机 # DGX BasePOD Figure 17. DGX BasePOD with up to 16 systems—DGX H100 NDR200 DGX GH200 # 英伟达NVL72产品的组成部分 # 解析NVL72模块化产品的组成 2024年3月份,GTC大会除了最新B200芯片的备受瞩目外,NVL72产品的关注点也居高不下,作为NVIDIA技术的集大成的产品,一体化的设计亮点十足,包括B200、GB200、计算节点、NvSwitch节点、Nvlink 5.0技术等。 # 18个计算节点 每个节点包括2个GB200每个GB200包括1个CPU和2个B200,所以 $18 \times 2 \times 2 = 72$ # 9个Nvlink Switch 每个Switch节点包括2个Nvlink Switch4.0的芯片 # 问题来了 1. GB200内部互联方式? 2. 9个SW节点如何实现 72GPU互联? # 理解NVL72 一体化的设计,装满一个机柜,相当于一个由72块B200组成的逻辑的“大GPU”,GPU内部需要通过链路互联。 # GB200节点内部组成和连接 # 节点内部展示 GB200节点(Compute Tray)包含2个GB200,每个GB200包括1个Grace CPU、2个GPU ①蓝色-GPU到NVlink交换机之间的互联 NVLink 5.0技术,1.8TB/s ②橙色-GPU到Grace CPU之间的互联 NVLink C-C技术,900GB/s Nvlink 5.0技术在后面展开 # NVL72的GPU互联方案 # 9个NVLink Switch将72个GPU互联为一个逻辑的“大GPU” 每个B200有18个NVLINK Port, $72 \times 18 = 1296$ 个 1个Switch Tray包含2颗NVLINK Swtich 芯片,每个芯片提供72个接口,共计144个NVLink 接口 $1296 \div 144 = 9$ (台),因此正好通过9台的Switch将72个GPU进行互联。 如左图所示:每一个GPU都与18个互联,因此通过SW芯片,GPU到GPU直接能实现18条NVLink的全互联。 # NVL72与华为Cloud Matrix 384性能对比 <table><tr><td>指标</td><td>Nvidia GB200 NVL72</td><td>华为 Cloud Matrix CM384</td><td>CM384 vs NVL72</td></tr><tr><td>AI芯片数量</td><td>72</td><td>384</td><td>5.3x</td></tr><tr><td>BF16稠密算力</td><td>180 PFLOPS</td><td>300 PFLOPS</td><td>1.7x</td></tr><tr><td>HBM内存容量</td><td>13.8 TB</td><td>49.2 TB</td><td>3.6x</td></tr><tr><td>HBM内存带宽</td><td>576 TB/s</td><td>1,229 TB/s</td><td>2.1x</td></tr><tr><td>Scale up带宽(单向)</td><td>518,400 Gb/s</td><td>1,075,200 Gb/s</td><td>2.1x</td></tr><tr><td>Scale out带宽(单向)</td><td>28,800 Gb/s</td><td>153,600 Gb/s</td><td>5.3x</td></tr><tr><td>系统总功耗</td><td>145,000 W</td><td>599,821 W</td><td>4.1x</td></tr><tr><td>每BF16算力的功耗</td><td>0.81 W/TFLOP</td><td>2.0 W/TFLOP</td><td>2.5x</td></tr></table> # 智算中心-网络产品需求分析 # RoCE 方案 支持以太交换机,适合大规模算力交换 高吞吐、低延迟、性价比较高 通用性、适用性好、通用性广 # InfiniBand 方案 原生RDMA支持,扩展力强 高带宽、低延迟、降低CPU使用率 适合用于存储大规模低延迟访问需求 # 以太网方案 通用性强,通 用业务性 高带宽、相对低延迟、性价比高 适合用于算力间网络汇聚连接 超大规模组网 千卡万卡 超高带宽需求 200-400Gb 超低时延及抖动 2-5us 超高稳定性需求 冗余设计 超便捷运维要求 自动部署和诊断 # 智算中心-网络产品举例 # 产品 # InfiniBand - 高性能 - 低延迟 - 降低CPU负载 # RoCE - 高吞吐、低延迟 - 性价比高 均衡 # 以太网 - 应用广泛 - 稳定可靠 - 标准化和开放性 # 设计 # 需求分析 业务目标 安全需求 配套设施 # 架构设计 网络拓扑|路由协议 层次设计 # 软硬件选型 交换机 线缆 监控运维软件 # 成本估算 物料 人力 # 安全设计 架构 设备 规划网络安全区 # 实施 上架与布线 网络配置 调通测试 系统调优 极致调优 应用调优 # Mellanox IB各种DR分类 # IB网络的各种DR 随着AI大模型带动NVLink机型的火爆,配套的IB网络也大家熟知,我们经常看到HDR、NDR,到底这些DR含义是什么呢?每个DR代表着每一代IB技术的缩写,DR是数据速率的统称,4通道为主流。 InfiniBand Roadmap > SDR - Single Data Rate > DDR - Double Data Rate > QDR - Quad Data Rate FDR - Fourteen Data Rate EDR - Enhanced Data Rate HDR - High Data Rate NDR - Next Data Rate 目前EDR、HDR和NDR是主流,对应PICe的3.0、4.0和5.0服务器平台 # Mellanox NDR网卡情况 ConnectX-7 IB卡(HCA)有多种外形规格,分单、双端口,支持OSFP和QSFP112两种接口,支持200Gbps和400Gbps两种速率。CX-7网卡支持x16的PCIe5.0或PCIe 4.0,符合CEM规范。通过支持选配辅助卡,可多连接16通道,该辅助卡可借助NVIDIA Socket Direct®技术,实现32通道的PCIe 4.0。 PCIe立式网卡 <table><tr><td>OPN</td><td>说明</td></tr><tr><td>MCX75510AAS-NEAT</td><td>NVIDIA ConnectX-7 网卡, 400Gb/s InfiniBand, 单端口OSFP, 支持 Socket Direct, PCIe 5.0 x16 以及用于扩展的 IPEX 连接器, 无加密, 高挡片</td></tr><tr><td>MCX75310AAS-NEAT</td><td>NVIDIA ConnectX-7 网卡, 400Gb/s InfiniBand, 单端口OSFP, PCIe 5.0 x16, 无加密, 高挡片</td></tr><tr><td>MCX75510AAS-HEAT</td><td>NVIDIA ConnectX-7 网卡, 200Gb/s, 单端口 OSFP, 支持Socket Direct, PCIe 5.0 x16 以及用于扩展的 IPEX 连接器,无加密, 高挡片</td></tr><tr><td>MCX75310AAS-HEAT</td><td>NVIDIA ConnectX-7 网卡, 200Gb/s, 单端口 OSFP,PCIe 5.0 x16, 无加密, 高挡片</td></tr><tr><td>MCX75210AAS-NEAT</td><td>NVIDIA ConnectX-7 网卡, 400Gb/s InfiniBand, 单端口OSFP, 单槽 2x8 PCIe 5.0 接口, 无加密, 高挡片</td></tr><tr><td>MCX75210AAS-HEAT</td><td>NVIDIA ConnectX-7 网卡, 200Gb/s, 单端口 OSFP,单槽 2x8 PCIe 5.0 接口, 无加密, 高挡片</td></tr><tr><td>MCX755105AS-HEAT</td><td>NVIDIA 200Gb/s 单端口 InfiniBand, QSFP, PCIe 5.0 x16, 半高半长 (HHHL), 扩展选项</td></tr><tr><td>MCX755106AS-HEAT1</td><td>NVIDIA 200Gb/s 双端口虚拟协议互连 (VPI), QSFP,PCIe 5.0 x16, HHHL, 扩展选项</td></tr></table> 辅助卡 <table><tr><td>OPN</td><td>说明</td></tr><tr><td>MTMK9100-T15</td><td>用于额外 PCIe 4.0 x16 连接的 NVIDIA 辅助套件,PCIe 4.0 x16 无源辅助卡,两根 150mm IPEX 线缆</td></tr><tr><td>MTM9100-T25</td><td>用于额外 PCIe 4.0 x16 连接的 NVIDIA 辅助套件,PCIe 4.0 x16 无源辅助卡,两根 250mm IPEX 线缆</td></tr><tr><td>MTMK9100-T35</td><td>用于额外 PCIe 4.0 x16 连接的 NVIDIA 辅助套件,PCIe 4.0 x16 无源辅助卡,两根 350mm IPEX 线缆</td></tr><tr><td>MTMK9100-T55</td><td>用于额外 PCIe 4.0 x16 连接的 NVIDIA 辅助套件,PCIe 4.0 x16 无源辅助卡,两根 550mm IPEX 线缆</td></tr></table> 开放计算项目(OCP)网卡 <table><tr><td>OPN</td><td>说明</td></tr><tr><td>MCX75343AAS-NEAC</td><td>NVIDIA 400Gb/s 单端口, OSFP, PCIe 5.0 x16 OCP3.0²小卡 (TSFF)</td></tr><tr><td>MCX753436AS-HEAB</td><td>NVIDIA 200Gb/s VPI 双端口, QSFP, PCIe 5.0 x16 OCP3.0(SFF)</td></tr></table> 2PreOCP3.2规格 其他外形规格包括配备OSFP 连接器的开放计算项目(OCP)3.0、配备QSFP112 连接器的OCP 3.0,以及配备QSFP112 连接器的CEM PCIe x16。 # Mellanox 最新的NDR交换机情况 Mellanox的IB交换机分为两种,为固定配置交换机和模块化交换机,我们最常见到的是固定配置交换机,最新的NDR交换机也是如此,只是在英伟达的官网上只能看到如图的固定配置交换机,9500系列的高端框式交换机不见了。 NDR的固定配置交换机系列配有32个物理OSFP连接器,支持64个400Gb/s端口(可拆分为多达128个200Gb/s端口)。该交换机系列可提供总计51.2Tb/s的双向吞吐量(背板带宽),以及惊人的每秒665亿的数据包处理容量(包转发率)。 <table><tr><td>OPN</td><td>Description</td></tr><tr><td>MQM9700-NS2F</td><td>64 400Gb/s ports, 32 OSFP ports, Managed, P2C airflow</td></tr><tr><td>MQM9700-NS2R</td><td>64 400Gb/s ports, 32 OSFP ports, Managed, C2P airflow</td></tr><tr><td>MQM9700M-NSBR</td><td>64 400Gb/s ports, 32 OSFP ports, Managed, 48V DC, C2P airflow</td></tr><tr><td>MQM9790-NS2F</td><td>64 400Gb/s ports, 32 OSFP ports, Unmanaged, P2C airflow</td></tr><tr><td>MQM9790-NS2R</td><td>64 400Gb/s ports, 32 OSFP ports, Unmanaged, C2P airflow</td></tr></table> 几个型号的接口数和速率都一样,区别只是体现在是否支持管理功能,供电方式和散热方式上。 管理功能的用途并不大,通常最多配置1台就够了。 # Mellanox 最新的互联线缆和模块 Mellanox的LinkX线缆和收发器通常用于将ToR交换机向下链接到NVIDIA GPU和CPU服务器中的网卡以及存储设备,和/或向上链接于整个网络基础设施中的交换机到交换机互联应用场景中。 有源光缆(AOC)、直连式铜缆(DAC)、新的有源DAC叫ACC,在电缆端部包括信号增强集成电路(IC) # Relevant OPNs and length Single-mode NDR speed - using fiber MFP7E30-NOXX (XX = 3m, 5m, 7m, 10m, 15m, 20m, 30m, 50m, 100m) Single-mode NDR200 speed - using split-fiber MFP7E40-NOXX (XX = 3m, 5m, 7m, 10m, 15m, 20m, 30m, 50m) Multi-mode NDR speed - using fiber MFP7E10-NOXX (XX = 3m, 5m, 7m, 10m, 15m, 20m, 30m, 40m, 50m) Multi-mode NDR200 speed - using split-fiber MFP7E20-NOXX (XX = 3m, 5m, 7m, 10m, 15m, 20m, 30m, 40m, 50m) # Mellanox 典型互联链路 交换机到交换机、交换机到网卡可以通过不同的线缆互联,交换机到网卡的可以实现一转2、4互联。 # Mellanox网卡的单模和双模 # 区别? 之前的IB卡其实本质上就是当前的双模卡。唯一区别在于以前的模式从策略上是两种产品,当前的模式在策略上是一种产品 # Mellanox网卡在H100的拓扑 1、在H100机器内部,HGX模组是和机头在逻辑上通过4个PCIE SW芯片互联。 2、每个PCIE sw对应两个GPU卡和2个网卡,8张400G的IB卡是为了和8卡的H100——对应。 3、如果配满了8张400G的IB卡,再加其他网卡需要用CPU出来的其他PCIE SW连接。