> **来源:[研报客](https://pc.yanbaoke.cn)** # Atlas 900 RCK A2 计算节点 # 技术白皮书(AICC场景) 文档版本 11 发布日期 2026-01-30 版权所有 © 华为技术有限公司 2026。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 # 商标声明 HUAWEI和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 # 注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 # 华为技术有限公司 地址: 深圳市龙岗区坂田华为总部办公楼邮编:518129 网址: https://e.huawei.com # 安全声明 # 产品生命周期政策 华为公司对产品生命周期的规定以“产品生命周期终止政策”为准,该政策的详细内容请参见如下网址:https://support.huawei.com/ecolumnsweb/zh/warranty-policy # 漏洞处理流程 华为公司对产品漏洞管理的规定以“漏洞处理流程”为准,该流程的详细内容请参见如下网址:https://www.huawei.com/cn/psirt/vul-response-process 如企业客户须获取漏洞信息,请参见如下网址:https://securitybulletin.huawei.com/enterprise/cn/security-advisory # 华为初始证书权责说明 华为公司对随设备出厂的初始数字证书,发布了“华为设备初始数字证书权责说明”,该说明的详细内容请参见如下网址:https://support.huawei.com/enterprise/zh/bulletins-service/ENEWS2000015766 # 华为企业业务最终用户许可协议(EULA) 本最终用户许可协议是最终用户(个人、公司或其他任何实体)与华为公司就华为软件的使用所缔结的协议。 最终用户对华为软件的使用受本协议约束,该协议的详细内容请参见如下网址: https://e.huawei.com/cn/about/eula # 产品资料生命周期策略 华为公司针对随产品版本发布的售后客户资料(产品资料),发布了“产品资料生命周期策略”,该策略的详细内容请参见如下网址:https://support.huawei.com/enterprise/zh/bulletins-website/ENEWS2000017760 # 概述 本文档详细介绍Atlas 900 RCK A2 计算节点的外观特点、性能参数以及部件兼容性等内容。 # 读者对象 本文档主要适用于以下人员: 售前工程师 技术支持工程师 $\bullet$ 维护工程师 # 免责声明 本技术白皮书对于具体技术指标的表述,包括但不限于规格及性能,将根据具体的产品发布情况确定。本技术白皮书并不构成对于相关产品的技术指标的承诺或保证。华为可能不定期就相关信息进行更新,华为保留对于相关产品或解决方案信息的更新或更正的权利,请参考最新发布的相关说明或介绍。 # 符号约定 在本文中可能出现下列标志,它们所代表的含义如下。 <table><tr><td>符号</td><td>说明</td></tr><tr><td>危险</td><td>表示如不避免则将会导致死亡或严重伤害的具有高等级风险的危害。</td></tr><tr><td>警告</td><td>表示如不避免则可能导致死亡或严重伤害的具有中等级风险的危害。</td></tr><tr><td>注意</td><td>表示如不避免则可能导致轻微或中度伤害的具有低等级风险的危害。</td></tr><tr><td>须知</td><td>用于传递设备或环境安全警示信息。如不避免则可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。 “须知”不涉及人身伤害。</td></tr><tr><td>说明</td><td>对正文中重点信息的补充说明。 “说明”不是安全警示信息,不涉及人身、设备及环境伤害信息。</td></tr></table> 修改记录 <table><tr><td>文档版本</td><td>发布日期</td><td>修改说明</td></tr><tr><td>11</td><td>2026-01-30</td><td>2.7 电源模块增加说明。</td></tr><tr><td>10</td><td>2025-11-17</td><td>3.1 技术规格章节AI算力增加单个AI处理器算力规格。</td></tr><tr><td>09</td><td>2025-10-31</td><td>3.1 技术规格章节增加AI算力和片上内存指标项。</td></tr><tr><td>08</td><td>2025-07-24</td><td>更新如下章节 • 3.1 技术规格 • 3.2 环境规格 • 2.4.3 硬盘指示灯</td></tr><tr><td>07</td><td>2024-10-14</td><td>修改2.4.3 硬盘指示灯章节。</td></tr><tr><td>06</td><td>2024-06-12</td><td>更新如下章节: 3.2 环境规格</td></tr><tr><td>05</td><td>2024-04-24</td><td>更新如下章节: 3.2 环境规格</td></tr><tr><td>04</td><td>2023-12-08</td><td>第四次正式发布。 修改3.1 技术规格中L3 Cache容量。</td></tr><tr><td>03</td><td>2023-10-24</td><td>第三次正式发布。 • 优化1.2产品特点、2.3处理器和3.1技术规格章节。 • 删除“逻辑结构”章节。</td></tr><tr><td>02</td><td>2023-09-28</td><td>第二次正式发布。 新增SDI 5.0相关内容。</td></tr><tr><td>01</td><td>2023-06-30</td><td>第一次正式发布。</td></tr></table> # 目录 # 前言.. 3 # 1简介 1.1 产品概述 1.2 产品特点 2 1.3物理结构 3 # 2 硬件描述 5 2.1前面板 5 2.1.1 外观 6 2.1.2指示灯和按钮 6 2.1.3 接口 8 2.2 后面板 9 2.2.1 外观 9 2.2.2 接口 9 2.3处理器 10 2.4存储 10 2.4.1 硬盘配置 11 2.4.2 硬盘编号 11 2.4.3 硬盘指示灯 12 2.5 风扇 13 2.6Riser模组和PCIe插槽 13 2.7 电源模块 16 2.8 网卡模块 17 2.9 单板 19 2.9.1 硬盘背板 19 2.9.2 电源转接板 20 2.9.3 漏液检测板 22 2.9.4 CPU 主板 22 2.9.5 NPU模组 24 2.9.6 NPU载板 25 2.10 内存 27 2.10.1内存槽位编号 27 2.10.2内存条安装原则 29 2.10.3内存容量配置规则 30 2.10.4 内存保护技术 30 3产品规格 31 3.1 技术规格 31 3.2环境规格 33 3.3物理规格 34 4软硬件兼容性 35 5系统管理 36 6维保与保修 38 A产品序列号 39 B RAS 特性 41 C 传感器列表 43 # 1 简介 1.1 产品概述 1.2 产品特点 1.3 物理结构 # 1.1 产品概述 Atlas 900 RCK A2 计算节点是基于华为自研鲲鹏920处理器+昇腾910 AI处理器(NPU)的AI训练计算节点,实现完全自主创新,广泛应用于深度学习模型开发和AI训练服务场景。该设备面向人工智能计算中心、运营商等重算力场景,具有高计算密度、高能效比、高网络带宽、易扩展、易管理等优点,满足企业机房部署和大规模数据中心集群部署。 以10块硬盘配置为例进行说明。 图1-1 外观示意图 # 1.2 产品特点 # 性能和扩展特点 该设备性能和扩展特点如下: - 支持64 bits高性能多核鲲鹏920 CPU处理器,内部集成了DDR4、PCIe4.0、100GE、25GE、10GE、GE等接口,提供完整的SOC功能。 # 说明 具体请以实际配置为准。 - Core为64bits-TaiShan core核。 - 每个core集成64KB L1 I-cache,64KB L1 D-cache和512KB L2 D-cache。 - 支持高达48MB的L3 cache容量。 - 支持超标量,可变长度,乱序流水线。 - 支持ECC 1bit纠错,ECC 2bit报错。 - 支持片间Hydra高速接口,通道速率高达30Gbps。 - 支持8个DDR控制器。 - 最大支持8个物理以太网口。 - 支持3个PCIe控制器,支持GEN4(16Gbps),并可向下兼容。 - 支持IMU维护引擎,收集CPU状态。 - 最大支持32条DDR4 ECC内存,内存支持RDIMM,可支持最多提供2048GB内存容量。 # 说明 具体请以实际配置为准。 - 支持多种灵活的硬盘配置方案,提供了弹性的、可扩展的存储容量空间,满足不同存储容量的需求和升级要求。 - 最多可支持2个PCIe4.0 x8的标准扩展槽位。 # 说明 具体请以实际配置为准。 # 可用性和可服务性特点 该设备可用性和可服务性特点如下: - 单板硬件采用电信级器件和加工工艺流程,可显著提高系统可靠性。 - 支持NVMe硬盘,支持非系统硬盘热插拔。 - 通过面板提供UID/HLY LED指示灯,iBMC Web管理界面提供关键部件指示状态能够指引技术人员快速找到已经发生故障(或者正在发生故障)的组件,从而简化维护工作、加快解决问题的速度,并且提高系统可用性。 - BMC集成管理模块(iBMC)能够持续监测系统参数、触发告警,并且采取恢复措施,以便最大限度地避免停机。 # 可管理性及安全性特点 该设备可管理性及安全性特点如下: - 集成在设备上的iBMC管理模块可用来监测系统运行状态,并提供远程管理功能。 - 集成了业界标准的统一可扩展固件接口(UEFI),因此能够提高设置、配置和更新效率,并且简化错误处理流程。 # 能源效率 该设备能源效率特点如下: 提供白金级电源模块,50%负载下电源模块效率高达96%。 - 高效率的单板VRD电源,降低DC转DC的损耗。 - 支持PID(Proportional-Integral-Derivative)智能调速,节能降耗。 - 全方位优化的系统散热设计,高效节能系统散热风扇,降低系统散热能耗。 - 硬盘错峰上电技术,降低设备启动功耗。 - 支持SSD硬盘,SSD硬盘的功耗比传统机械硬盘低80%。 # 1.3 物理结构 该设备的各个部件如图1-2所示。 图1-2部件示意图 1 DIMM 2 CPU主板 3 电源转接板 4 CPU液冷散热器 <table><tr><td>5</td><td>CPU漏液检测板</td><td>6</td><td>导风罩和横梁</td></tr><tr><td>7</td><td>超级电容</td><td>8</td><td>机箱中隔板</td></tr><tr><td>9</td><td>Riser模组1</td><td>10</td><td>Riser模组2</td></tr><tr><td>11</td><td>600W风冷电源砖</td><td>12</td><td>3000W液冷电源砖</td></tr><tr><td>13</td><td>NPU漏液检测板</td><td>14</td><td>高速信号互连接口</td></tr><tr><td>15</td><td>机箱</td><td>16</td><td>硬盘模块</td></tr><tr><td>17</td><td>风扇模块</td><td>18</td><td>硬盘背板</td></tr><tr><td>19</td><td>管道夹</td><td>20</td><td>3000W风冷电源砖</td></tr><tr><td>21</td><td>理线架</td><td>22</td><td>昇腾910 NPU载板</td></tr><tr><td>23</td><td>昇腾910 NPU模组</td><td>24</td><td>NPU液冷散热器1</td></tr><tr><td>25</td><td>NPU液冷散热器2</td><td>-</td><td>-</td></tr></table> # 2 硬件描述 2.1 前面板 2.2 后面板 2.3 处理器 2.4存储 2.5 风扇 2.6Riser模组和PCIe插槽 2.7 电源模块 2.8 网卡模块 2.9 单板 2.10内存 # 2.1 前面板 # 2.1.1 外观 图2-1前面板外观示意图 # 2.1.2 指示灯和按钮 # 指示灯和按钮位置 图2-2前面板指示灯和按钮示意图 # 指示灯和按钮说明 表 2-1 前面板指示灯和按钮说明 <table><tr><td>标识</td><td>指示灯和按钮</td><td>状态说明</td></tr><tr><td>888</td><td>故障诊断数码管</td><td>·显示---:表示设备正常。 ·显示故障码:表示设备有部件故障。</td></tr><tr><td></td><td>电源按钮/指示灯</td><td>·电源按钮说明: -上电状态下短按电源按钮,OS正常关机。 -上电状态下长按电源按钮6秒钟,可以将设备强制下电。 -待上电状态下短按电源按钮,可以进行上电。 ·电源指示灯说明: -熄灭:设备未上电。 -绿色常亮:设备正常上电。 -黄色闪烁:电源按钮暂时处于锁定状态,不能进行操作。设备刚上电,管理系统正在启动时,电源按钮会处于锁定状态。 -黄色常亮:设备待上电。</td></tr><tr><td></td><td>健康状态指示灯</td><td>·熄灭:设备未上电或处于异常状态。 ·红色闪烁(1Hz):系统有严重告警。 ·红色闪烁(5Hz):系统有紧急告警。 ·绿色常亮:设备运转正常。</td></tr><tr><td></td><td>UID按钮/指示灯</td><td>·UID按钮: -可通过手动按UID按钮、iBMC命令或者iBMC的WebUI远程管理使灯熄灭、灯亮或闪烁。 -短按UID按钮,可以打开/关闭定位灯。 -长按UID按钮5秒左右,可以复位管理系统。 ·指示灯: -UID指示灯用于方便地定位待操作的设备。 -熄灭:设备未被定位。 -蓝色闪烁:设备被重点定位。 -蓝色常亮:设备被定位。</td></tr><tr><td>-</td><td>业务网口数据传输状态指示灯</td><td>·黄色(闪烁):表示有数据正在传输。 ·熄灭:表示无数据传输。</td></tr><tr><td>-</td><td>业务网口连接状态指示灯</td><td>·绿色(常亮):表示网络连接正常。 ·熄灭:表示网络未连接。</td></tr><tr><td>-</td><td>硬盘指示灯</td><td>硬盘指示灯状态说明详细信息请参见2.4.3 硬盘指示灯。</td></tr><tr><td>*</td><td>风扇模块指示灯</td><td>·熄灭:设备未上电。 ·绿色(常亮):表示风扇正常运作。 ·红色(常亮):表示风扇存在告警。</td></tr></table> # 2.1.3 接口 图2-3前面板接口示意图 表 2-2 前面板接口说明 <table><tr><td>名称</td><td>类型</td><td>数量</td><td>说明</td></tr><tr><td>业务网口</td><td>RJ45</td><td>2</td><td>提供2个1000Mbps以太网口,用于处理业务。</td></tr><tr><td>USB 2.0接口</td><td>USB 2.0</td><td>2</td><td>提供外出USB接口,通过该接口可以接入USB设备。 说明 ·使用外接USB设备时请确认USB设备状态良好,否则可能导致计算节点工作异常。 ·使用外接USB设备时,最大支持1米的延长线。 ·如USB设备(包括U盘、移动硬盘等)无法识别,请联系技术支持。</td></tr><tr><td>VGA接口</td><td>DB15</td><td>1</td><td>用于连接显示终端,例如显示器。</td></tr><tr><td>调试串口</td><td>RJ45</td><td>1</td><td>默认为系统串口,可通过命令行设置为iBMC串口。主要用于调试。</td></tr><tr><td>管理网口</td><td>RJ45</td><td>1</td><td>提供外出1000Mbps以太网口,支持自适应10/100/1000M。通过该接口可以对本计算节点进行带外管理。 说明 该网口仅用于现场维护时供客户端直连使用,其他场景不允许连接网线。</td></tr></table> # 2.2 后面板 # 2.2.1 外观 图2-4 后面板外观示意图 # 2.2.2 接口 图2-5 后面板接口示意图 表 2-3 后面板接口说明 <table><tr><td>名称</td><td>数量</td><td>说明</td></tr><tr><td>Manifold供/回水口</td><td>3</td><td>用于连接机柜的Manifold</td></tr><tr><td>高速信号互连接口</td><td>4</td><td>用于连接机柜的Cable背板</td></tr><tr><td>电源接口</td><td>3</td><td>用于连接机柜的Busbar</td></tr></table> # 2.3 处理器 CPU: - 支持4路2.6GHz/3.0GHz鲲鹏920处理器。 - 处理器集成在主板上,不能更换。 图2-6CPU处理器位置示意图 NPU: 支持昇腾910 AI处理器。 # 2.4存储 # 2.4.1 硬盘配置 表 2-4 硬盘配置 <table><tr><td>应用场景</td><td>硬盘配置</td><td>最大前置硬盘数量(个)</td><td>硬盘管理方式</td></tr><tr><td>配置SDIV3Lite</td><td>5x2.5 NVMe硬盘配置[1]</td><td>5槽位5~9支持NVMe硬盘</td><td>NVMe硬盘: CPU直出PCIe</td></tr><tr><td>配置SDIV5.0</td><td>3x2.5 NVMe硬盘配置[2]</td><td>3槽位5/8/9支持NVMe硬盘</td><td>NVMe硬盘: CPU直出PCIe</td></tr><tr><td colspan="4">[1]: 0~4、6/7槽位是硬盘假模块,其中0/1槽位的硬盘假模块支持拆卸,其余槽位硬盘假模块均不支持拆卸。[2]: 0~4是硬盘假模块,其中0/1槽位的硬盘假模块支持拆卸,其余槽位硬盘假模块均不支持拆卸。</td></tr></table> # 2.4.2 硬盘编号 # 说明 支持多种硬盘配置,以实际发货为准。 - 3x2.5 NVMe硬盘的槽位编号如图2-7所示。 图2-73x2.5NVMe硬盘编号示意图 - 5x2.5 NVMe硬盘的槽位编号如图2-8所示。 图2-85x2.5NVMe硬盘编号示意图 # 2.4.3 硬盘指示灯 NVMe 硬盘指示灯 NVMe硬盘指示灯如图2-9所示。 图2-9NVMe硬盘指示灯示意图 表 2-5 NVMe 硬盘指示灯说明 <table><tr><td>硬盘Active指示灯</td><td>硬盘Fault/Locate指示灯</td><td>状态说明</td></tr><tr><td>熄灭</td><td>熄灭</td><td>NVMe硬盘不在位或者PCIe链路Linkdown。</td></tr><tr><td>绿色常亮</td><td>熄灭</td><td>NVMe硬盘在位且无故障。</td></tr><tr><td>绿色闪烁</td><td>熄灭</td><td>NVMe硬盘正在进行读写操作。</td></tr><tr><td>绿色常亮/灭</td><td>红色闪烁(2Hz)</td><td>NVMe硬盘正处于热插过程中。</td></tr><tr><td>熄灭</td><td>红色闪烁(0.5Hz)</td><td>NVMe硬盘已完成热拔出流程,允许拔出。</td></tr><tr><td>绿色常亮/灭</td><td>红色常亮</td><td>NVMe硬盘故障。</td></tr></table> # 2.5 风扇 该设备支持可变的风扇速度。一般情况风扇以最低速度转动,如果入风口温度升高或者设备温度升高,风扇会提高速度来降温;支持单风扇失效,N+1冗余备份。 风扇位置示意图如图2-10所示,所配风扇数量以现场实际为准。 图2-10 风扇位置示意图 # 2.6Riser模组和PCIe插槽 # Riser模组 Riser模组1支持的Riser卡如图2- 11所示,Riser模组2支持的Riser卡如图2- 12所示。 图2-11Riser卡1示意图 图2-12Riser卡2示意图 # 须知 Riser卡1和Riser卡2必须在位,且Riser卡1和Riser卡2的3个Slimline线缆需连接,否则NPU板不可用。 # PCIe插槽位置 Riser卡1上: Slot1空置。 Slot2配置SDI V3 Lite或SDI V5.0。 # 须知 SDI卡不能插反,否则会导致功能异常。 Riser卡2上:Slot3、Slot4空置。 # PCIe插槽说明(配置SDI V3 Lite) 表 2-6 PCIe 插槽说明 <table><tr><td>PCIe槽位</td><td>从属CPU</td><td>PCIe标准</td><td>连接器宽度</td><td>总线宽度</td><td>端口号</td><td>Root Port(B/D/F)</td><td>Device(B/D/F)</td><td>槽位大小</td></tr><tr><td>Slot1</td><td>NA</td><td>NA</td><td>x16</td><td>NA</td><td>NA</td><td>NA</td><td>NA</td><td>全高全长</td></tr><tr><td>Slot2</td><td>CPU2</td><td>PCIe4.0</td><td>x16</td><td>x8lane</td><td>Port36</td><td>40/10/0</td><td>43/00/0</td><td>全高半长</td></tr><tr><td>Slot3</td><td>NA</td><td>NA</td><td>x16</td><td>NA</td><td>NA</td><td>NA</td><td>NA</td><td>半高半长</td></tr><tr><td>Slot4</td><td>NA</td><td>NA</td><td>x16</td><td>NA</td><td>NA</td><td>NA</td><td>NA</td><td>半高半长</td></tr><tr><td colspan="9">说明 • 表格中的B/D/F(Bus/Device/Function Number)数据是PCIe部件满配时的默认取值,PCIe卡不满配或配置带PCI bridge的PCIe卡时,B/D/F可能会改变。 • Root Port(B/D/F):处理器内部PCIe根节点的B/D/F。 • 总线带宽为PCIe x16的插槽向下兼容PCIe x8、PCIe x4、PCIe x1的PCIe卡。向上则不兼容,即PCIe插槽的带宽不能小于插入的PCIe卡的带宽。 • 所有槽位供电能力都可以支持PCIe卡,PCIe卡的功率取决于PCIe卡的型号。</td></tr></table> # PCIe插槽说明(配置SDI V5.0) 表 2-7 PCIe 插槽说明 <table><tr><td>PCIe槽位</td><td>从属CPU</td><td>PCIe标准</td><td>连接器宽度</td><td>总线宽度</td><td>端口号</td><td>RootPort(B/D/F)</td><td>Device(B/D/F)</td><td>槽位大小</td></tr><tr><td>Slot1</td><td>NA</td><td>NA</td><td>x16</td><td>NA</td><td>NA</td><td>NA</td><td>NA</td><td>全高全长</td></tr><tr><td>Slot2</td><td>CPU2</td><td>PCIe4.0</td><td>x16</td><td>x16lane</td><td>Port36</td><td>40/10/0</td><td>43/00/0</td><td>全高全长</td></tr><tr><td>Slot3</td><td>NA</td><td>NA</td><td>x16</td><td>NA</td><td>NA</td><td>NA</td><td>NA</td><td>半高半长</td></tr><tr><td>Slot4</td><td>NA</td><td>NA</td><td>x16</td><td>NA</td><td>NA</td><td>NA</td><td>NA</td><td>半高半长</td></tr><tr><td colspan="9">说明 • 表格中的B/D/F(Bus/Device/Function Number)数据是PCIe部件满配时的默认取值,PCIe卡不满配或配置带PCI bridge的PCIe卡时,B/D/F可能会改变。 • Root Port(B/D/F):处理器内部PCIe根节点的B/D/F。 • 总线带宽为PCIe x16的插槽向下兼容PCIe x8、PCIe x4、PCIe x1的PCIe卡。向上则不兼容,即PCIe插槽的带宽不能小于插入的PCIe卡的带宽。 • 所有槽位供电能力都可以支持PCIe卡,PCIe卡的功率取决于PCIe卡的型号。 • Slot1从属CPU4,Riser模组1连接器线缆需连接至主板LP Slimline连接器(J304)。</td></tr></table> # 2.7 电源模块 支持3种54.5V转12V电源模块: 1个600W风冷电源砖(硬盘背板) 1个3000W液冷电源砖(CPU主板) 4个3000W风冷电源砖(NPU载板) 图2-13 电源模块位置示意图 # 说明 供电情况: - PSU1为NPU7-8和NPU载板供电。 - PSU2为NPU5-6供电。 - PSU3为NPU3-4供电。 - PSU4为NPU1-2供电。 - PSU5为主板供电。 - 冗余方式: - 下层任意一个PSU故障,会触发对应2个NPU掉卡;但PSU1掉电,会导致下层整个NPU掉电,NPU载板无法识别。 - 上层PSU5故障,会触发主板掉电。 # 2.8 网卡模块 SD100智能网卡(以下简称SD100)是面向云计算裸机和虚拟机部署场景推出的一种智能网卡,主要是为了解决云计算裸机和虚拟机部署场景下共享分布式存储遇到的存储网络安全问题。 # 说明 云计算裸机场景是指将主机侧的计算资源全部租给客户使用,客户可以在主机侧安装自己的软件,不受数据中心管理者的限制,例如:Oracle RAC等企业应用场景。 通过在SD100上部署云计算分布式存储软件和代理软件,向主机侧呈现了标准的SCSI(Small Computer System Interface)块存储设备,实现了分布式存储软件与主机硬 件的解耦,彻底解决存储网络安全问题;同时通过卸载原来部署在主机侧的存储软件,降低了主机侧对处理器的占用,降低了总体部署成本。 SD100智能网卡包括5个系列,分别为SDI V1、SDI V2、SDI V3、SDI V3 Lite和SDI V5(包括SDI V5.0和SDI V5.1),其中Atlas 900 RCK A2计算节点使用的是SDI V3 Lite和SDI V5.0。 # SDI V3 Lite 关于SDI V3 Lite的详细信息,请参见《SD100用户指南(SDI V3 Lite)》。 图2-14 SDI V3 Lite示意图 # SDI V5.0 关于SDI V5.0的详细信息,请参见《SD100用户指南(SDI V5)》。 图2-15 SDI V5.0示意图 # 2.9 单板 # 2.9.1 硬盘背板 硬盘背板接口如图2-16所示。 图2-16 硬盘背板接口示意图 <table><tr><td>1</td><td>关断阀低速管理连接器[1] (J5401)</td><td>2</td><td>高速信号连接器[2](J31 UBC 5)</td></tr><tr><td>3</td><td>高速信号连接器[3](J3 PORT C)</td><td>4</td><td>高速信号连接器[2](J7 UBC 4)</td></tr><tr><td>5</td><td>高速信号连接器[2](J30 UBC 3)</td><td>6</td><td>电源连接器[4](J5501 PWR1)</td></tr><tr><td>7</td><td>电源连接器[4](J5503 PWR3)</td><td>8</td><td>高速信号连接器[3](J2 PORT B)</td></tr><tr><td>9</td><td>电源连接器[4](J5502 PWR2)</td><td>10</td><td>高速信号连接器[2](J6 UBC 2)</td></tr><tr><td>11</td><td>高速信号连接器[2](J32 UBC 1)</td><td>12</td><td>高速信号连接器[2](J9 UBC 0)</td></tr><tr><td>13</td><td>高速信号连接器[3](J4 PORT A)</td><td>14</td><td>低速信号连接器[5](J29 MISC CONN)</td></tr><tr><td colspan="4">[1]:1,预留接口,用于关断阀控制。[2]:2/4/5/10/11/12,UBC连接器,传输CPU主板到硬盘背板的PCIe信号,用于扩展NVMe硬盘。[3]:3/8/13,minisAS连接器,传输CPU主板到硬盘背板的SAS信号,用于扩展SAS硬盘或SATA硬盘。[4]:6/7/9,电源连接器,连接12V供电电源线。[5]:14,低速信号线,传递CPU主板到硬盘背板的控制信号。</td></tr></table> # 2.9.2 电源转接板 电源转接板接口如图2-17所示。 图2-17 电源转接板接口示意图 <table><tr><td>1</td><td>电源连接器[1](J1)</td><td>2</td><td>电源连接器[1](J2)</td></tr><tr><td>3</td><td>电源连接器[1](J3)</td><td>4</td><td>信号连接器[2](J4)</td></tr><tr><td>5</td><td>电源快插头[3](J8)</td><td>6</td><td>低速信号连接器[4](J10)</td></tr><tr><td>7</td><td>电源快插头[3](J9)</td><td>8</td><td>电源快插头[3](J7)</td></tr><tr><td colspan="4">[1]: 1/2/3,电源连接器,连接12V供电电源线。直接插在CPU主板上。[2]: 4,将CPU主板的控制信号转接到电源转接板。直接插在CPU主板上。[3]: 5/7/8,用电源线缆与3000W液冷电源砖连接。[4]: 6,用低速信号线缆与3000W液冷电源砖连接,传递电源砖控制信号。</td></tr></table> # 2.9.3 漏液检测板 漏液检测板接口如图2-18所示。 图2-18 漏液检测板接口示意图 <table><tr><td>1</td><td>电机阀连接器[1](J6)</td><td>2</td><td>漏液检测绳连接器(J5)</td></tr><tr><td>3</td><td>漏液检测绳连接器(J7)</td><td>4</td><td>低速管理连接器(J3)</td></tr><tr><td colspan="4">[1]:1,预留接口,暂不支持。</td></tr></table> # 2.9.4 CPU 主板 CPU主板接口如图2-19所示。 图2-19CPU主板接口示意图 <table><tr><td>1</td><td>Riser卡插槽2(J34)</td><td>2</td><td>4×GE端口(J95)</td></tr><tr><td>3</td><td>调试串口(J22)</td><td>4</td><td>Mgmt管理网口(J23)</td></tr><tr><td>5</td><td>iBMC芯片[1](U31)</td><td>6</td><td>6pin信号连接器(J39)</td></tr><tr><td>7</td><td>Riser卡插槽1(J35)</td><td>8</td><td>LP Slimline连接器(J004)</td></tr><tr><td>9</td><td>右挂耳连接器(J16)</td><td>10</td><td>高速信号连接器(J73)</td></tr><tr><td>11</td><td>NC-SI连接器(J5)</td><td>12</td><td>LP Slimline连接器(从左到右分别为:J106/J006)</td></tr><tr><td>13</td><td>LP Slimline连接器(从左到右,从上到下分别为:J206/J308/J305/J306/J307/J304)</td><td>14</td><td>TPM连接器(J98)</td></tr><tr><td>15</td><td>系统电池(U4)</td><td>16</td><td>硬盘背板信号连接器(J2079)</td></tr><tr><td>17</td><td>左挂耳连接器(J6)</td><td>18</td><td>漏液检测板连接器(J33)</td></tr><tr><td>19</td><td>LP Slimline连接器(从上到下分别为:J204/J205/J207/J208)</td><td>20</td><td>硬盘背板电源连接器1(J99)</td></tr><tr><td>21</td><td>硬盘背板电源连接器2(J31)</td><td>22</td><td>硬盘背板电源连接器3(J76)</td></tr><tr><td>23</td><td>8pin信号连接器(J24)</td><td>24</td><td>电源连接器(从左到右分别为:J2088/J2087/J2086)</td></tr><tr><td>25</td><td>低速信号连接器(J2014)</td><td>-</td><td>-</td></tr><tr><td colspan="4">[1]:5,iBMC芯片不支持单独更换,需要和主板一起更换。</td></tr></table> # 2.9.5 NPU模组 NPU模组接口如图2-20所示。 图2-20 NPU模组接口示意图 <table><tr><td>1</td><td>UBC连接器(J1)</td><td>2</td><td>UBC连接器(J2)</td></tr><tr><td>3</td><td>UBC连接器(J3)</td><td>-</td><td>-</td></tr></table> - J1,通过高速信号线缆连接到计算节点后面板的高速信号互连接口(SHLM连接器)上。 - J2/J3,通过高速信号线缆连接到CPU主板Slimline连接器上。 # 2.9.6 NPU 载板 NPU载板接口如图2-21所示。 图2-21 NPU载板接口示意图 <table><tr><td>1</td><td>4个3000W风冷电源砖连接器(从左到右分别为:J4/J3/J2/J1)</td><td>2</td><td>低速管理连接器(从左到右分别为:J205/J305)</td></tr><tr><td>3</td><td>NPU模组的SHMM连接器[1](上面4个从左到右分别为:J108/J106/J104/J102;下面4个从左到右分别为:J107/J105/J103/J101)</td><td>4</td><td>漏液检测板连接器[2](J14)</td></tr><tr><td>5</td><td>电机阀连接器[2](J16)</td><td>6</td><td>电机阀连接器[2](J17)</td></tr><tr><td>7</td><td>漏液检测板连接器(J15)</td><td>-</td><td>-</td></tr><tr><td colspan="4">[1]:SHMM连接器,指的是MIRROR MEZZ连接器。[2]:4/5/6,预留接口,暂不支持。</td></tr></table> iBMC上显示每个NPU在载板上的物理位置,npu-smi工具显示NPU的逻辑位置,其对应关系如表2-12所示。 表 2-8 iBMC 和 npu-smi 下的 NPU 编号对应关系 <table><tr><td>编号</td><td>iBMC上显示</td><td>npu-smi下显示(NPU ID)</td></tr><tr><td>1</td><td>NPU1</td><td>NPU0</td></tr><tr><td>2</td><td>NPU2</td><td>NPU1</td></tr><tr><td>3</td><td>NPU3</td><td>NPU2</td></tr><tr><td>4</td><td>NPU4</td><td>NPU3</td></tr><tr><td>5</td><td>NPU5</td><td>NPU4</td></tr><tr><td>6</td><td>NPU6</td><td>NPU5</td></tr><tr><td>7</td><td>NPU7</td><td>NPU6</td></tr><tr><td>8</td><td>NPU8</td><td>NPU7</td></tr></table> NPU模组和参数面接口卡的对应关系如图2-22所示。 图2-22 NPU模组和参数面接口卡对应关系图 # 2.10 内存 # 2.10.1 内存槽位编号 该设备提供32个DDR4 DIMM接口,每个处理器均提供8条内存通道,每条通道都支持1个DIMM。内存槽位编号如图2-23所示。 图2-23内存槽位编号示意图 内存通道组成如表2-9所示。 表 2-9 通道组成 <table><tr><td>通道所属的CPU</td><td>通道</td><td>组成</td></tr><tr><td rowspan="8">CPU1</td><td>TB_A</td><td>DIMM060(G)</td></tr><tr><td>TB_B</td><td>DIMM020(C)</td></tr><tr><td>TB_C</td><td>DIMM040(E)</td></tr><tr><td>TB_D</td><td>DIMM000(A)</td></tr><tr><td>TA_A</td><td>DIMM030(D)</td></tr><tr><td>TA_B</td><td>DIMM070(H)</td></tr><tr><td>TA_C</td><td>DIMM010(B)</td></tr><tr><td>TA_D</td><td>DIMM050(F)</td></tr><tr><td rowspan="8">CPU2</td><td>TB_A</td><td>DIMM160(G)</td></tr><tr><td>TB_B</td><td>DIMM120(C)</td></tr><tr><td>TB_C</td><td>DIMM140(E)</td></tr><tr><td>TB_D</td><td>DIMM100(A)</td></tr><tr><td>TA_A</td><td>DIMM130(D)</td></tr><tr><td>TA_B</td><td>DIMM170(H)</td></tr><tr><td>TA_C</td><td>DIMM110(B)</td></tr><tr><td>TA_D</td><td>DIMM150(F)</td></tr><tr><td rowspan="8">CPU3</td><td>TB_A</td><td>DIMM260(G)</td></tr><tr><td>TB_B</td><td>DIMM220(C)</td></tr><tr><td>TB_C</td><td>DIMM240(E)</td></tr><tr><td>TB_D</td><td>DIMM200(A)</td></tr><tr><td>TA_A</td><td>DIMM230(D)</td></tr><tr><td>TA_B</td><td>DIMM270(H)</td></tr><tr><td>TA_C</td><td>DIMM210(B)</td></tr><tr><td>TA_D</td><td>DIMM250(F)</td></tr><tr><td rowspan="8">CPU4</td><td>TB_A</td><td>DIMM360(G)</td></tr><tr><td>TB_B</td><td>DIMM320(C)</td></tr><tr><td>TB_C</td><td>DIMM340(E)</td></tr><tr><td>TB_D</td><td>DIMM300(A)</td></tr><tr><td>TA_A</td><td>DIMM330(D)</td></tr><tr><td>TA_B</td><td>DIMM370(H)</td></tr><tr><td>TA_C</td><td>DIMM310(B)</td></tr><tr><td>TA_D</td><td>DIMM350(F)</td></tr></table> # 2.10.2 内存条安装原则 # 须知 CPU1对应的内存槽位上必须至少配置一根内存条。 当设备配置完全平衡的内存条时,可实现最佳的内存性能。不平衡配置会降低内存性能,因此不推荐使用。 不平衡的内存配置是指安装的内存不是均匀分布在内存通道和(或)处理器上。 - 通道不平衡:如果单个CPU配置5、7根内存条,则通道之间的内存配置不平衡。 - 处理器不平衡:如果在每个处理器上安装了不同数量的内存,则处理器之间的内存配置不平衡。 - 4路设备内存总数量建议配置为:4根、8根、12根、16根、24根、32根。 内存配置时必须遵守内存安装原则,详细信息请参见计算产品内存配置助手,未安装内存条的槽位,需要安装假模块。 # 2.10.3 内存容量配置规则 该设备最多支持32个DIMM,每个处理器支持8个内存通道,每个通道最多支持1个DIMM。 表 2-10 RDIMM 内存配置规则 <table><tr><td colspan="2">参数</td><td>RDIMM内存</td></tr><tr><td colspan="2">Rank</td><td>Dual rank</td></tr><tr><td colspan="2">额定速度(MT/s)</td><td>3200</td></tr><tr><td colspan="2">额定电压(V)</td><td>1.2</td></tr><tr><td colspan="2">工作电压(V)</td><td>1.2</td></tr><tr><td colspan="2">整机最多支持的DIMM数量</td><td>32</td></tr><tr><td colspan="2">单根最大DIMM容量(GB)</td><td>64</td></tr><tr><td colspan="2">整机最大内存容量(GB)</td><td>2048</td></tr><tr><td colspan="2">整机最大工作速度时的最高内存容量(GB)</td><td>2048</td></tr><tr><td>最大工作速度(MT/s)</td><td>每通道1个DIMM</td><td>3200 说明 若使用2.6GHz主频的主板,内存会自动降速,最大工作速度为2933 MT/s。</td></tr></table> # 2.10.4 内存保护技术 支持以下内存保护技术: ECC SEC/DED - SDDC - Patrol scrubbing # 3 产品规格 部件的编码和兼容性请参见计算产品兼容性查询助手。 3.1 技术规格 3.2 环境规格 3.3 物理规格 # 3.1 技术规格 表 3-1 技术规格 <table><tr><td>组件</td><td>规格</td></tr><tr><td>形态</td><td>4U液冷训练计算节点。</td></tr><tr><td>AI处理器</td><td>·支持8路昇腾910 AI处理器,芯片支持直出200G RoCE网络接口。 ·NPU载板由8路AI处理器组成,7条HCCS组成一个8P Full mesh互联,8路AI处理器间互联带宽达到双向共56GB/s,提供最大392GB/s(56GB/s*7)能力。</td></tr><tr><td>AI算力a</td><td>单个AI处理器支持如下规格。 ·400TFLOPS@FP16 ·106TFLOPS@FP32 ·800TOPS@INT8 单个计算节点支持如下规格。 ·3.200PFLOPS@FP16 ·0.848PFLOPS@FP32 ·6.400POPS@INT8</td></tr><tr><td>片上内存</td><td>最大支持512GB,带宽速率最大为1600GB/s。说明 具体请以实际配置为准。</td></tr><tr><td>CPU处理器</td><td>支持4路鲲鹏920处理器。 ·支持鲲鹏920 7265或鲲鹏920 5250。 ·处理器集成内存控制器,支持8个内存通道。 ·处理器集成PCIe控制器,支持PCIe 4.0,每个处理器提供40个 lane。 ·采用3路Hydra总线互连,每路总线传输速率最高可达30GT/s。 ·每个处理器支持64核(鲲鹏920 7265)或48核(鲲鹏920 5250)。 ·支持频率3.0GHz(鲲鹏920 7265)或2.6GHz(鲲鹏920 5250)。 ·L3 Cache容量为64MB(鲲鹏920 7265)/48MB(鲲鹏920 5250)。 ·最大热设计功率为205W。 说明 具体请以实际配置为准。</td></tr><tr><td>内存</td><td>·支持最多32条DDR4内存,支持RDIMM。 ·最大内存传输速率为3200MT/s。 ·内存保护支持ECC、SEC/DED、SDDC、Patrol scrubbing功能。 说明 同一台计算节点不允许混合使用不同规格(容量、位宽、rank、高度等)的内存。即一台计算节点配置的多根内存条必须为相同Part No.(即P/N编码)。</td></tr><tr><td>网络</td><td>支持SDI V3 Lite或SDI V5.0。</td></tr><tr><td>存储</td><td>硬盘: ·详细硬盘配置请参见2.4.1硬盘配置。 ·硬盘支持热插拔。</td></tr><tr><td>PCIe扩展槽位</td><td>·最多支持2个PCIe 4.0扩展插槽。 ·Riser模组1支持以下PCIe规格: -支持1个全高全长的PCIe 4.0 x16标准槽位(信号为PCIe 4.0 x8)。 -支持1个全高半长的PCIe 4.0 x16标准槽位(信号为PCIe 4.0 x8)。 说明 设备支持的PCIe扩展卡具体型号,请参见计算产品兼容性查询助手。</td></tr><tr><td>接口</td><td>·前面板接口: - 支持2个USB 2.0端口 - 1个DB15 VGA端口 - 1个RJ45调试串口、1个RJ45管理网口和2个RJ45业务网口。 ·后面板接口: - 支持4个高速信号接口。 - 支持3个电源接口。 - 支持3个液冷接口。</td></tr><tr><td>风扇</td><td>·8个风扇支持热插拔。 ·支持单风扇失效,N+1冗余备份。 说明 同一台设备必须配置相同Part No.(即P/N编码)的风扇模块。</td></tr><tr><td>系统管理</td><td>提供1个10/100/1000Mbps的RJ45管理网口。</td></tr><tr><td>安全特性</td><td>·管理员密码。 ·TPM(国内)。</td></tr><tr><td>显卡</td><td>系统主板集成显示芯片,提供32MB显存,支持最高60Hz频率下16M色彩的最大分辨率是1920x1080像素。 说明 ·仅在安装了和操作系统版本对应的显卡驱动后才能支持最大分辨率1920x1080像素,否则只能支持操作系统默认分辨率。 ·前后VGA接口同时接显示器的时候,只有接前面板VGA接口的显示器会显示。</td></tr><tr><td colspan="2">a:稳定提供的峰值稠密算力。支持INT8、FP16和FP32精度。</td></tr></table> # 3.2 环境规格 表 3-2 环境规格 <table><tr><td>项目</td><td>指标参数</td></tr><tr><td>温度</td><td>·工作温度:5℃~40℃(41°F~104°F) ·存储温度(3个月以内):-30°C~+60°C(-22°F~+140°F) ·存储温度(6个月以内):-15°C~+45°C(5°F~113°F) ·最大温度变化率:20℃(36°F)/小时、5℃(9°F)/15分钟 说明 ·单风扇单转子失效时支持的最高工作温度为正常工作温度规格以下5℃。 ·长时间存放时,请将设备内的水排空。</td></tr><tr><td>单节点散热需求最大风量(CFM)</td><td>447</td></tr><tr><td>相对湿度(RH,无冷凝)</td><td>·工作湿度:8%~90% ·存储湿度(72小时以内,带产品包装):8%~95% ·存储湿度(6个月以内):20%~75% ·最大湿度变化率:20%/小时</td></tr><tr><td>海拔高度</td><td>工作海拔高度:≤3050m ·配置满足ASHRAE Class A1、A2时,海拔高度超过900m,工作温度按每升高300m降低1℃计算。 ·配置满足ASHRAE Class A3时,海拔高度超过900m,工作温度按每升高175m降低1℃计算。 ·配置满足ASHRAE Class A4时,海拔高度超过900m,工作温度按每升高125m降低1℃计算。</td></tr><tr><td>腐蚀性气体污染物</td><td>腐蚀产物厚度最大增长速率(满足ANSI/ISA-71.04-2013定义的气体腐蚀等级G1): ·铜测试片:300 Å/月 ·银测试片:200 Å/月</td></tr><tr><td>颗粒污染物</td><td>·符合数据中心清洁标准ISO14644-1 Class8 ·机房无爆炸性、导电性、导磁性及腐蚀性尘埃 说明 建议聘请专业机构对机房的颗粒污染物进行监测。</td></tr></table> # 3.3 物理规格 表 3-3 物理规格 <table><tr><td>指标项</td><td>说明</td></tr><tr><td>尺寸(高×宽×深)</td><td>175mm×536mm×900mm</td></tr><tr><td>满配重量</td><td>·净重:74kg ·包装材料重量:30kg</td></tr><tr><td>能耗</td><td>·最大输出功耗:5.5kW ·最大输入功耗:5.7kW 说明 不同配置(含ErP标准的配置)的能耗参数不同。</td></tr></table> # 4 软硬件兼容性 关于操作系统以及硬件的详细信息,请参见计算产品兼容性查询助手。 # 须知 如果使用非兼容的部件,可能造成设备异常,此故障不在技术支持和保修范围内。 # 5 系统管理 Atlas 900 RCK A2 计算节点集成了iBMC智能管理系统,iBMC智能管理系统是设备的远程管理系统。它兼容业界管理标准IPMI 2.0规范,具有高可靠的硬件监测和管理功能。 iBMC智能管理系统的主要特性有: - 支持键盘、鼠标、视频和文本控制台的重定向 支持远程虚拟媒体 - 支持智能平台管理接口(IPMI) 支持简单网络管理协议(SNMP) - 支持通过Web浏览器登录 iBMC智能管理系统的主要规格如表5-1所示。 表 5-1 iBMC 智能管理系统规格 <table><tr><td>规格</td><td>描述</td></tr><tr><td>管理接口</td><td>支持多种管理接口,满足各种方式的系统集成,可与任何标准管理系统集成,支持的接口如下所示:·IPMI V2.0·CLI·HTTPS·SNMP V3</td></tr><tr><td>故障检测</td><td>提供丰富的故障检测功能,精确定位硬件故障,可精确到FRU。</td></tr><tr><td>告警管理</td><td>支持告警管理及SNMP Trap、SMTP、syslog服务多种格式告警上报,保障设备7*24小时高可靠运行。</td></tr><tr><td>集成虚拟KVM</td><td>提供方便的远程维护手段,在系统故障时也无需现场操作。最大支持1920*1200分辨率。</td></tr><tr><td>集成虚拟媒体</td><td>支持将本地媒体设备或镜像、文件夹虚拟为远程设备的媒体设备,简化操作系统安装的复杂度。虚拟光驱最大支持8MB/s。</td></tr><tr><td>基于Web的用户界面</td><td>支持可视化的图像界面,可以通过简单的界面点击快速完成设置和查询任务。</td></tr><tr><td>屏幕快照和屏幕录像</td><td>无需登录即可查看屏幕快照,让定时巡检变得如此简单。</td></tr><tr><td>DNS/目录服务</td><td>支持域管理和目录服务,大大简化设备的管理网络和配置复杂度。</td></tr><tr><td>软件双镜像备份</td><td>当前运行的软件完全崩溃时,可以从备份镜像启动。</td></tr><tr><td>设备资产管理</td><td>智能的资产管理,让资产盘点不再困难。</td></tr><tr><td>IPv4/IPv6</td><td>支持IPv4/IPv6双栈功能,方便构建全IPv4/IPv6环境,不用再为IP地址枯竭而烦恼。</td></tr></table> # 6 维保与保修 关于维保与保修的详细信息,请参见维保与保修信息。 产品序列号 SN(Serial Number)即产品序列号,位于标签卡上,是可以唯一识别设备的字符串组合,也是您申请华为技术有限公司进一步技术支持的重要依据。 图A-1SN样例 表 A-1 SN 样例说明 <table><tr><td>序号</td><td>说明</td></tr><tr><td>1</td><td>序列号编号(2位),固定为“21”。</td></tr><tr><td>2</td><td>物料标识码(8位),即加工编码。</td></tr><tr><td>3</td><td>厂商代码(2位),在华为加工为“10”,在外协加工为其他值。</td></tr><tr><td>4</td><td>年月份(2位)。 ·第1位表示年份: -1~9:表示2001年~2009年 - A~H:表示2010年~2017年 -J~N:表示2018年~2022年 - P~Y:表示2023年~2032年 说明 序列号中(2010年以后)年份用26位大写字母表示,由于字母I、O、Z与数字1、0、2容易导致目视混淆,为有效区分,这三个字母禁用,相应年份顺延至下一顺位字母。 ·第2位表示月份: -1~9:表示1月~9月 - A~C:表示10月~12月</td></tr><tr><td>5</td><td>流水号(6位)。</td></tr><tr><td>6</td><td>环保属性(1位),“Y”标识为环保加工。</td></tr><tr><td>7</td><td>单板对内型号,即对应的产品名称。</td></tr></table> # B # RAS特性 计算节点支持多种RAS(Reliability, Availability, and Serviceability)特性。通过配置这些特性,计算节点可以提供更高的可靠性、可用性和可服务性。 RAS特性的配置方法,详细信息请参见《Atlas 服务器 BIOS参数参考(鲲鹏920处理器)》。 表 B-1 支持的 RAS 特性 <table><tr><td>模块名称</td><td>特性名称</td><td>说明</td></tr><tr><td>CPU</td><td>CMCI(Corrected Machine Check Interrupt)</td><td>可纠正错误触发的中断。</td></tr><tr><td rowspan="8">内存</td><td>Failed DIMM Isolation</td><td>可标识故障内存,便于对故障内存进行隔离和更换。</td></tr><tr><td>Memory Thermal Throttling</td><td>可自动对内存温度进行调节,防止内存过热损坏。</td></tr><tr><td>Rank Sparing</td><td>使用部分内存Rank做备份,避免系统因为遇到不可纠正的错误而导致的系统崩溃。</td></tr><tr><td>Memory Address Parity Protection</td><td>用于检测内存命令和地址错误。</td></tr><tr><td>Memory Demand and Patrol Scrubbing</td><td>内存巡检功能,在发现可纠正错误时尽早纠正,可防止错误累积成不可纠正错误。</td></tr><tr><td>Memory Mirroring</td><td>通过镜像的方式为系统提供较高的可靠性。</td></tr><tr><td>SDDC(Single Device Data Correction)</td><td>实现单颗粒多比特纠错能力,可提高内存的可靠性。</td></tr><tr><td>Device Tagging</td><td>可对内存故障进行降级修复,提高内存可用性。</td></tr><tr><td></td><td>Data Scrambling</td><td>可优化数据流分布,降低错误发生概率,可提升内存数据流的可靠性以及地址错误检测能力。</td></tr><tr><td>PCIe</td><td>PCIe Advanced Error Reporting</td><td>是一种PCIe高级错误上报机制,可提升计算节点的可服务性。</td></tr><tr><td rowspan="2">UPI</td><td>Intel UPI Link Level Retry</td><td>是一种出错重试机制,提高UPI链路的可靠性。</td></tr><tr><td>Intel UPI Protocol Protection via CRC</td><td>为UPI数据包提供CRC校验保护,提高系统可靠性。</td></tr><tr><td rowspan="10">System</td><td>Core Disable For FRB (Fault Resilient Boot)</td><td>BIOS启动过程中对故障的CPU core进行隔离,提高系统的可靠性和可用性。</td></tr><tr><td>Corrupt Data Containment Mode</td><td>当数据发生错误时,相应的内存存储单元将会被标记出来,以限制其对当前运行的程序所造成的影响,提高系统的可靠性。</td></tr><tr><td>Socket disable for FRB (Fault Resilient Boot)</td><td>BIOS启动过程中对故障的Socket进行隔离,提高系统的可靠性。</td></tr><tr><td>Architected Error Records</td><td>通过eMCA等特性,由BIOS收集硬件寄存器上记录的错误信息,按照UEFI规范的格式记录下来,通过ACPI的APEI接口通知OS,定位到详细的出错单元,提高系统可用性。</td></tr><tr><td>Error Injection Support</td><td>故障注入,用于各种RAS特性的验证。</td></tr><tr><td>MCA (Machine Check Architecture)</td><td>是一种不可纠正错误的软件修复功能,可提升系统的可用性。</td></tr><tr><td>eMCA (Enhanced Machine Check Architecture) :Gen2</td><td>增强的MCA,可提升系统的可用性。</td></tr><tr><td>OOB access to MCA registers</td><td>带外系统可通过PECI访问MCA寄存器,当系统发生致命错误时,可由带外系统收集现场数据,便于后续问题分析定位,提高系统的可服务性。</td></tr><tr><td>BIOS Abstraction Layer for Error Handling</td><td>BIOS对错误先做处理,再将错误信息按照规范上报OS,提升系统的可服务性。</td></tr><tr><td>BIOS-based PFA (Predictive Failure Analysis)</td><td>由OS主导,BIOS提供内存错误物理单元信息,由OS进行错误的跟踪、预测,并进行相应的处理。</td></tr></table> # C # 传感器列表 <table><tr><td>传感器</td><td>描述</td><td>部件位置</td></tr><tr><td>1711 Core Temp(°C)</td><td>1711芯片核心温度</td><td>1711芯片</td></tr><tr><td>BCU1 Temp (°C)</td><td>基础板温度</td><td>基础板</td></tr><tr><td>CLU1 Temp (°C)</td><td>风扇板温度</td><td>风扇模块</td></tr><tr><td>CPU/N Core Temp(°C)</td><td>CPU核心温度</td><td>CPU/N表示CPU编号,取值1~2</td></tr><tr><td>CPU/MEM Temp(°C)</td><td>CPU内存温度</td><td>CPU/N表示CPU编号,取值1~2</td></tr><tr><td>CPU/VDDAVS (V)</td><td>CPU VDDAVS电压</td><td>CPU/N表示CPU编号,取值1~2</td></tr><tr><td>CPU/VDDFIX (V)</td><td>CPU VDDFIX电压</td><td>CPU/N表示CPU编号,取值1~2</td></tr><tr><td>CPU/VDDQ Temp(°C)</td><td>CPU VDDQ温度</td><td>CPU/N表示CPU编号,取值1~2</td></tr><tr><td>CPU/VDDQ_AB(V)</td><td>CPU VDDQ_AB电压</td><td>CPU/N表示CPU编号,取值1~2</td></tr><tr><td>CPU/VDDQ_CD(V)</td><td>CPU VDDQ_CD电压</td><td>CPU/N表示CPU编号,取值1~2</td></tr><tr><td>CPU/VRD Temp(°C)</td><td>CPU VRD温度</td><td>CPU \N表示CPU编号,取值1~2</td></tr><tr><td>EXU1 Temp (°C)</td><td>扩展板温度</td><td>扩展板</td></tr><tr><td>EXU_12V0_1 (V)</td><td>扩展板12.0V电源</td><td>电源模块</td></tr><tr><td>EXU_12V0_2 (V)</td><td>扩展板12.0V电源</td><td>电源模块</td></tr><tr><td>EXU_STB_12V0 (V)</td><td>扩展板12.0V电源</td><td>电源模块</td></tr><tr><td>EXU_STB_3V3 (V)</td><td>扩展板3.3V电源</td><td>电源模块</td></tr><tr><td>EXU_STB_5V0 (V)</td><td>扩展板5.0V电源</td><td>电源模块</td></tr><tr><td>EXU_VCC_5V0 (V)</td><td>扩展板5.0V电源</td><td>电源模块</td></tr><tr><td>FAN/V Speed(RPM)</td><td>风扇转速</td><td>风扇模块 \N表示风扇模块编号,取值1~7</td></tr><tr><td>Inlet Temp (°C)</td><td>进风口温度</td><td>左挂耳</td></tr><tr><td>Outlet/V Temp (°C)</td><td>Riser卡温度(出风口温度)</td><td>Riser卡 \N表示Riser卡编号,取值1~4</td></tr><tr><td>PCIe/V NIC 1.2V (V)</td><td>NA</td><td>NA</td></tr><tr><td>PCIe/V NIC 1.8V (V)</td><td>NA</td><td>NA</td></tr><tr><td>PCIe/V NIC 3.3V (V)</td><td>NA</td><td>NA</td></tr><tr><td>PCIe/V NIC Vcore(V)</td><td>NA</td><td>NA</td></tr><tr><td>PCIe/V Temp (°C)</td><td>网卡温度</td><td>网卡 \N表示网卡编号,取值1~4</td></tr><tr><td>PS1 IIn (A)</td><td>电源1输入电流</td><td>电源模块</td></tr><tr><td>PS1 IOut (A)</td><td>电源1输出电流</td><td>电源模块</td></tr><tr><td>PS1 Inlet Temp (°C)</td><td>电源1进风口温度</td><td>电源模块</td></tr><tr><td>PS1 POut (W)</td><td>电源1输出功率</td><td>电源模块</td></tr><tr><td>PS1 Temp (°C)</td><td>电源1内部最高温度</td><td>电源模块</td></tr><tr><td>PS1 VIN (V)</td><td>电源1输入电压</td><td>电源模块</td></tr><tr><td>Power (W)</td><td>整机输入功率</td><td>电源模块</td></tr><tr><td>Power1 (W)</td><td>电源1输入功率</td><td>电源模块</td></tr><tr><td>SSD MAX Temp (℃)</td><td>SSD硬盘最大温度(BMA上报或带外管理RAID卡获取)</td><td>SSD硬盘</td></tr></table>