Atlas_900_A3_SuperPoD_超节点_安全技术白皮书_31页_1mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # Atlas 900 A3 SuperPoD 超节点 # 安全技术白皮书 文档版本 01 发布日期 2025-10-31 版权所有 © 华为技术有限公司 2025。保留一切权利。 非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。 # 商标声明 HUAWEI和其他华为商标均为华为技术有限公司的商标。 本文档提及的其他所有商标或注册商标，由各自的所有人拥有。 # 注意 您购买的产品、服务或特性等应受华为公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定，华为公司对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因，本文档内容会不定期进行更新。除非另有约定，本文档仅作为使用指导，本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 # 华为技术有限公司 地址： 深圳市龙岗区坂田华为总部办公楼邮编：518129 网址： https://e.huawei.com # 安全声明 # 产品生命周期政策 华为公司对产品生命周期的规定以“产品生命周期终止政策”为准，该政策的详细内容请参见如下网址：https://support.huawei.com/ecolumnsweb/zh/warranty-policy # 漏洞处理流程 华为公司对产品漏洞管理的规定以“漏洞处理流程”为准，该流程的详细内容请参见如下网址：https://www.huawei.com/cn/psirt/vul-response-process 如企业客户须获取漏洞信息，请参见如下网址：https://securitybulletin.huawei.com/enterprise/cn/security-advisory # 华为初始证书权责说明 华为公司对随设备出厂的初始数字证书，发布了“华为设备初始数字证书权责说明”，该说明的详细内容请参见如下网址：https://support.huawei.com/enterprise/zh/bulletins-service/ENEWS2000015766 # 华为企业业务最终用户许可协议(EULA) 本最终用户许可协议是最终用户（个人、公司或其他任何实体）与华为公司就华为软件的使用所缔结的协议。 最终用户对华为软件的使用受本协议约束，该协议的详细内容请参见如下网址： https://e.huawei.com/cn/about/eula # 产品资料生命周期策略 华为公司针对随产品版本发布的售后客户资料（产品资料），发布了“产品资料生命周期策略”，该策略的详细内容请参见如下网址：https://support.huawei.com/enterprise/zh/bulletins-website/ENEWS2000017760 # 概述 本文档详细描述了Atlas 900 A3 SuperPoD 超节点的安全规格。 # 读者对象 本文档主要适用于以下工程师： - 技术支持工程师 $\bullet$ 维护工程师 # 符号约定 在本文中可能出现下列标志，它们所代表的含义如下。 符号 说明 危险 表示如不避免则将会导致死亡或严重伤害的具有高等级风险的危害。 警告 表示如不避免则可能导致死亡或严重伤害的具有中等级风险的危害。 注意 表示如不避免则可能导致轻微或中度伤害的具有低等级风险的危害。 须知 用于传递设备或环境安全警示信息。如不避免则可能会导致设备损坏、数据丢失、设备性能降低或其它不可预知的结果。“须知”不涉及人身伤害。 □说明 对正文中重点信息的补充说明。“说明”不是安全警示信息，不涉及人身、设备及环境伤害信息。 修改记录 文档版本 发布日期 修改说明 01 2025-10-31 第一次正式发布。 # 目录 # 前言.. 3 # 1简介 1.1 产品概述 1.2 面临的安全威胁 2 # 2安全解决方案 3 2.1安全架构 3 2.2安全攻击及威胁 3 2.3管理软件安全设计 5 2.3.1 账号安全 5 2.3.2认证管理 6 2.3.3授权管理 7 2.3.4 证书管理 8 2.3.5 会话管理 11 2.3.6安全协议 11 2.3.7 数据保护 12 2.3.8 安全配置 13 2.3.9 密钥管理 14 2.3.10系统加固 14 2.3.11 日志审计 ..... 14 2.3.12 DICE 15 2.3.13安全启动 15 2.3.14 不安全版本吊销 15 2.4BIOS软件安全设计 15 2.4.1 账号安全 15 2.4.2认证管理 16 2.4.3 日志审计 16 2.4.4安全启动 17 2.5 NPU设备软件安全设计 17 2.5.1 概述 17 2.5.2芯片安全 17 2.5.2.1调试接口保护 17 2.5.2.2安全启动 18 2.5.2.3固件签名升级 18 2.5.2.4 安全存储 18 2.5.3 系统安全 18 2.5.3.1 设备系统安全 ..... 18 2.5.3.2 系统安全策略 18 2.5.3.3 系统配置和权限 18 2.5.3.4 系统日志 18 2.5.3.5 开源及第三方代码安全 19 2.5.4应用安全 19 2.5.4.1 安全算法 19 2.5.4.2 数据安全存储及访问 19 2.5.4.3 容器隔离 19 2.5.4.4 安全通信 19 2.5.4.5 最小授权 19 2.5.5 安全面 19 2.5.5.1 管理安全面 19 2.5.5.2 控制安全面 19 2.5.5.3 业务安全面 20 2.5.5.4 参数安全面 20 2.6 数据安全 20 2.6.1 模型保护 20 2.7 业务安全 20 2.7.1 最小授权 20 2.7.2镜像完整性 20 3结论 22 A附录 23 A.1缩略语 23 # 1 简介 1.1 产品概述 1.2 面临的安全威胁 # 1.1 产品概述 Atlas 900 A3 SuperPoD 超节点满足行业智算中心/大企业/华为云等高性能、高能效液冷训练集群的需求，提供业界AI最佳集群方案，以算力/网络/集成度极致竞争力为目标，结合工程优势持续构筑AI集群硬件竞争力。 典型的组网图如图1-1所示。 图1-1Atlas900A3SuperPoD超节点典型组网 对于Atlas 900 A3 SuperPoD 超节点，关键特性是支持超节点。超节点是指一定数量的CPU和NPU通过灵衢总线实现无收敛全互连。根据网络芯片规格和超节点规模，需要通过2层网络互连来实现。 Atlas 900 A3 SuperPoD 超节点采用以太网和灵衢网络，其中以太网通过2层胖树为双平面承载超节点间的通信连接。灵衢承载超节点内部的通信，采用7平面组网以获得更大的带宽，灵衢组网L1在节点内，外部1层总线装置，共2层胖树组网。 AI训练集群是2层的胖树组网，提炼为支持算网融合的计算节点。 2层胖树可以通过光模块实现2层交换芯片的全互连。不同的组网规模，可以通过芯片的数量来实现，光互联最大384超节点。 综合系统规格和工程可实现性，计算节点选择OD，支持4*CPU+8*NPU+7*交换芯片无背板互联。 # 1.2 面临的安全威胁 随着网络以及数据中心的快速发展，作为数据中心核心的服务器面临着内部或外部的各种安全危险。服务器的安全威胁主要归结于两类： 业务系统的安全威胁：业务系统直接面向用户，安全依赖于业务操作系统的安全性以及业务软件系统本身的安全性，安全威胁的影响在于业务系统自身。 - 管理系统的安全威胁：管理系统提供服务器的硬件管理，依赖于服务器自身提供的固件的安全性，安全威胁的影响主要涉及到服务器的设备管理。 本文将主要讨论服务器自身硬件系统的安全性，也就是服务器自身提供的管理操作接口以及内部Firmware自身的安全性，不涉及服务器业务系统的安全性。 服务器硬件系统面临的主要安全风险： - 外部入侵者利用系统自身存在的漏洞或缺陷，获得管理控制权，从事非法操作。 - 内部非法者利用自身的权限通过系统漏洞获取更高控制权，从事非法操作。 # 2 安全解决方案 Atlas 900 A3 SuperPoD 超节点基于自研鲲鹏CPU、昇腾NPU和iBMC芯片，结合硬件、固件可靠性等工程能力，构建从芯片、硬件、固件到系统的安全能力，形成Atlas 900 A3 SuperPoD 超节点安全竞争力。 2.1 安全架构 2.2 安全攻击及威胁 2.3 管理软件安全设计 2.4 BIOS软件安全设计 2.5 NPU设备软件安全设计 2.6 数据安全 2.7 业务安全 # 2.1 安全架构 Atlas 900 A3 SuperPoD 超节点为企业、行业客户提供通用AI计算服务，主要对上层业务（包括操作系统、虚拟化软件、数据库、应用软件等）提供基础设施支撑，包括高能效的计算能力、灵活的存储和面向未来的网络。 Atlas 900 A3 SuperPoD 超节点需要提供对硬件设备的全面监测管理能力，提供维护接口，同上层网管对接，完成对服务器的配置部署、监测、升级等功能，支撑数据中心服务器的高效运维。系统管理人员通过运维网络进行管理和维护。这部分风险较高，需要重点防护。 业务面OS及之上的安全技术由鲲鹏解决方案呈现，本文档主要描述业务面OS之下及管理面的安全技术。 # 2.2 安全攻击及威胁 Atlas 900 A3 SuperPoD 超节点作为数据中心或者企业业务的ICT基础设施，是客户的核心资产，是企业业务正常运行的基石。企业应用、服务的可用性和网络、数据的安全，构建在服务器平台安全的基础上，而服务器硬件（主要是芯片、单板）和固件（包括BIOS、iBMC管理软件和设备相关的固件）的安全，是服务器平台安全的基础。 基于鲲鹏通用计算平台的产品定位和业务应用场景，鲲鹏产品关键资产可分为数据资产、硬件资产和软件资产三大类。主要安全威胁如下。 表 2-1 主要安全攻击及威胁 关键资产 威胁描述 安全攻击、安全威胁 数据资产 非法认证 暴力破解、社会工程方式通过非法认证登录系统,获取业务数据,造成信息泄露。 物理侵入 攻击者非法获取服务器的存储介质,获取或修改数据,造成业务数据信息泄露或篡改。 侧信道攻击 攻击者通过信号处理、数学建模、相关性计算等方式,破解密码算法,获取密钥。 探针攻击 攻击者通过探测关键信号走线获取敏感信息。 软件漏洞利用 利用开源软件或三方软件、系统软件、应用软件的漏洞,进行缓冲区溢出等安全攻击,读取、修改、删除数据。 木马攻击 攻击者通过木马植入,进而修改固件或获取系统中存放的客户数据信息,造成系统运行异常或信息泄露。 运输过程攻击 利用设备在运输过程中监管的问题,通过硬件改动、硬件更换等方法进行攻击,非法获取数据。 软件资产 非授权接入访问 通过非法手段进入系统并访问系统资源,非法获取或篡改。 权限提升或滥用 进行权限提升访问超出权限的信息资源或进行其他非法操作。 篡改系统时间 恶意修改系统时间,导致系统运行混乱,日志记录顺序混乱,掩盖或者擦除攻击痕迹,达到逃避安全审计的目的。 DOS攻击 攻击者通过网络发起DOS攻击,造成服务器承载的业务异常。 固件篡改攻击 攻击者通过OS系统进行固件非法升级(如NIC、RAID等固件)或篡改,造成系统运行异常。 已知漏洞攻击 利用OS、软件或固件的已知漏洞对系统进行攻击,造成信息泄露、篡改,影响业务系统的稳定运行。 恶意代码植入 攻击者通过在加速库开源代码中植入恶意代码或木马等进行攻击,造成信息泄露或程序异常。 弱口令入侵 通过缺省口令、弱口令,非法登录后对系统实施攻击。 逆向分析 通过逆向分析工具等手段,对固件或应用进行逆向分析,导致关键知识产权信息泄露、漏洞发现。 硬件资产 物理侵入 通过偷盗等非法手段获取信息存储设备、内存、PCIe卡等,造成资产损失。 物理环境攻击 通过环境因素如震动、高温等对设备进行攻击，造成设备异常或硬件资产损坏。 # 2.3 管理软件安全设计 # 2.3.1 账号安全 服务器带外管理软件iBMC支持CLI、SNMP、Web、IPMI、Redfish等管理接口，并提供了统一的用户管理功能。最多支持16个用户，支持增加、修改和删除用户。 账号安全包括：密码复杂度检查、禁用历史密码、密码有效期、密码最短使用期、账号防暴力破解、账号手动锁定、在线用户注销。 密码复杂度检查：对用户配置的密码的复杂度进行校验，避免用户设置过于简单的密码。密码复杂度要求： - 长度为 $8 \sim 20$ 个字符 至少包含一个空格或者以下特殊字符: ~!@#$%^&*(-) _=+[\{}];", /? - 至少包含以下字符中的两种：小写字母：a～z；大写字母：A～Z；数字：0～9 - 不能是用户名或用户名的倒序 禁用历史密码：支持用户配置保留历史密码的个数，设置的新密码不允许和历史密码相同。 密码有效期：支持用户配置密码有效期时间，密码达到有效期后必须修改新密码才能登陆；密码有效期小于10天时，系统会提示用户修改密码。 密码最短使用期：设置一个密码后，要使用的最短时间，在此时间内不能修改密码；设置密码最短使用期的目的在于防止频繁修改密码而重复使用历史密码的风险，确保密码安全。 不活动期限：超过设定期限内未活动的用户会被禁用。 紧急登录用户：不受密码有效期、登录规则和登录接口限制的用户，用于紧急情况下登录iBMC，默认为空。 账号防暴力破解：账号支持基于用户连续多次登录失败锁定，及SNMP超长团体名的防暴力破解机制。 登录失败锁定：支持登录失败次数，锁定时间的配置；当用户连续输入错误密码的次数超过设置的“错误次数”时，该用户被锁定。用户被锁定后，在锁定时长内不能继续登录，可以通过管理用户登入命令行手工解锁。如不进行手动解锁，系统会在超过锁定时间时自动解锁。 SNMP超长团体名：启用SNMP超长团体名后，设置的团体名必须大于等于16个字符，团体名设置也支持复杂度检查，防止设置简单团体名带来的风险。 弱口令字典：支持弱口令字典定制，用户可根据使用场景定制自己的弱口令，密码配置时无法配置弱口令字典中的口令，防止使用常见弱口令带来的安全风险。 在线用户：支持查看已登录iBMC系统的用户信息，并支持注销已登录的用户。 # 2.3.2 认证管理 用户和上层管理系统通过Web、CLI、SNMP、IPMI、Redfish接口对iBMC的访问都需要进行认证。认证通过后才能进行设备的管理配置和信息查询等操作。 iBMC支持本地认证、LDAP两种认证模式。支持“用户名 + 密码”认证、SSH公钥认证、USB Key证书的双因素认证以及重要操作的二次认证。 SSH公钥认证：SSH支持用户名、密码和公钥方式认证，公钥方式适合于自动配置工具，无需输入密码的交互步骤。 SSH公钥认证有如下优点： 登录验证时无需交互密码。 密钥长度很长，不容易被人偷窥或猜测到。 支持RFC4716和OpenSSH格式的公钥，公钥类型为RSA或DSA。当公钥类型为RSA时，支持长度为2048位和4096位；当公钥类型为DSA时，支持长度为2048位。 每个账号只支持配置一个公钥，公钥导入支持文本输入和文件导入，导入后可查看该公钥的哈希值。基于更多安全考虑，启用SSH公钥认证后可禁用SSH的密码认证方式。 图2-1公钥上传 双因素认证：双因素认证是使用客户端证书密码以及证书来进行认证，登录时需要同时拥有客户端证书及证书密码才能认证通过，解决了传统的账号口令认证中口令泄露导致的入侵问题。双因素认证开启后，只有客户端证书被iBMC中导入的CA根证书验证通过，且跟导入到iBMC中的客户端证书一致，才允许登录，当前只有WEB支持双因素认证。双因素认证开启后不支持基于用户口令、LDAP的认证，主要特性下： - 支持基于客户端浏览器中导入证书和USB KEY中存储证书两种方式。 - 最多支持导入16个不同的CA根证书。 - 开启双因素认证后，不支持双因素认证所有接口会关闭，只保留SNMP、IPMI接口，跟网管软件esight对接；双因素认证功能默认关闭，可以通过Web、SNMP接口配置开启。 - 支持证书吊销检查，默认关闭，吊销检查开启后，已被吊销的证书不允许登录。 图2-2双因素认证 典型应用场景-双因素认证：基于USB KEY的双因素认证解决了传统账号口令认证中口令泄露而导致的入侵问题，使用时需要同时拥有USB KEY，且知道USB KEY的Pin码，才能登录。使用时需要先把申请的证书和CA导入到BMC中，然后在登录的客户端中插入USB KEY，通过浏览器连接iBMC WEB时，需要输入USB KEY的Pin码，才能把证书导入到浏览器发送到服务端进行验证。 二次认证：对于重要的管理操作，如用户配置、权限配置、公钥导入会对已登录用户进行二次认证，认证通过后才能执行重要操作，防止用户登录后没有断开链接，被其它非法用户执行恶意操作。 # 2.3.3 授权管理 iBMC中用户划分为管理员、操作员、普通用户和自定义用户等权限组，每个组的具体权限如下： - 管理员：拥有的所有配置和控制权限。 - 操作员：相对于管理员，拥有除用户管理、调试诊断和安全配置外的所有配置和控制权限。 - 普通用户：只有查看权限，除OS相关信息和操作日志查看外的所有查看权限，并能修改自身密码。 - 自定义权限组：自定义权限组允许系统管理员根据用户的实际场景自定义精确分配用户权限。iBMC支持最大4个自定义权限组。系统权限类型被化分为用户配置、常规设置、远程管理、远程媒体、安全配置、电源控制、调试诊断、查询功能、配置自身这几种类型，系统管理员可以灵活将这些权限类型配置为一个自定义权限组。 图2-3自定义角色应用 图2-4角色自定义界面 # 2.3.4 证书管理 证书是指SSL证书，在建立Web HTTPS连接时使用，用于证明Web站点的身份。 证书管理就是指对证书的各种管理操作，包括查看当前证书信息（证书的使用者、颁发者、有效期、序列号）、生成CSR文件、导入由CSR生成的签名证书、导入自定义证书，证书格式只支持X.509格式。 iBMC的SSL证书默认使用自签名SSL证书，证书的签名算法使用SHA256RSA（2048位），从安全考虑，建议客户在首次使用时导入自己的证书来替换系统中默认的自定义证书。 证书更换：iBMC提供了三种替换自签名证书的方法。 - 方法一（使用iBMC生成的证书）： a. 登录到iBMC Web，修改证书使用者信息。 b. 生成CSR。 c. 导出CSR。 d. 将CSR提交给CA机构。 e. CA机构生成cer\crt\pem格式签名证书。 f. 将签名证书导入到iBMC。 g. 重启iBMC生效。 # 说明 签名证书必须与CSR配套，即：签名证书必须是通过该CSR申请的，否则导入证书失败。 # - 方法二（使用用户提供的证书）： a. 用户生成自定义证书或直接从CA购买证书。 b. 登录到iBMC Web，将自定义证书或购买的证书导入到iBMC。 c. 重启iBMC生效。 图2-5 证书管理（CA证书） 图2-6 证书管理（SSL证书） 图2-7服务器证书 证书支持有效期校验：在有效期到达配置的提前告警天数时，会进行证书过期预警，证书过期告警默认为90天。 证书合法性校验：证书吊销、签名算法和密钥长度校验。 证书支持对接CA系统：提供了对接CA系统的客户端，实现证书申请与颁发过程自动化。 - 方法三（通过对接客户提供的CA服务器实施证书的更新）： a. 登录到iBMC Web。 b. 进入“SSL证书自动更新”界面。 c. 根据客户提供的CA服务器的相关配置信息及与CA交互的证书信息，进行对接CA的相关配置。 d. 可以通过界面手动触发证书更新，或者通过使能自动更新功能。如果触发了自动更新功能，BMC后台会在证书过期告警前一天自动启动对接CA更新证书。 # 2.3.5 会话管理 会话生成：会话标识使用安全随机数生成；禁止同一个用户同时建立多个会话。 会话销毁：有两种方式终止会话。 - 超时终止：对于CLI、Web、SFTP等长连接会话实现了静默超时断连机制，超过超时时间没有操作则会自动断开会话。 - 手动终止：用户主动发起请求终止当前会话。另外，管理员可以主动终止其它会话。 # 2.3.6 安全协议 外部接入访问默认使用SFTP、SSH、HTTPS、SNMPv3、RMCP+(IPMILAN)方式，传输通道通过使用安全协议进行加密。不安全协议HTTP、SNMP v1/v2c RMCP(IPMILAN)都默认关闭。 各种安全传输协议的特性如下： - SSH a. 支持用户密码认证和公钥认证。 b. 支持SSH V2。 c. 支持安全的加密算法aes128-ctr、aes192-ctr、aes256-ctr、aes128-gcm、aes256-gcm、chacha20-poly1305。 SFTP a. 仅/tmp目录具有上传、下载文件的权限。 b. 上传到/tmp目录的文件默认不具备可执行权限。 - HTTPS 支持TLS1.2及以上版本。为保持浏览器兼容性，默认开启TLS1.2/TLS1.3，用户可以登录iBMC禁用TLS1.2。 # SNMP a. 默认开启SNMP V3、SNMP V1/V2C关闭。 b. 认证算法支持MD5、SHA、SHA256、SHA384、SHA512，支持用户配置，为了满足安全要求，默认配置为SHA256。 c. 加密算法支持DES、AES、AES256，支持用户配置，为了满足安全要求，默认配置为AES。 # IPMI a. 默认支持RMCP+，不安全的RMCP默认关闭。 b. RMCP+默认支持安全的加密套件，不安全加密套件默认关闭。 # 2.3.7 数据保护 iBMC上涉及密码、密钥的所有敏感数据都进行了加密保护，防止敏感信息泄露。 iBMC支持升级包的加密和签名保护，防止升级包内容被破解和篡改，保证升级包的机密性和完整性。 除了加密保护，iBMC对linux shell进行了封装，用户通过SSH、串口等接口登录后无法直接访问文件系统中的文件，防止文件被破坏及管件信息泄露。 iBMC中支持对关键数据文件进行备份及计算并保存文件校验和，并提供了文件校验失败的备份恢复机制，防止因系统异常掉电导致的数据文件破坏，保护数据文件的可用性和完整性； 表 2-2 iBMC 数据加密情况 数据 加密算法 BMC用户密码（Web/Redfish/SSH/SFTP/串口认证） SHA512 TLS传输 ·ECDHE-RSA-AES256-GCM-SHA384 ·ECDHE-ECDSA-AES256-GCM-SHA384 ·DHE-RSA-AES256-GCM-SHA384 ·ECDHE-RSA-AES128-GCM-SHA256 ·ECDHE-ECDSA-AES128-GCM-SHA256 ·DHE-RSA-AES128-GCM-SHA256 ·ECDHE-RSA-CHACHA20-POLY1305 ·ECDHE-ECDSA-CHACHA20-POLY1305 ·TLS_CHACHA20_POLY1305_SHA256 ·TLS_AES_256_GCM_SHA384 ·TLS_AES_128_GCM_SHA256 SNMP V3用户密码 DES、AES、AES256 SNMP V1/V2C团体名 AES256 RMCP+用户密码 AES256 SSL证书 AES256 升级包 AES256 USB近端运维密码 AES256 LDAP域控制器绑定密码 AES256 VNC密码 AES256 除了对保存在iBMC中的敏感数据进行加密保护，系统运行过程中产生的敏感数据在使用完后会使用清空内存的方式立刻清空。 # 2.3.8 安全配置 # 1. 访问策略 支持基于场景的登录限制，基于时间段、IP、MAC的访问控制策略，通过配置登入时间段、登入IP网段、登入MAC地址白名单，只允许满足白名单要求的用户通过管理通道访问系统，对系统进行管理和配置，将服务器管理接口访问控制在最小范围。 由用户根据需要设置登录规则的白名单，最多支持三条登录规则，登录时只要匹配上任意一条登录规则，即可登录，否则拒绝登录。 每条登录规则包括时间段、登录用户的源IP段和MAC段，这三个条件必须同时满足才认为匹配到一条登录规则；登录规则可应用于所有本地用户和LDAP用户组。 # 三维立体象限： 时间段：包括开始时间和结束时间，时间格式必须一致，支持YYYY-MM-DDHH:MM、YYYY-MM-DD和HH:MM三种格式，允许为空。 IP段：支持单个IPv4地址或IPv4地址段，允许为空，目前不支持IPv6地址。 MAC段：支持单个MAC地址或MAC地址段，允许为空。 # 登录规则应用场景： - 时间段：只在特定的时间段允许登录维护，比如有些数据中心下班后不允许登录操作，就可以通过配置登录时间来进行控制，以降低安全风险。 - IP段、MAC段：只允许特定范围内的IP、MAC才能登录，防止网络上的大规模异常攻击。 # 2. 系统锁定 支持系统锁定功能，系统锁定功能开启后，系统中的用户配置、常规配置、虚拟控制台配置、安全配置都处于锁定状态不能配置，系统电源控制、虚拟媒体功能和查询功能可以正常使用。系统锁定功能可以防止系统配置的意外或恶意更改。 只有管理员权限用户才有系统锁定功能开启和关闭的权限，开启后，WEB、CLI、SNMP、Redfish、IPMI接口都被锁定，无法进行配置。 # 2.3.9 密钥管理 iBMC密钥管理采用分层管理、安全隔离的设计思路，支持多层次密钥架构，上层密钥只用来保护下层密钥，最下层密钥(WK: Work Key)用来保护业务模块应用的机密数据。密钥管理如下图所示。 图2-8密钥管理 - 密钥生成：根密钥由安全随机数生成，分成多个组件分开保存；工作密钥使用安全随机数生成。 - 密钥使用：密钥用途单一，每个密钥只用于一种用途。 - 密钥存储：根密钥分成多个组件分开保存，进行权限控制；密钥加密密钥使用根密钥加密后保存，工作密钥使用密钥加密后保存。 - 密钥更新：支持手动更新，执行更新密钥的命令，系统支持工作密钥和密钥加密密钥的更新，旧密钥会被销毁。 # 2.3.10 系统加固 系统最小化安装，iBMC中对嵌入式linux系统进行裁剪，只安装系统必须的组件，不使用的组件和命令都被删除。 对linux shell命令行进行了封装加固，屏蔽了对linux系统命令的支持，只能执行白名单定义的命令，降低攻击风险。 对系统中SSH、Apache等服务端进行安全配置加固，只支持安全的算法，不安全的协议和端口默认关闭。 # 2.3.11 日志审计 iBMC支持日志审计，日志信息中包含用户名、用户IP地址、操作时间、操作内容等信息。iBMC会记录SEL日志、操作日志、运行日志、安全日志，并可以通过iBMC提供的接口进行查阅和审计。 iBMC日志实时保存在iBMC的Flash文件系统中，当日志快达到最大存储容量是会产生日志快满的日志提醒，当日志文件达到指定大小后会自动进行日志文件备份。按照最小权限原则，非授权用户无法查看和下载日志文件。 iBMC支持日志的syslog远程转储，把日志存储到远程syslog服务器中，防止本地日志满后被覆盖丢失，支持对syslog服务器进行验证。 # 2.3.12 DICE iBMC支持提供DICE挑战接口，接收挑战请求，返回DICE证书链。基于DICE引擎，生成固件可信启动证书链，基于证书链进行挑战验证，校验启动固件完整性。 # 2.3.13 安全启动 iBMC支持基于硬件可信根的安全启动，对boot、BMC、BIOS进行数字签名校验，数字签名校验通过才允许启动，防止固件被恶意篡改。同时支持PFR机制，iBMC启动完成后获取BIOS的签名校验标记，如果校验错误，则使用带数字签名的BIOS文件重新升级BIOS。iBMC自身三次启动失败后会从备区启动恢复管理功能。 # 2.3.14 不安全版本吊销 iBMC版本支持唯一标识符来识别对应版本，可以对指定不安全版本进行吊销，吊销后指定的风险版本在升级前会被拦截阻止，避免误升风险版本。 # 2.4 BIOS 软件安全设计 # 2.4.1 账号安全 BIOS支持菜单配置功能，支持通过登录BIOS菜单界面进行功能配置。BIOS支持Admin密码或者User密码登录Setup。 BIOS Setup登录安全包括： - 密码复杂度检查： - 密码长度至少8个字符 - 密码必须包含如下至少三种字符的组合，其中特殊字符为必备项： 小写字母：a～z 大写字母：A～Z 数字： $0\sim 9$ 特殊字符: `~!@#$%^&*(-)\_=+[\{}];'', /?和空格 - 禁用历史密码： 支持用户配置保留历史密码的个数，设置的新密码不允许和历史的N次密码相同，N为3~6。 - 密码有效期： 支持密码超时告警，若密码存在时间超过180天，在菜单界面告警并提示客户进行密码修改 防暴力破解： BIOS关于暴力破解的防护措施是当密码输入次数超过阈值时，锁定账号一定的时间，同时上报BMC告警 - 密码加密存储： 密码输入时，转化为*显示，存储时采用PBKDF2算法加密存储，盐值的长度至少16字节，且使用安全随机算法生成。 # 弱密码字典： 弱密码就是简单的密码，强度不够，容易被猜测到的密码。弱密码包括：系统默认的密码，过去曾被泄露的密码等，禁止使用弱密码字典中的任何密码。 # - First login模式: 禁止存在缺省密码，应采用“first login”模式，系统首次登录运行时必须强制设置满足要求的密码 # - Admin和User密码登录权限控制： Admin密码进入BIOS配置界面可以设置User密码，Admin密码进入BIOS配置界面可以查看或者修改BIOS配置选项。User密码进入BIOS配置界面可以查看BIOS配置选项，可以修改但不可清除普通用户密码。 # 2.4.2 认证管理 用户进入BIOS配置界面需要密码认证，认证通过后才能进行功能配置和信息查询等操作。 BIOS使用的密码算法为PBKDF2。 PBKDF2（Password-Based Key Derivation Function）算法是不可逆加密算法的一种，用来导出密钥的函数，常用于生成加密的密码。 基本原理是通过一个伪随机函数（例如HMAC函数），把明文和一个盐值作为输入参数，然后重复进行运算，并最终产生密钥。如果重复的次数足够大，破解的成本就会变得很高。而盐值的添加也会增加“彩虹表”攻击的难度。 PBKDF2算法使用盐值为8字节，使用安全随机数生成，迭代次数为10000次。 # 密码认证过程： 用户第一次登录使用默认密码进行认证，认证通过后，会提示用户进行密码更改。登录使用的密码需要满足密码复杂度要求，以增加破解难度。同时提供防暴力破解机制，某一用户连续3次密码错误，该用户将被锁定。 # 2.4.3 日志审计 BIOS支持日志记录上报，便于iBMC进行日志审计。 BIOS日志包含菜单操作类和安全类两种。日志信息中包含用户名、用户IP地址、操作时间、操作内容等信息。iBMC会记录SEL日志、操作日志、运行日志、安全日志。 BIOS会通过iBMC提供的接口进行上报。 # 2.4.4 安全启动 攻击者近端接触物理设备，可以从FLASH存储介质中替换系统固件，植入恶意代码，从而控制系统。安全启动（Secure Boot）是一种结合数字签名技术，来实现系统启动阶段代码完整性验证的方法。当上一级程序度量下一级程序时，不仅采用哈希进行度量，而且结合数字签名方法对下一级代码的完整性进行验证。如果下一级代码不能通过数字签名的完整性校验，则系统不能正常启动，从而保证启动的下一级代码是没有被篡改过的完整代码。 Atlas 900 A3 SuperPoD 超节点的BIOS已支持安全启动。BSBC作为安全启动信任链传递的根节点，存放在片内ROM中，在芯片制造阶段固化。一旦使能片内启动，则芯片上电会从BSBC执行第一条指令。结合eFuse的物理特性（只可烧写一次）实现硬件级的安全启动校验，efuse烧写后不能通过软件手段再次关闭。 # 2.5 NPU 设备软件安全设计 # 2.5.1 概述 Atlas 900 A3 SuperPoD 超节点提供AI计算平台，包含计算资源、运行框架以及相关配套工具等，让开发者可以便捷高效的编写在Ascend硬件设备上运行的人工智能应用程序，将努力为各AI应用产品打造安全的和可靠的AI计算平台。当前面临的主要安全问题和威胁分类如下： - 芯片安全：针对芯片的软件破解，恶意攻击等。 - 系统安全：SOC操作系统的漏洞、安全策略配置、开源软件漏洞等。 - 应用安全：开发程序被篡改、AI应用程序被恶意攻击等。 # 2.5.2 芯片安全 解决方案提供了如下机制，提供芯片层安全保护。 # 2.5.2.1 调试接口保护 - JTAG端口保护：为了防止非法通过JTAG端口对芯片运行指令的跟踪和调试，芯片提供eFuse控制接口，提供熔断eFuse后对JTAG端口进行闭锁和鉴权认证的机制。 - UART端口保护：正式发布版本上，在BIOS启动阶段UART端口禁止输入，保留输出，在拉起OS前再禁止UART端口使能。 - USB端口保护：正式发布版本上，USB端口默认禁止使能。 # 2.5.2.2 安全启动 提供一个片上ROM，作为整体安全方案的首个环节，为后续安全启动、升级提供支持。 所有芯片启动映像文件（如UEFI、kernel、system等映像）的生成，使用签名保护。 从Onchiprom中启动，烧录以及启动每一段镜像文件都需要通过安全认证，认证不通过的镜像不被加载和执行。 # 2.5.2.3固件签名升级 芯片软件升级过程中首先对升级包进行签名校验，只有签名校验通过的升级包才可进行升级，保证了升级的合法性、完整性和有效性。升级功能保证设备不被刷入未经授权的非法软件版本。 # 2.5.2.4 安全存储 针对一些无须修改的关键参数，提供efuse介质支持，一旦烧写，不可修改。 # 2.5.3 系统安全 AI设备的操作系统采用基于开源Linux操作系统上自研操作系统，操作系统安全包括系统本身安全及安全策略等。产品密切跟踪相关开源操作系统的漏洞的发布，及时修复；同时也关注操作系统的安全策略的配置，保证系统的权限进行合理的分配、多余的服务和协议端口会被关闭以及系统的账户被合理的管理等。 # 2.5.3.1 设备系统安全 通过镜像签名认证机制保证设备系统的完整性，确保系统不会被非法篡改。 # 2.5.3.2 系统安全策略 系统审视系统端口以及服务，关闭生产运行业务场景中不会使用的端口或服务。同时确保设备的安全功能不会被关闭。作为AI Device设备角色，对外只能通过PCIe硬件通道进行通讯，无直接对外侦听的端口。 # 2.5.3.3 系统配置和权限 对系统重要的配置参数和权限进行权限最小化控制，控制人为不合理配置导致的安全漏洞。 # 2.5.3.4 系统日志 提供管理面和业务面日志，业务面日志可以灵活控制设备的日志、设置日志级别，同时，便于定期对已记录的日志进行审视；管理面日志禁止应用系统提供删除和修改审计日志的能力。 # 2.5.3.5 开源及第三方代码安全 系统中涉及到的开源和第三方代码，从安全角度出发进行选型和评估，定期进行安全检查和漏洞处理。 # 2.5.4 应用安全 为了保证应用的安全，防止重要数据泄露、被非法访问或破坏，AI系统支持多种安全机制，包括安全算法、安全通信、安全认证等。 # 2.5.4.1 安全算法 采用国际标准或业界通用的安全算法（如AES、RSA、ECC、DSA），对于不安全的算法及时升级或者替换，对于密钥、证书、授权认证的管理也有严格的流程。根据产品需要，芯片支持嵌入加密引擎的方式来提高加解密的性能和安全性。 # 2.5.4.2 数据安全存储及访问 芯片支持安全存储区，用于存储重要数据，安全存储使用加密，签名等保护措施，对机密数据项进行安全保护，只有特定的硬件或模块才能进行访问，同时安全存储不可更改，从而实现对存储数据的防破解，防伪造，防盗用。 # 2.5.4.3 容器隔离 Host侧AI应用的训练提供容器框架，训练业务运行在Docker容器内，运行环境隔离。 # 2.5.4.4 安全通信 对于AI应用的开发工具MindStudio连接到系统调试，提供跨主机组件间的加密通道：跨主机组件间采用TLS加密协议。 对于AI应用集合通讯，提供跨主机间组件间的加密通道：跨主机间采用TLS加密协议。 # 2.5.4.5 最小授权 除非需要使用系统资源，解决方案中涉及的运行程序都运行在操作系统的普通用户上。系统文件只能被授权用户访问。 # 2.5.5 安全面 系统提供的是AI计算平台，在生产运行环境中，涉及管理面、业务面、参数面和控制面。其中管理面和业务面不提供对外网络接口。 # 2.5.5.1 管理安全面 AI设备只提供部分管理API接口和日志文件给产品管理程序，并不提供对外网络管理接口。针对API接口进行权限管理，设置类和安全类查询接口限制root有权限执行，并支持管理操作日志记录和审计。 # 2.5.5.2 控制安全面 AI设备在Host侧的程序只提供对外网络控制面接口监测服务，用于开发环境下与MindStudio的连接，默认是打开。禁用SSH服务，不允许通过SSH登录。 # 2.5.5.3 业务安全面 AI设备只提供API接口给产品AI应用程序调用，并不提供对外网络业务数据处理接口。 # 2.5.5.4 参数安全面 系统只提供对外参数面接口监测服务，用于跨主机间集合通信的连接。 1. 集群之间的网络通信安全通过Vlan隔离。 2. 跨主机间集合通信支持TLS认证。 3. 同一训练任务的Device归属同一设备组。 # 2.6 数据安全 # 2.6.1 模型保护 Atlas 900 A3 SuperPoD 超节点默认未使能AI模型保护，但昇腾已支持离线场景下的AI模型保护方案，具体可以参考昇腾社区上的《AI模型保护用户指南》。 # 2.7 业务安全 用户基于应用场景的判断，决定业务安全防护策略与防护范围。业务安全策略有客户负责，华为提供容器安全指导，以及基础的容器管理与调度能力。 # 2.7.1 最小授权 除了需要使用系统资源之外，解决方案中涉及的运行程序都运行在操作系统的普通用户上。系统文件只能被授权用户访问。 客户的业务容器应执行必要的权限控制，否则容易因不当授权导致数据泄露、运行环境损害（如挖矿等）和其他业务被横向攻击等。较为常用且有效的容器权限控制技术为apparmor，而seccomp对业务容器的系统调用进行控制。 apparmor使一种MAC安全模型，通过编辑apparmor配置文件，可以限制容器进程可以读、写和运行的文件或目录，并可以配置容器可以具备的capability，同时还可以关闭容器的网络访问能力。从而使容器仅具备执行自身业务所需要的最小权限，实现授权最小化。 seccomp进一步控制容器可以调用的syscall。Strict模式只允许应用程序调用exit(), sigreturn(), read(), write()四个系统调用；filter模式下允许对可以调用的syscall通过配置文件进行设置。当通过seccomp限制了某个系统调用后，即使容器被攻破提权具备某个capability，seccomp也会将此调用拦截掉。 # 2.7.2 镜像完整性 客户镜像是运行业务的基础，当被篡改的“有毒镜像”运行时，可能使客户业务不能正常运行，甚至盗窃客户的关键数据。因此，对于关键业务建议执行镜像完整性保护，检测对镜像的非法篡改，防止被篡改镜像被拉起和运行。 容器镜像的完整性保护，建议采用开源的Docker Content Trust（DCT）方案。DCT允许客户将公钥注册到Notary服务，然后客户采用私钥在本地对镜像进行签名，并可以 方便的将镜像和签名上传的镜像仓和Notary服务。当开启DCT的昇腾设备从此镜像仓拉取镜像时，仅拉取有签名镜像，并拉取到本地进行完整性校验。 通过镜像完整性校验，验证了镜像的发布者和镜像是否被篡改，非法篡改的镜像将被检测到并禁止执行。镜像完整性保护，在镜像的开发、发布、传输和存储等工作流程中，保护业务镜像的完整性。 # 3 结论 本文介绍了Atlas 900 A3 SuperPoD 超节点提供的安全机制。在继承传统安全能力的基础上，Atlas 900 A3 SuperPoD 超节点同时提供基于可信根的安全启动和可信启动能力、安全安装和升级能力，可满足Atlas 900 A3 SuperPoD 超节点作为ICT基础设施的安全要求。同时，也需要看到，随着新技术兴起和应用场景的变化，服务器安全需求正在持续研究和完善中。我们将与业界一起，继续积极参与标准组织、运营商、设备商对服务器安全的研究探索，不断完善安全解决方案，在满足客户需求的道路上不断前进。 附录 A.1 缩略语 英文缩写 英文全称 中文全称 NCSI Network Controller Sideband Interface 网络控制边带接口 RoT Root of Trust 信任根 BIOS Basic Input Output System 基本输入输出系统 CLI Command-Line Interface 命令行接口 SNMP Simple Network Management Protocol 简单网络管理协议 IPMI Intelligent Platform Management Interface 智能平台管理接口 SSH Secure Shell 安全shell SFTP Secure File Transfer Protocol 安全文件传输协议 SHA Secure Hash Algorithm 安全散列算法 FW Firmware 固件 RAID Redundant Array of Independent Disks 独立冗余磁盘阵列 HMAC Hash-based Message Authentication Code 密钥相关的哈希运算消息认证码 RMCP Remote Mail Checking Protocol 远程邮件检查协议 SSL Secure Sockets Layer 安全套接字协议 AES Advanced Encryption Standard 高级加密标准 TLS Transport Layer Security 安全传输层协议 UEFI Unified Extensible Firmware Interface 统一可扩展固件接口 CRTM Core Root of Trust for Measurement 核心可信度量根