> **来源:[研报客](https://pc.yanbaoke.cn)** # AI-Native # 技术与实践白皮书 创原会 CLOUD NATIVE ELITECLUB HUWEI # 联合出版单位 创原会、华为云 # 白皮书编撰组 # 主编 顾炯炯 华为 Fellow、华为云首席架构师 # 特邀作者 朱熠锷 金山办公助理总裁 王云峰 值得买科技 CTO 代迪美宜佳CIO 吴鸿钦 美宜佳 技术总监 刘福东 汉得信息 董事会秘书&副总裁(平台产品) # 编撰成员 叶涛、曹伟朋、王勇桥、徐传飞、陈光、郜忠华、付萌、朱磊、伍华涛、宋江娴、马会彬、蒋昊、曾凯、张秦涛、蒋东生、受春柏、陈衍、唐盛军、练韵文、黄哲思、王健楠、李昆、王晨、许田立、邓红斌、李向阳、徐礼锋、廉莲、陈懿斌、徐云昆、党倩、石苏龙、林歆远、常建龙、李智华、刘建锋、单一舟、康永红、孙彬彬、文永新、刘博、黄卫立、毛杰、罗斌 # 特邀顾问 张宇昕 创原会荣誉理事长 董理斌 华为云Marketing部部长,创原会副理事长 # 序 当今世界,人工智能(AI)正以前所未有的速度重塑人类社会的生产方式和创新范式。在这场深刻的第四次工业革命浪潮中,通用人工智能(AGI)的曙光初现,以OpenAI、Gemini、DeepSeek、Kimi等为代表的生成式大模型持续突破技术边界,加速向人类认知水平迈进。2025年,AI大模型将完成从“智能对话助手”向“全能任务执行者(AI Agent)”的跃迁。上述AI的进化不仅驱动生产力的指数级跃升,更深刻重构着全球竞争格局——率先实现AI技术与产业深度融合者,将在智能时代的经济版图中占据战略制高点。 这场智能化革命的核心,在于技术范式正经历从“AI+产业”到“产业 $\times$ AI”的本质性跨越。传统的AI应用如同工业时代的蒸汽机,仅在特定环节释放局部动能;而AI-Native架构则如同电力革命,其核心价值在于重塑企业的基础设施基因、创新模式与价值网络,驱动企业乃至整个产业生态向真正意义上的“智能有机体”演进。 华为云通过昇腾云服务与CloudMatrix算力平台的软硬协同创新,构建了端到端的国产化智能算力体系。其超节点架构突破性地实现计算与存储资源的超高速对等互联,将大模型训练性能提升 $68\%$ 、推理效率提升 $30\%$ ,为AI-Native架构提供澎湃动力。这一突破不仅解决了传统算力架构在智能密度指数级增长下的性能瓶颈,更通过“随取随用”的云服务模式,让企业能够灵活应对大模型训练、实时决策等高负载场景。昇腾超节点的诞生,标志着中国在智能算力领域构建了自主可控的第二平面,为关键行业提供了安全可靠的智能基础设施底座。Agentic AI的群体智能革命是华为云AI-Native架构的另一核心突破。其多Agent协同框架通过角色定义引擎、任务分解器和动态编排中枢三大模块,构建了可进化的智能生态系统。每个Agent既是特定领域的“技能专家”,又能通过联邦学习形成知识共享网络。这种“超个体智能”架构突破了单体Agent的极限,使企业能够通过多Agent的自主协作,完成复杂系统的智能决策与动态优化。 为系统化梳理AI-Native的技术体系与实践经验,华为云联合创原会的行业领袖、技术专家与学术机构,历时一年深入研讨,最终凝练成此部白皮书。本书不仅是一份技术指南,更是一份面向未来的宣言。我们期待,本白皮书能为各行各业的智能化转型提供可落地的参考框架,助力企业将AI的应用从“降本增效的工具”,升级为“重构新质生产力的引擎”,从而开辟企业创新与增长的新曲线。 智能时代的浪潮奔腾不息,AI-Native的征程才刚刚启航。我们始终坚信,技术的价值在于普惠——我们愿以自身在云计算、AI、行业数字化领域的深厚积累,与全球客户、开发者及生态伙伴携手,共同探索AI-Native的无限可能。让我们以开放的心态拥抱变革,以创新的勇气定义未来,共同迈向“万物皆智能、千行皆重塑”的新纪元! # 目录 # 序 01 # 01 前言 04 1.1 背景 05 1.2 白皮书的目的 06 # 02 AI-Native技术概述 07 2.1 AI-Native的定义与特征 08 2.2 AI-Native技术的价值与意义 11 2.3 AI Native架构设计方法论 12 2.4 Native架构成熟度评估标准 13 # 03 AI-Native技术架构 14 3.1 AI-Native技术总体参考架构 15 3.2 AI-Native资源层关键技术解析 18 3.2.1 对等计算、解耦池化的多元算力AI超节点 18 3.2.2 软硬解耦、细粒度资源调度 21 3.2.3存算分离、极致IO吞吐的AI原生云存储 23 3.2.4 无阻塞、确定性低时延的AI原生云网络 30 3.2.5 华为云AI-Native云基础设施实践 37 # 3.3 AI-Native OS层关键技术解析 68 3.3.1 模型数据处理与准备 68 3.3.2层次化、可持续迭代的模型训练 73 3.3.3弹性按需的Serverless化模型推理服务 93 3.3.4华为云AI模型OS实践 98 # 3.4 AI-Naitive软硬协同优化极致性价比 105 3.4.1大模型的稀疏MoE架构 106 3.4.2 多头潜在注意力(MLA) 108 3.4.3 多Token预测(MTP) 109 3.4.4 极致通信隐藏 110 3.4.5动态负载均衡策略 111 3.4.6 FP8混合精度计算 112 3.4.7 异腾云软硬协同优化实践 113 # 3.5 AI-Native技术赋能的云服务 117 3.5.1 软件开发生产线CodeArts盘古助手 117 3.5.2 安全云脑盘古助手 118 3.5.3 数据库盘古助手 121 3.5.4 数据治理生产线盘古助手 125 3.5.5 云运维盘古助手 130 3.6 AI-Native应用 132 3.6.1 AI Agent成为确定性未来 132 3.6.2 AI Agent与AI-Native应用架构 134 3.6.3 AI Agent应用开发框架 135 3.6.4华为云VersatileAgent平台 136 3.6.5华为云AIAgent应用工程实践 138 3.7大模型安全 141 3.7.1大模型面临的安全风险与合规要求 141 3.7.2大模型安全技术 145 3.7.3 华为云大模型安全解决方案实践 148 04 AI-Native技术在各行业领域的应用 149 4.1 AI-Native行业垂直应用 150 4.1.1金山办公实践案例 150 4.1.2 美宜佳实践案例 154 4.1.3 值得买科技实践案例 157 4.1.4 汉得信息实践案例 159 4.2华为云AI-Native行业应用实践 161 4.2.1 医学大模型行业应用实践 161 4.2.2金融大模型行业应用实践 163 4.2.3气象大模型行业应用实践 167 4.2.4矿山大模型行业应用实践 169 4.2.5 政务大模型行业实践案例 171 05 AI-Native技术的关键挑战 175 5.1模型透明性与可解释性问题 176 5.2模型安全治理挑战 176 5.3 数据与隐私问题 177 5.4异构、多代际硬件的高效协同使用问题 177 5.5模型能力评价体系构建问题 178 5.6大模型幻觉问题的治理与突破 178 5.7多Agent协同与自治挑战 179 06 AI-Native技术的未来展望 180 后记 183 # 01 # 前言 # 背景 回顾2025年,AI领域的发展可谓“风起云涌,高潮迭起”,从年初的DeepSeek V3/R1开源大模型异军突起一举打破硅谷大模型巨头的垄断,再到DeepSeek-OCR对超长上下文的颠覆式创新,GPT/Claude/Grok/Gemini竞相发布新品,发布不断刷新了大语言模型性价比和推理能力的上限,而大模型的应用也从聊天对话和内容生成全面升级为目标驱动可独立思考规划并调用工具完成复杂任务智能体,正式开启了“Agent元年”,企业开始扎堆投入Agentic应用智能化改造,而多模态大模型及世界模型在自动驾驶、机器人具身智能以及媒体娱乐行业的应用落地也不断取得新的突破。 由此可见,生成式人工智能正在以革命性姿态引领第四次工业革命,其作为AI原生系统的核心驱动力,正在重塑全球产业格局的底层逻辑。从感知智能到认知智能的跨越式演进,不仅使AI系统具备了类人的环境理解与自主决策能力,更推动技术范式从预定义规则向“数据驱动-AI使能-算力支撑”三位一体的根本转变。这一进程催生了以“智能内生”为本质特征的AI原生系统——它们不再依赖人工规则配置,而是通过持续学习形成动态优化能力,彻底颠覆了传统IT架构的设计范式,标志着AI原生时代的正式来临。 在数字化与数智化的双重演进中,生成式AI已从技术工具升维为生态级核心引擎,其动态适应能力正在重构企业系统的认知架构。AI原生系统展现出从“执行指令”到“理解意图”的质变能力,这种基于生成式AI的认知跃迁,使得业务流程能够实现自主优化与自我迭代。这种转变倒逼基础设施向“AI原生就绪”形态进化:算力需支持大模型分布式部署以及大/小模型/Agent协同,数据架构必须适应实时处理与反馈闭环,开发模式转向以数据和AI驱动为核心的新范式。这些变革共同构成了AI原生时代的基础设施标准,为通用人工智能(AGI)的演进铺设了技术通路。 当生成式AI的技术成熟度跨越临界点,AI原生系统将成为所有数字化建设的默认选项。这种转变不仅是技术架构的更替,更是生产关系的革命——从生产流程的百倍效能跃升,到商业模式的全局重构,AI原生思维正在重新定义价值创造的方式。在AI原生时代,企业竞争力将取决于其系统“智能内生”的深度:能否实现需求自感知、策略自生成、效果自优化的完整智能闭环。这场由生成式AI驱动的认知革命,终将推动人类社会从信息化、数字化迈向真正的智能化文明,为超级智能(ASI)时代的到来奠定范式基础。 # 1.2 白皮书的目的 # 1) 阐明AI原生技术的内涵与价值 本白皮书旨在构建AI-Native技术的认知坐标系:从技术维度解析其“数据-算法-算力”三位一体的架构特征,从商业维度揭示其“感知-决策-执行”闭环创造的价值飞轮,从战略维度阐释其对企业数字化转型的范式重构作用。区别于传统嵌入式AI的“功能补丁”模式,AI-Native系统具备三个核心特征:架构层面的智能内生性(Intelligence-Native)、数据层面的自进化能力(Autonomous Evolution)、业务层面的价值涌现性(Emergent Value)。本白皮书将据此给出AI-Native的定义,介绍典型的AI-Native技术架构,并分享华为云在AI-Native资源层、AI-Native OS层、以及AI-Native应用层的创新工作。 此外,本白皮书还将深入分析AI-Native技术在不同领域和行业中的应用场景,探讨其带来的技术优势与业务价值。从提升企业运营效率、加速产品创新、增强决策能力到推动产业结构升级,AI-Native技术为各行各业带来了前所未有的发展机遇。通过对AI-Native技术的定义、特征及其应用场景的详细解析,本文旨在帮助企业、学术界和政策制定者理解AI-Native的潜力及其长远影响。 # 2) AI原生技术参考架构与最佳实践分享 随着AI-Native技术的逐渐普及,许多领先企业已经开始在各自的业务中实施AI-Native架构。AI-Native架构不仅仅是技术的集合,它是通过深度的技术整合,实现AI与企业需求、业务流程和战略目标的高度契合。通过结合当前行业内的最佳实践,本文将分享一些AI-Native架构的设计思路、关键技术以及应用案例。 具体而言,本部分内容将从三个维度展开:首先,在云基础设施层面,将介绍华为云在AI-Native架构中的创新实践,包括多元算力AI超节点、云存储、云网络等核心技术,以及模型使能平台和软硬协同优化方案等;其次,在云服务智能化方面,将分享华为云如何通过AI-Native技术赋能CodeArts、数据库、安全云脑等各类云服务,提升其智能化水平;最后,还将展示AI-Native技术在典型行业中的落地案例,包括金山办公、美宜佳、值得买、汉得信息等企业的成功实践。这些全方位的经验分享,能够帮助企业更深入地理解AI-Native架构的价值,并为其技术实施提供明确的方向指引。 # 02 # AI-Native # 技术概述 生成式AI的迅猛发展不仅标志着技术能力的跃迁,更催生了一种全新的系统范式——AI原生。这一理念正在重新定义数字世界的构建方式:当智能不再是被赋予的特性,而是系统与生俱来的核心能力,传统业务架构的价值链将迎来根本性重构。如果说前文揭示了生成式AI作为产业变革引擎的宏观图景,那么理解AI原生的深层内涵与价值体系,将成为把握这场智能革命关键脉络的认知基石。在接下来的探讨中,将穿透技术表象,剖析AI-Native的定义与特征。 # 2.1 AI-Native的定义与特征 需要明确的是,AI-Native并非一个非黑即白的绝对状态,而是一个标志着应用系统智能水平高低的频谱。一个真正的AI-Native应用,其设计与构建应系统性地体现“AI First”的核心理念,并深度融合数据与知识驱动、自学习、统一模型基座、Agentic行动、以及多元算力支撑等一系列关键特征。这些特征共同构成了衡量AI-Native应用成熟度的标尺,后文将依据这些特征的完整度,定义从L0到L5的六个分级,为评估与实践提供清晰的路径指引。 # 1) AI First AI-Native技术的核心理念是“AI First”,即从系统设计伊始便将AI作为核心组件,而非在现有系统中后期集成AI技术。这种设计理念体现了AI在整个系统生命周期中的重要性,旨在将AI能力最大化地融入到系统架构、业务流程、数据流转等各个层面。与传统的“Embedding AI”模式相比,AI-Native技术从架构设计到功能实现都围绕人工智能展开,确保每一个业务环节都能最大限度地发挥AI的优势,提供智能化的解决方案。 各业务领域软件产品及云服务的所有生命周期环节,包括产品与功能规格定义,架构设计,研发过程的开发、测试、发布与运维等各阶段,均需优先思考AI可以做什么,不能做什么,哪些核心功能可以由AI提供,哪些不行:比如基于AI的人机交互,基于AI的核心业务逻辑功能实现,基于AI的需求管理、自动化代码开发测试,应用前后台架构与模型基座之间的组合集成,基于AI的最小化产品选型创新验证与逐步改进等;整体系统的工作流程、核心算法及技术架构,均基于AI驱动的理念与洞察,进行必要的优化甚至重构改造;为确保AI能力在AI Native应用发挥预期的作用与价值,系统中的数据处理、模式识别,以及决策制定等都必须持续和自动化迭代。 AI First意味着应用的“AI内置”,同样也代表了一个体系和机制,贯穿各环节、各角色,如果缺少该“内置AI”能力,系统将不复存在。简单来说以往使用AI能力就是简单调用一些AI能力,如API等,但是内建AI不同,它是一个系统也是一个闭环,真正做到“AI无处不在”。AI First同时也意味着AI在研发流程中的「左移」,即在产品设计、功能和架构设计方面思考AI、使用AI,在一个产品idea涌现初期就使用AI。 # 2) 数据与知识驱动 AI-Native技术的关键特点之一是高度依赖数据与知识。与传统基于规则的系统不同,AI-Native技术通过对海量数据进行深度学习和模式识别,能够自动从数据中提取有价值的信息,并基于此进行决策与优化。这种数据驱动的方式,不仅能处理传统规则系统难以应对的复杂场景,还能通过不断学习提升决策质量。 AI-Native系统构建了“数据-知识”双轮驱动引擎。数据和知识的融合,使得AI-Native系统能够在面对新情况时进行快速适应。通过持续的数据积累与模型优化,AI-Native技术可以不断增强智能化水平,提升整体业务运营效率。企业通过AI-Native架构,将能够更好地挖掘数据潜力,推动数字化转型,并在激烈的市场竞争中保持优势。 # 3) 自学习、自适应、自优化 自学习、自适应和自优化是AI-Native技术的重要特点之一。AI系统能够根据实时数据不断进行自我学习,通过模型更新和优化提升决策质量。通过自适应能力,AI可以在不同的应用场景中根据新的数据和反馈调整策略,实现动态响应,而自优化功能则使得系统在长期运行过程中不断提升性能,降低资源消耗,保持较高的运行效率。 这种智能化的特点,意味着AI-Native系统不仅能够在静态环境中完成任务,还能够在复杂、动态的环境中自动适应并优化自身行为。例如,在智能制造场景中,AI-Native系统能够根据生产过程中的实时数据,自动调整生产参数,实现精确控制,从而提高产品质量和生产效率。 # 4) 以统一基础模型作为智能基座 AI-Native系统的智能化根基在于构建统一的基础模型(Foundation Model),其本质是通过通用性强、泛化能力突出的模型架构,为全场景AI应用提供统一的语义空间和知识表达框架。这种“统一基座”模式突破了传统AI系统中模型碎片化、场景割裂的局限,通过参数共享、知识蒸馏和迁移学习等技术,将通用知识与领域知识深度融合,形成覆盖语言、视觉、决策等多模态的“认知底座”。 统一基础模型在AI-Native系统中的价值体现在三个维度:技术维度,实现了“大模型小场景”的适配,结合模型压缩和参数高效微调,在保持高性能的同时适配边缘侧低算力场景;生态维度,通过模型即插件、指令微调等机制,使开发者能以“乐高式”方式组合基础能力,形成行业解决方案;业务维度,其通过统一语义空间打破数据孤岛,使跨业务线的知识共享效率显著提升。 # 5) 具备自主性与工具调用能力的Agentic AI AI-Native系统的先进性,在行为层面体现为具备自主性的智能体(Agent)形态。与被动响应指令的传统AI模块不同,Agentic AI能够理解高层目标,并主动进行任务规划、分解与执行。其核心能力在于自主决策与行动,特别是通过工具调用(Tool Use)和本地知识库查询来扩展其能力边界。 一个AI-Native Agent可以自主检索知识库、调用API、执行代码、操作软件或硬件,从而在复杂的数字与现实环境中完成端到端的任务。这种能力使得应用从“智能助手”升级为“智能执行者”,能够动态适应环境变化,并在多步工作流中实现真正的自动化,极大地提升了系统的自主解决问题能力。 # 6) 极致性价比的多元算力支撑 AI-Native系统的算力需求呈现出前所未有的复杂性与动态性特征,对算力基础设施提出了革命性要求。算力基座需构建基于超节点架构的多元算力池,兼容CPU/DPU/NPU等异构芯片,并支持千/万卡级并行计算能力,通过对等算力网络实现极致的弹性资源调度。推理场景需依托超节点架构的异构计算加速能力,达成低延时高吞吐的智能服务。这种需求已超越传统云计算资源池化的简单逻辑,需要构建从芯片架构到系统软件的全栈协同优化体系——正如DeepSeek通过算法-编译-硬件的深度协同,实现计算效率的指数级提升。此外,只有当算力基础设施具备对应用特征和算力需求的精准感知以及对多元算力的动态量体裁衣式供给能力的智能特性,才能真正释放AI-Native系统的全部潜能。 在AI原生范式下,算力已从被动资源进化为主动的“智能计算引擎”。这要求基础设施不仅提供基础计算能力,更要能够构建支持万亿参数模型分布式训练的异构计算架构,最终形成“算力-算法-数据”的闭环优化系统,使计算资源能随模型复杂度、业务场景动态调整。这种深度协同优化将算力转化为AI原生的核心生产力,其成熟度直接决定了企业能否在智能时代建立竞争优势——正如大模型性能不仅取决于参数量,更取决于每瓦特算力所能产生的智能效能,而超节点的规模效应与对等算力的协同效率将成为关键决胜点。 综上所述,AI-First的设计哲学、数据与知识的双轮驱动、自学习、自适应、自优化的内生能力、统一基础模型的支撑、具备工具调用功能的Agentic AI自主性、以及极致性价比的多元算力使能,共同勾勒出AI-Native应用的完整画像。然而,必须认识到,在从传统软件向AI-Native演进的过程中,并非所有应用都需要或能够一步到位地具备全部特征。正因如此,引入了L0至L5的成熟度分级模型,其目的正是为了客观地衡量一个应用在AI-Native道路上的所处阶段。在接下来的章节中,将进一步展开介绍AI-Native技术的价值与意义、典型的AI-Native架构设计方法论,以及AI-Native架构成熟度分级体系,帮助读者清晰地定位自身产品,并规划其向更高阶AI-Native形态演进的路线图。 # 2.2 AI-Native技术的价值与意义 AI-Native技术从业务系统设计之初便将智能能力融入到每一个环节,从而有望在业务运营、功能创新、系统进化、乃至商业模式方面实现全面升级。具体地: # 1) 精益化业务运营 在传统的企业运营中,许多业务流程需要依赖人工干预,且容易受到人为因素的影响,导致低效或错误。而在基于AI-Native业务系统中,能够通过数据驱动优化每一个环节,通过自动化流程、优化决策和实时反馈,大幅度提高业务运营效率,实现更加高效、精确的运营。同时,AI系统能够持续监控运营状况,发现潜在问题并进行优化,进一步提升业务运营的效率和质量。AI系统还能够利用数据驱动的洞察力优化业务流程,减少资源浪费,实现精准的需求预测和供应链优化,从而降低成本、提高响应速度,助力企业实现精益化运营。 # 2)业务功能创新与增强 AI-Native技术不仅能够优化现有业务流程,还能够为企业带来新的功能创新和业务模式。通过深度挖掘数据价值,AI-Native系统可以发现传统方法无法识别的潜在机会,为企业创造新的增值服务。例如,企业可以利用AI-Native技术提供个性化推荐服务、智能客服系统、自动化生产等,进一步提升客户体验和业务创新。这种创新不仅帮助企业实现业务转型,还能够在行业竞争中脱颖而出,为企业创造更多的增长机会。 # 3) 开发与部署自动化 AI-Native技术能够推动业务系统的自动化开发与部署进程,减少人工干预,提高开发周期的效率。自动化工具和框架使得开发者能够更加专注于创新,减少重复性工作。机器学习和优化算法帮助自动调整系统配置,支持快速的迭代和部署,提升敏捷性。 # 4) 运维与优化自动驾驶 通过AI-Native技术,运维流程有望实现高度的自动化和智能化。系统能够自我监控、故障预测并自动修复,减少人工运维的依赖。同时,基于实时数据和机器学习的优化模型,AI能够持续提升系统性能和可靠性,实现真正意义上的自动驾驶运维。 # 5)商业模式创新与产业升级 AI-Native技术有望为企业提供创新的商业模式,尤其在服务定制化、智能产品开发及平台化经营方面。AI不仅可以提升产品和服务的附加值,还能够为传统行业带来数字化转型的动力,推动产业的技术升级与结构优化,从而促成新的价值创造和市场竞争力的提升。 # 2.3 AI Native架构设计方法论 AI-Native架构设计强调将AI技术作为整个系统的核心组件,从数据采集、处理到决策执行的每个环节都与AI紧密结合。与传统的嵌入式AI(Embedding AI)设计不同,AI-Native架构更加注重AI的“无缝融合”,即在架构的每一层都充分发挥AI的能力。设计时,需要根据具体业务场景进行个性化定制,保证技术与需求之间的高度契合。AI-Native架构的设计方法论首先强调数据的重要性。数据是AI系统的基础,通过数据的采集、清洗、存储与处理,AI系统能够在最初阶段便具备足够的信息源来进行学习与决策。其次,架构设计还需要关注智能模型的持续更新与优化能力。在实际应用中,AI模型可能会面临快速变化的市场环境和数据特征,因此系统需要具备自学习、自适应的能力,确保模型能够根据新的数据进行实时调整。 此外,AI-Native架构还强调多层次的技术整合(如图1所示)。在架构的设计中,通常会包括数据层、计算层和应用层等多层次结构,各层之间要形成高度协同,确保整个系统的运行效率和智能化水平。每一层的技术选择要根据具体业务需求来决定,例如数据层使用高效的分布式存储技术,计算层使用大规模并行计算框架,应用层则通过接口与前端系统进行交互。同时,工程部署层面的优化与企业组织的业务形态都应随AI-Native架构的特点进行适配,实现系统智能的可持续性迭代。 图1 AI-Native系统涉及的架构、工程、组织变化示意图 # 2.4 Native架构成熟度评估标准 AI原生架构的成熟度可以从多个维度进行评估,包括系统的协作水平、数据治理能力、模型生命周期管理能力、运维自动化程度、系统自进化能力等。根据这些特点列出了如下表所示的成熟度评估标准。 表1 AI-Native架构成熟度评估标准 <table><tr><td></td><td>Level-0(传统级)</td><td>Level-1(入门级)</td><td>Level-2(基础级)</td><td>Level-3(标准级)</td><td>Level-4(发展级)</td><td>Level-5(成熟级)</td></tr><tr><td>架构</td><td>无AI架构定义</td><td>基础的AI参考架构</td><td>A赋能的运营运维及共享的AI服务</td><td>支持AI所需的流数据及分布式计算</td><td>完善全面的AI架构定义</td><td>通过AI管理的AI架构</td></tr><tr><td>协作</td><td>AI功能之间无协同</td><td>部分AI功能之间通过数据共享协同</td><td>部分AI功能与基础核心AI基础设施平台集成</td><td>AI能力遍布整体架构,同时覆盖AI应用、AI平台及AI基础设施</td><td>上一层级AI系统之间的协作</td><td>通过分布式AI模型及其智能体应用的广泛协作,实现能力联邦及模型与洞察力共享</td></tr><tr><td>数据注入、存储及处理</td><td>手动、离线数据管理</td><td>自动化的数据收集与在线分析</td><td>部分兼容数据资产导入及数据湖架构</td><td>全面兼容支持数据资产导入及数据湖架构</td><td>全面支持数据湖流水线、数据资产交换网格及零拷贝数据共享</td><td>AI驱动的数据治理及数据资产交换自动化</td></tr><tr><td>模型生命周期管理</td><td>无专用的模型生命周期管理</td><td>手动模型部署</td><td>自动模型部署</td><td>参考国家地区及行业安全隐私规范的模型适配与数据脱敏,基础AI模型的安全可信</td><td>自动化模型迁移与升级,增强AI模型安全可信</td><td>完全自动化的模型生命周期管理及安全</td></tr><tr><td>AI驱动的自动化、标准化</td><td>私有、非标的日志、告警、性能及配置管理</td><td>AI驱动自动化故障与事件感知,自动化配置与监控</td><td>AI驱动自动化故障定位,性能优化及故障与性能预测</td><td>AI驱动自动化系统修复及抢占式韧性保护</td><td>AI驱动自迭代增强的业务需求管理</td><td>AI驱动的架构设计、详细设计及代码开发测试</td></tr></table> # 03 # AI-Native # 技术架构 # 3.1 AI-Native技术总体参考架构 如图2所示,本白皮书将AI-Native技术总体架构分为三层:AI-Native资源层、AI-Native OS层、以及AI-Native应用层。AI-Native资源层:构建AI-Native系统的算力基石。作为AI-Native体系的底层支撑,提供适应AI负载的弹性、高性能、异构化资源池,解决传统云架构在算力调度、数据吞吐及网络通信上的瓶颈。AI-Native OS层:AI能力的操作系统。作为连接基础设施与应用的“中间件”,提供模型开发、数据治理、基础能力的标准化平台,降低AI应用构建门槛。AI-Native应用层:百模千态,赋能业务。面向垂直行业与场景,通过模型调优与业务流程集成,实现AI能力的最终价值闭环。 图2 AI-Native技术总体架构示意图 具体地,AI-Native资源层是AI Native时代专门面向多模态大模型、小模型的训练、推理及其智能体应用打造的极致性价比、极致弹性、极致高可用的基础设施,其核心价值体现为在云算力基础设施层为大模型的并行预训练、基于强化学习的后训练、并行推理,以及Agent的任务执行提供最优的计算效率及高可靠保障,并支持能够根据训推任务的实际需求智能调度和分配CPU/GPU/NPU等多元算力以及存储和网络资源,对依据大模型训推及Agent任务的动态变化对上述资源进行动态灵活地弹性伸缩,同时也能支持多租户小模型在云上的高效资源共享与安全隔离。 # AI Native资源层在计算架构方面的关键特征: 1 对等算力架构 突破传统主从架构,实现计算节点的对等互联,降低分布式训练中的通信瓶颈。 2 解耦池化 CPU、GPU、TPU、NPU等算力资源池化,按需组合,提高利用率。 3 Serverless化 支持动态伸缩的算力供给模式,适应AI负载的动态需求。 4 多元算力 异构计算架构(如GPU/TPU/FPGA)协同优化,匹配不同AI任务的多样化计算特性。 5 分布式边缘计算 边缘节点与中心云协同,实现低延迟推理与数据本地化处理。 6 AI使能弹性调度 基于AI负载预测的智能资源调度,优化算力分配。 # 在存储架构方面的关键特征: 1 存算分离 计算与存储资源独立扩展,避免存储I/O成为性能瓶颈。 2 分布式缓存加速 高频数据就近缓存,减少数据访问延迟。 3 数控加速 存储与计算协同优化(如RDMA存储访问),提升数据吞吐效率。 4 多模记忆存储 支持长短期、多模态记忆存储模式,使能Agent实现智能、上下文感知和个性化的交互。 # 网络架构方面的关键特征: # 1 超低时延支撑 如通过RDMAv2/灵衢UB等总线式网络协议实现免CPU介入的节点间超低时延通信,满足CPU与GPU/NPU,以及GPU/NPU与GPU/NPU间频繁的算子执行与运行状态同步需求。 # 2 超大带宽保障 超节点内通过RDMAv2/灵衢UB无阻塞网络拓扑架构,以及动态拓扑感知的按需网络带宽时空调度满足大模型并行GPU/NPU计算单元之间的参数同步需求,最大限度避免并发集合通信冲突带来的性能影响。 # 3 云网络 对传统数据通信协议栈,特别通过数据中心内应用网格、虚拟叠加网络以及物理承载网络的深度融合,以及跨数据中心P2P模式的网络路由、传输层协议进行基于控制承载分离模式的全面简化与重构,从而大幅提升面向AI Native时代的网络交互效率。 AI-Native OS层是连接底层算力与上层应用的智能中枢,提供模型开发、训练、部署的全栈支持,并构建AI模型的训推提供最为关键的数据飞轮体系支撑。此外,L0级基础大模型也面向提供通用AI能力,作为行业模型的基座。按模型赛道分为NLP大模型、CV大模型、预测大模型、科学计算大模型、多模态大模型(包括多模态理解大模型、多模态生成大模型)等。每一类L0基础大模型通常包含多种候选,如NLP领域包括DeepSeek V3、盘古NLP系列、Llama系列等,在实践中可以设计一个模型调度与路由机制层,自适应加载不同的L0大模型。各L0大模型均由大量通用、领域数据训练得到,可以在部分行业场景中开箱即用,也可以配合工具链优化其部分能力,从而得到面向特定行业的L1大模型或面向特定场景的L2大模型,进而使能上层百模千态的AI应用。 实践中,在构建AI Native系统/应用时,实现算力与模型性能的极致协同需要软硬协同的深度耦合,即:AI-Native软硬协同优化。例如,通过稀疏MoE架构设计,在硬件层面实现异构算力的动态调度,使专家模块的并行计算与硬件资源的亲和性达到最优匹配;混合精度技术则通过FP32/FP16等精度的智能切换,在保证模型精度的前提下,有效提升硬件计算单元的吞吐量;而基于流水线的通信隐藏技术,通过计算与数据传输的时空重叠,充分降低跨节点的通信开销。这种从算力架构到模型结构的全栈优化,最终形成“算力-算法-数据”三位一体的协同增强效应,为AI-Native系统构建出性能更高的技术基座。 AI-Native应用层采用分层设计,包含行业大模型(L1)、场景大模型(L2),以及基于二者构建的百模千态应用。这些应用可分为三类:AIGC类(如图像生成、视频生成、文本生成等任务)、Agent类(如通用智能体Manus、金融分析Agent等)、以及AI-Native云服务(如华为云Versatile等)。在实际系统构建中,开发者可能组合调用L0/L1/L2模型,或直接使用上层应用。若涉及Agent开发或多Agent协同,需通过MCP协议(Multi-agent Control Protocol)实现对外部知识库、工具链的调用(如检索增强生成/RAG、API工具调用),以及A2A协议(Agent-to-Agent Protocol)来支持Agent身份认证、Agent间状态同步(如任务上下文共享)等。例如,政务场景中,一个基于L1政务大模型的公文审核Agent可能通过MCP协议调用法律条文数据库,同时通过A2A协议与多个部门审批Agent协同工作,实现全流程自动化。 以华为云自身实践为例,基于华为全栈云服务API/SDK文档、生态部上云最佳实践、海量上云解决方案案例库、外部互联网IT通识(IT解决方案通用知识与案例)、行业领域特定知识库等语料库,微调盘古L0级基础大模型,进一步结合具体的业务场景和流程,打造出安全云脑、CodeArts、云运维、云数据库等一系列垂域模型,赋能相关场景/应用的服务智能化转型。 # 3.2 AI-Native资源层关键技术解析 # 3.2.1 对等计算、解耦池化的多元算力AI超节点 # 趋势和需求 AI算力资源发展至今,从传统的CPU到GPU,再到百家齐鸣的NPU、TPU、DPU等等,AI云计算已经进入了一个高速发展的XPU时代。在AI算力业务蓬勃发展的时代背景下,AI算力诉求急剧膨胀,从最开始的单机单卡、单机多卡,到现在的千卡、万卡集群,这也引出了一系列的问题和挑战: 集群规模快速膨胀,AI资源管理复杂度上升。随着AI产品的大众化、规模化,搭载商业级算力芯片的大规模算力集群,成为了各个科技型企业的必备武器,AI算力集群规模也日益膨胀,这就带了不可避免的问题:如何能更高效的管理成千上万的AI算力资源。 AI芯片种类繁多,对于AI资源管理的可扩展性有了更高要求。无论是现今一家独大的英伟达,还是厚积薄发的华为、谷歌、AMD,都在推出AI场景算力芯片,例如英伟达的GPU、华为的昇腾NPU及谷歌的TPU。AI算力云厂商或是AI型企业,面对各家算力厂商迥异的架构,也急需有一套可扩展性更好的AI资源管理架构。如下图所示,异构资源通过池化方式,为上层训推等任务提供算力支持。 图3 异构资源池化架构图 参数面网络等新型AI资源,对于AI资源管理提出了新的挑战。大模型、自动驾驶、AIGC的横空出世,大规模的算力参数面互访网络成为了必需品,参数面网络提供的超高带宽,发展出了计算机超节点架构,计算机超节点是一个由多个和多种计算(CPU/NPU),内存,IO设备等计算机资源单元,高速互联紧耦合在一起的集群计算系统,是生成式AI时代的产物。区别于传统以服务器中心松耦合架构,超节点是去中心化的紧耦合架构。随着技术的进一步演进,未来超节点内所有服务器的设备可做到灵活组合成为各种算力单元,也可被称为矩阵式算力。为了能够有效利用超节点内的资源,相关联的算力参数面网络设备及其拓扑的管理,也就成为了AI算力资源管理的新课题。 # 》 关键特征与相关技术 面对问题和挑战,作为AI云原生基础设施资源底座,kubernetes构建了面向超节点架构的整套资源管理方案。 虽然计算机超节点的High-Speed Link高速互联能够提供比传统互联更高的带宽,但单路径带宽仍无法匹配计算单元的吞吐,基础设施层通过构建全局多路径I/O加速技术,大幅提升了节点内与节点间I/O性能。 为匹配AI行业所需的庞大算力需求,基础设施硬件从主从架构逐步演进至对等架构,传统的资源管理模型不再适用,需要构建面向对等架构的资源管理模型,实现资源的高效管理与合理配置。 传统资源管理模型的基本算力单元为单台服务器,服务器模型内包含各种设备(CPU,内存以及I/O设备等),资源池模型由服务器模型聚合而成,其资源分配也是以服务器为基本粒度,云化场景下的云服务器也仅是设备数量存在差异,其基本建模均保持一致。超节点为去中心化的架构,虽然物理设备仍依托于服务器之上,但超节点内配备有超高速互联网络,其内所有设备均可以灵活组合成不同的算力单元,超节点架构基本算力单元不再是单台服务器,传统资源管理模型已不再适用。面向超节点架构,Google的TPU服务构建的层次化的资源管理模型,是业界当前比较成熟的解决方案。 1) 超节点资源管理模型与资源切片: 超节点资源管理模型包含三个基本算力单元模型: XPU、CPU和内存, 其他设备均建模为附属模型。在资源管理模型中将基本模型又被抽象为资源节点Node, 超节点的高速互联被抽象为连接资源节点之间边Edge, 一个超节点被抽象为一个SuperPoD, 多个SuperPoD组成一个集群Cluster, 资源池就是集群的聚合。 SuperPoD的资源分配模型是XPU、CPU和内存的组合,称为超节点资源切片slice。其中XPU的资源分配粒度为设备,CPU为CPU Core,内存为容量。Edge作为资源组合的约束,对资源的组合形式进行限制。比如客户申请一个64XPU, 320CPU Core, 1024GB内存的slice, 超节点资源调度器不仅要调度足量的XPU、CPU和内存资源, 还要通过图匹配算法确保被调度的资源节点之间存在直连Edge。基本算力单元之外的设备不参与资源调度过程, 而是通过规格预定义的方式进行管理, 在AI场景下这些设备的分配量一般与XPU资源量锚定, 按照不同的XPU请求量划分为若干档位。 2)超节点资源拓扑感知:AI业务场景下所需的通信量非常大,其通信算法都会根据基础设施网络拓扑进行编排优化,以达到充分利用网络带宽的目的。为了有效利用超节点的高速互联网络,客户也需要感知到超节点内部的拓扑结构来优化通信算法。然而算力服务提供商出于安全和保密方面的考虑,一般不会对客户暴露物理信息,而是通过抽象方式隐藏物理信息。AWS提供了一套网络拓扑的抽象建模思路能够在满足通信算法优化需求的同时隐藏物理信息。超节点资源拓扑感知模型将不同的网络设备抽象为虚拟的网络节点NN(network node),并为每一个NN进行逻辑编号,如NN001,NN002。客户在查询超节点slice的设备拓扑时,接口会返回每一个设备所属的每个层级的NN,客户可以根据NN的逻辑编号是否相同来确定设备间高速互联的拓扑结构。 3)超节点资源高可用:高可用能力是大规模集群系统必须具备的基本能力,基础设施层的高可用能力之一是故障设备替换。故障设备替换指的当客户正在使用的设备出现故障时,使用一个正常设备将其替换掉,帮助客户快速恢复业务。在超节点架构下,由于超节点内的设备之间具备高速互联网络,所以可用于替换的设备必须在超节点内部,不能跨超节点进行设备替换。在超节点架构下执行故障设备替换时,资源管理平台会约束调度系统的调度范围不能超出设备所在的超节点。此外,由于超节点规模有限,为了确保超节点内存在可用于替换的设备,资源管理平台会在每个超节点内预留部分设备作为保底手段。在故障替换时会优先选择非预留的空闲设备,在非预留空闲设备不满足替换需求时才会动用预留资源。在某个预留设备被使用后,预留设备池的容量随之减少,资源管理平台会周期性的扫描超节点内设备使用状态,若存在被释放的设备则将其加入预留池,以实现预留池容量的轮转。同时,资源你管理平台也会通知运维人员及时维修故障设备。在AI场景下,为了与Checkpiont机制相配合,资源管理平台会对外暴露设备替换接口。AI作业管理平台在保存好现场后调用此接口进行故障设备替换,替换成功后再通过读取checkpoint恢复业务。 除设备故障外,网络断连也是典型的故障场景,超节点资源管理平台采用借轨通信的方案解决此类问题。借轨通信是指在设备A与C的当前互联路径中断的情况下,由于设备A和C仍然与设备B保持通信连接,设备A可选择从设备B跳转的方式与设备C实现通信。跳转节点通过路径规格算法进行优选。 # 3.2.2 软硬解耦、细粒度资源调度 随着大模型高速发展的背景下,引发AI算力需求指数级增长。然而当前AI大模型算力服务面临诸多问题,如集群资源利用率低、资源分配粒度僵化、异构资源管理困难等。本章节将展开业界全域调度和弹性细粒度调度趋势、挑战及相关技术。 # 趋势与需求 在全球数字化转型和DeepSeek等大模型高速发展的背景下,AI算力需求指数级增长。据IDC预测,2023-2030年全球IDC市场将保持 $22\%$ 的年复合增长率,而中国智能算力增长更为迅速,预计2025年算力规模会突破千亿级。其中,昇腾在中国智能算力占有重要的地位,昇腾云服务提供了高性价比的AI算力,包括910A/B/C等多种NPU硬件,并提供全链路云化工具链,支持高效迁移,全栈垂直优化,以及模型/算法高效运行,使能“百模千态”应用快速落地。 随着Scaling Law的持续演进,模型参数和计算量增长迅猛,开发者对云上AI算力的成本和可靠性等诉求也越来越强烈。具体来看,AI云服务当前面临着问题和挑战: 1) 资源分配力度过大, 导致资源利用率低用卡成本高。当前GPU/NPU算力分配颗粒度过大, 无法准确匹配多样化 AI任务的资源需求。以固定资源规格匹配多样化的算力需求, 造成大量资源碎片, 资源利用率偏低。 2)潮汐效应,导致资源浪费严重。推理任务白天和晚上调用量差距明显(白天调用量是晚上的10倍),如按峰值预留资源,则低谷资源利用率极低,造成资源浪费。 3)大模型分布式集群故障频发,训推可靠性低。大规模并行+耦合计算导致“故障爆炸半径放大效应”,难以高效稳定支持超大模型训推。此外,在训练阶段,CKPT频率设定挑战大,高频浪费资源,低频回滚耗时,导致故障恢复慢。 # 》 关键特征与相关技术 面对这些问题和挑战,业界共识是通过细粒度调度和软硬解耦,来构建更便宜、更可靠的算力服务,使能AI创新,具体特征和技术如下: 1)细粒度切分、量体裁衣,提升资源利用率。通过细粒度切分和分配,打破算力资源规格枷锁,支持GPU/NPU、内存/显存、存储IO,以及网络吞吐等维度的任意比例组合,基于对云上业务负载的高精度、细颗粒资源画像,自动推荐与业务负载需求匹配的最优算力资源配置比。如下图所示,细粒度切分与分配相对于整卡分配,节省25%算力、63%容量、13%访存带宽及25%网络带宽。 图4 Llama 8B 910B3 2k/2k, 满足SLA约束的NPU切分方法方案 2)智能弹性伸缩+训推混部。由于AI应用潮汐效应明显,导致资源浪费,可通过时序预测AI模型,提前预判业务负载波动,实现资源供给与需求曲线的精准贴合。并通过训推混部方式,将调用量低谷时多余的推理资源腾挪给训练使用,在保证SLA前提下使得AI算力成本进一步下降,如下图所示: 图5 AI算力资源预测与训推混部 3)软硬解耦屏蔽故障,系统快照故障快速恢复。可通过NPU虚拟化技术,实现训推任务与NPU硬件的解耦,通过“软件定义NPU”屏蔽NPU硬件故障对训推任务的影响。此外,可通过构建系统级快照,出现NPU故障时,直接从剩余NPU节点中获取完整任务状态,并重新拉起,将训练损失缩减为单步内,提升系统的可靠性。 # 3.2.3 存算分离、极致IO吞吐的AI原生云存储 # 趋势与需求 基于大模型的生成式AI技术的重大突破推动了人工智能的应用范围从传统的分类任务扩展至广泛的生成任务,引发了AI应用的爆发性增长,并引领IT产业迈入全新的“AI时代”。随着AI产业的迅猛发展,云计算基础设施也在从以通用算力为核心向以智能算力为核心转变。在这种新型云计算基础设施中,数据的“算力”和“存力”是相辅相成的。一方面,强大的数据算力(包括GPU、NPU等算力单元)需要充足的数据存力(如显存、DRAM、SSD等存储单元)来保证数据处理的连续性和稳定性;另一方面,高效的数据存力也需要数据算力的支持,以便对存储的数据进行有效处理和利用。数据的算力和存力之间存在着紧密的联系和相互依赖。在全局视角下,要提升端到端的效率,“算力”跑的快,“存力”也要跟上,算力与数据存力一起系统化地构成了AI算力基础设施。尽管云数据中心在智能算力方面取得了显著进步,但是在存力方面的不足已成为制约效率的关键瓶颈。 # 1) AI训练主要有以下两个存力问题 # i. CheckPoint 保存与恢复慢导致GPU/NPU算力利用率降低 大模型训练AI集群故障概率高,故障影响大,故障发生后任务恢复耗时长,浪费大量AI算力和时间。AI算力集群可用度和算力资源利用率问题是AI集群使用者和供应者共同关注的问题,集群的可用度直接关系到AI训练任务能否在预期的时间内完成,而可用度和算力资源利用率对企业内的AI基础设施部门或公有云厂商则意味着服务SLO能否达成,能否通过压低AI集群的资源成本取得盈利。以Meta的OPT-17B训练为例,理论上在1000个80G A100上训练3000亿个单词,需要33天,实际训练却使用了90天,期间出现了112次故障。如下图所示,集群卡数规格越大,平均故障间隔时间MTBF越短,而故障恢复时间MTTR的快慢则直接影响到集群的可用度和算力资源利用率,严重时集群算力资源利用率只能达到 $33\%$ ,导致2/3的算力被浪费。 图6 集群可用度 训练任务检查点CheckPoint是深度学习框架中的容错方法。检查点CheckPoint通过在给定时间定期保存完整模型状态的快照来帮助缓解训练的模型状态丢失问题。如果发生故障,可以使用之前保存的CheckPoint快照将模型重建到快照时的状态,以从该点恢复训练。但是,根据CheckPoint检查点保存频率,通常会导致几个小时的计算时间损失。此外,保存和恢复CheckPoint过程本身会产生大量开销,恢复时所有节点都需要并发读取CheckPoint,千亿大模型TB级大小的CheckPoint文件保存和恢复通常会成为训练过程中的瓶颈,CheckPoint保存和恢复过程中会长时间中断训练任务,浪费大量算力和时间,考虑到大模型使用的GPU/NPU规模,以1万卡为例,故障损失将会是数万个卡的时间。下图说明了训练过程中CheckPoint保存和故障恢复时的时间和算力开销。 图7 训练过程中CheckPoint保存和故障恢复时的时间和算力开销 另外,大模型的参数数量呈指数级增长,导致模型大小急剧增加,模型参数量越大,CheckPoint文件越大,由于 CheckPoint中除了包含模型参数权重信息,还包含优化器、配置等训练任务信息,膨胀系数一般按6倍计算。例如,GPT-4的参数数量为1.76万亿。若使用FP16格式存储模型参数,GPT-4模型参数约为3.52TB,在模型训练过程中,模型的 CheckPoint大小是21.12TB。按1min完成CheckPoint保存,5min完成CheckPoint恢复,数据并行度DP为30,则对存储系统的写带宽需求352GBps/s,读带宽需求为2112GBps/s。总之,大模型CheckPoint检查点管理涉及繁重的存储和作业恢复时间开销,频繁的CheckPoint检查点保存,加上从最近可用的CheckPoint检查点快速恢复训练作业,成为一项巨大的挑战。其中,CheckPoint保存与恢复过程对存储系统读写带宽要求的计算公式参考如下: 存储写带宽 = CheckPoint大小 / 保存时间 存储读带宽 = CheckPoint大小 * 数据并行度DP / 恢复时间 CheckPoint大小 $\approx$ 模型参数量\*参数占字节数\*膨胀系数 # ii. 海量训练数据加载慢导致训练任务变慢 CV/多模态/自动驾驶等训练任务场景涉及PB级训练数据,数据集读取慢导致GPU/NPU算力出现空闲,训练任务变慢。随着企业使用GPU/NPU算力规模越来越多,底层存储的IO已经跟不上计算能力,企业希望存储系统能提供高吞吐的数据访问能力,充分发挥GPU/NPU的计算性能,包括训练数据的读取加速,减少上层算力对存储I/O的等待。以CV类大模型场景每台AI训练服务器图片处理速度10000个/s,平均每张图片大小约为200KB,按照千卡规模128台计算节点并发训练,读带宽性能需求为 $10000^{*}200^{*}128 = 244\mathrm{GBps}$ 。总带宽需求随计算节点规模线性增长,算力规模越大,存力需求越高。 # 2) AI推理业务对存储的主要挑战 面向AI推理业务,存力面临的痛点主要表现在三个方面:持久化存储性能不足、DRAM利用率低、以及AI内存墙问题。 # i. 持久化存储性能不足 近年来,大模型的参数数量呈指数级增长,导致模型大小急剧增加。在模型推理场景中,AI加速器需要将模型文件加载到其显存中进行推理,特别是在推理集群发生故障恢复、推理业务高峰期发生弹性扩容的时候,各AI加速器节点需要从共享存储中并发快速完成模型文件加载。在Serverless推理场景中,AI加速器还需频繁切换不同的模型以满足不同用户的推理任务需求,这种模型切换的时延需求通常在秒级别,对存储性能提出极大的挑战。以38B参数量的模型文件为例,模型文件大小约为80GB,单个模型文件被拆分加载到1机8卡进行分布式推理,按千卡规模推理集群分钟级完成模型文件并发加载,对存储的带宽需求为: $80^{*}1000 / 8 / 1 / 60 = 166\mathrm{GBps}$ ,由于存储数据量相对较小,对存储性能密度提出极大的挑战。同样的,推理集群规模越大,对存力要求越高。 # ii. DRAM 利用率低 当前的AI集群不仅包含AI加速器,还配备了大量的DRAM内存资源。例如,一台华为AI服务器配置了8张NPU卡和1.5TB的DRAM,而NVIDIA GH200服务器中每张GPU卡则配备了512GB的DRAM。然而,在运行流行的大语言模型训练和推理任务时,这些DRAM资源的利用率却非常低。一项研究论文分析了两个较大规模的GPU集群的资源利用率情况,结果显示其中一个集群在 $90\%$ 的使用时间内DRAM利用率低于 $25\%$ ,另一个集群在 $76\%$ 的使用时间内DRAM利用率同样低于 $25\%$ ,且在几乎整个使用过程中,两个集群的DRAM利用率均未超过 $50\%$ 。AI集群中DRAM利用率低的主要原因在于,AI服务器上的DRAM资源通常是按照各种负载场景的最大需求进行配置的,以确保能够运行所有类型的负载。这种配置策略导致在某些特定负载下DRAM利用率较高,而在大多数其它负载下DRAM利用率则较低。由于目前AI集群主要由LLM负载主导,因此DRAM的整体利用率普遍偏低。 # iii. AI 内存墙 AI内存墙主要包括内存容量墙和内存带宽墙两个方面。在内存容量墙方面,AI加速器的显存容量增长速度远远落后于大模型存储需求的增长速度。如图8所示,典型的Transformer大模型的参数量每两年以240倍的速度增长,而业界典型的商用AI加速器的内存容量仅每两年翻两倍。这种大模型参数量与AI加速器显存容量增长速度之间的巨大差距,意味着训练和推理一个模型需要更多的AI加速器,这将显著增加AI训练和推理的成本。此外,增加AI加速器数量的主要目的是为了让大模型能够存储在AI加速器的显存中,这通常会导致AI算力的利用率低下。 图8 SOTA模型的参数量增长趋势和AI硬件显存内存容量增长趋势 来源:Amir Gholami, Zhewei Yao, Sehoon Kim, Coleman Hooper, Michael W. Mahoney, and Kurt Keutzer. "Ai and memory wall." IEEE Micro (2024) 在内存带宽墙方面,AI加速器的显存带宽的增长速度远低于其算力的增长速度。如图9所示,过去20年间,单个AI加速器的峰值计算能力增长了9万倍,而内存访问带宽仅提高了30倍。这是因为提升硬件算力的工艺相对容易,而增加内存带宽的硬件工艺则难度较大。AI加速器内存带宽与算力增长速度之间的巨大差距,意味着在进行AI计算时,往往需要等待数据从内存中读取,这导致算力的利用率降低。 图9 AI加速器的计算能力、内存带宽和互联带宽的增长趋势 来源:Amir Gholami, Zhewei Yao, Sehoon Kim, Coleman Hooper, Michael W. Mahoney, and Kurt Keutzer. "Ai and memory wall." IEEE Micro (2024) # 》 关键特征与相关技术 # 1) 数据联动技术, 解决AI训练数据加载慢问题 随着云上对象存储成本的逐渐降低,越来越多的企业利用对象存储保存大量数据并构建数据湖。由于对象存储的性能和生态接口无法满足AI训练数据快速加载的需求,业界一般使用文件系统作为高性能缓存层,而对象存储则作为统一的数据底座,存储大量冷数据,以减少存储成本。用户通过指定高性能文件存储文件系统内的目录与对象存储桶进行关联,然后通过创建数据导入导出任务实现数据同步。当AI训练任务开始前,可以将对象存储数据湖中的AI训练集数据先高速预热到高性能文件缓存加速层中,以实现训练时数据集高速读取,避免AI芯片因存储I/O等待产生空闲,提升AI芯片利用率。 业界主流的云计算服务提供商大多也采用此方案,如AWS的Amazon FSx for Lustre是一款高性能文件系统,它适用于需要高吞吐量和低延迟的AI工作负载,当创建FSx for Lustre文件系统时,可以指定一个S3 bucket和文件系统关联。这样即可通过文件系统透明的访问S3 bucket中的文件和目录。当访问文件数据时,可以实时透明的把数据从S3移动到FSx for Lustre文件系统中,也可以通过命令把数据写回到Amazon S3 bucket中。S3 bucket用于长期持久化存储大量数据,以减少存储成本,FSx for Lustre更多的用于AI数据加速访问场景。 图10 AI模型训练场景 # 2) 缓存加速技术,满足CKPT快速保存及恢复需求 业界主流的方法是使用训练任务检查点CheckPoint应对AI训练集群故障问题,检查点CheckPoint通过在给定时间定期保存完整模型状态的快照来帮助缓解训练的模型状态丢失问题。如果发生故障,可以使用之前保存的CheckPoint快照将模型重建到快照时的状态,以从该点恢复训练。但是,保存和恢复CheckPoint过程本身会产生大量开销,恢复时所有节点都需要并发读取CheckPoint,千亿大模型TB级大小的CheckPoint文件保存和恢复通常会成为训练过程中的瓶颈。主流的云计算服务提供商普遍基于自研的高性能文件系统来加速CheckPoint检查点的读写请求。具体解决方案是基于高性能文件缓存加速层存储提供L1服务端缓存,客户端内存缓存提供L2内存缓存,满足CheckPoint快速保存及故障时的CheckPoint快速恢复。头部厂商主流是基于文件存储缓存层提供Tbps级高速访问能力,如Meta的Tectonic文件系统、AWS的FSx for Lustre、DeepSeek的3FS文件系统等。 图11 模型训练基于缓存加速CKPT读写场景 # 3) 计算-内存-存储三层极致分离架构 在AI推理过程中,Transformer模型接收用户的问题输入,并通过迭代方式生成相应的回答。每个Transformer层由自注意力模块和前馈网络模块组成。在自注意力模块中,上下文词元(token)与模型参数结合,生成中间数据K(键)和V(值),并进行注意力计算。为避免在迭代生成过程中重复计算KV,业界主流方案是把生成的KV中间数据被存储在AI加速器的显存内存中,形成KV缓存。每个词元的KV缓存大小取决于模型的维度、层数以及数据精度,计算公式为:单个词元的KV缓存大小 = 模型维度 * 模型层数 * 数据精度 * 2。例如,GPT3模型的数据维度和层数分别为12288和96,在双字节精度下,单个词元的KV缓存大小为 $12288 * 96 * 2 * 2$ 字节 = 4.5MB。 在推理过程中,每个推理请求所需的KV缓存大小与上下文长度成线性关系。例如,在GPT3模型的推理中,长度为2048的上下文将占用 $4.5\mathrm{MB} * 2048 = 10\mathrm{GB}$ 的AI加速器显存内存空间。然而,AI加速器通常只能提供几十GB的显存容量,其中一部分用于存储模型参数,仅剩余有效的空间用于KV缓存。例如,使用8张64GB的AI加速器部署GPT3模型,系统显存总容量为 $8 * 64\mathrm{GB} = 512\mathrm{GB}$ ,其中350GB用于模型参数,剩余162GB仅能支持162GB/10GB = 16个2048上下文长度的推理请求缓存KV值。因此,AI加速器能够同时处理的请求数量受限于显存内存容量。综上所述,Transformer模型推理中存在严重的显存内存墙问题。为了解决AI推理中存在内存墙问题,业界可将传统的“计算-存储”分离的两层架构升级为“计算-内存-存储”分离的三层架构,其中新增的“内存层”即为弹性内存存储层。这种极致存算分离的基础设施架构具有高资源弹性、高资源利用率和高性能等优势,能够有效解决上述存力痛点。 图12 “计算-内存-存储”分离的新型三层云架构演进 # 3.2.4 无阻塞、确定性低时延的AI原生云网络 # 趋势和需求 # 1) AI原生云数据中心网络发展趋势和需求 图13 数据中心网络架构1.0 数据中心网络架构1.0时代:南北向流量为主,以服务为核心的互联网服务驱动架构,通过互联网提供的各类服务来构建、扩展和整合应用系统。1.0网络架构中业务对网络QoS需求为:接入带宽:1Gbps $\sim 10\mathrm{Gbps}$ ,网络时延:10ms~100ms,丢包率: $0.1\% \sim 2\%$ 第二代:大数据、云服务驱动:多租户与网络虚拟化 图14数据中心网络架构2.0 数据中心网络架构2.0时代:相比1.0时代,由南北向流量为主变为兼顾南北向和东西向流量,由互联网服务驱动架构变为大数据、云服务驱动。云服务驱动网络指网络基础设施(服务器、存储、网络设备等)由云服务商提供,通过云原生技术实现灵活管理和自动化运维。2.0网络架构中业务对网络QoS需求相比1.0网络架构提升一个数量级,接入带宽:25Gbps $\sim$ 100Gbps,网络时延:50us\~1ms,丢包率: $0.1\% \sim 1\%$ 图15 数据中心网络架构3.0 数据中心网络架构3.0时代:相比2.0时代,东西向流量进一步加大,变为超大东西向流量,网络规模也变为超大网络规模。随着AI大模型业务的广泛部署,要求网络支持大带宽、高负载、无损网络,部署方式大规模、扁平化。并基于云原生技术栈,将网络的设计、部署、运维完全融入云原生生态,实现网络能力的极致弹性、自动化与分布式系统,即形成极致云原生驱动网络架构。3.0网络架构中业务对网络QoS需求相比2.0网络架构又提升一个数量级,接入带宽:>800Gbps,网络时延:10us~40us,丢包率:0。 数据中心网络架构持续演进,但存在如下问题: - 采用分层网络架构(Underlay网络负责基础路由,Overlay网络负责逻辑网络),跨区域通信需经过多跳网关,导致延迟高(百毫秒级)、带宽不足(达不到Tb级转发能力)。同时,O/U网络间的解耦,让物理网络不能被充分利用,变相提升了通信成本。 - 租户缺乏数据中心网络物理拓扑和背景负载情况,在租户视角下的网络优化无法实现性能最优,多租户间可能存在网络使用冲突。 - S/O/U融合(Service/Overlay网络/Underlay网络深度融合)技术是华为云提出的数据中心网络架构创新方案,旨在解决传统云网络在规模、转发性能和智能化方面的瓶颈问题。 # 2) AI原生云广域网络发展趋势和需求 “东数西算”是国家战略工程,旨在通过构建全国一体化的算力网络,将东部密集的数据需求与西部丰富的能源结合,实现算力资源的优化配置。其核心依赖高性能、低延迟、智能化的广域网络支撑,其需求可归纳为以下维度: - 超低延迟互联需求:确保西部数据中心与东部用户间的数据传输延迟可控; - 超大带宽需求:支撑东西部间海量数据(AI训练集)的高效传输; - 算力-网络协同需求:实现“算力资源”与“网络资源”的智能匹配与动态调度; 针对上述需求,传统TCP/IP网络无法实现,存在如下的问题: - IP路由层:完全基于邻居发现式路由通告&固定权重选路,缺乏局部路由拥塞的及时感知与恢复能力; - TCP传输层:TCP流控窗口拥塞后恢复慢、收发两端TCP内核态升级困难,存在队头阻塞、TCP连接建立慢、网络迁移需要重建TCP连接等问题; - 路由层/传输层/应用层之间的协同机制:路由层无可靠QoS保障前提下,只能依赖传输层纠错和重传,加重了 QoS体验劣化;同时由应用层进行Jitter消除、自适应速率编解码等处理; 图16 传统网络存在的问题 针对上述问题,业界做了各种努力和尝试,但不能解决根本问题: - 网络层MPLS-TE协议:引入了端到端流量工程规划,但仍面向固定带宽分配,无法感知应用流量的带宽及QoS(丢包、时延)的动态变化。 - 网络层SRv6协议:引入了端到端转发路径&行为可编程灵活性,但要求沿途段路由节点需要支持SRv6功能,全球云互联及跨异构云互联场景下难以保障该要求。 - 传输层QUIC协议:解决了队头阻塞问题,单调递增的PN标识无需像TCP一样有序确认。优化了连接管理机制,初始建链过程更快,支持跨不同接入技术比如跨5G/WiFi的业务流连续性。QUIC协议改进了TCP的拥塞控制机制,提高了重发超时阈值准确度,通过增加冗余纠错码,降低了超时及丢包重传概率,并支持应用更敏捷的拥塞算法迭代。但QUIC协议涉及TCP应用生态的适配修改,存在与其他拥塞控制协议兼容的问题。 为了能让广域网络传输满足“东数西算”场景的需求,SDN网络架构是一个必然选择。Google是业界的先行者,Google推出的B4是业界部署的第一个数据中心互联SDN网络,采用Google自研交换机设备,运行纯IP网络,全球部署site数目 $55+$ 。B4 SDN网络架构相比传统TCP/IP网络的优势: - 保障高优先级业务QOS:将应用的优先级纳入路由选路策略中,区分出高优先级和低优先级流量,调度保证高优先级流量低时延到达; - 网络带宽利用率大幅提升(从平均 $30\% \sim 40\%$ 到近 $100\%$ ):使用非最短路径的包转发机制,喷洒式多路径转发,低优先级流量把空余流量挤满。 图17 谷歌数据中心互联SDN网络 # 》 关键特征与相关技术 # 1) AI原生云数据中心网络架构关键特征与相关技术 # i. 无阻塞网络,满足高吞吐、零丢包需求 为了实现无阻塞网络架构,业界常用的技术包括: - Spine-Leaf架构:用于构建数据中心网络,可支持流量无阻塞传输; - InfiniBand: 一种高性能计算和数据中心网络技术通信技术协议, 实现GPU间高速通信; - RoCEv2: 一种基于以太网的远程直接内存访问 (RDMA) 技术, 在以太网上实现高性能的数据传输和通信; - SRv6网络切片:结合动态路由算法,依据网络实时状态和流量负载,智能选择最优传输路径。 # ii. 确定性低时延网络,满足低时延、高可靠需求 为了实现确定性低时延网络,业界常用技术包括: - TSN(时间敏感网络):①IEEE 802.1Qbv等标准定义时间感知调度(TAS),为关键流量预留固定时隙;②优先级隔离:高优先级流量(如控制指令)可抢占低优先级流量(如文件传输); - 极低抖动:①同步时钟:通过IEEE 1588(PTP)实现纳秒级时间同步,消除队列积累抖动;②流量整形:限制突发流量(如令牌桶算法),平滑发送速率。 - 高可靠性, 实现网络可用性 $\geq 99.9999\%$ : ①多路径冗余: 快速故障切换; ②确定性重传: 基于时间窗的重传机制(如TSN 802.1CB)。 # iii. 超节点网络 超节点网络是指将多个数据中心节点通过高速网络连接起来,形成一个逻辑上统一的资源池,该网络架构具有如下特点: - 分布式架构:物理上分布式部署,逻辑上统一,支持AI大规模分布式训练; - 资源共享:将超节点网络的计算资源(CPU/GPU/TPU集群)组成统一资源池,计算、存储和网络资源可跨节点共享与调配; - 高带宽互联:节点间通过超低延迟、高带宽网络连接,利用高速互联实现梯度同步和模型参数更新。 超节点网络使用的技术包括: - 网络优化:RDMA(远程直接内存访问)技术减少数据移动开销;网络计算软硬协同加速通信操作;自适应路由避免网络拥塞; - 存储加速:内存分级存储架构;计算存储融合设计;智能缓存预取策略; - 软件栈支持:分布式训练框架(如Horovod)的深度优化;超节点感知的调度器;拓扑感知的通信库。 超节点网络架构为AI业务带来的优势: - 弹性扩展:自动扩展/收缩训练或推理集群规模;按需增加节点,实现近乎无限的扩展能力,可支持千亿/万亿参数超大模型的训练; - 高可用性:单点故障不影响整体服务; - 低延迟:通过智能路由和边缘计算降低延迟; - 负载均衡:根据AI工作负载需求动态分配计算资源,并支持突发性AI工作负载需求。 # 2) AI原生云广域网络架构关键特征与相关技术 针对传统广域TCP/IP网络的不足,华为云推出了广域网络架构:应用传送网络ADN(Application Delivery Network)。 图18 应用传送网络ADN 如图18所示,ADN为云原生服务,乃至更广义的云上互联网应用提供了多级QoS,高可靠,高弹性的网络基石,相比基于“尽力而为”的使用IP路由转发的Internet互联网,ADN网络是一张叠加在Internet互联网,以及华为云遍及全球的云端及分布式边缘基础设施和专线网络之上的Overlay网络。 ADN网络彻底解决了互联网缺乏QoS保障,局部路由拥塞收敛慢,以及专线成本高,覆盖区域受限的问题,具备软件定义的可编程能力,无需升级改造存量运营商网络,即可支持分钟级新增路由节点及路由变更,使得网络具备了云的“弹性敏捷”的核心特征,从而为业务提供了兼具互联网全域覆盖、低成本及专线的确定性QoS保障优势的基础网络传送服务,并且可支持应用驱动的SLA与QoS。 # i. ADN网络的三大核心技术特征 - 广覆盖、高敏捷、全互联的网络拓扑:通过无所不在、彼此互联互通,超过2000个ADN节点的全球广泛覆盖,ADN网络实现了最终用户的一跳入网;同时,通过支持ADN节点的分布式容器化部署,实现了分钟级节点增删与网络拓扑更新的高弹性、高敏捷;通过任意ADN节点之间基于Full Mesh的点到点测量,为任意2个ADN节点之间动态最优路径的选择提供了依据和保障。 - 多目标驱动智能路由,多样化接入协议传输:支持干节点分钟级端到端路由图优化算法,实现智能路由计算;支持单流分多流、多流合并单流,具备多优先级路径的实时选择能力;具备抗弱网协议增强、具备高可靠的传输能力,实现智能拥塞控制;通过华为自研设计的nStack协议栈,DPDK/用户态驱动转发的技术,实现近线速的Overlay转发能力;提供了TCP/UDP/域名解析/SDK模式等灵活多样化的ADN网络接入协议选项。 - 应用驱动、软件定义的SLA,租户和业务感知的流量调度:在ADN的API定义中,通过应用驱动、软件定义的网络层/传输层/应用层QoS/SLA指标,比如网络层的时延、丢包,以及媒体应用层的抖动、音视频MOS等,描述上层应用App希望ADN网络达成的质量保障水平及目标;在应用感知方面,基于云服务类型感知的网络流量预测,及基于AI、大数据统计的租户应用流量画像,ADN网络进一步支持业务流量的分时错峰调度,以及跨端边云的应用与数据迁移同步能力。 # ii. ADN网络给AI业务带来的优势 - AI业务的云租户可从各运营商的城域网经由分布式单线IP就近接入到分布式边缘站点, 再通过分布式边缘站点经由物理专线连接到主Region服务区的云服务、云主机、云容器实例, 由于动态BGP与单线IP在国内定价差价达近10倍, 使得公有云的网络接入总成本降低达 $40\%$ 以上。 - ADN网络是应用驱动的网络,可为AI应用提供端到端访问QoS保障,实现云端、云边访问零丢包、降时延超过 $25\%$ ;在跨海场景下,业务加速效果尤为明显。 - “东数西算”场景,通常情况下AI数据采用的是CC云连接传输,云连接租户独占固定带宽,存在着闲时浪费的情况。采用ADN网络传输后,实现多租共享弹性带宽,消峰错谷,可以降低传输成本超过 $40\%$ 。 # 3.2.5 华为云AI-Native云基础设施实践 # 》3.2.5.1 CloudMatrix多元算力超节点HPS 据咨询公司的预测,到2030年,全球每年产生的数据总量将达到1YB,相比2020增长23倍,其中通用算力将增长10倍,AI算力增长500倍。AI大模型、AIGC、媒体渲染、大数据和数仓平台、基于云的仿真和超算等广泛存在的多样性、紧耦合、大规模应用的计算范式。 单一类型的计算资源,单一节点的计算能力、存储能力,以及配比固定、松散协同的扩展模式已经难以满足日益复杂且快速变化的应用部署需求。新型应用驱动计算范式从单算力向混合算力协同发展,从单机向集群灵活部署发展,从传统应用松散分布向多样应用紧密融合发展,对未来数据中心架构提出新的诉求。 图19 集群架构变化 # 1) 高效组合异构算力,提升任务处理速度: 在服务器、机架和集群内,需要高效组合不同算力类型完成计算任务,打破传统主从式结构,实现设备之间直接的互联互通,使计算任务执行更快,资源利用率更高 架构需要具备如下特征: - 异构算力以对等方式横向扩展,各组件之间可直接通信,互相调用。 - 通信带宽高、时延低,支持在细颗粒度任务上做并行处理或调用。 - 总线机制支持多颗芯片协同完成单个功能调用。 # 2) 资源动态分配, 提升资源利用效率 提高数据中心资源利用效率,需要打破服务器盒子边界,实现大范围不同设备的池化和资源动态分配。改变以单节点能力为上限的资源分配方式,总线设备和内存资源不固定归属于特定计算单元,在总线层面实现资源动态注册和分配,满足资源高效应用需求。 # 3) 快速异常恢复,提升系统可靠性和可用性 - 基于高速互联总线,实现内存紧急借用,业务上下文秒级迁移,实现OS宕机场景核心业务中断下降 $90\%$ - 提供极速热迁移能力, 实现业务无感(<50ms)完成OS冷补丁和硬件故障维修。 - 池化资源故障秒级快速检测, 跨层故障秒级快速通知, 层次化细粒度隔离(页隔离、节点级隔离)。 - 控制设备单点故障均可冗余秒级切换恢复业务,相对于传统单网卡接入和单控制面,均从单点切换到高可靠架构。 - DPU通过冗余DB卡,实现单卡故障秒级切换,训练推理业务不中断。 图20 CloudMatrix 架构示意图 # 》3.2.5.2华为CloudMatrix超节点 如上图概述,CloudMatrix超越了传统的以CPU为中心的层次化设计,促进所有异构系统组件(包括NPUs、CPUs、DRAM、SSDs、NICs以及专用加速器)之间的直接高性能通信,而无需CPU中介。该架构的核心是超高带宽、低延迟的统一总线(UB)网络,它促进了系统范围内的高效数据移动和协调。在此互联基座之上,CloudMatrix提供了四个基础能力,共同定义了AI原生基础设施的新范式: - 可扩展的TP/EP通信:UB互联支持NPUs之间的直接高吞吐点对点通信,使TP和EP组能够超越单个节点的限制。这消除了节点间瓶颈,允许大模型在supernode上高效分布; - 异构工作负载的灵活资源组合: CloudMatrix将CPU、NPU和内存分离为独立的池化资源, 实现基于工作负载需求的细粒度、工作负载驱动的组合。这种灵活性允许根据工作负载需求以细粒度分配资源, 例如内存丰富的缓存节点、CPU密集型预处理节点, 使部署摆脱固定的节点配置或基于PCIe的主机设备耦合; - 融合工作负载的统一基础设施:UB网络的高带宽支持在同一规模扩展的基础设施中同时运行AI和数据密集型应用。这使得推理、训练、仿真和分析等LLM工作负载能够融合执行; - 通过分离式内存池实现内存级存储性能: CloudMatrix将集群中CPU附加的DRAM聚合为一个共享的高性能内存池, 通过UB访问。这一基座支持弹性内存服务 (EMS) 等, 通过消除传统的I/O瓶颈来加速KVMCache重用、参数加载和模型检查点等延迟关键操作。 CloudMatrix384的一个关键特征是其完全点对点、完全互联的超高带宽网络,通过UB协议将所有NPUs和CPUs连接起来,如下图所示。CloudMatrix384的UB设计是中提出的UB-Mesh的前身。每个Ascend芯片通过UB交换机连接,实现节点间通信性能接近节点内水平。节点间带宽退化小于 $3\%$ ,节点间延迟增加不到1微秒。由于现代AI工作负载主要是带宽密集型而非延迟敏感型,这种微小的延迟开销对AI任务的端到端性能影响可以忽略不计。总体而言,这种设计使CloudMatrix384能够作为一个紧密耦合的大型逻辑节点运行,具有全局可寻址的计算和内存,促进统一资源池化和高效工作负载编排。 图21点对点硬件架构 为了支持多样的流量模式并保持与传统数据中心网络的兼容性,云矩阵384融合了三个不同但互补的网络plane: - UB Plane: UB Plane是超级节点内主要的超高带宽扩展结构。它以无阻塞的All-to-All拓扑直接连接所有384个NPUs和192个CPUs。每个Ascend 910C芯片贡献超过392 GB/s的单向带宽。UB plane支持:(1) 高效实现细粒度并行策略,如TP(张量并行)和EP(专家并行),不受节点边界的限制;(2) 快速的点对点访问池化内存(涵盖CPU和NPU内存),这对于高效缓存模型权重和KVCache至关重要。 图22华为云AI-Native智算存储训练加速解决方案 - RDMA Plane: RDMA Plane实现云矩阵384超级节点与外部RDMA兼容系统之间的扩展通信。目前采用以太网收敛的RDMA(RoCE)以确保与标准RDMA堆栈的兼容性。每个NPU提供高达400 Gbps的单向RDMA带宽。只有NPUs参与此plane, 将RDMA流量与控制和存储操作隔离。主要功能包括: (1) 推理过程中Prefill和decodeNPU间活跃KVCache数据的高速传输; (2) 支持使用RDMA兼容框架的分布式训练和推理; (3) 多集群部署中超级节点间的低延迟互连。 - VPC Plane: VPC plane通过高速网卡(擎天)将CloudMatrix连接到更广泛的数据中心网络,每个节点提供高达400 Gbps的单向带宽。它基于标准的以太网和IP协议运行,可选支持UB over Ethernet(UBoE)。VPC plane处理:(1)管理操作和控制plane操作,如部署、监控和调度;(2)对持久存储的访问,包括对象存储服务(OBS)、弹性卷服务(EVS)和可扩展文件系统服务(SFS);(3)CPU驻留工作负载的外部服务通信,例如数据库和用户界面。 # 3.2.5.3 EMS&SFS Turbo AI原生云存储 华为云面向AI场景推出了AI-Native智算存储解决方案,提供基于对象存储服务OBS+高性能文件服务SFS Turbo+弹性内存服务EMS(Elastic Memory Service)的AI-Native智算存储加速方案。 # 1) AI 训练加速方案 - 以对象存储OBS数据湖作为统一数据底座,对象存储OBS提供HDFS/S3/POSIX多协议访问同一份数据,和数据接入、大数据处理、内容审核等高阶服务无缝集成,高效衔接AI系统各个工作环节,避免数据在各工作环节之间进行拷贝搬迁,避免数据冗余存储多份。同时,对象存储OBS提供标准/低频/归档/深度归档等多种存储类别,结合数据生命周期管理,解决AI场景中海量数据长期高可靠低成本存储。 - 在训练推理等对存储性能要求极高的环节,为了更好的加速大模型训练和推理,提供高性能文件服务SFS Turbo加速层存储作为OBS数据湖存储的补充。SFS Turbo可以提供亚毫秒级的数据访问延迟、千万级的IOPS和TBps级别的吞吐能力,有效提升数据清洗、大模型训练、及推理中模型加载的效率。SFS Turbo高性能文件和OBS数据湖之间集成了数据联动功能,无需借助外部工具,即可实现数据高效流转。同时,SFS Turbo推出了三级缓存加速架构,该架构基于SFS Turbo高性能文件存储服务端,SFS Turbo Client+内存缓存客户端,及专门针对AI场景中CheckPoint任务快照保存与恢复等AI语义进行加速的AITurbo SDK技术组件,为大模型训练构建了高效的存储方案,通过对应用层AI生态的理解和端到端全栈优化,实现AI场景千模百态的全面加速。 - 华为云推出了全球首创的弹性内存服务EMS(Elastic Memory Service),一种以DRAM内存为主要存储介质的云基础设施服务。通过EMS,华为云将传统的“计算-存储”分离的两层云架构升级为“计算-内存-存储”分离的三层云架构,其中新增的“内存层”即为EMS。这种新型的三层云架构能有效解决存力痛点,从而具有高资源弹性、高资源利用率和高性能等优势。以下介绍关键技术及价值: - 数据联动技术:SFS Turbo高性能文件存储内置Bucket Link数据联动功能,SFS Turbo里的文件系统可以绑定容量层的OBS对象桶,用户无需手工部署外部迁移工具即可实现在OBS对象存储和SFS Turbo高性能文件存储两个分布式存储服务之间进行高速数据流动,存储各节点均参与数据导入、导出,数据流转比人工带外部部署迁移工具方式更加简洁高效。大模型训练过程中周期性产生的CheckPoint数据可以高速写入SFS Turbo高性能文件缓存,减少对上层训练任务的中断和阻塞,可以提高CheckPoint保存频率,减少训练任务故障时需要从最近一次CheckPoint重新训练的损失。同时,SFS Turbo高性能文件缓存自动以异步方式将CheckPoint导出到关联的OBS对象存储桶中进行长期低成本存储。最后,SFS Turbo高性能文件存储通过配置缓存数据淘汰功能,及时将长期未访问的数据从缓存中淘汰,释放SFS Turbo高性能缓存空间。 - 三级缓存加速技术:SFS Turbo高性能文件缓存加速层存储提供L1服务端内存缓存,L2客户端内存缓存,及针对CheckPoint保存与恢复等场景进行加速的L3 AITurbo SDK,形成三级缓存加速技术,加速AI训练过程中的训练数据集读取,CheckPoint快速保存及故障时的CheckPoint快速恢复。 图23 三级缓存加速技术 训练数据集访问加速:在业务访问数据集文件时,SFS Turbo高性能文件存储会将NVMe SSD存储池中的数据文件缓存到L1服务端分布式内存缓存中,减小AI训练访问数据集的时延,同时在大规模训练集群并发访问数据集时,以充分发挥L1服务端内存缓存带宽优势,实现比NVMe SSD硬盘层更大的吞吐能力。另外SFS Turbo高性能文件存储的分布式元数据,可以支撑百亿级小文件扩展,进一步缩短了海量小文件元数据操作的时延,提升了海量小文件操作的IOPS吞吐。 CheckPoint保存及恢复加速:SFS Turbo提供的L3 AI Turbo CKPT读写加速组件针对进程级故障和JOB任务级故障等场景,对接PyTorch/MindSpore/DeepSpeed等主流大语言模型训练框架,专门针对AI训练中的CheckPoint保存及恢复过程进行加速,实现 CheckPoint先高速同步写到本机L2客户端内存缓存,再异步持久化到服务端存储,最大程度减少CheckPoint同步保存耗时,减少了训练任务中断阻塞。AI训练任务发生进级故障时,利用本机SFS Turbo Client+的L2客户端内存缓存实现CheckPoint原地秒级快恢,发生节点故障及JOB任务重调度场景下,利用客户端节点间高速参数面网络实现CheckPoint广播技术加速CheckPoint恢复速度,最大程度减少CheckPoint并发恢复耗时,避免训练任务故障恢复时由于远端存储带宽瓶颈导致长期阻塞。SFS Turbo通过L3 AI Turbo CKPT读写加速组件及L2客户端内存缓存功能,可以有效加速CheckPoint保存及恢复速度,可以提高CheckPoint保存频率,大幅减少故障恢复时需要从上一次CheckPoint重新训练的损失,同时CheckPoint保存和恢复加速减少了大规模AI集群算力的空闲损失,提高了AI集群可用度,加速了AI训练任务进程,确保大模型训练能够按时完成,节省出的算力可以训练出更多更新的大模型。 # 2) AI 推理加速方案 为了解决云基础设施中存在的存力痛点,华为云推出了全球首创的弹性内存服务EMS(Elastic Memory Service),一种以DRAM内存为主要存储介质的云基础设施服务。华为云将传统的“计算-存储”分离的两层架构升级为“计算-内存-存储”分离的三层架构,这种包含EMS的新型三层云基础设施架构具有高资源弹性、高资源利用率和高性能等优势,能够有效解决前述三大存力痛点: - 针对AI场景中“持久化存储性能不足”的问题,EMS作为计算层与存储层之间的高性能缓存层,利用DRAM介质缓存来自HDD和SSD介质的数据,显著提升数据访问速度。 - 针对AI场景中“DRAM利用率低”的问题,EMS将AI服务器中的DRAM资源进行解耦并池化,形成EMS内存池。EMS内存池中的DRAM资源根据不同计算任务的需求进行动态分配,从而实现内存资源的高效利用。计算层与内存层之间通过华为专有的高性能网络总线连接,确保内存资源解耦池化后的高访问性能。 - 针对AI加速器中的“显存内存墙”问题,EMS利用内存池中的DRAM资源扩展AI加速器的显存内存,通过增加DRAM容量来扩展显存容量,并利用DRAM带宽补充显存带宽,从而大幅提升AI训练和推理的整体性能。 下面将首先阐述EMS的软件架构,随后探讨EMS内存解耦池化的关键技术,最后介绍EMS针对不同AI场景的内存加速关键技术。EMS的软件架构主要由三部分组成:领域专用服务SDK、分布式内存池和管理控制面,如图所示。EMS的软件面向高易用性、高弹性扩展性和高可用性设计。 图24 EMS软件架构 领域专用服务SDK包含一系列面向不同AI应用场景的插件和接口服务SDK,提供业务系统接入、业务数据布局和近数据处理等功能,实现业务请求的内存加速。目前,该技术主要应用于大语言模型、多模态模型、推荐模型等的训练和推理,通过分布式内存池提升处理效率并降低成本。 分布式内存池负责跨节点的内存空间管理、数据负载均衡和数据恢复等任务,通过空间池化、共享访问和故障切换等机制,确保系统具有低成本、高扩展性和高可用性。内存池提供两种部署模式:(1)融合部署,即利用AI服务器中的DRAM,将DRAM内存池化以实现分布式共享,并进行本地亲和的调度和访问;(2)分离式部署,即使用独立内存服务器提供内存池空间,通过高速内存总线实现对内存池空间的访问。 管理控制面负责服务的部署、监控、升级及运维管理等功能,通过华为云的云原生基础设施为用户提供一站式的云上运维解决方案。 下面介绍分布式内存池及领域专用服务SDK的具体技术。 # i.内存解耦池化 在AI训练和推理场景中,AI服务器的数量可达数千至数万台,每个服务器上的DRAM内存通常按照最大需求进行配置和预留。然而,实际操作中,服务器间的内存利用率往往不均衡。由于DRAM是AI服务器成本的重要组成部分,池化DRAM以提高利用率和降低成本显得尤为重要。此外,随着“显存内存墙”问题的日益凸显,EMS通过在显存和DRAM之间进行卸载及相应的数据管理来解决这一问题。EMS内存池需要满足池化和卸载两个关键需求,具体技术将在后续章节详细介绍。 # - 内存池融合部署架构 图25 内存池融合部署架构 内存池融合部署架构通过利用AI服务器内的本地DRAM进行池化管理,提升内存利用率,如图25所示。内存池化还带来了共享能力,使得卡间能够进行高效的数据共享,具体技术点如下: 1)服务器内DRAM池化:AI加速卡根据需求从内存池中分配DRAM,避免了按卡粒度预留导致的卡间使用不均和利用率低的问题。 2) 服务器间DRAM池化: 整个AI服务器集群形成一个大的内存池, 解决了服务器间内存利用率不均的问题, 提高了利用率并降低了成本。此外, 任意AI节点能够访问任意缓存数据的能力, 为AI训练和推理场景下的加速技术(如基于内存CheckPoint的故障快速恢复、长文本推理和PD分离等)的应用提供了支持。 3) 数据访问亲和性调度: 在典型场景下 (如大模型训练CheckPoint和KV Cache存储), 通过亲和感知、动态均衡和预加载的方式, 确保训练和推理过程中的高带宽内存访问需求, 并在一定程度上解决了内存利用不均衡的问题。 # - 内存池分离部署架构 基于高速网络总线加速的分离式内存池,是EMS内存池化和容量卸载的最终形态,如图26所示。通过引入DRAM专有服务器硬件最大化降低成本,在内存使用均衡性、利用率和共享方面都提供了最优解。对外以一个整体展示,即体现在整柜硬件交付,也体现在如全局地址空间的空间管理能力。 图26 内存池分离部署架构 # - 分级存储 通过DRAM卸载解决显存的内存容量墙问题,但在某些场景下,DRAM同样面临容量不足和成本过高的问题。EMS进一步将数据卸载到高速持久化存储介质(如SSD),最终形成多级的分层卸载存储形式,如图27所示。通过引入AI训练和推理流程感知的算法,进行显存和DRAM之间、DRAM和SSD之间的主动卸载和取回调度,使得在训推效率和成本上达成平衡。 图27 分级存储技术示例 # 数据冗余 在云数据中心中,通常拥有成千上万的AI服务器。EMS为如此大规模的AI服务器提供弹性内存服务,也会具有较大的分布式规模。AI训练和推理过程中卸载到EMS中的数据如果丢失,将会造成AI任务的中断或重新执行。EMS内存池提供基于副本和纠删码的内存数据冗余能力,以大幅提升数据的可用性。 # ii. 面向AI推理的加速技术 在前面章节已阐述,Transformer模型推理中存在严重的显存内存墙问题。为解决这一问题,EMS提供了以下三种技术以加速AI推理:以存带算、显存扩展和计算卸载。 图28 AI推理场景中的EMS关键技术 # 以存代算 在Transformer模型的推理过程中,由于AI加速器的显存内存容量限制,现有的推理系统无法在AI加速器的显存中持续保存多轮对话的KV缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存。这种重复计算不仅浪费了计算资源,还增加了推理成本。 为了减少成本并提升推理性能,EMS服务引入了以存代算技术CachedAttention。该技术利用EMS中的大容量多级内存池来存储和复用多轮对话中产生的KV缓存。具体操作是,当一个会话变为非活跃状态时,将相应的KV缓存保存到EMS中。当该对话重新被激活时,再从EMS中加载并复用这些KV缓存,从而避免了重复计算。此外,EMS还采用了以下技术来优化缓存系统性能:(1)采用逐层预加载和异步保存策略,以减少加载和保存KV缓存的时间;(2)利用多级缓存结构,通过更大容量的存储介质提供充足的缓存空间;(3)通过自动感知调度器中的任务队列信息,实现多层次存储介质间的缓存调度,以提高访问效率;(4)将位置编码从KV缓存中分离,确保在模型上下文窗口长度溢出时KV缓存的可重用性。 通过以存代算技术,EMS有效地避免了多轮对话中的重复计算,显著降低了首字时延,提高了预填充阶段的吞吐量,并降低了端到端的推理成本。 (a) Recomputation (b) CachedAttention 图29 多轮对话中使用EMS 图30 EMS以存代算技术 # - 显存扩展 由于AI加速器中的显存内存容量限制,AI加速器可能无法容纳大的模型,或者即使能够容纳,也无法使用较大的批处理大小(Batch Size)。为了解决这一问题,EMS采用了显存扩展技术,以增加AI加速器的可用显存,从而支持运行超出显存容量的模型或增加推理的批处理大小。在推理过程中,EMS将显存中的KV缓存、模型权重等数据动态卸载到一个大容量的共享弹性内存池中,如图31所示。通过利用计算层与内存池之间的高性能网络总线,EMS实现了数据传输与计算过程的流水线并行,有效减少了内存池的访问开销。得益于这种大容量、高性能、共享访问的弹性内存池,EMS的显存扩展技术能够增加推理的批处理大小,进而提升AI推理的整体吞吐率。 图31 EMS显存扩展技术 # 计算卸载 针对Transformer模型推理中遇到的显存内存墙问题,EMS通过计算卸载技术将自注意力模块相关的KV缓存数据和轻量级算子卸载到内存池中,利用EMS中的DRAM容量扩展显存的容量,并通过DRAM的内存带宽补充显存的带宽。具体而言,Transformer模型的自注意力模块需要加载整个推理上下文的KV缓存以完成注意力分数的计算,这一过程涉及大量KV数据的读取,而相关算子的计算量相对较小。与此相反,前馈网络模块主要由计算需求较大的全连接网络算子构成,对存储容量的需求较小。EMS根据这些不同的计算特性,将自注意力模块和前馈网络模块分别在计算能力较小但存储能力较大的CPU侧和计算能力较大但存储能力较小的AI加速器上完成。同时,EMS根据推理任务的服务级别协议(SLA)需求,智能地决定卸载的时机和粒度,通过弹性内存池的大容量和大带宽优势缓解了显存内存墙问题,采用异构推理方案提升了AI推理的端到端性能和性价比。 图32 EMS计算卸载技术 # iii. 面向推荐模型的加速技术 推荐模型在广告、新闻和视频推荐等多个领域得到了广泛应用。与大型语言模型和视觉模型不同,推荐模型的输入特征中包含大量ID类型的数据,如用户ID、新闻ID和视频ID等。这些ID特征通常具有极高的维度且非常稀疏,难以直接被神经网络处理。为了解决这一问题,推荐模型采用了Embedding加多层感知器(MLP)的架构。通过Embedding技术,ID类型特征被映射到低维向量,从而缩小了与神经网络之间的差距。推荐模型中包含多个Embedding表,每个表负责将特定类型的ID特征转换为Embedding。推荐模型的前向计算过程:ID特征首先通过Embedding表转换为Embedding,然后这些Embedding经过池化处理,如求和或平均,最终输入MLP以生成最终的推荐标签。由于ID类型特征的基数庞大,推荐模型中Embedding层的参数量非常大。例如,亿级的视频ID特征可能需要一个拥有万亿参数的Embedding表。因此,Embedding通常占据了推荐模型中超过 $99.9\%$ 的参数。 与计算机视觉和大语言模型不同,推荐模型训练面临的一个主要挑战是数据更新迅速且特征极其稀疏,例如高维的one-hot或multi-hot向量。此外,新数据的不断加入可能导致特征向量达到百万甚至亿级,使得模型规模达到万亿字节,难以存储在单个NPU或单台机器的内存中。在训练和在线推理过程中,神经网络计算中涉及的Embedding数据量相对较小,通常不到总数据量的 $1\%$ 。因此,业界普遍采用一个独立的全局Embedding存储服务(或参数服务器)来提供统一的Embedding管理、存储和计算能力。EMS作为推荐模型训练和推理过程中的Embedding存储服务,旨在实现高资源利用率和高的访问性能。EMS提供Embedding存储服务的关键技术将在下文中介绍。 图33 典型的推荐模型结构图 Embedding池化存储:在推荐模型训练过程中,EMS提供全量的Embedding池化存储。另外,在每个训练节点中,本地Embedding模块用于缓存频繁访问的Embedding,并负责与上层推理框架进行交互。当训练节点需要获取Embedding时,首先尝试从本地Embedding缓存中读取。若缓存未命中,则该节点会从EMS中拉取所需数据。在训练过程中,梯度更新任务由数据分片(shard)所属的计算节点执行,并异步将更新后的数据推送回EMS。 图34 推荐场景使用EMS的架构 - Embedding均衡打散:由于Embedding数据量可能高达十TB甚至百TB,为了提高存取效率,需要将这些数据均匀分散到不同的节点上。EMS采用分片(Shard)机制来分散数据,通过计算键(key)的哈希值,将Embedding数据均匀分配到各个节点。在每个节点内部,再根据哈希值将负载均衡分配给多个分片线程,确保表数据在节点和线程的分片上均衡分布。分片与线程绑定,实现了无锁操作,从而提升了效率和性能。 - 增量检查点: 在大规模推荐模型训练中, 训练过程中更新的Embedding会被存储到EMS中。在进行训练检查点 (CheckPoint) 时, 也需要保存这些Embedding。EMS提供了增量检查点的功能, 只存储更新过的Embedding,而不是每次都存储全部Embedding, 这样可以节省存储空间并提高效率。增量检查点的实现基于类似写时复制 (COW) 的原理, 在更新Embedding时记录逻辑时间戳, 保存检查点时根据时间戳来判断是否需要保存。 AI场景是EMS的首个应用领域,本书重点介绍了EMS在AI场景中的关键技术。在未来,EMS将持续演进,并扩展至通用计算场景,包括在线事务处理(OLTP)数据库、混合事务/分析处理(HTAP)数据库、向量数据库、Redis缓存系统、大数据分析等应用领域。 # 》3.2.5.4华为云下一代AI原生极简云网络 现有的云网络架构存在以下问题: - 在数据中心内O/U(Overlay/Underlay)双层复杂组网, 虚拟网关转发与运维低效, 海量VPC配置生效慢; - 云广域网设备MPLS多层嵌套协议,带来部署繁琐、运维定位定界困难; - 跨区域云连接及跨云数据中心按固定峰值预留广域带宽,抬高了租户AI训推、灾备等全局业务成本,且缺乏差异化QoS保障。 - 现有云网络仍遵从纯技术驱动模型,O/U割裂&广域网络/数据中心网络相互独立,缺乏统一协同调度,无法适应应用驱动与租户感知的网络业务流动态按需弹性、灵活路由及端到端精细化QoS保障需求。 针对这些问题,华为云提出了下一代AI原生云网络-CloudGrid极简云网络架构。CloudGrid极简云网络可以更好地支撑AI Native、泛在Serverless及分布式云原生对云网络提出的挑战,从云应用视角出发,对广域网络&数据中心网络进行全面简化和重构,大幅提升云网络端到端性价比、可靠性、运维自动化竞争力。 图35 CloudGrid极简网络全景图 CloudGrid极简网络由技术驱动的传统云网络,变为应用驱动的极简云网络,具有8大核心价值: # Regionless& # 1 跨云弹性网络服务 随着云原生化的场景应用后,服务系统模型越来越复杂,需要的网络互联服务不断增加,尤其是全域跨多云的网络配置越来越复杂,用户网络经验不足,不熟悉云上云上产品,需要熟悉网络多产品使用及运维。ANC(Application Native Cloud,云原生应用网络)提供一种新的网络服务,屏蔽多款网络服务产品配置,全域底层网络随着用户的客户端和服务端的区域位置弹性连通,简化网络连接。 # ScaleUp 2 总线网络服务化 通过全新数控分离的网络协议栈EAS(Elastic Application Stack)将云网络协议栈暴露的层次提升,直接暴露网络接口。EAS将网络协议栈的带内管控逻辑,与网络数据传输基础逻辑彻底剥离、解耦,即将控制逻辑交给带外管控面,从而实现简化网络数据面的目标,并与云平台的安全、服务等深度融合。 # 无网关瓶颈全域3 极速互联 当前云服务通过多种网关实现多云互联,跨云连通时需要绕行指定区域位置的集中式网关。在实现了O/U融合的数据面转发后,实现了全网统一编址、消除转发类网关和功能类网关,实现数据面一跳直达。 # 应用全域调度4 及差异化QoS 全域控制器,拉通数据中心网络控制器和广域网络控制器,实现端到端的租户业务感知和差异化QoS保障。 # ANC全域应用5 网格服务 Regionless网络应实现应用像水电一样按需流动,解决算力向低成本区域迁移、低延时多区域就近分发、单区域资源不足阻碍弹性、两地三中心容灾、互联网数据中心生命周期终结等需求。服务访问应提供本地域名固定应用入口,消费者对应用跨区域流动和IPv6改造等流程没有感知。ANC的服务提供全域访问模型,服务一处发布后全域可用,服务IPv6改造消费者无感,企业从容演进。 # ScaleOut/ 6 ScaleUp 统一网络模型 CloudGrid提供极简的网络模型,在ANC对象内直接发放AEP(Application Endpoint,应用端点),AEP模型同时支持ScaleOut和ScaleUp域。 # 大规模/高性能7 按需管控面 在全域网络内高速发放百万规格AEP,且秒级全连通,支撑云原生架构实现高速弹性扩缩。 # 应用级多维度零信任安全 基于CloudGrid网络模型默认隔离,用户无需规划路由和IP地址。通过ANC服务实例的AEP通信,支持服务实例的LadingZone零信任安全,半可信区和核心区通过域策略控制访问策略。 # 1) CloudGrid极简网络服务模型 图36 CloudGrid极简网络服务模型 CloudGrid极简网络服务模型包括以下部分: - 极简CloudGrid模型:全域网络模型(ScaleOut域):提供ANC对象作为新的全域网络隔离域,无需区域级的VPC/子网模型通过云连接跨区域连通。消除子网及L2转发逻辑:在ANC对象内直接发放AEP,通过AEP即可实现全域直接通信,用户无需感知路由和L2转发逻辑。 - 双栈AEP网络接口:ScaleOut域:支持EAS与IP双栈,实现高性能网络,数据面去网关后一跳直达。ScaleUp域:控制面基于EAS生成转发表项,转发面实现虚拟机/裸金属服务器间高性能通信。 - ANC全局服务:服务多网络协议,全域可见可访问,服务一处发布后全域可用,支持跨账号跨组织发布服务。服务提供域名访问和双栈入口实现IPv4/IPv6互访,服务IPv6改造消费者无感,企业应用可以从容演进。服务后端多区域流转,服务后端可区域部署,支持多类型后端。 - 统一访问控制及安全模型:基于域策略的统一安全策略:基于标签或应用名称的访问控制,而不是基于IP,可以实现安全策略秒级生效和安全规则的超大规格,并支持安全策略全域生效。半可信区和核心区可以通过域策略控制访问策略。零任安全,结合Landing Zone支持多维度参数。EAS管控面根据域策略、服务资源策略,实现双端固定数据边界安全。通过统一上下文,实现多维度零信任访问策略保护。 # 2) CloudGrid广域网络智能路由协议IRP IRP(Intelligent Routing Protocol):智能路由协议。CloudGrid广域网络部署采用SDN网络架构,IRP转发节点采用可编程设备实现,部署在华为云边缘云和中心云节点;IRP中心控制器通过综合多因子选路,为业务选择最优路由下发给IRP转发节点,从而实现业务的全球极简端到端QoS的传输保障。 全球极简E2EQOS保障网络 图37 CloudGrid广域网络部署组网图 IRP极简广域网络优势1:协议极简,去MPLS VPN多层复杂协议,极简部署与运维。部署了IRP协议后,可以实现千级节点协议极简化,单节点部署从1小时减少至10分钟。 图38 IRP协议极简 IRP极简广域网络优势2:东数西算,低成本组网,共享弹性带宽,降低Regionless广域传输带宽成本。 原有云连接所采用的面向特定租户的“固定上限带宽”的广域带宽管理模式(类似弹性计算的“固定超分”),将不再适用于物理带宽资源有限的场景。 图39 IRP降低传输带宽成本 - “东数西算”网络当前采用云连接方式,云连接为租户分配固定带宽,存在潮汐闲时浪费,造成带宽浪费。 - 采用IRP广域网络承载后,多租共享弹性带宽,消峰错谷;主用专线平面,使用AI流量画像,在流量溢出时平滑切换至冗余Internet网络平面。 # 3) CloudGrid极简网络分层控制器 当前业界数据中心网络控制器和广域网络控制器是割裂的,没有一个统一控制器来进行全局访问控制和流量调度,以及租户的端到端业务体验保障等。CloudGrid极简网络首次提出分层控制器的方案,即有一个全局控制器,拉通数据中心控制器和广域网络控制器,形成全局一张网,其架构如图40所示: 大禹全局控制器 图40大禹控制器架构图 - L1层的大禹控制实现了全局统一管理,包括全局拓扑管理、流量调度、访问控制等; - L2层的数据中心网络控制器/IRP控制器实现了分域高性能控制,包括区域的拓扑管理、表项下发、流量调度等; - 两层控制器协同实现了全局节点&租户级流量可视以及端到端差异化QOS服务保障。 # 3.2.5.5 柔性计算多元算力范式 随着日新月异、不断取得一个又一个前沿突破的大模型、智能体技术在千行万业的深入落地并转换为生产力提升,AI算力需求量呈现出爆炸式增长的趋势,使其成为数字经济时代像水和电一样不可或缺的最核心、最基础的生产资料。同水和电一样,支持一键式弹性按需获取并按租赁时长计费的云上AI算力,提供了相比线下AI算力更便捷高效、更优性价比的算力供给模式。鉴于此,华为云提出柔性智算,通过对昇腾不型号的NPU实现用户态虚拟化(FlexNPU)、AI驱动的智能伸缩与混部、AI模型算力建模画像以及AI算力全域多优先级抢占式调度4大关键创新,旨在大幅提升昇腾云AI算力集群的利用率水平、弹性伸缩能力及可靠性可用性SLA,并实现对云上千模百态的大小模型,以及业界主流AI训练与推理框架的广泛兼容,打造面向昇腾云的下一代Serverless AI算力基础设施新范式。具体关键技术细节将在本章节展开。 # 1) 柔性智算的整体架构 华为云柔性智算通过将柔性计算的核心理念与设计原则从通用计算延伸到智能计算领域,使能模型训推算力动态需求感知的细粒度AI算力分配调度与弹性伸缩,并通过训推极致混部、推理PD动态混部、与A3/A5超节点UB网络深度协同等差异化创新,重新定义“云上AI算力”在极致性价比、Serverless化弹性伸缩和高可靠高可用性方面的业界新基准。 柔性智算的整体架构设计如下图所示:在当前业界主流AI开发框架与昇腾NPU CANN驱动软件层之间,引入了“NPU用户态虚拟化(FlexNPU)、AI驱动智能伸缩与混部、AI模型算力建模画像、AI算力全域多优先级抢占式调度”4大创新技术引擎,实现了云上运行的百模千态的AI训推任务所感知的“虚拟NPU算力”与部署在全球AI云数据中心内的“物理NPU算力”之间的解耦与灵活映射,在满足AI训推任务性能SLA的前提下,最大限度提升昇腾云NPU算力集群的总体利用率,降低其无效空转的比例,并有效屏蔽昇腾NPU硬件故障对上层训推任务及AI框架软件层带来的可用性与业务连续性影响,从而打造面向下一代的AI训推框架透明、极致弹性&利用率、极致高可用的Serverless AI算力底座。 图41 柔性智算整体架构 - NPU用户态虚拟化(FlexNPU):该技术引擎透明拦截训练及推理任务经主流AI框架(Pytorch,MindSpore,vLLM等)对昇腾算子的CANN API调用,并参照NPU算力池内每张NPU卡在AI Core、显存、带宽等各个维度的实时资源利用率与忙闲状态,各AI模型对应的虚拟NPU规格,以及当前下发算子的执行时长与算力规格预估,按照一定的时分及空分调度策略,将上述昇腾算子的CANN API调用合理有序地分配到多模型共享的物理NPU卡上,从而达成在满足AI训推任务性能SLA的前提下,多个AI训推任务对NPU硬件算力的最大化空分与时分复用;与此同时,该技术引擎还支持AI训推任务及框架无感,CPU与NPU协同,以及多NPU卡协同的事务一致性运行时快照,从而在无需云上租户及其AI训推任务干预和介入的情况下,将运行中的AI训推任务,以最短业务中断时长为代价,从受NPU硬件或驱动软件升级影响的物理节点,迁移到备用或空闲的物理节点上,或者从碎片化整理的特定源节点迁移到特定目标节点,将上述重要的例行运维活动对云上训练和推理任务的业务可用性与连续性影响降到最低;更进一步,针对超节点上的大模型并行推理和并行训练场景,该技术引擎还支持主动拦截和屏蔽昇腾NPU硬件上报的单点故障事件,并通过超节点内跨节点的NPU Remoting机制,实现N+1备用节点上的备用卡对故障卡的秒级快速透明接管,防止故障爆炸半径的扩散的同时,将单点NPU故障对训推任务的RTO影响从几十分钟降低到秒级水平。 - AI驱动的智能伸缩与混部:考虑到所有推理服务一般均具备显著的“潮汐效应”,该技术引擎基于大颗粒在线推理服务的历史算力资源用量及业务请求量统计数据,以及基于Transformer架构的多维度输入AI时序预测基础模型,面向不同MaaS推理服务进行可持续迭代的智能伸缩预测模型SFT后训练,并基于该模型指导AI推理服务进行容器实例及其节点的预测式扩缩容,用以替代传统基于特定监控指标阈值的规则式弹性伸缩机制,从而在保障在线推理服务性能SLA的基础上,以合适的时机及步长进行在线推理AI算力的申请和释放,并支持将相关算力释放给其他训练与离线推理任务,从而打破多推理任务及训推任务之间的算力孤岛,实现极致的AI算力共享。 - AI模型算力建模&画像:为实现公有云数据中心内数以十万计乃至未来还将不断增长的NPU卡存量算力资源供给,与来自云上租户多种模态、不同尺寸AI模型的多样化算力需求之间的最优匹配,宏观层面上多用户动态叠加的AI总体算力量化建模和画像对公有云AI算力服务运营效率及投入产出比的优化提升具有重要意义,鉴于多租MaaS服务已成为昇腾云超节点算力的主力场景,如何基于MaaS推理业务层指标(如RPM/TPM等)建模仿真能力,指导MaaS服务算力池进行合理步长的容量规划,就成为当前昇腾云宏观算力建模的焦点问题。而除此之外,与NPU用户态虚拟化(FlexNPU)技术相结合的细粒度微观层面的AI模型算力建模能力也同样不可或缺:特别是针对多个小模型共NPU卡的时分和空分混部,以及大模型在特定并行策略下NPU卡碎片化资源与其他AI模型的共卡混部,都需要AI算力建模工具具备依据AI模型“计算图及算子”解析进行细粒度多维度算力量化估算评估的能力,从而为FlexNPU进行物理NPU到虚拟NPU的合理切分提供关键输入和依据。当然,考虑到软件的迭代优化及NPU硬件代次演进的影响,也有必要结合AI模型及算子级的实际算力用量情况的精细化观测与画像,对AI模型算力的理论建模结果进行必要的修正。 - AI算力全域多优先级抢占式调度:为解决当前云服务商的AI算力普遍采用Region内调度所带来的跨Region供需不均,以及租户独占AI算力所导致跨租户动态忙闲不均等关键痛点,柔性智算构建了跨云内所有Region的统一AI算力视图,以及AI训推任务SLA驱动的自动化全域AI算力调度能力,使得昇腾云AI算力可以在云内实现真正的跨租户、跨区域最大化共享,并且全域调度的范围不限于AI算力的初始调度,也包括因高优先级AI任务抢占式调度所触发的中低优先级AI任务基于FlexNPU透明快照的跨Region二次调度。 # 柔性智算创新对昇腾云的核心价值: - 异腾云算力有效利用率大幅提升,异腾云应对友商AI算力价格竞争拥有更充裕的利润缓冲空间:通过上述柔性智算4大创新技术引擎的构建与推广,满足云上多用户百模千态的AI模型训练与推理任务在特定性能SLA约束条件下的NPU硬件算力总支出将大幅降低,从而为异腾云从容应对来自其他云服务提供商,特别是GPU算力服务的白热化价格竞争,提供足够的利润缓冲空间。 - 柔性智算带来的NPU算力性价比、弹性及高可用提升等核心价值,可同时覆盖基于MaaS的Token服务场景,以及面向NA大客户训推任务的昇腾算力托管及租用场景;基于FlexNPU的小模型时分/空分共卡、大模型轻量化、极致高可用(含AI任务无感的冷/热迁移,训练推理任务的秒级快恢等),以及极致训推弹性混部等能力,广泛兼容PyTorch、MindSpore、Tensorflow等主流深度学习框架,以及vLLM、MindIE等主流推理平台的昇腾适配版本,因此可普适应用于昇腾云基于MaaS的Token服务场景,以及面向内外部NA大客户的昇腾算力托管与租用场景,含Lite Server、Lite Cluster以及Standard Cluster以及HCS混合云等场景。 - 支撑MaaS服务的每Token性价比更上一层楼:通过柔性智算面向多租MaaS服务在宏观层面的AI模型算力建模所带来的超节点算力容量整体规划效率的提升;基于FlexNPU透明快照机制+AI弹性伸缩预测模型的多租户MaaS服务之间的动态混部,MaaS推理服务与其他推理业务之间的细粒度混部;基于FlexNPU时分/空分复用虚拟化+微观层面AI算力建模的MaaS推理PD动态混部,推理性能SLA驱动的显存动态卸载,以及MaaS推理任务与其他多租小模型之间的NPU卡复用,也将支撑相同NPU硬件算力投入及推理性能SLA约束前提下,达成更大的Token吞吐率,从而推动异腾云MaaS服务的每Token性价比再上一层楼。 # 2) 柔性智算关键子系统及其核心技术 # i.面向多模型共NPU卡的时分与空分虚拟化 基于FlexNPU用户态虚拟化技术的AI算力灵活切分与复用是柔性智算数据面最核心的子系统之一。它解决了AI训练与推理框架以NPU物理卡作为训练与推理进程的AI算力最小单元的“粗放式”资源分配模式所带来的算力浪费问题,该技术通过AI Core时分/空分复用与显存虚拟化两种机制,分别实现对计算资源和内存资源的细粒度管理,数据面技术架构及关键技术如下: - AI Core时分复用:基于算子级细粒度预画像,实现了多模型共卡混部场景下算子级AI Core的时分复用。系统通过精确掌握每个算子的执行特征,智能调度不同模型的算子任务,最大化利用计算资源。与NPU卡硬切分的空分复用方案相比,此项技术主要针对有明显潮汐特征的AI任务进行混部,时分复用技术能在保障AI任务性能SLA的前提下,能实现AI算力的最大化利用。具体实现中,调度器将时间划分为微小的时间片(通常为毫秒级),根据不同任务的优先级和特性动态分配时间片,确保高优先级任务获得及时响应,同时保证系统整体吞吐量。 - AI Core空分复用:FlexNPU借助CANN层进程级别的Device资源限制接口,基于AI任务声明的AI算力需求,对多任务共卡混部时使用的AI算力进行限制,确保AI Core的QoS隔离;与NPU卡硬切分不同的是,此切分能力为按需的软件层切分,避免了预先固定切分的资源浪费。此项技术主要针对多个特别小的模型共卡混部时,基于AI Core的空分复用提升系统吞吐并保障性能。 - NPU显存空分复用: FlexNPU通过对昇腾显存操作相关算子的透明拦截处理, 实现了多AI任务共卡的显存资源空分复用所需的隔离性、透明性, 以及虚拟物理显存地址建的高效转换。该技术通过引入显存虚拟地址空间, 使每个AI任务拥有独立的显存视图, 互不干扰。同时, 虚拟化层负责物理显存资源的分配与回收, 以及虚拟地址到物理地址的转换, 确保内存访问的安全性与高效性。 - NPU显存时分复用:针对推理请求频率较低的长尾模型,FlexNPU不仅支持多个LLM模型显存之间的低延迟“时分复用”,也支持基于各LLM模型的活动性及动态处理容量预测、H->D显存Prefetching换入以及基于模型PP切分的推理与加载流水线并行机制的多模型共卡的显存时分复用机制,从而支持在多模型推理请求存在显著的热点与长尾两极化特征情况下,可在满足推理性能SLA前提下,大大提升平均每NPU卡的模型复用比(从平均每NPU卡复用2-3LLM模型,提升至每NPU卡复用7-8LLM模型)。 # ii.面向大模型轻量化部署的MoE热点专家感知的显存动态卸载 业界主流的开源MoE大模型(如DeepSeekV3,Kimi2,Qwen3等)在公有云行业专属隔离区,以及CloudPond专属边缘部署场景等下,每Token的实际激活专家数仅占MOE模型总专家数的 $3.5\%$ ,但仍需所有MoE专家 $100\%$ 常驻NPU显存,从而导致MOE大模型的本地化部署成本始终高于用户预期的典型痛点(通常基于昇腾A2节点,W8A8精度的DeepSeek V3/R1典型配置需要2台313T或4台280T),FlexNPU着力构建了“热点专家感知的显存动态卸载”差异化竞争力:使得业界主流的千亿/万亿级参数开源MoE大模型的W8A8典型硬件配置从2台313T昇腾A2节点缩减到1台,而其W4A8典型硬件配置也从最小一台313T昇腾A2节点推广至一台280T昇腾A2节点。 支持仅MoE热点专家常驻HBM,长尾专家则常驻主机内存,或按需动态从显存换入内存。而当系统重新需要长尾专家时,则支持将对应的长尾专家权重通过A2节点的DMA/PCIe通道,或A3超节点的HCCS链路精确从内存拷回显存;配合LRU + 黑名单维护热点集合,动态换入延迟压缩到百微秒量级,对上层模型完全透明。 卸载管线包含“识别 $\rightarrow$ 驱逐 $\rightarrow$ 回映”三步。调度器在GEMM启动前结合TopK路由和访问统计做在线打分,维护热点专家集合;若命中专家不在HBM,则触发驱逐策略写回冷门专家,并从主机内存并发回考目标专家;若专家仍在HBM,仅刷新热度即可。这样既保证了执行路径畅通,又避免了长尾专家长期占用显存。 为确保推理性能SLA的满足,FlexNPU进一步引入了“二次路由”增强:在门控输出的TopK基础上,参考HBM当前分布做一次轻量reroute,使路由尽量命中已在显存中的专家,减少搬运次数。通过用户定义的SLA,动态调整路由换入策略。 进一步的大模型本地化部署的性能SLA深度优化措施包括:“提前预装载领域热专家 + 预测预取 + 多路径传输”:在NPU计算的时候,结合预测实现主动预取,提前触发下一层的H2D的专家搬运,掩盖搬运时间,同时利用分桶路由存储的方式,缓解某device专家不均衡的问题,打造面向超大规模MoE集群的显存治理能力。 # iii.AI模型算力建模&画像 华为云面向众多租户提供、特定版本的开源及自研AI模型,无论是需要多NPU卡、多节点支撑的千亿/万亿参数规模的大模型,还是单NPU卡即可容纳的百亿级以下参数规模的小模型,由于其模型架构、计算图,乃至构成计算图基础节点的每个算子都是已知和确定的,因此完全可通过AI算力建模工具或服务对其算力需求提前进行精细化地白盒式建模测算,并在模型上线运行后进一步通过黑盒式的在线资源画像,对其在特定代次昇腾NPU硬件上实际算力消耗进行洞察,以便对理论测算值进行最终的校准与修正,而这些白盒建模及黑盒画像的AI模型资源量化需求,即可在宏观层面商为公有云服务提供商的AI算力总体需求规划提供核心依据,也可在微观层面为FlexNPU控制面的全域调度及数据面的时分及空分复用,提供关键输入。 首先看微观层面的AI模型算力量化建模:其核心思路是通过“计算图+算子”的白盒式NPU算力需求解析建模方法,以AI模型训练与推理的性能SLA为前提约束,为AI模型自动推荐最优的细粒度资源配置(精细化的AI Core及HBM显存容量),并为大模型推荐优选的多维度并行策略。 建模仿真 <table><tr><td colspan="3">模型和请求抽象</td><td colspan="3">硬件系统抽象</td></tr><tr><td>DeepSeek</td><td>Llama</td><td>Qwen</td><td>XPU</td><td>Mem</td><td>互连拓扑</td></tr><tr><td colspan="6">多模型混部</td></tr><tr><td colspan="2">时分复用建模</td><td>vNPU-1</td><td>vNPU-2</td><td>vNPU-1</td><td>vNPU-2</td></tr><tr><td colspan="2">空分复用建模</td><td colspan="2">NPU</td><td colspan="2">NPU</td></tr><tr><td>算子建模</td><td colspan="3">模型统一建模</td><td>端到端性能