> **来源:[研报客](https://pc.yanbaoke.cn)** # AI-ICT # 赋能与重构 # 第一章 # 目录 # 趋势洞察 01 综述 全球力量主导AI发展 1 02 趋势1 AI规模化向高阶演进 2 03 趋势2 计算与通信的失衡与再平衡 7 04 趋势3 AI与ICT的双向赋能 9 # 第二章 # AI-ICT融合发展 01 全能模型的获取、部署和协同 11 02 AI框架:智能时代的操作系统 13 03 从数据管理、开发、探索到世界模型 15 04 智算中心(AI-DC)网络: 从Scale up到Scale out 16 05 深度神经网络和NetGPT赋能网络 18 06 Agentic AI: 从知行合一到数实融合 20 # 第三章 # 战略思考 01 聚焦7个重点战略方向 23 02 全面推进AI战略实施 24 总结与展望 缩略语 参考资料 # 01 # 趋势洞察 01 综述 全球力量主导AI发展 02 趋势1 AI规模化向高阶演进 03 趋势2 计算与通信的失衡与再平衡 04 趋势3 AI与ICT的双向赋能 # 1.1 综述:全球力量主导AI发展 当前,AI浪潮席卷全球,巨量资金、超长周期投资已经展开。各国纷纷加大人工智能的投资和开发。以中、美、欧为代表的全球力量主导AI的不断加速发展。尤其是中美竞争下形成“东”、“西”两大生态呈现出各自鲜明特点。美国政府及AI主流公司、社区、倡导规模法则,大算力赢未来,推动再工业化和解决复杂问题。以星际之门Stargate为代表的发展规划整合OpenAI、软银等技术和投资方,基于英伟达算力技术,面向未来发展超级AI中心,这种规模化的背景之一,是传统云厂商提供的算力规模已经无法满足像OpenAI这样公司的发展需求。在国内,AI正在成为数字新基建、新质生产力、数字化转型发展关键力量。在中国AI发展体系中,国家在长期规划、政策指引、融资支持、成本效益等方面推出系列措施,基于国内规模研发能力、产业集群和应用市场,通过东数西算宏观布局,智算中心大力建设,推动数算融合、算网融合,“知-行”融合,“数-实”融合。在欧盟方面,《人工智能大陆行动计划》,旨在将欧洲建设成为全球人工智能领域领导者,而在众多细分领域,AI与应用和产业结合,已经产生出一批有全球影响力的企业。 全球产业链发展方面,OpenAI一度作为最常用的AI产品和服务提供商,提供多模态,推理模型,深度研究等服务。英伟达提供业界领先的GPU、网络和软件(CUDA体系),Meta公司作为开源的代表提供其Llama模型,已融入40个国家的社交网络产品中。谷歌的Gemini系列模型在多模态、集成实时搜索和多语言支持强,应用广。其TPU算力集群、跨洋光缆等领域具备优势。微软在AI领域则突出其自有芯片Maia 100 AI加速器、高速网络等技术。在国内,以运营商为代表的算力中心建设行动深入开展,已建成多个大规模算力中心,模型方面以DeepSeek为代表的公司推出的V3及R1推理模型作为一款671B参数量的开源模型,具有全球影响力,并在MOE, MLA,强化学习等领域多方面技术创新。阿里千问系列模型也在开源和服务方面占有重要地位,推出例如深度研究、ZeroSearch等服务。其小规模参数模型也经常被用作模型蒸馏。此外、腾讯、字节、百度等公司也在AI领域大规模提供模型和算力服务。 据PrecedenceResearch估算2024年全球AI市场规模6382亿美元,区域占比上北美 $36.9\%$ 、欧洲 $25.5\%$ 、亚太 $25.97\%$ ;预计2025年达7576亿美元。在智算发展持续加速的宏流下,业界芯片级算力年增速可达 $500\%$ ,而以星际之门为代表的算力规模部署(一期约40万GPU)将支持高效快速的模型训练、实时推理。中国国家AI发展规划目标是到2030年实现价值约1万亿元人民币(约1500亿美元)的AI产业。据《2025年中国人工智能计算力发展评估报告》目前智算规模达1037 EFLOPS,比2024年增长 $74\%$ 。根据《中国人工智能区域竞争力研究报告》,2024年中国AI产业规模突破7000亿人民币。2024年,美国私人人工智能投资达1091亿美元,中国约93亿美元。AI的商业应用用也在加速普及, $78\%$ 的企业在2024年应用了人工智能技术,较前一年的 $55\%$ 有了大幅提升。 面对快速发展AI以及AI与ICT基础设施和应用复杂的关联,本文首先从梳理AI本身“规模化“发展这个首要特征,溯源到AI深层计算和通信关系变化的本质思考,进而全面审视AI与ICT相互的赋能机会和技术需求。 # 1.2 趋势1:AI规模化向高阶演进 # 1.2.1 新摩尔定律与算力规模化 摩尔定律下每18个月计算能力翻一番,相当于约 $50\%$ 年复合增长率。而被称为“新摩尔定律”的智能算力每4~5个月翻一番,年复合增长率达 $500\%$ 以上。以英伟达为代表的AI算力厂商也表示,其GPU算力2年增长40倍,与“新摩尔定律”相符。 算力规模:芯片厂商主攻GPU,云厂商则以ASIC见长。例NVIDIA H200/Blackwell系列GPU可达9 PFLOPS (INT8), AMD MI300X/MI325X系列、英特尔Gaudi2/3系列也提供接近或达到P级别FLOPS算力。ASIC厂商方面,Google TPU单体具备275 TFLOPS (BF16/INT8), AWS Inferentia系列、Azure Maia系列也提供类似能力。 网络规模:规模化也体现在网络能力的极大发展。NVIDIA单机架NVlink网络带宽可达130TBGB/s超过1Pbs,被认为大于全球移动互联网并发流量。AWS则推出其“10p10u”网络兼顾带宽和时延性能( $\geqslant 10$ Pbs,<10 $\mu s$ RTT);而Google TPU Pod v5p 4.8 Tb/s x 8960芯片封闭架构的极致带宽可达29Pbps;Meta兼容异构算力的开放式OCP DSF,64x800Gb/s网络可达51.2Tb/s。 中美算力竞争:在大规模投入之下,美国在全球算力生态中处于领导地位,例如xAI公司Colossus算力集群总算力规模达200Eflops。而国内最大单体智算中心在10EFLOPS规模,国内主要的智算中心单体规模接近1Eflops $(= 1e18$ flops)。 GPU擅长并行计算,是当前较为成熟的算力形态,而QPU量子算力基于量子叠加与纠缠特性,在特定问题上具有指数级加速潜力。目前业界商用量子设备和算力已初具规模,如国际上的PsiQuantum、IonQ,中国的本源量子等。量子处理单元QPU与GPU的融合是算力发展的趋势。面向未来高性能“量子-经典混合计算架构”,通过软硬件协同设计,解决量子计算的实用性瓶颈(如纠错、控制、算法优化),同时释放经典算力与量子算力的协同潜力,目前主要的业内实践如NVIDIA的CUDA-Q。 # 1.2.2 扩展律(Scaling Law)与模型规模化 # 预训练规模化 - 模化发展另一大定律是扩展律Scaling Law。扩展律是指随着投入算力、数据量、模型参数的增加,模型的损失不断下降(精度不断提升)。人工智能的“扩展律”对AI模型的发展具有重要意义,推动了GenAI的发展和ChatGPT时刻的出现。在规模化发展趋势下,模型训练算力需求年均增长4.6倍,主要源于研发投入扩张(年均2-3倍)及硬件性能提升,GPT-4级别模型训练成本已超数千万美元,随着模型算力扩张,模型性 能提升但边际收益递减。从数据角度,大规模预训练驱动数据需求暴增,训练数据集规模年均增长3.5倍,当前最大模型已使用数十万亿Token数据。而公开可用人类文本数据约300万亿Token,按当前消耗速度,2026-2032年将耗尽。 # 后训练规模化 随着规模发展,AI面临算力高成本、数据耗尽、算法架构停滞不前等问题。近期AI创新突破纷纷围绕通过模型优化、以较小的算力代价和数据依赖获得提升,训练方法也从自监督训练向强化学习方法过渡。降低了对数据规模的依赖。可以说,强化学习是scaling law的新引擎。因此,扩展律开始增加向“后训练“和“推理时计算”拓展的路径,不断增加模型的计算,体现出从「数据驱动」转向「推理驱动」的特点。 同时,在大规模预训练中继续提升效率也未停止,如混合专家模型(MoE)的稀疏激活,显著降低相同任务所需的实际算力,多头潜在注意力(MLA)等方式进行参数合并降低计算需求。 # 中美模型竞争 自2022年底ChatGPT引爆全球大模型创新热潮,国内科技厂商纷纷跟进,短时间内,从事AI大模型研发的企业超过100家,进入所谓“百模大战”阶段。当时,国内大模型尚处于跟随状态,更强调基于中文语料训练、本土文化理解等优势。 据Epoch AI分析,目前美国的大模型体系仍然在整体上占有优势,中国的模型正在赶超。美国在开发顶级人工智能模型方面仍处于领先地位,但中国正在缩小与美国的差距。从数量上,2024年,美国机构共开发了40个标志性的人工智能模型,中国有15个,欧洲有3个。从质量上,中国通过追赶,明显缩小了差距。此外,中国在人工智能论文和专利方面继续保持领先。 在量子计算与AI模型算法结合的实用化进程中,一些技术路径已初步展现出应用潜力,量子机器学习提供了Q for C, Q for Q等方式使得量子算力可以适用于经典数据环境或量子数据环境。对输入数据进行量子嵌入,从而对核心计算采用量子电路执行。此外,如量子混合微调,通过量子神经网络(QNN)与经典张量网络混合架构,将模型权重映射到量子态空间,利用量子叠加态并行优化参数组合,实现参数量压缩。但是当前也存在量子比特数有限、纠错依赖经典GPU等问题。 # 1.2.3 开源、生态、市场发展 # 开源和生态发展 在通用大模型收敛到全球少数公司主导的情况下,众多原大模型企业和下游用户在应用领域发力。根据自身需求和能力的不同,从知识库到智能体应用,部分有实力的行业参与者,继续通过后训练甚至包括预训练行业大模型,成为AI浪潮的深度参与者。 模型开源增加了AI的可获得性。例如Llama,ChatGLM-4,DeepSeek,Qwen3等模型的开源极大降低了AI的获取成本,特别是降低了LLM后训练和部署推理的门槛,推动了AI部署的多样性和分布性,丰富了算力的网络互联场景。这也使得AI生产端则呈现出闭源繁荣,开源发展的态势,尤其是2025年开始,闭源侧AI服务大升级,人工智能变得更加高效、经济和易用。依托小型模型能力跃升,GPT-3.5级别的推理成本在2022年11月至2024年10月间下降280多倍。硬件层面,年化成本降幅约 $30\%$ ,能效年提升率约 $40\%$ 。同时,开源模型正在缩小与闭源模型的差距,在某些比较基准上,性能差距从 $8\%$ 缩小到仅 $1.7\%$ 。这些趋势加在一起,正在迅速降低先进人工智能的应用门槛。因此每个人/每个组织都可以有自己的AILLM/Agent体系,人工智能的使用正在加快世界发展速度,也将重塑全球ICT基础设施。 # 市场发展 AI的“有用性”在各种场景中的表现进步迅速。例如AI在基准测试如(MMMU、GPQA、SWE-bench等)的性能持续提升,在生成高质量视频方面也取得重大进展,而AI编程在某些场景下在时间受限的编程任务中甚至表现优于人类。随着AI越来越“有用”,AI的使用越来越广泛。从医疗到交通,2023年,美国食品和药物管理局(FDA)批准的人工智能医疗设备达223款,在公共道路上,自动驾驶汽车领域,美国头部运营商之一Waymo每周提供超过15万次自动驾驶乘车服务,而百度的Apollo Go自动驾驶出租车所提供的服务已覆盖众多城市。特别是2023年以来,人工智能使用量以前所未有的速度增长。 据Epoch AI分析,以OpenAI,Anthropic,GoogleDeepMind等公司的AI综合收入在2023-2024年间增长了9倍。 市场发展不但使端侧用户更容易访问和使用模型业务,同时算力本身也在想端侧延伸部署。2025年在AI终端侧,所谓AI的“iphone”时刻或将到来,推动AI消费市场发展进入新阶段。以英伟达为代表的算力厂商,计划推出1PFLOPS,128G个人桌面型算力盒子,与笔记本配合使用。并有20PFLOPS,800G企业级本地算力,可运行Llama4最大10000亿参数开源模型。而物理和具身智能方面,各厂家正相继推出商用产品。 # 1.2.4 算力能耗规模 # 大算力高能级 算力的运行依赖电力的供应。算力大发展也伴随着功率的大幅提升。电力在算力发展中可能成为一个主要瓶颈。一方面是电力消耗指数级增长,前沿模型训练电力需求年均翻倍。单个LLM训练耗电量可能达1-10TWh,随着电力供应将成为模型规模扩展的重要制约,硬件能效提升得到重视。领先硬件供应商可以年均提升 $40\%$ 左右(如NVIDIA H100在FP16格式下达每瓦2.83TFLOPS/W),而从模型层进行优化如稀疏训练等方式可以降低算力需求,同时优化电力需求。另一方面超级算力建设项目,如星际之门,其功率达到1.2GW,接近大型核电机组输出功率,近期沙特也在讨论5GW级别AI智算中心(初期1GW),此外,巴西也 计划开展GW级DC建设。面对超大规模的智算中心,未来高效的电力基础设施将具有重要的支撑和共生作用。 # FLOPS/瓦特和Token/焦耳 业界以NVIDIA为代表的算力厂商提出AI算力的出现推动社会从信息基础设施information infrastructure演进到智能基础设施Intelligence Infrastructure,相应的,算力中心是Token工厂(Token:符元,可以认为是智能时代的数据最小单位)。 FLOPS/Watt:(每瓦特功率支持的浮点运算速度)衡量硬件计算效率,反映芯片、服务器性能,由芯片能力决定。 Token/J:(每焦耳能量可处理的Token数量),衡量模型推理的能效,反映AI模型部署、推理运算效率,与模型架构、数据复杂度相关。 # 中美在AI核能领域竞争 25年6月19日,NVIDIA宣布完成对TerraPower的战略投资。TerraPower是比尔·盖茨创办的一家专注于核裂变技术的公司。致力于行波反应堆(TWR)、钠冷快堆Natrium等技术研究,该技术有望大幅提升核能利用效率,减少核废料产生。而中石油昆仑资本同期也增资,投资可控核聚变方向的中国聚变能源公司。截至目前,中国已经有9家核聚变产业链公司获得投资,美国创业团队则占到了全球近50家核聚变企业的一半以上。核电方向规模发展驱动因素主要受人工智能数据中心、新兴制造业产能等因素推动,例如美国电力需求将在2023至2030年间增长 $25\%$ ,到2050年增长 $78\%$ 。 # 1.3 趋势2: 计算与通信的失衡与再平衡 # 1.3.1 用户视角的数据流量发展 # AI发展多方面促进流量增长 从信息通信的视角,十五五是5G规模发展阶段,目前以互联网和移动互联网为主体的网络流量生态增长趋缓,缺乏新的高流量因素进一步推动数据使用量增长,用户价值增长放缓。新的增长因素如大流量业务如AR,XR等,由于处理信息比特相对单纯,和物理环境交互时其他问题更加复杂,在终端技术仍然存在较多挑战。用户刚性价值场景不确定性,例如:物联网连接数已超过普通用户数,但物联网感知能力简单,价值增值不大。 在AI发展大潮下MaaS(模型即服务)推动模型+智算服务如大模型问答、企业级知识问答(RAG Retrieval Augment Generation),AI终端(如AI PC、AI手机等)加速渗透,AI智能体(Agent)有望成为主流产品形态。这些AI发展趋势将促进用户侧数据流量增长。 宏观层面,利用超算中心或智算中心算力资源进行大规模计算(训练或推理),输入数据量通常会达到TB甚至PB量级。需将海量数据从数据源远距传输至算力中心实现数据快速入算。基于算力基础设施分散,算力资源利用率不均衡等情况,通过“东数西算”全国一体化网络,海量数据跨区搬移将普遍存在,这要求网络具备高度的弹性。 微观层面,AI带动了包括长尾在内整体流量的增长:与人类注意力有限、关注头部流量不同,AI思考更彻底,不易排除低频高质量结果。可拉动更多长尾流量。此外由于对结果要求较高,功能更强大的AI搜索对ToB流量增长效益明显。而Agent带动后端资源则更复杂更多。 # 数据使用规模扩大 联网搜索:一次任务可执行比如30个网页的搜索;在典型的企业级知识库问答应用场景中,RAG可通过5-10倍资料查找token消耗提升问答准确度。当使用远端知识库调用时,就会产生互联网流量。 Agent可以分为数字化Agent和具身Agent,以数字化客服Agent为例,其需大量调用搜索、知识库查询等API;而具身Agent需实时传输多模态数据(图像、传感器等),高频大带宽相机可达6Gbps,虽一般本地采集本地处理。但受本体算力和电力限制可通过边缘分布式计算产生流量。英伟达认为,一次Agent任务是一次问答的100-1000倍数据量。我们看到这些不同的场景驱动本地或网络流量的增加,并且伴随AI处理时间大大缩短,可能驱动更多业务需求和数据流量。 这些流量一般对网络没有特别的要求,现有的接入网络、骨干网络能力及服务QoS能够满足这部分流量的需求,只需网络合理规划提供相应的容量。 # 数据消耗加速 由于大模型在理解-生产的理解阶段可以基于长文本并行计算,因此在足够的算力条件下具备“瞬时”理解内容的能力,据测算AI处理数据形成理解的时间相当于从人类的1倍速加速至100倍速甚至1000倍以上,这代表着数据消耗速度前所未有的加速,可能带来输入输出量的倍增。 # 1.3.2 深层视角:神经网络流量 在AI时代,AI模型训练和推理与普通业务流量有所不同。“传统”业务与AI任务产生的流量存在深层差异。 # 通信和计算比“的观察 以一个视频流媒体业务为例,经测算1小时4K视频其计算/通信比约25.1GFLOPS/GB,而1TB文件传输计算/通信比约0.15GFLOPS/GB,可以看到计算与通信比在0.1-100之间。 如果观察一个LLM问答:用例,1k token输入, 2k token生成, 采用671B参数MOE模型。COT=3,计算需求可达208TFLOPS,计算/通信比 $\approx 2.31$ E10 GFLOPS/GB,可以看到通算比上升至10的9次方。 # “内容通信”时代到“任务执行”时代 这种差异变化反映出从“内容通信“时代到AI的“任务执行”时代的变迁。“内容通信”计算依附于通信需求,业务不同,计算量有所区别但数量级可比;而“任务执行”基本场景下通信是计算的输入输出,计算量n个数量级高于通信量,出现较大的“失衡”现象。我们可以称之为从网络流量到神经网络流量的演变。 # “网络流量”到“神经网络流量”的演变 AI节点本地网络内部流量大致规模如下:中心T/Pbps级,边缘G/Tbps级,终端侧Gbps级。而AI输入输出流量规模可能从K-M-Gbps都有,取决于关联的多模态工具、环境对象。外部知识等。 从以上失衡状况出发,如果网络中出现一部分神经网络流,那么计算和通信将出一定的再平衡。这样的可能场景包括各种在智算中心、边缘算力、端侧算力之间,将神经网络进行各类分布部署或拆分处理,会产生大量中间计算token流量。比如智算中心的模型并行化、或者云边协同的分级推理等。在机器人场景中,因本体算力有限,对于高精度识别推理,复杂动作策略生成(含大量控制点,机器人100+关节)等借助本体以为的端侧或边缘算力,将产生显著AI网络流量。 当神经网络流量外部化时,对网络有显著不同的需求,需要无阻塞、无损网络QoS支持,并且需要针对神经网络流量特征的进行模型级、网络级、框架级的系列优化。在典型的千卡级集群中,跨设备通信延迟占总训练时间 $30\%$ 以上,制约着集群向超大规模发展的效率,采用RDMA等新型网络技术非常关键。当然,业界也在发展各种优化手段降低通信的影响,例如模型采用INT8等格式可提升硬件峰值性能10倍以上(如H100的INT8比FP32快59倍),成为降低通信影响的关键策略。 据Epoch AI估算,在基线训练场景中,AI Scale up网络成本占比约 $12\%$ ,随着分布式训练场景对智算中心东西向AI Scale out互联需求,网络成本占比仍将上升。在推理场景中,分布式推理部署对南北向Scaleout网络互联络产生一定成本需求。 # 1.4 趋势3:AI与ICT的双向赋能 # 1.4.1 AI大小模型赋能ICT AI成为包括网络基础设施、网络运维和运营在内各种系统和业务加速发展的重要赋能手段,从深度神经网络到网络大模型等技术深度渗透网络各个层面。全球ICT产业链中,运营商在网络运维、客户服务、自智网络的发展方面开展大量实践,部分运营商开始进入大模型大算力领域,互联网大厂webscale在发展算力的同时产生大量高性能网络互联需求。企业领域AI实践和需求逐步增长, 例如, - 中国运营商以及全球部分领先运营商在通信运维领域自智网络的发展 - 西班牙电信的“UNICA Next”利用人工智能/机器学习(AI/ML),自动化网络运营 - TMO、软银等公司的AI无线接入网(RAN) - 英国电信(BT)正在为智能港口和物流提供集成AI的私有5G服务 - 沃达丰的CAMARA计划,公开网络服务质量(QoS)、位置等信息 - 韩国电信(SKT)、德国电信(DT)、新加坡电信(SingTel)等加入GTAA,开发电信领域大模型 - 沃达丰与大厂合作,在制造和物流领域开发边缘人工智能(Edge AI) - 国内运营商则在网络和算力两个纵横驰骋。发力自智网络、AI4Net, Net4AI, 大模型、大算力等。 - 大模型领域,驱动中国移动自智网络向深度发展,网络行业大模型细分出网络语言大模型、网络结构化大模型、网络图模型等技术分支 - 智能体方面,中国移动、中国联通、中国电信一方面对不同专业发展出各类运维辅助的专业智能体。另一方面,更是在自主运维智能体方面则针对核心任务发展出高度自主的智能体 ·专网市场逐渐从单一专网进一步发展出终端侧AI等协同场景 # 1.4.2 ICT基础设施因AI训推而改变 大模型规模的增长,参数量从数十亿级跃升至万亿级,改变了传统机器学习时代基于小模型设计方式,为了使大模型能够被GPU系统装载和执行训练,需要各种并行策略(如张量并行、流水线并行等)和内存管理技术的支持。 而随着模型参数、算力规模的持续突破,模型训练为提升速度和效率需要高可扩展性(Scalability):以有效地利用不断增长的GPU/ASCI集群。这样,AI技术也就同时需要应对更大规模的通信挑战,保持良好的计算和通信扩展效率。 随着AI使用的推广和加深,推理将成为最常见的场景。推理加速随着各类任务的表现愈发突出,应用外延持续扩展,硬件载体从云、端、从数字设备到物理、具身设备发展受到资源限制。因此模型推理优化、算法加速和算力加速成为关键需求。从模型推理效率的角度,需要最大化硬件资源,包括计算资源和内存带宽的利用率。并且实现推理性能的高吞吐量和低延迟。为此需要AI软硬件协同,通算协同,系统优化并不局限于单一算法或硬件,而是需采用系统视角,开展算法、软件和硬件的协同规划和部署。国内互联大厂交换机和DCI等需求已大量采用诺基亚产品和方案。而随着智算中心的高速发展,诺基亚也开始涉足全球数据中心网络发展。 # 1.4.3 模型赋能数据 据EpochAI预测,2026-2030年间互联网上多模态高质量数据将用尽。2030-2060年间真实世界数据或将耗尽。伴随着模型扩展律,尽管公开领域的通用数据出现逐渐耗尽的情况,而私域数据的开发利用将随着企业AI应用的不断扩大而深入开展。 这个过程同时伴随着高效的数据开发利用、以及通过合成数据在虚实融合的场景中降低对真实数据的依赖,提升数据的多样性,并降低获取成本。 有很多新的领域会以新的互动和数据获取方式获得数据,因此新数据开发利用和探索生成空间很大。新数据的探索生成方面世界模型是一种重要的建模方式。目前业界北京智源推出了悟界Emu3多模态世界模型。将多模态大模型、空间智能在推理层面统一。基于下一个token预测原则,把多模态内容统一编码为一个离散空间。学习并推理物理世界的结构,而非直接建模几何形态。基于该模型,智能体能够将过去观测和行为预测未来的状态。是一种将几何建模出发的数字孪生转换为基于模型理解和生成的方法。近期ICT业界对世界模型关注更多,希望通过世界模型提升AI对现实世界的理解力和在真实场景中的执行力。 # 1.4.4 API资源赋能任务智能 以Transformer为基础的大模型,通过万亿token级别的预训练,构建了人类历史上最复杂的知识压缩体系,这种预训练泛化能力为跨行业赋能打下基础。而推理大模型,领域知识增强RAG,代码大模型等技术则加速AI生产力开发和能力输出。 在AI技术加持下,通过领域知识迁移等方式,Agentic AI可以融合前端指令需求的和后端异构资源,实现跨行业AI横向拓展。Agentic AI是具备长时间自主行动以实现计划目标的系统。例如实现超50步复杂操作通用智能体。主要的供应商有腾讯元宝、Moonshot的Kimi,字节的豆包、阿里的通义星尘、智谱AI的AutoGLM和百度文心智能体,而纵观整个产业生态,近期中国人工智能产业发展联盟编制并发布“智能体产业图谱1.0”,收录近200家聚焦智能体技术创新和产业应用的企业。按照基础支撑层、通用场景层、专用场景层展 开,定义了大模型服务、开发工具、通信协议、开发平台。 英伟达提出未来每个企业的每位员工都可以有一个智能代理。它将推动物联网向Agent体系靠拢和转化。 Manus AI Agent典型产品,其阶段性突破的核心在于工具链整合能力的规模化跃升。Manus 的工作流程呈现清晰的分层协作架构:用户发起需求后,模型首先进行任务拆解与规划,生成结构化待办清单;调度器随即分配子任务至专用Agent群,驱动数据抓取、API调用等操作;执行结果实时回传并由多次调用LLM,整合多源数据生成最终报告。该架构通过高低阶模型协同与工具链深度绑定构建出从需求输入到成果交付的完整自动化链路。 # 1.4.5 物理/具身智能, 碳基硅基协同进化 具有物理形态和任务使命、以及具有具身属性的端侧智能体包括各类AI智能终端、智能可穿戴设备、智能网联汽车、智能机器人(如宇树、优必选、傅里叶、开普勒等)。对比数字化智能体,物理/具身智能体更强调对物理世界的感知和行动能力,而这种能力是通过融合现实与虚拟世界,真实与和合成数据而获得的。类似“百模大战”,人形机器人赛道已有企业近百家,融资超过百亿。当前产业已经分化出具身大小脑和本体类厂家,两者密切协同进化。当然具身智能体不必是人形,业界也有各种特殊场景的形态专用机器人、软体机器人等。 除了宏观的多形态个体以外,物理/具身智能体还包括微观、甚至分子尺度的个体。由于物理/具身智能更广阔的扩展人类认识和改造世界的范围,因而对于未来业务发展和市场拓展具有重要意义。 从更宏观的层面上说,人类发展物理与具身智能是碳基与硅基协同进化。近期中国移动提出以传感器、处理器、存储器、控制器等物理硬件为“躯体”,以计算智能、感知智能、认知智能、运动智能为“神经中枢”的硅基生命,将迎来个体规模倍增,激发社会发展新红利。硅基生命将在数实融合的世界模型的环境中互动探索,感知世界、改造世界。同时,ICT基础设施也将积极重构,打造出“硅基生命”发展成长的训练场以及充分发挥生产力的环境底座。 面向未来发展,国内运营商正在规划打造未来社会的技术要素和基础设施。例如中国移动的通专大模型矩阵、云智算体系、数联网基础设施,以及AI训练与产业创新基地。近期,中国移动进行了国内已披露较大规模人形机器人商业采购。 # 02 # AI-ICT融合发展 01 全能模型的获取、部署和协同 02 AI框架:智能时代的操作系统 03 从数据管理、开发、探索到世界模型 04 智算中心(AI-DC)网络: 从Scale up到Scale out 05 深度神经网络和NetGPT赋能网络 06 Agentic AI: 从知行合一到数实融合 在AI发展的趋势下,以及AI发展必然产生的与包括网络在内的基础/应用/数据等各层面的相互赋能,形成一套覆盖全面的AI与ICT融合发展的技术需求体系: 图1 AI与ICT融合发展技术需求图谱 需求5 深度神经网络和NetGPT赋能网络 极致性能无线/核心网/IP和光网络 建模赋能方法 物理层不完备建模 时空关联建模 迁移学习 # 需求1:模型 模型体系与特性 LLM/MLLM/VLA MLA/MOE/推理优化/计算与通信重叠 QML 开源定制、商用、 后训练、蒸馏等 # 需求3:数据 模型生命周期数据需求 私域数据开发 企业级知识库 新数据探索和世界模型 大模型大算力全场景穿透 NetGPT AI-RAN/Computing # 需求2框架 训练框架 DeepSpeed 推理框架 vLLM/SGLANG 模型框架 Pytorch/Tensorflow 智能体框架 Dify/AutoGen # AI算力 GPU/ASIC 云/本地 多源算力供给 数据处理DPU QPU # 需求4数据中心互联及广域无损网络 算力集群多场景 Scale up和Scale out 并行技术:DP/MP/PP/TP/EP 云边协同 PD分离 Nvlink/UAlink/OISA; 广域RDMA (IB/RoCE/UEC/GSE) AI流量及控制 AI流量特征 网络负载均衡 流量控制 # 2.1 全能模型的获取、部署和协同 # 2.1.1 丰富的模型技术体系提供全面能力 AI大模型技术已从传统机器学习(如SVM、随机森林)发展为以Transformer架构为核心大模型的体系,涵盖语言模型(LLM)、多模态大模型(MLLM)和视觉语言行动模型(VLA)等方向。 多模态大模型(MLLM):融合文本、图像、音频等多模态数据,通过跨模态对齐与融合技术(如CLIP Contrastive Language-Image Pre-training、DiT Diffusion Transformer)实现联合理解与生成。可处理图文混合输入,生成连贯的多模态输出。但这些方法采用模态后融合方式,多模态信息对齐存在损失。发展方向是从训练之初就打通多模态数据,构建原生多模态大模型。 VLA(视觉语言行动模型):将视觉感知、语言理解和动作决策端到端融合,实现从环境观察到控制指令的直接输出,适用于具身智能(如机器人、自动驾驶)。通过视觉、语言编码器、多模态融合理解,通过动作解码器生成具体动作。 传统模型依赖特征工程和小规模数据,而大模型通过海量数据预训练和微调实现通用能力,通过千亿级参数和提示学习(Prompt Learning)支持零样本任务。 对大模型进行一系列优化,比较典型的技术包括:预训练阶段的多头潜在注意力机制(MLA),混合专家MoE,FP8混合精度训练等;后训练阶段的强化学习的GPRO(Group Relative Policy Optimization)算法等。 多头潜在注意力机制(MLA):对于LLM推理,用户请求通常涉及多轮对话。为了效率将先前请求的上下文缓存在KV缓存中。这种增量计算将降低生成符元复杂度,处理长序列或多轮输入时效率很高。但直接存储KV缓存占内存过高,通过投影矩阵将所KV压缩成一个较小的潜在向量,显著降低内存压力。 混合专家模型(MoE):通过稀疏激活和动态路由(如Top-K门控)提升计算效率。例如,Mixtral8x7B,DeepSeek仅激活部分专家网络,在推理时大大降低激活模型规模,显著降低资源消耗。MoE模型在单请求场景中具有独特的优势。因为每个请求只激活一部分参数,所以内存和计算需求大大降低。以Deep-Seek-V2(2360亿参数)为例,推理过程只激活210亿参数。这使得AI PC(Apple, 2024; NVIDIA, 2025; AMD, 2025)能够达到近20TPS输出速度。 低秩分解(LoRA):属于后训练微调技术的一种,与原模型配合使用,针对领域特定问题的Token,捕获其与通用模型的差异,通过对差异矩阵的低秩分解,获得性能良好的小参数微调模型。 强化学习GRPO方法:对同一问题生成多组答案,通过组内比较计算相对优势值(如按奖励排序),无需独立价值网络。解决了PPO等传统强化学习方法需要设计和计算价值网络的复杂度。 推理(Reasoning)大模型:进过推理优化或使之具备推理优化能力的大模型,通过模型后训练,推理时计算增强、COT等技术将提升任务推理能力。 计算和通信的重叠:最大限度地提高吞吐量,避免计算等待通信任务完成,通信等待计算任务完成。当一个微批次执行MLA或对于MoE计算的一部分,另一个微批次同时执行相应的调度通信。反之,在第二个微批次的计算阶段,第一个微批次经历组合通信步骤。这种流水线方法能够实现全对全通信与正在进行的计算的无缝重叠,确保GPU始终得到充分利用。 # 2.1.2 模型技术的影响 领先的开源或闭源模型一般已经支持了上述能力,部分模型提供了上述能力的一定范围内调优。因此模型层面的重点在于获取、协同、使用、以及在一定情况下的后训练。 获取模型一般通过访问商用大模型,或者基于开源模型打造私域大模型,基于开源模型,可进一步通过量化、剪枝、低秩分解(LoRA),蒸馏等压缩技术,选择和部署与使用场景更加适配的模型。大模型和小模型可以在同一体系中使用,采用智能体协同或者基于类似MOE架构采用选择网络的方式访问。 # 2.2 AI框架:智能时代的操作系统 AI框架在AI技术体系起到基础性、系统级支撑的关键作用。首先AI框架承上启下,贯通技术生态,如同“智能时代的操作系统”,南向适配多样化硬件算力(如GPU/TPU/国产芯片),北向支撑算法创新与应用开发。并且AI框架可以工程化赋能,提升开发效率。简化开发流程:封装神经网络层、优化器等组件,减少重复编码,支持快速原型设计。优化性能与部署:内置硬件加速、模型量化,实现从训练到端边云部署全面赋能。并且可以通过其广泛支撑作用,成为构建创新生态的基础。 AI框架中与基础设施关联较大的是训练框架和推理框架。训练框架典型代表包括微软发起的Deep-Speed,而推理框架则有开源的vLLM,SGLANG等。此外还有模型框架、智能体框架等与任务更加相关的框架。 # 2.2.1 训练框架 训练框架典型代表是DeepSpeed。DeepSeed通过一系列优化创新,降低大规模模型训练的门槛,提高效率和易用性。 内存优化:ZeRO(Zero Redundancy Optimizer)旨在消除传统数据并行中存在的内存冗余。一般的数据并行会在每个GPU上复制完整的模型参数、梯度和优化器状态,限制了可训练的模型规模。而ZeRO通过将这些状态分区(Partitioning)到数据并行的各个GPU上来解决这个问题,并支持模型参数、梯度(G)和优化器状态(OS)等不同层级的分区。 并行策略:各类并行策略:各种并行技术的优化(DP,Data parallel数据并行,TP Tensor Parallel张量并行,PP,Pipeline Parallel流水线并行,EP expert Parallel专家并行)。而3D(PTD)并行可以结合数据并行、流水线并行和张量并行的3D并行策略,以实现更好的模型规模和训练效率。 混合精度:混合精度可以将部分与数值稳定性关联密切的组件保留高精度如FP16的基础上,对前向传递、激活反向传递,权重反向传递等数值采用FP8精度。在保持整体精度的前提下降低资源需求。Deep-Speed支持对参数、激活值等对象进行量化,以压缩模型规模,提升训练效率。量化主要面向模型权重、KV值、激活值,并且可以结合使用,例如Quantization:e.g.权重INT8,激活FP16. # 2.2.2 推理框架 推理框架典型代表是vLLM和SGLANG 分阶段KV缓存优化:推理优化的核心挑战在于高效管理KV缓存。KV缓存是自回归解码的关键,但其大小动态增长且占用大量GPU显存,成为限制并发处理和系统吞吐量的主要瓶颈。此外,推理过程通常分为两个阶段:预填充(Prefill)和解码(Decode)。Prefill阶段通常并行计算初始KV缓存,计算密集。Decode阶段则逐个生成输出Token,通常访存密集。对于交互式应用,首个Token延迟(Time To First Token, TTFT)和每个输出Token的时间(Time Per Output Token, TPOT)都很重要。 多种注意力机制优化:推理框架包括VLLM,SGLAN等,vLLM关键技术例如PagedAttention。它借鉴了操作系统的虚拟内存分页机制,将KV缓存逻辑上划分为固定大小的块(Pages),物理上则按需动态地从预先分配的物理块池中分配非连续的内存块。较好的解决了内存碎片问题。SGLANG则提出了RadixAttention与vLLM等引擎通常在请求结束后就丢弃KV缓存不同,RadixAttention维护了一个全局的、跨所有请求共享的KV缓存。在多轮对话中,历史对话部分的KV缓存可以被后续轮次复用。 预测采样:较小模型提供初步解码,大模型确认。由于确认是生成速度的5倍,因此大小模型配合时较小模型可以以较快速度生成TOKEN,而大模型如果生成则速度较慢,但是大模型可以用较少的时间进行验证,整体上即提供了质量保证又加快了生成速度。 # 2.2.3 其他框架 # III 模型框架 模型框架包括闭源和开源的框架体系,其中开源的pytorch,Tensorflow占有主流地位。 PyTorch:支持动态计算图,灵活适配各类模型(如Transformer、CNN),学术界首选,提供torch(nn.Module模块化接口,便于自定义模型结构,并兼容Hugging Face等生态。 TensorFlow:早期依赖静态图优化,2.x版本支持动态图,工业界主流,内置Keras API简化模型构建,支持TPU加速及TensorFlow Serving部署,适合大规模生产。 # 智能体框架 Dify:低代码平台,支持多模型(如GPT、Llama3),内置RAG管道和可视化工作流,适合快速构建企业级AI应用(如客服机器人、知识库问答)。 AutoGen:微软开源的多智能体框架,支持LLM(如Gemini)协作,通过角色化Agent(如编码/审核Agent)完成复杂任务(如自动化测试、数据分析)。 # 2.3 从数据管理、开发、探索到世界模型 在应用AI技术方面,数据起着重要的基础作用。主要面临两个方面的挑战。 # 2.3.1 模型生命周期数据需求 传统机器学习(ML)领域:数据和模型工作同步开展。基础训练基于任务领域高质量数据,相同任务不同环境下,模型需要对环境作出适配。当模型用于相似但不同的领域需要相应的数据训练来支撑泛化迁移。当面模型面对任务领域的新数据,表征分布发生漂移,需要持续学习。 大模型(LLM)领域:包括基于预训练模型结合零样本、领域知识、后训练微调、RL推理增强等不同适配场景。零样本即无数据使用大模型。可能只要丰富问题描述prompt、极少量示例数据等。领域知识则可能包括多模态知识数据,并且要做好的Embedding。后训练微调时基于一定规模样本数据,一般带标注,可能含AI合成数据。RL推理增强需要一定规模高质量样本数据。 # 2.3.2 私域数据开发 对预训练大模型来说,通用数据逐渐耗尽,但私域数据开发利用刚刚开启。在建设企业级大模型知识库时,现有知识的准确高效全面理解,知识体系之间的相互关联和联合确认非常重要。为此,采用适当的Embedding长度、缺失数据的合成、用户的数据定制化,基于图技术的知识体系关联建立都是比较重要的方面。 # 2.3.3 新数据探索和世界模型 新数据的探索主要是加强通过世界模型感知获得数据,因此未来部分数据将可以通过计算获得,算力和数据一定程度上可互换。批量合成数据、强化学习动态探索数据将成为重要的数据运用形态。基于数据动态探索的方式,世界模型的概念往往作为数字孪生的下一阶段形态。体现出数据的系统性,从生成式AI时代,支持一种“生成”数据的机制-即“世界模型”。 当前世界模型建模重点是提升物理世界建模水平。通过原生多模态统一架构统一Token空间,通过新型多模态视觉Tokenizer,将图像、视频、文本编码为同构tokens,形成模态无关的表征。跨模态映射通过端到端推理链实现多模态指令到多模态结果的直接映射。而物理时空推理建模物理对象的动态交互(如预测物体运动轨迹、场景状态演化)。具身智能赋能层,为机器人提供环境理解与任务规划能力例如:识别货架物品并规划抓取路径。 # 2.4 智算中心(AI-DC)网络: 从Scale up到Scale out # 2.4.1 算力集群和多场景扩展 单卡算力无法满足(千亿、万亿、10万亿参数)大型模型发展的算力需求,千卡,万卡,10万卡级别的大规模算力集群不断出现,并且在训练和推理不同场景下产生多样化的并行化和云边协同等需求。构建这样的集群和分布式体系,需要大带宽、大规模、高吞吐、无损高性能、高弹性、高可靠的网络。从架构上,数据中心网络以两级、三级Fat-tree CLOS,Dragonfly,Torus(谷歌数据中心TPU Pod使用)等方案在性能和代价之间取得平衡。算力节点向外scale out网络则通过RDMA等技术,从功能上加强负载均衡和流量控制。例如DeepSeekV3就通过部署多平面两层Fat-Tree网络来替代传统的3层Fat-Tree拓扑结构,实现了经济高效的AI基础设施。 # 2.4.2 AI训推对AI-DC的需求 # //各类并行技术 由于模型规模大,层次多,算力要求高等原因,需要各类并行技术如数据并行、模型并行(如流水线并行)、张量并行、专家并行、混合并行等技术,在每轮迭代中同步模型参数、层间激活值等。模型训推的各种并行策略将产生不同的网络影响。如TP张量并行往往产生较高的GPU内部通信需求,需要比如NVLink这样的超高GPU互联带宽提供支持。数据并行时各个GPU之间需要各种分布式、并行计算的集合通信例如all-gather, all-reduce等通信,一般需要节点和算力中心之间的RDMA的通信支持。MoE动态路由通过多GPU专家并行(EP)实现分布式部署时,通过All-to-All通信同步激活状态。专家并行一般体现在软件层面,对通信架构相对影响较小,但需要处理好专家负载不均衡问题。 各种并行策略中流水线并行(PP)对网络影响较大。Transformer不同层之间的关系在执行上可以认为是流水线并行关系。对于微调级训练,通过流水线并行,将transformer的前几层或前后几层部署在边缘,数据在本地,通过本地与中心的训练流水线配合,微调数据量可控,通过参数面进行通信。从推理角度,也可以开展同样的部署。这种情况下,由于本地只处理流水线一小部分,边缘算力需求降低,而中心与边缘之间的流水线之间具有神经网络流量,产生通信需求。需要广域RDMA技术支持。 # 3 云边协同技术 宏观层面的中训边推、云边协同。通过宏观的任务级分类,模型训练或高精度大计算量的任务由中心执行,边缘执行相对简单的推理任务。边缘往往部署更小的蒸馏模型。边缘与中心的关系可以是相对独立,协同更新:例如在边缘部署的蒸馏小模型,当场景发生变化时可将推理生成数据回流至中心大模型进行训练调整,或者是根据每次任务按照任务特征进行路由或者像谷歌Google Gemini Nano采用基于置信度路由的方式进行选择。或者像Apple PCC对云边之间的数据进行压缩传输。 # PD分离技术 PD分离推理、是一种重要的推理优化方案。针对大模型推理阶段的异构资源需求解耦。将计算密集的Prefill(预填充)阶段与内存密集的Decode(解码)阶段分离,部署到不同类型的硬件上(如Prefill用高算力GPU,Decode用高带宽内存设备)。目标是解决两阶段资源争抢问题(如Prefill阻塞Decode)、优化延迟和吞吐量。PD分离可以与其他并行技术结合进行。例如全局采用PD分离(Prefill/Decode异构部署) $\rightarrow$ Prefill节点内部使用张量并行(TP) $\rightarrow$ Decode节点内部采用流水线并行(PP)。PD之间需要传送中间隐变量和KV Cache,根据具体的部署配置通过基于scale up或scale out技术的网络进行通信。 # AI-DC Scale up和Scale out技术体系 Scale up和Scale out技术提供了从1cm到100km+广阔空间尺度上的高速无损网络连接。 在Scale up方面,NVLink、UALink、OISA等技术提升单节点内设备间带宽与协同效率,提供百纳秒级迟延,适用于GPU间内存共享、张量并行、专家协同等场景的GPU互联。 在Scale out方面,RDMA技术以零拷贝(避免内存复制)、内核旁路(减少CPU开销)、传输卸载(网卡硬件加速)等特性使RDMA在跨节点/数据中心场景下保持微秒级延迟。RDMA技术包括IB、RoCE、UEC、GSE等。 # 2.4.4 网络对AI流量控制能力 # AI流量特征 AI流量具有周期性、单流大、流量少等特点。周期性是指AI训练通信模式(如梯度聚合ALL-Reduce)周期发生,爆发大量通信。单流大即GPU之间数据交换(如梯度、权重)数据量巨大,形成非常宽的大象流”。而流量少表现为相比传统数据中心大量、细碎的TCP短连接,AI训练时GPU间通信流数量相对较少。 传统负载均衡在AI流量条件下容易导致少量大象流和通信关系固定,某些链路被少量大象流填满,而其他链路空闲,导致整体吞吐下降,拥塞。 # ///网络的负载均衡能力 AI训练的核心通信原语是集合通信算子(ALLReduce、ALLtoALL、ALLGather等),不同算法实现下,它们产生的流量模式差异巨大。网络负载均衡需“理解”这些算子和算法,智能地选择优化的路径组合来承载这些流量。进一步的,AI训练任务的流量模式在任务启动时通常是可预测或可感知,网络应建立“流量模型”,用以在所有可用的网络路径中进行全局优化,找出均衡承载该模型通信量的合理方式。同时,AI网络中基于流的负载均衡在面对少量大流时会失效。如果将一个大流的数据包拆散,根据更细粒度进行更全面的调度,并有序整合可以更好的利用网络能力。 # 流量控制能力 流量控制能力的核心目标是在网络已经发生或即将发生拥塞时,避免因丢包造成的性能断崖式下降,确保AI模型训练流量的低时延和无损传输。AI训练的同步性和通信密集性使其对网络延迟和丢包极其敏感。因此要求支持比如PFC(Priority-based Flow Control)等流控技术,通过监控交换机出口端口优先级队列缓存并适时向上游发送设备(例如源GPU所在的TOR交换机或源服务器网卡)发送拥塞控制信号。此外,还需要进一步的提供PFC死锁预防、自动解除等机制。 # 2.5 深度神经网络和NetGPT # 2.5.1 极致性能 5G/6G无线、核心网、IP和光网络 AI作为赋能技术应用于网络由来已久,在经典机器学习时代,机器学习模型就被广泛应用于网络运营和维护分析。随着硬件加速的发展,算力门槛的跨越,模型的轻量化结构及量化压缩,低时延的要求也推动了更多网元级部署场景。AI在网络中的位置从“外挂”到“内生”演进。更多的机器学习和AI模型不但在运维、自智网络等分析领域广泛使用,也被用于无线网络设备、核心网络设备、光和IP网络等,对网络技术体系开展全面的AI赋能。 # 建模赋能方法 以无线网络为例,在不同网络的典型AI赋能体系一般可以分为数据采集层、模型训练层和推理执行层。数据采集层:标准化数据接口,统一收集UE测量报告(RSRP/RSRQ/SINR)、基站负载、信道状态信息(CSI)、业务流量等。模型训练层:根据任务类型选择监督学习(如分类、回归)或无监督学习(如聚类)。推理执行层:部署轻量化模型至近实时RIC(处理时延<1秒的任务)或非实时RIC(处理长期优化)。 # 物理层不完备机理建模 建模的典型场景可以基于物理层不完备机理(信道模型等)模型,如物理层传播模型,AI-RAN可以通过模型/Agent原生支持多场景UC;建模用户、感知难以建模领域(Sentiment,Semantics),例如元宇宙xURLLC的服务设计和KPI;发挥网络优势,建模多尺度时空关联(temporal-spatial attention)应用于通感,光纤通感一体等将通信延伸到感知的技术。 # 时空关联建模 在无线网络中,利用时空关联进行时空联合建模具有重要意义。时间维度上可以采用LSTM或Transformer模型捕捉信道质量、用户移动轨迹的时序特性。例如,预测未来10秒的CSI时,输入包含历史CSI序列和终端速度。空间维度上可以结合图神经网络(GNN)等建模基站间拓扑关系,优化负载均衡策略。 # III迁移学习 基于经典机器学习、包括深度神经网络训练的模型,针对不同部署环境下数据的差异性,或者多厂商设备异构性等情况,需要通过迁移学习基于本地数据对原有模型进行微调训练。 # 2.5.2 大模型穿透各种场景,全面赋能 # 大模型NetGPT 传统模型尽管在特定领域特定任务上具有良好表现,但是适应不同的场景及变化需要不同的模型以及大量的适配工作。使得模型往往只能做点状部署而不能大规模的得到充分应用。 一种有效的方法是借助大模型智能体的自主感知规划执行能力。在广泛的网络领域应用大模型,并以大模型自主智能管理传统模型全生命周期。因此将产生大模型、智能体、大算力穿透基础设施,在各种网络形态中广泛的支持训练和推理加速,赋能业务。具体场景首先包括各类经典机器学习(小模型)。也包括接入通用大模型,大模型代理/智能体、或者专业推理模型LLM及其智能体。业界也提出NetGPT,主要负责网络层面的大模型支持,并且可以与云端的通用大模型配合工作。NetGPT可以基于语言大模型进行领域微调,或者基于领域Token进行定制。 还有一种场景是采用大模型transformer的技术模块,如注意力机制模块等,用于目标问题的长程关联建模等任务。提供传统机器学习并不具备的新能力。 # 2.5.3 AI-RAN尝试和趋势 既然在网络设备上原生的形成了以大模型为底座,各类模型充分发展的态势,那么AI可以从三个方面发展: - AI模型+算力对原有RAN网络功能在某些情况下的替代 - 在RAN侧直接运行面向上层业务更加通用的AI工作负载 - 不需要AI模型,直接对原有的网络功能考虑采用AI算力(大规模并行计算)执行。 这方面典型例子是英伟达的AI-RAN。英伟达的AI节点包括CPU和GPU,在其GPU上已经开始支持以上三种方式,比如TDD层1,Massive MIMO,以及部分层2功能如调度加速(cuMAC, cuPHY)。部分不适合GPU的可以部署在CPU处理。 # 2.6 Agentic AI: 从知行合一到数实融合 # 2.6.1 Agent构建AI赋能体系 Agent智能体是一种基于大语言模型的自主智能系统,能够通过感知环境、规划目标、调用工具、执行行动,调用记忆,完成复杂任务。它突破了传统AI的被动响应模式,具备面向任务目标的的主动思考和行动能力。它可以通过ReAct(Reason-Act)先推理思考后行动的方式,通过COT方式将复杂任务分解规划为多个执行步骤,它可以接受反馈,基于反馈决定行为策略,还可以通过Reflection方式对过去的行为和结果进行反思,用以后续的优化。Agent在各种业务中具有广泛前景和价值潜力,不但可以从流程运营的角度承担整个业务流程和具体的每个业务子流程,也可以从产品的角度,将产品功能体系映射到智能体体系,从而实现模块级和产品级部署,使智能体成为原生产品内部功能模块。 # 2.6.2 智能体通信网络 基于MCP,A2A,ANP等技术实现智能体的通信,Agent通信网络可以推动南北、东西方向的数据和能力加速赋能代理型AI。而Agent作为新的用户可以与后端资源通过MCP进行互动。A2A一般用于组织内的智能体之间通信。ANP扩展到更广泛的去中心化网络,使智能体能够发现彼此并进行安全的多方协作。以构建一个开放的“智能体社会网络”。 智能体需要各种数据和能力资源来完成任务。API是Agentic AI能力基石;AI则对API进行了全新赋能。实现更加智能的API使用,例如,可以基于检索的方法将LLM作为控制器,自主编排任务规划;或者基于生成的方法通过微调LLM,使LLM学习根据说明选择工具。 # 2.6.3 Agent赋能数智化转型 基于智能体代理对世界模型的精确感知,规划和执行行动,运用工具,自主探索任务,体现“算-数”互动无限推演,可以助力长尾流量挖掘,工具API整合以及跨平台协同引流。Agentic AI作为新的用户,将AI智能从LLM类型的信息供需关系升级为基于Agent的职责和能力的全面授权。Agent的智能来自LLM,除了基座大模型,Agent也可以使用领域专用的推理模型进一步提升效果。也可以对接多样化的模型,或者根据任务的不同,激活不同的MOE专家,或者接入不同的大模型。 在模型的泛化能力基础上,基于智能体通过对企业针对性的业务训推本地化,专业数据信任化,AI加持下企业可以快速行动,专业壁垒将在一定程度上打破。根据企业不同的信息和应用系统,智能体在明确职责,清晰数据边界等约束下,在例如市场营销、设计研发、生成制造、客户服务等不同领域构建智能体体系。将原有的组织架构、工作流通过智能体体系进行延展、扩充和增强。在提升效率的同时,保障可靠性、可观性、合规性、和持续演进性。 # 2.6.4 物理和具身智能体 物理和具身智能体包括智能终端、智能汽车、人形机器人等。具身智能在实体产业如制造业等领域具有广泛前景。物理和具身智能体由于需要与实体世界互动,需要处理的模态更多,因此会使用MLLM这样的多模态大模型作为大脑,它接收自然语言指令(如“搬移工件”),构建动态场景图,生成原子任务序列(“抓取物品 $\rightarrow$ 放置到桌面”)。更进一步的对于复杂对象,可能先需要对可操作区域感知,识别物体可交互区域,然后进行轨迹预测,生成操作路径。具体动作执行则需要VLA这样的模型接收原子任务(如“抓取物品”),结合实时视觉输入,生成低层控制信号(如关节扭矩、轮速等)。 同时,物理和具身智能身处物理环境中,其发展加速需网络配合,5/6G+TSN时间敏感网络时延压缩至 $\mu$ s级,提升具身智能动作精度,保障场景落地。而基于算网协同,则可以大幅减轻机器人本体的硬件负担与成本,以更强的算力支撑起更复杂、持续的实时环境感知与思考。物理和具身智能体未来可能形成复杂多智能体协同,而多智能体通信和协同决策需要网络赋能交互能力。 # 战略思考 01 聚焦7个重点战略方向 02 全面推进AI战略实施 # 3.1 聚焦7个重点战略方向 多年以来,随着机器学习、AI技术的不断发展,诺基亚与全球和国内运营商、互联网大厂、企业广泛合作,深度参与了AI与ICT融合发展历程。两年以来,以大模型为代表的AI技术和产业生态经历了扩展律和新摩尔定律下快速发展和演进的时期。AI渗透的广度和深度前所未有,更关键的是,AI对ICT基础设施提出了系统性的挑战和需求。当前部分AI技术阶段性收敛,AI赋能逻辑逐渐清晰,立足当前,思考未来AI发展,通信/ICT与AI的融合发展在重重挑战中投射出诸多创新发展机遇。 图2 AI与ICT协同发展的战略重点 # 战略引领 把握时代背景下AI和ICT融合发展方向,持续夯实AI+6CMQ总体发展战略根基。6CMQ代表6G/算力网/工业智能体/量子技术,是诺基亚贝尔的总体技术发展战略。通过AI与6G、数据中心网络、新型工业化、量子计算等技术领域的深度融合、全向赋能,推动业务机会、产业发展。 # 6G-AI创新研究 在6G、光网络领域开展AI相关创新研究,包括6GMassiveMIMO,光量子芯片、无线LLM、6GSAC等细分域技术优势。 # // 数字化转型GenAI“深度融合” 通过打造AI算力、模型、数据、框架、智能体应用基础平台,为数智化转型深度融合提供支撑,并逐步开展对外部业务的AI能力支撑。 # 生态合作与标准推动 结合标准组织、打造AI领域的发展环境。借力生态伙伴平台,协同和扩大AI相关产业生态合作。 # AIDC 牢牢把握AI时代数据中心内部与外部各类AI并行技术、分布式部署和训推优化导致的AIDC技术需求,结合AI执行逻辑,AI流量和集合通信模式,提供优化的基础网架构模式,scale up/scale out无拥塞无损网络连接,智能AI网络流控技术。大力发展增强AI能力支撑从1cm到100km+宽广空间上的网络架构、功能和技术。 # AI-RAN 深度挖掘价值场景,基于AI赋能方法创新探索具有显著网络价值或效率提升的场景。从物理层非完备模型建模和网络时序序列、时空复杂关系建模等关键领域,采用机器学习、深度神经网络、大模型NetGPT等赋能。探索A-RAN computing。 # 高阶自智 建立智能体体系,系统性的推动现有业务流程和能力向高阶自智网络演进,通过专业化推理模型提升业务精度,通过智能体闭环设计提升业务适应能力,通逐步以智能替换人力,并为后续业务从升级维护到新业务创新发展的全生命周期提升效率和效果。 # 工业智能体 面向新型工业化,打造工业场景下的具身智能与企业数字化生产的任务流、数据流、物理对象的深度融合,通过具身化AI工业智能体,结合无损专网等场景AI基础设施,推动具身智能的工作执行、任务适配、灵活部署,并提升能耗效率和任务精度。 # 3.2 全面推进AI战略实施 # 3.2.1 系统规划演进路线 在聚焦战略重点的基础上,还需要面向更广阔的AI与ICT融合发展空间及发展未来,根据自身情况,向下夯实数据和模型基础,向前系统规划演进路线,向上与市场和生态加强对接。实现从战略引领->创新驱动->生态合作->能力发展->产品研发->市场部署的端到端可持续战略闭环。 # 3.2.2 夯实数据和技术基础 数据领域:发挥大数据领域的优势,加强对企业和运营商领域数据的赋能。帮助企业合作伙伴开发私域数据,并且通过实体、具身世界感知互动采集数据,将实体世界数据与仿真领域数据相结合,利用生成式AI,推动更广泛数据的生成和建模,推动高价值的新数据开发并用于模型训练和优化。 模型领域:通过对选择的商用模型和定制的开源模型和多种算力部署及网络支撑,实现多样化模型能力和模型来源的支持。并通过通信行业、工业制造等不同领域模型后训练和推理时计算等能力不断提升模型的实际使用效果。充分利用训练和推理框架技术,将模型和算力、网络基础设施结合训练和推理的部署场景,实现更优化的模型部署、运行的效率和效果。逐步融合QML量子机器学习技术。 算力方面:通过综合GPU,ASIC不同技术、基于NVIDIA、国产芯片的不同来源,云上和本地部署等多种方式,缓解算力瓶颈。结合业界GPU+QPU算力协同发展趋势、探索对QPU新型算力的运用。 # 3.2.3 加强市场和生态对接 市场发展:以AI与ICT融合发展战略为引领,多业务部门协同面对市场提供AI相关的整合方案,在AI DC方案体系中综合AI/DC/Networking等多方面资源,面向多场景提供整体方案。加强AI-RAN拓展工作。在工业智能体等新兴领域加强关键市场合作,并在专网市场等广泛领域寻找更多客户。 标准推动:继续推动推理加速、多模态大模型,代理型人工智能(智能体)、在数据、模型、算子等层面的关键技术标准化工作,并重点关注数据中心、数据与AI相关领域规范,如AI计算数据中心横向扩展Scaleout网络技术要求;智算中心面向预填充解码(PD)分离架构大模型推理等。 产业合作:在AI快速发展、产业融合的时代,面对新的参与力量大量的加入,把握未来必然需要深度参与。通过参与AI产业联盟,生态合作平台等,线上线下广泛开展合作,在深刻理解大模型、智能体、量子机器学习等AI发展领域与ICT协同发展的本质需求,打造面向未来的能力。 # 总结与展望 AI发展浪潮已经到来。以中、美、欧为代表的全球力量主导AI的不断加速发展。尤其是中美竞争下形成“东”、“西”两大生态呈现出各自鲜明特点。美国以规模法则(Scaling law)驱动模型扩大,以新摩尔定律筑基算力增长,在消费、生产端广泛推动AI赋能。在中国AI发展体系中,国家在长期规划、政策指引、推动AI赋能产业发展等方面发挥重要作用。在这样的宏观环境下,全球AI产业、市场近年来取得重要进展和前所未有的发展广度、深度和速度。美国的星际之门(stargate)项目规模庞大,Google Gemini,OpenAI GPT, Meta Llama, xAI Grok等模型实力强劲。英伟达在GPU,谷歌在TPU等算力领域具有极大影响力。而国内AI领域的DeepSeek, Qwen, Kimi等模型也处在全球领先地位,在集群化算力、产业数据资源、应用场景等方面具有坚实基础和领域优势,并在具身智能领域发展迅猛。欧盟则通过《人工智能大陆行动计划》,以将欧洲建设成为全球人工智能领域领导者为目标,在众多细分领域产生出了一批有全球影响力的企业。 新摩尔定律继续推动着AI算力及其关联的新型网络的有力增长,中美算力竞争已经将智算中心/数据中心推进到Eflops( $10^{\wedge}18$ )级别以上的规模,美国最大规模算力中心(xAI)已经达到200 Eflops级别。扩展律在模型方面表现为首先是预训练主导阶段的规模化、然后是以强化学习为特征的后训练阶段,模型能力随着强化学习探索的增长持续优化的现象。扩展律开始增加向“后训练“和“推理时计算”拓展,体现出从「数据驱动」转向「推理驱动」的特点。 对于我们特别关注的ICT,AI直接影响着网络数据流量。市场对今后几年AI以Token为特征的流量增长预测充满信心。事实上AI对于ICT产业有着更加深远的影响。在AI大潮下,整个社会和产业链都在思考与这场潮流的关系,如何避免远离发展的中心,如何把握重要的发展机遇。芯片厂家以万亿级的规模,首先立足和把握着AI发展的关键基础设施。各类业务应用则纷纷通过基于AI的业务重构参与其中。对网络基础设施而言不只是用户流量层面的网络AI流量的增长和演变,更重要的是,在深度解构AI计算和通信要素的关系的基础上,深刻认识到AI带来内部围绕神经网络的“神经网络流量”对网络的冲击,这也表明,我们正从“内容通信“时代向“任务执行”时代演变,而网络数据流量特征将在“网络流量”基础上增加”神经网络流量”高阶模式。 AI和ICT天然有着密切的关联,作为一种通用赋能手段,它可以与ICT领域的专业知识、特定挑战相结合,使之成为包括网络基础设施、网络运维和运营在内各种系统和业务加速发展的重要赋能手段,面向领域的AI建模可以基于建模物理层不完备机理(信道模型等)模型、如物理层传播模型。对传统模型,一种有效的方法是借助大模型智能体的自主感知规划执行能力。在广泛的网络领域应用大模型,并以大模型自主智能管理传统模型全生命周期。AI-RAN的探索更明确的提出三种模式,AI模型+算力对原有RAN网络功能在某些情况下的替代;在RAN侧直接运行面向上层业务更加通用的AI工作负载;以及直接对原有的网络功能采用AI算力(大规模并行计算)的方式。 而随着模型参数、算力规模的持续突破,模型训练为提升速度和效率需要高可扩展性,以有效地利用不断增长的GPU/ASCI集群。这样,AI技术也就同时需要应对更大规模的通信挑战,保持良好的计算和通信扩展效率。随着AI使用的推广和加深,推理将成为最常见的场景。推理加速随着各类任务的表现愈发突出,应用外延持续扩展,硬件载体从数据中心、到边缘数据中心、到端侧数字设备,模型推理优化、算法加速和算力加速成为关键需求。从模型推理效率的角度,需要最大化硬件资源,包括计算资源和内存带宽的利用率。并且实现推理性能的高吞吐量和低延迟。数据中心互联及广域无损网络赋能模型训推将成为重要需求和场景实现要求,这些技术需求将汇聚到AI-DC技术体系下系统规划和发展。 Agent智能体是一种基于大语言模型的自主智能系统,它突破了传统AI的被动响应模式,具备面向任务目标的的主动思考和行动能力。智能体就像是具有自主能力的用户,需要访问各种资源,并与其他智能体对话和组成群体,因此就有MCP,A2A,ANP等智能体通信能力。Agentic AI作为新的用户,将AI智能从LLM类型的信息供需关系升级为基于Agent的职责和能力的全面授权。业界提出未来每个企业的的每位员工都可以有一个智能代理。物理和具身智能体包括智能终端、智能汽车、人形机器人等。具由于物理/具身智能更广阔的扩展人类认识和改造世界的范围,因而对于未来业务发展和市场拓展具有重要意义。从更宏观的层面上,中国移动提出物理与具身智能是碳基与硅基协同进化的理念。 数据领域的变革和重构重点首先是私域数据开发,在建设企业级大模型知识库,加强对现有专业领域知识的准确高效全面理解,知识体系之间的相互关联。未来新数据的探索主要是加强通过世界模型感知获得数据,很多数据将可以通过计算获得,算力和数据一定程度上可互换。批量合成数据、强化学习动态探索数据将成为重要的数据运用形态。 面向未来演进,目前基于Transformer架构的连接主义方法将如何发展,是否会有瓶颈?由于AI发展的速度和不确定性,很难预测具体的技术,但是近期仍然是对Transformer架构的各种优化,而长期看,连接主义(神经网络)、符号主义(抽象推理)、行为主义(互动学习)三大方向各自突破并有融合具有较大的可能性。另一方面,仿生神经符号系统的类脑智能有可能提供生物级能效的模型智能。此外,量子计算与量子机器学习将在AI演进中承担重要的角色。在算力增长路线上,除了GPU算力规律增长,基于量子计算的GPU开始成为未来的重要方向。基于量子计算结合AI模型的量子机器学习,将在特定关键任务,例如通过将Token以适当的方式与量子结合,可以在广泛的领域上提供处理能力的指数级飞跃。 多年以来,ICT产业的全球和国内通信厂商、互联网大厂、企业广泛竞合,深度参与了AI与ICT融合发展历程。近年来,经历了以大模型为代表的AI技术和产业生态扩展律和新摩尔定律下快速发展和演进,以及AI对ICT基础设施系统性的挑战,在一个AI快速发展、产业融合的时代,面向AI和ICT融合发展参与和合作比竞争更加重要,传统的竞争也在AI大潮下突围演变。面对新的参与力量大量的加入,把握未来必然需要深度参与。 这场AI的革命通过聚焦战略重点,面向广阔的AI与ICT融合发展空间及发展未来,结合自身情况,向下夯实数据和模型基础,向前系统规划演进路线,向上与市场和生态加强对接。实现从战略引领->创新驱动->生态合作->能力发展->产品研发->市场部署的端到端可持续AI发展战略闭环,让AI成为发展的新引擎。 # 缩略语 缩略语 英文全称 中文全称 LLM Large Language Model 大语言模型 MLLM Multimodal Large Language Model 多模态大模型 VLA Vision-Language-Action Model 视觉语言行动模型 CUDA Compute Unified Device Architecture 统一计算设备架构(NVIDIA GPU并行计算平台) QPU Quantum Processing Unit 量子处理器 FLOPS Floating Point Operations Per Second 每秒浮点运算次数 MLA Multi-head Latent Attention 多头潜在注意力机制 MoE Mixture of Experts 混合专家模型 LoRA Low-Rank Adaptation 低秩适配/低秩分解 GRPO Group Relative Policy Optimization 分组相对策略优化(一种强化学习方法) ZeRO Zero Redundancy Optimizer 零冗余优化器 DP Data Parallel 数据并行 TP Tensor Parallel 张量并行 PP Pipeline Parallel 流水线并行 EP Expert Parallel 专家并行 KV Key-Value Cache 键值缓存(用于注意力机制中) PD Prefill, Decode 预填充与解码阶段 VLLM Virtual Large Language Model 虚拟大语言模型(推理框架) SGLAN Sequential Generative 序列生成语言无关网络(一个推理框架) Language Agnostic Network TTFT Time To First Token 首个Token延迟 TPOT Time Per Output Token 每个输出Token的时间 CLOS Clos Network 无阻塞交换结构 RDMA Remote Direct Memory Access 远程直接内存访问 NetGPT Network-GPT 网络预训练大模型 CoT Chain-of-Thought 思维链 (Chain of Thought) MCP Model Context Protocol 模型上下文协议 A2A Agent-to-Agent 智能体到智能体协议 ANP Agent Network Protocol 智能体网络协议 # 参考资料 [1]新质生产力-诺基亚贝尔 [2] EpochachAI.EpochAI官方网站,https://epoch.ai [3] 2025年人工智能指数报告 [4]2025十大AI技术趋势-智源研究院 [5] 中国移动董事长杨杰在2025MWC的讲话