> **来源:[研报客](https://pc.yanbaoke.cn)** # 2025 # “人工智能+”行业发展蓝皮书 " Artificial Intelligence + " Industry Development 上海交通大学安泰经济与管理学院 上海交通大学行业研究院 “人工智能+”行业研究团队 2025年3月 主编:史占中、陈晓荣 校阅:周辰、张晔、窦玉梅、孙崇理、刘香港 整合排版:刘香港 引言:全球化视野看人工智能(史占中、王计登、窦民) 第1章AI大模型:实现通用智能的重要桥梁(窦民) 第2章AI数据:驱动智能时代的核心引擎(李薇、商富凯、管航) 第3章AI算力:支撑智能进化的底座(王计登、窦玉梅、刘香港) 第4章 AI赋能相关产业领域的典型应用场景 4.1 AI赋能未来制造业的应用场景(章明根) 4.2 AI赋能未来信息产业应用场景(窦玉梅、王计登) 4.3 AI赋能未来材料产业应用场景(张弛、刘香港) 4.4 AI赋能未来能源产业应用场景(董密尔) 4.5 AI赋能未来健康产业应用场景(许蕾、窦玉梅) 4.6 AI赋能未来空间产业应用场景(张晔、刘香港) 4.7 AI赋能未来金融服务业创新实践(黄志锋) 4.8 本章结语 (刘香港、张晔) 第5章 AI赋能行业应用案例 5.1 AI赋能制造行业应用案例(章明根、刘子昱) 5.2 AI赋能信息科技行业应用案例(王计登、窦玉梅、刘香港) 5.3 AI赋能材料行业应用案例(刘香港) 5.4 AI赋能能源行业应用案例(董密尔) 5.5 AI赋能健康医疗行业应用案例(许蕾、窦玉梅) 5.6 AI赋能空间行业应用案例(刘香港、张晔) 5.7 AI赋能金融行业应用案例(黄志锋) 第6章 国内外人工智能产业政策及趋势分析(孙玉贝、肖耀、丁紫玉、孙崇理、周辰) 第7章 人工智能发展伦理和治理框架 7.1 人机关系和伦理问题(屈杰) 7.2 AI数据和隐私保护(林玉岚) 7.3 AI内容安全和虚假信息(辛咏琪) 7.4 AI知识产权和责任归属(周辰) 全球正在见证一场由人工智能驱动的“技术—经济”范式重构。人工智能作为拥有自我进化能力的通用赋能技术,正以指数级创新速度突破“技术-经济-社会”的三重边界,其影响力已超越传统ICT技术的历史坐标系,展现出重塑人类文明进程的史诗级能量。人工智能的技术路径和产业生态尚处于不断演变的阶段,未来可能会出现新的主导技术路线,赋能行业发展也将带来更多可能性。 人工智能与前沿技术产业领域,如先进制造、量子计算、生命科学、新材料、新能源等加速融合,将催生出更多新的科技和产业赛道。本报告旨在梳理人工智能发展现状与趋势,并通过对相关产业领域主要应用场景与典型案例的跟踪研究,深入剖析AI在行业深度应用中面临的问题与挑战,希望为政府主管部门和相关行业企业提供决策参考,共同探讨AI如何助推传统产业转型升级,引领未来产业创新发展。 # 目录 # 引言:全球化视野看人工智能 1 一、人工智能的起源与范式演进 1 二、技术突破与全球竞争格局 2 三、国际合作与治理框架 2 四、社会影响与伦理挑战 2 五、未来方向:可持续与普惠发展 3 本章参考文献 3 # 第1章AI大模型:实现通用智能的重要桥梁 4 1.1 国内外大模型技术发展态势 4 1.2 浅析大模型的核心技术 5 1.3大模型技术发展趋势展望 10 1.4结语 11 本章参考文献 11 # 第2章AI数据:驱动智能时代的核心引擎 15 2.1 模型突破推动数据需求升级 15 2.2驱动因素推动数据生产革新 17 2.3 技术演进推动数据生态重构 19 2.4全球竞争推动数据战略迭代 20 2.5 结语 22 本章参考文献 22 # 第3章AI算力:支撑智能进化的底座 25 3.1上游:AI算力硬件基础层 25 3.2 中游:算力软件服务层 29 3.3下游:算力应用场景层 30 3.4算力发展现状与挑战分析 32 3.5 算力发展趋势与方向 35 3.6 结语 37 本章参考文献 38 # 第4章AI赋能相关产业领域的典型应用场景 40 4.1 AI 赋能未来制造业的应用场景 40 4.2 AI 赋能未来信息产业应用场景 43 4.3 AI 赋能未来材料产业应用场景 46 4.4 AI 赋能未来能源产业应用场景 ..... 50 4.5 AI 赋能未来健康产业应用场景 57 4.6 AI 赋能未来空间产业应用场景 61 4.7AI赋能未来金融服务业创新实践 68 4.8结语 74 本章参考文献 76 # 第5章AI赋能行业应用案例 80 5.1 AI 赋能制造业应用案例 ..... 80 5.2 AI 赋能信息科技行业应用案例 ..... 82 5.3 AI 赋能材料行业应用案例 84 5.4 AI 赋能能源行业应用案例 88 5.5 AI 赋能健康医疗行业应用案例 90 5.6 AI 赋能空间行业应用案例 94 5.7AI赋能金融行业应用案例 97 本章参考文献 100 # 第6章 国内外人工智能产业政策及趋势分析 ..... 103 6.1 人工智能治理困境与监管沙盒 ..... 103 6.2 国内人工智能产业政策及环境分析 ..... 105 6.3 国际人工智能整体产业政策 ..... 108 6.4 未来政策趋势 ..... 109 6.5 结语 110 本章参考文献 111 # 第7章 人工智能治理与伦理 ..... 112 7.1 人机关系和伦理问题 ..... 112 7.2 AI数据和隐私保护 117 7.3AI内容安全和虚假信息 122 7.4AI知识产权和责任归属 126 7.5 结语 130 本章参考文献 131 # 引言:全球化视野看人工智能 人工智能(AI)的全球化发展正以前所未有的速度重塑技术、经济与社会结构。这一进程不仅体现为技术突破的加速、 $\mathrm{AI}+$ 产业变革,更涉及国际合作、治理框架的构建以及伦理风险的平衡。以下从多维度解析 AI 全球化发展的关键趋势与挑战。 # 一、人工智能的起源与范式演进 人工智能的学科起源可追溯至1956年的达特茅斯会议[1],约翰·麦卡锡(John McCarthy)、克劳德·香农(Claude Shannon)、马文·明斯基(Marvin Minsky)等著名学者首次明确提出了“人工智能”的概念,通过计算机模拟人类智能,实现语言理解、抽象推理和自主问题解决。 随后,人工智能的技术范式先后历经了从规则、统计再到深度神经网络驱动的三个发展阶段历程。20世纪60至80年代,规则驱动范式主导了AI发展,“符号主义”主张根据人类专家知识的规则库进行推理和决策。90年代后,统计学习范式崛起,贝叶斯网络、支持向量机等算法通过数据驱动模式优化参数,推动垃圾邮件过滤、搜索引擎排序等应用落地,标志着AI从“人工定义规则”向“基于数据进行学习和推理”的范式转移。 公众广为熟知的是现在所处的AI发展第三阶段——深度神经网络。2012年成为AI发展的重要分水岭。杰弗里·辛顿(Geoffrey Hinton)凭借深度卷积神经网络AlexNet[2]在李飞飞组织的ImageNet竞赛中以压倒性优势击败传统方法,标志着人工智能进入了深度学习时代。这一突破背后是神经网络、数据和算力三大要素的融合,卷积神经网络通过自动学习特征,其效果超越了手工设计的特征,海量数据为算法提供了文本、图像、语音等多模态燃料,大规模并行计算使得训练数十亿参数模型成为可能,重塑了AI研究的范式。2017年Transformer架构[3]的提出更是革命性里程碑——自注意力机制不仅解决了长序列建模难题,还催生了GPT、BERT等大语言模型,使自然语言理解的准确率超越人类基线。至此,深度学习完成了从实验室理论到产业基石的华丽转身,驱动聊天机器人、智能客服、医疗影像分析、自动驾驶、具身智能等场景的规模化落地。 纵览过去七十年间人工智能的发展历程,技术演进始终贯穿着符号主义、连接主义与行为主义[4]的哲学张力。符号主义追求具备可解释性的规则推理;连接主义主张通过模拟人脑神经元的连接方式来实现人工智能;行为主义则强调通过试错与交互来优化行为。与此同时,我们可以清晰地看到,人工智能的重大突破往往源于未知前沿的探索精神、基础理论(如Transformer的数学建模)与工程实践(如分布式训练框架)的协同共振,众多胸怀大志之人正在通往人工智能的道路上全力书写下一个辉煌篇章。 全球人工智能产业发展历程如下图: 图1全球人工智能发展脉络 # 二、技术突破与全球竞争格局 全球AI技术呈现多极化竞争态势,美国、中国、欧洲等国家和地区通过大型模型研发与政策扶持争夺主导权。如,美国企业OpenAI、谷歌和xAI公司持续推出GPT、Gemini及Grok等系列模型,提升多模态能力与计算效率;中国企业月之暗面的Kimi、字节的豆包、腾讯的混元以及阿里的通义系列等模型表现出显著竞争力,尤其是深度求索公司DeepSeek发布的开源模型以高性价比引发关注;法国Mistral公司推出高速生成的开源助手Le Chat成为“欧洲之光”。与此同时,各国政策支持力度持续加大,如美国“星际之门”项目计划投资5000亿美元建设AI基础设施,欧盟则通过“投资人工智能”倡议调动2000亿欧元推动超级工厂建设。 # 三、国际合作与治理框架 技术发展的全球化特征要求超越地缘政治的合作。2025年巴黎人工智能行动峰会签署《关于发展包容、可持续的人工智能造福人类与地球的声明》,强调开放、透明、安全等原则,呼吁建立全球治理体系[5]。中国积极参与国际对话,推动《全球人工智能治理倡议》和联合国相关决议,倡导技术普惠与风险共担。如清华大学人工智能国际治理研究院提出,需通过国际标准制定、数据共享和技术转移缩小“AI鸿沟”,避免技术垄断加剧全球不平等。 # 四、社会影响与伦理挑战 AI的普及在提升生产效率(如医疗诊断、农业管理)的同时,也会引发结构性风险。如,生成式AI可能加剧就业市场的两极分化,高收入国家更易受益于技术红利,而发展中国家因基础设施滞后面临边缘化风险。伦理问题同样突出,包括算法偏见、隐私侵犯及超级智能失控的可能性。国际学界呼吁加强AI伦理研究,将人类价值观嵌入技术设计,并通过跨学科合作(如法律、社会学)构建适应性治理框架。 # 五、未来方向:可持续与普惠发展 AI的可持续发展需兼顾能源效率与社会公平。当前大模型训练的高能耗问题(如ChatGPT单次训练耗电量达家庭数月用量)促使业界探索绿色计算与低资源算法。此外,普惠应用成为关键议题,如中国通过AI赋能基层医疗和传统产业数字化转型,展示了技术下沉的潜力。WTO报告预测,若全球均衡应用AI,2040年前贸易增速可翻倍,但需通过国际合作消除数据流动壁垒与本地化政策限制。 # 本章参考文献 [1] 国务院发展研究中心国际技术经济研究所,中国电子学会,智慧芽.人工智能全球格局:未来趋势与中国位势[M]. 北京:中国人民大学出版社,2019. [2] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25. [3] Vaswani A, Shazier N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30. [4] Yann Le Cun. 科学之路:人,机器与未来[M] 李皓,马跃,译.北京:中信出版集团,2021. [5] 中国、法国、印度、欧盟在内的60个国家和组织,《关于发展包容、可持续的人工智能造福人类与地球的声明》[EB/OL]. https://my.ambafrance.org/Statement-on-inclusive-and-sustainable-artificial-intelligence-for-people-and # 第1章AI算法“大模型”:实现通用智能的重要桥梁 # 1.1 国内外大模型技术发展态势 当前大模型开辟了通用人工智能技术演进的新路线,正在深刻改变人类社会生产生活。大模型是当前科技发展的制高点,也是中美科技竞争的焦点。 OpenAI公司作为本轮人工智能革命的领军者,其早期研发团队是Transformer[1]架构首创者和Scaling Law[2]的坚定信奉者及实践先驱。自2022年11月推出现象级产品ChatGPT[3]以来,该企业通过持续突破不断重塑行业认知,产品上线两个月用户破亿,展现通用人工智能的早期雏形;次年4月问世的GPT-4[4]在律师资格统考等专业测试中超越 $90\%$ 人类考生,9月系统升级实现视觉与语音交互[5],奠定多模态认知基座,推动教育个性化与客服智能化深度变革。OpenAI技术迭代在2024年迎来爆发期,2月视频生成模型Sora突破动态语义理解瓶颈[6],开启AI内容创作新纪元;下半年连续推出o系列推理模型[7],通过分层认知架构实现复杂决策推理;2025年初推出支持复杂研究任务的Deep Research功能,发布的GPT-4.5[8]更号称在认知维度实现飞跃,其万亿级参数模型不仅构建起迄今为止人类知识最完整的数字镜像,更在情感计算与共情交互领域取得突破。 除了OpenAI,美国的Anthropic、Google、Meta以及xAI等企业都在大模型领域持续发力,逐渐形成了“OpenAI领跑,Anthropic、Google和xAI追赶,Meta开源”的竞争态势。Anthropic初创团队出自原OpenAI,专注于安全和伦理。2023年3月,Anthropic发布第一版Claude[9],宣布与ChatGPT展开直接竞争。2024年3月,发布Claude $3^{[10]}$ 增强数学和编程能力。6月推出Claude3.5 Sonnet[11]平衡性能和能力,提升用户体验。2025年2月推出Claude3.7 Sonnet[12],首度引入混合推理模型,用户可选择快速响应或逐步推理。Google一直致力于AI领域的创新,2023年2月发布Bard[13]作为ChatGPT的竞争者。2023年11月,Gemini $1.0^{[14]}$ 正式发布,接棒Bard成为继任者。2024年2月推出Gemini1.5Pro[15],采用MoE架构,扩展上下文长度。2025年2月,推出Gemini $2.0^{[16]}$ ,上下文长度达到200万token,多模态能力进一步强化。xAI由Elon Musk创立,迅速成为AI领域的后起之秀。2024年2月开源Grok-1[17],促进社区合作和提高透明度。2024年8月发布Grok2[18],提高模型性能。2025年2月向大众免费提供Grok3[19],在思维推理上提升显著,并推出DeepSearch功能。在大模型方面,Meta扮演的角色专注于开源AI模型,推动社区合作和创新。2023年2月,开源Llama[20],成为很多大模型研究的基座。2024年7月,发布的Llama $3.1405\mathrm{B}^{[21]}$ 是当时最大开源AI模型,能力媲美商业模型。12月又开源Llama $3.3^{[22]}$ ,以70B参数量媲美405B性能。 中国AI大模型的发展也受到全球AI热潮的推动,2023年是关键转折点,各大科技公司和初创企业开始推出自己的大语言模型,号称“百模大战”,主要参与者包括百度、阿里、字节、腾讯、商汤、华为,以及“AI大模型六小虎”(零一万物、稀宇科技、月之暗面、阶跃星辰、百川智能、智谱华章)。2023年3月,百度发布文心一言[23],成为中国首个AI聊天 机器人。8月阿里开源发布Qwen系列[24],成为早期开发者社区的重要资源,8月发布Qwen-VL[25],可以感知文本图像。12月,百川开源Baichuan2[26],数学和逻辑推理、复杂指令跟随能力提升显著。2024年竞争加速,3月月之暗面宣布Kimi支持200万token上下文[27],4月商汤发布日日新 $5.0^{[28]}$ ,9月阿里开源Qwen2.5[29],支持多模态,最大模型参数量72B。10月,智谱发布智能体AutoGLM[30],支持手机、网页和电脑端操作。2025年1月稀宇科技-Minimax开源发布MiniMax-Text-01和MiniMaxVL-01[31],支持400万token上下文窗口和多模态功能。随后,阿里发布Qwen2.5-Max[32]和Qwen2.5 VL[33],在语言和多模态上体现了对标国外顶尖模型的能力。 与此同时,以上海人工智能实验室为代表的中国科研机构也在大模型领域展现了自己的优势。该实验室构建了书生通用大模型体系,涵盖多模态、语言和视频生成能力。2021年发布国内首个通用视觉大模型书生 $1.0^{[34]}$ ,2023年推出语言大模型浦语 InternLM[35],并率先实现开源和免费商用。2024年,开源浦语 $2^{[36]}$ 在200K长上下文中大海捞针表现卓越;图文大模型InternVL[37]以1/3参数量实现ViT-22B性能,升级版的InternVL 1.5[38]表现接近GPT-4 Vision水平。进一步,多模态大模型书生·万象 $2.0^{[39]}$ 首创渐进式对齐训练,实现与GPT-4o和Gemini 1.5 Pro媲美的性能。浦语 $3.0^{[40]}$ 以4T数据训练出高性能模型,万象2.5成为首个MMMU得分超 $70\%$ 的开源模型[41]。在视频生成方面,2023年全球首发开源文生视频DiT模型Latte[42],2024年推出筑梦2.0实现分钟级4K视频生成[43]。 2025年初,AI领域最炙手可热的现象级公司莫过于深度求索(DeepSeek)。它发布了两款具有里程碑意义的模型:DeepSeek-V3混合专家(MoE)大语言模型[44]和DeepSeek-R1推理模型[45]。这一模型组合通过系统性的工程创新,显著提升了全球大模型研发的效能基准。据业界有关团队估计DeepSeek-V3在训练阶段仅消耗278.8万H800GPU小时(折合557.6万美元),采用2048卡集群配置实现行业领先性能,该训练成本可能约为行业平均水平的 $1 / 20\sim 1 / 15$ ,显示出DeepSeek在计算资源利用率上的重大突破。DeepSeek-R1作为首个开源推理模型(Reasoning Model,即以逻辑和系统的方式进行思考,利用证据和过往经验来得出结论或作出抉择),通过强化学习在复杂推理任务上达到了与OpenAI o1模型相当的性能,形成了“训练-推理”双引擎驱动的技术架构。 DeepSeek的技术演进成功突破了传统的“算力军备竞赛”模式,通过开源模型架构和高效训练方法,推动了AI技术的普惠化,打破了大模型仅被OpenAI、Meta和Google等巨头垄断的“神话”,降低了行业准入门槛,对硅谷和华尔街,乃至全世界AI产业产生了显著冲击。随着国内科研团队在大模型领域的不断创新,全球AI竞争格局正在重构。 # 1.2 大模型的核心技术 近年来,以Transformer架构为代表的生成式预训练大模型正在重塑人工智能的技术版图。这些具备千亿级参数以上的智能系统不仅展现出惊人的语言理解与生成能力,更在跨模态交互、复杂推理等维度持续突破认知边界。大模型的技术体系庞大,发展更是日新月异, 本节将试图用比较通俗的语言来解构支撑大模型发展的核心技术体系:首先剖析Transformer架构的自注意力机制如何突破传统神经网络的序列建模瓶颈,奠定大模型的基础骨架;继而揭示"预训练-微调"范式与强化学习的协同作用,解读模型如何通过海量数据预训练获得通识能力,再经由领域适配实现专业化转型;重点探讨交互提示工程对模型认知对齐的关键价值,以及推理时间扩展技术如何突破模型固有思维框架;最后聚焦扩散模型等新兴技术如何推动生成质量跃升。这些技术模块共同构建起大模型的进化阶梯,使其逐步实现从数据驱动到知识内化、从通用应答到专业赋能的范式转变,正在重塑人机协作的智能新纪元。 # 1.2.1 大模型的基石:Transformer架构 人工智能研究者的一个理想,就是想让机器像人一样理解语言、看懂图片。Transformer架构是实现这个目标的关键技术之一。Transformer架构是现代大模型的核心,首次由Vaswani等人在2017年提出[1]。它通过多头注意力机制和位置编码处理序列数据,解决了传统循环神经网络(RNN)在并行处理和长距离依赖上的局限性。当前,Transformer已经成为大模型的首选架构。 Transformer 架构的优点来自: (1) 并行处理能力:传统的神经网络(比如 RNN)像一条流水线,必须按顺序处理数据,速度很慢。而 Transformer 可以同时处理所有数据,就像多条流水线一起工作,大大提高了效率。 (2) 长距离依赖:在一句话中,后面的词可能受到前面很远处的词的影响。Transformer能很好地捕捉这种长距离的依赖关系,让模型更好地理解上下文。 (3) 多头注意力机制:想象一下,你在阅读一篇文章,有些词语会特别吸引你的注意力。Transformer的“多头注意力机制”就像多个“注意力过滤器”,让模型能够同时关注输入数据的不同部分,从而更好地理解其含义。 Transformer目前在大模型中得到了非常广泛的应用。在语言模型上,Transformer是构建大语言模型(LLM)的基础,比如GPT系列。这些模型可以生成文本、翻译语言、回答问题等等。而在多模态大模型中Transformer不仅能处理文字,还能处理图像、音频等多种类型的数据。如,视觉Transformer(ViT)将图像分割成小块,然后像处理文字一样处理这些小块,从而实现图像分类、目标检测等任务。 # 1.2.2 模型的成长之路:预训练、微调和强化学习 训练大模型就像培养一个孩子,需要经历不同的阶段,学习各种知识和技能。通常情况下,训练分为三个主要阶段:预训练(Pre-training)、微调(Fine-tuning,FT)和强化学习(Reinforcement Learning,RL),后两者也常常被称为后训练阶段。 # (1) 预训练:打好基础 预训练是模型的初始阶段,目标是在大规模文本、图像等语料库上训练模型。预训练就 像让孩子读中小学,学习通用的知识和技能。在这个阶段,模型会在海量的数据上进行训练,学习语言、图像的模式、知识的结构等等。主要的预训练任务包括: 掩码语言建模(Masked Language Modeling,MLM):就像做完形填空,模型需要预测被遮盖的词语,从而学习上下文关系。 因果语言建模:让模型续写故事,模型需要预测下一个词语,从而学习生成文本。 下一句预测 (Next Sentence Prediction, NSP):就像成语接龙,模型判断两个句子是否连续,增强句子关系理解。 在多模态模型预训练中,主流的预训练任务还包括图像-文本匹配、掩码多模态建模等。 图像-文本匹配:模型需要判断给定的图像和文字描述是否匹配,从而学习跨模态的关联。 掩码多模态建模:类似于掩码语言建模(MLM),但应用于不同模态,模型必须预测序列中缺失的部分,如文本、图像补丁或其他数据类型,类似看图说话或者根据文本画图的游戏。 # (2)微调:培养特长 微调是将预训练模型适配到特定任务的过程,通常使用较小、任务特定的数据集,可以显著提升模型在下游任务如文本分类、问答和翻译上的表现。微调就像让孩子上大学,通过专业课学习特定的专业知识和技能。在这个阶段,模型会在特定的数据集上进行训练,以适应特定的任务。 通常情况下使用的技术是监督微调(Supervised Fine-tuning,SFT)。就像做练习题,模型会学习输入和输出之间的对应关系,从而学会生成特定的输出。如在聊天机器人开发中,SFT 可以帮助模型生成符合用户期望的回复。另一个技术是领域适配,为了让“通才”的大模型,成为某一个细分领域的专家,需要用专业数据改造通用模型,赋予他这个领域的特色能力。 # (3) 强化学习:从做题家到解题高手 就像学生通过大量做题积累经验,强化学习让大模型在模拟环境中不断尝试不同解题思路。每次尝试后,系统会给出评分(比如答案是否正确、解题步骤是否合理),模型根据这些反馈调整自己的思考方式。强化学习还可以通过“思维链”技术(Chain of Thought, CoT),让AI学会像人类一样拆解难题:先列已知条件,再分步骤推导,最后验证结果。这种训练让OpenAI的o1模型在国际数学竞赛中正确率从 $13\%$ 飒升至 $83\%$ 。 强化学习也可以让输出更符合人类偏好,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)是模型输出与人类偏好对齐的重要方法,让人类评价模型的输出,然后用这些反馈来改进模型。这就像让老师给学生打分,从而帮助学生进步。RLHF解决了模型输出安全性和实用性的挑战,特别是在对话系统和内容生成中,显著提升了用户体验。 当预训练数据不够时,强化学习能让AI自己创造训练场景。如AlphaGo一般,AI可以通过自我对弈生成新题目,像棋手“左右互搏”一样持续提升。在自动驾驶等实时场景中,强化学习让模型像老司机一样,根据路况动态调整策略,在动态、实时、交互中不断学习和进步。 # 1.2.3 让 AI 更懂人类:交互与提示技术 训练好的大语言模型就像一个刚入职的聪明实习生,虽然知识渊博但缺乏工作经验,需要通过清晰的“工作指导书”——提示词(Prompt)[2]——才能高效完成任务。这种指导方式主要有三大模式: 零样本学习:好比直接问实习生“用小学生能听懂的话解释万有引力定律”,无需提供任何案例,模型仅凭对任务的理解就能生成答案。这种方式适用于常识类任务,类似人类基于已有知识快速响应新问题。 少样本学习:好比案例教学,就像给实习生看几个优秀方案模板,模型通过2-5个示例就能掌握任务规律。这种技术特别擅长处理格式固定的任务(如邮件撰写、数据表格生成、客服回复等) 思维链提示:面对数学、代码这类复杂问题,让模型像学生写草稿纸那样逐步推理,改善复杂任务表现,避免直接跳转到错误结论。 提示工程的核心技巧在于“结构化表达”,通常包括角色设定、任务分解、格式规范、纠错机制等几个要素。提示词技术灵活性高,特别在资源有限的场景中表现优异,可以通过精心设计提示词最大化模型性能。当前提示工程师已经成为AI时代的热门职业之一。 # 1.2.4 突破思维局限:推理时间扩展 诺贝尔经济学奖得主丹尼尔·卡尼曼在著作《思考快与慢》[3]中提出人脑有两个思维模型:其中系统一基于直觉和本能,无需刻意思考,就能快速做出正确的决定;而系统二则基于理性思考,当遇到复杂问题的时候会理性地分析问题,花费更多的时间和努力再来做出决策。 传统的AI大模型(如GPT-4)的推理过程更接近系统——根据next token prediction,依赖预训练形成的知识直觉快速生成答案,但随着任务复杂度提升(如数学证明、代码优化),缺乏对复杂问题的分步验证和纠错机制,导致逻辑断层和事实幻觉,而且单纯扩大模型参数规模的边际收益也在下降,这个背景下推理时间扩展(test-time scaling,TTS)[4]通过赋予模型动态分配计算资源的能力,实现了从“直觉反应”到“深思熟虑”的范式转变。该技术的核心在于推理阶段的动态计算优化,包含三大创新方向: # (1) 多步推理迭代, 多动脑多想几遍 链式思考(Chain-of-Thought):就好像写草稿分步骤,做数学题时先假设条件再推导结论,模型就像用“<假设><结论>”的标签分步骤写草稿,边想边检查。 共识生成(Consensus):遇到难题时,让模型像小组讨论一样提出多个答案,然后投 票选最好的(比如5个答案里选出现次数最多的),或者用“评分老师”(奖励模型)挑出最优解。 搜索优化(Search):就像程序员写代码时,写完先运行看报错,再根据错误提示修改,反复改错直到做对。 # (2)计算资源动态调控,灵活控制思考时间 预算强制(Budget Forcing):类似考试时间分配,给模型设置“最长思考时间”,简单的题快速答完(用<final_answer>提前交卷),难题多想想(用<wait>标签继续思考)。就像考试时先做简单题,留更多时间给大题。 潜在空间推理(Latent Reasoning):心算代替笔算,有些思考不需要写出来,像数学高手在心里快速推算。某些模型用这种方法,1秒钟能处理近4000个词,比边写边想快3倍。 # (3) 强化学习驱动优化,学练测闭环迭代 两阶段强化学习训练:第一阶段重点训练“解题步骤规范”(比如数学符号不能写错),像老师盯着你改作业。第二阶段还要兼顾“回答是否有用”、“是否安全”,就像学霸不仅会解题,还要学会把知识讲明白。 过程奖励模型(Process Reward Model,PRM):大模型每想一步就有个“老师”打分,告诉它这一步对不对。就像做题时,每写一步就有人用红笔批改,及时纠正错误。 # 1.2.5 从通才到专家:专业能力增强 训练好的大模型尽管已经有了很强的世界知识,但是这些知识的实时性以及某个特定领域的专业度还存在欠缺,需要通过其他技术手段,进一步增强模型的知识和能力。 # (1) 知识检索增强:给模型装上“实时搜索引擎” 大模型训练数据截止后,知识会“冻结”(如不知道2025年的新政策)。通过实时网络搜索,在遇到问题时,模型会自动搜索最新资料。针对专业领域或私域数据,可以通过检索增强生成(Retrieval-Augmented Generation,RAG)[5]技术,通过向量匹配和语义理解,从专业数据库中精准提取信息。 # (2) 工具调用能力:让模型学会“用外挂” 尽管大模型的通用能力在不断提升,但在专业领域通常有很多专用工具,因此模型的工具调用能力就显得尤为重要。模型能够像指挥官一样,分解任务,选择合适的工具(如计算器、编译器、专业工具链),并整合输出准确的结果。2024年11月由Anthropic推出的开源协议MCP(Model Context Protocol,模型上下文协议),使AI应用能够安全访问和操作本地及远程数据,让AI模型与外部工具和数据连接,为AI应用提供了连接万物的接口。 # (3)多专家协同:组建“AI专家会诊团” 当存在多个领域模型的时候,可以让多个领域模型组合,形成“multi-agent”系统,完成复杂任务。就像在医疗咨询时,先由分诊模型判断科室,再转接专科模型进行专业诊断。2025年4月,Google开源首个标准智能体协议Agent-to-Agent(A2A),详细定义了一组标准端 点和响应模型,使得任何智能体 Agent 都可以采用此协议进行通信,聚焦于 Agent 之间的协作,消除技术栈之间的障碍。 通过类似MCP、A2A这些围绕AI系统构建的新技术的诞生,AI产业朝着协作而非对抗的方向进化。模型的专业性和实时性得到了显著提升,能够在各个领域提供更精准、实时和高效的支持。 # 1.2.6 从混沌到清晰:扩散模型 讲到人工智能生成内容(AIGC,即AI Generated Content;或国外亦称为GenAI,Generative AI),一个绕不开的话题就是扩散模型(Diffusion Model)[6]。 扩散模型的核心思想是通过逐步添加噪声来破坏数据(如图像),然后再通过一个学习模型逐步去噪,恢复出原始数据。想象一下,你有一张清晰的照片,然后你开始不断地往照片上撒细沙(噪声),越撒越多,照片就越来越模糊,最终完全变成了一堆随机的噪点。这就是正向扩散过程。扩散模型的目标就是学习如何逆转这个过程。也就是说,它要学会如何从一堆随机的噪点中,一步一步地把沙子(噪声)去掉,最终还原成一张清晰的照片。这就是逆向扩散过程,也叫去噪过程。 扩散模型在AIGC多个领域已经有了广泛的应用,大家最常见到的文生图模型,可以根据文字描述生成逼真的图像,比如Midjourney,DALL-E2,StableDiffusion等,还有视频生成模型,比如Sora、Pika、Runway、可灵等。此外还有音频/音乐生成、3D生成、图像修复和图像超分辨率等,扩散模型凭借高质量、多样性、可控性的生成能力,在各个领域都有着广泛的应用前景。 # 1.3 大模型技术发展趋势展望 首先是多模态融合和多模态涌现。自然界本身就是多模态世界,人类通过“眼耳鼻舌身意”来感知和认知世界,并且与这个世界交互。同样的,大模型正在从语言这一单一模态处理向深度融合的跨模态交互演进,实现文本、图像、音频、视频,乃至触觉、味觉、嗅觉等多维信息的联合理解与生成。多模态涌现,指的是当多模态大模型的规模(包括模型参数、数据量)以及多模态交互复杂度达到一定的临界点之后,会突然展现出跨模态的推理、泛化、生成甚至创造的能力。在大语言模型中,已经很好展示出了语言的智能涌现。而多模态涌现能力的实现,还有包括跨模态对齐、原生多模态模型架构、参数和数据的规模效应、跨模态信息的互补和增强在内等的技术难关等待攻克,值得人们继续发掘和探索。 其次,是高阶的推理能力,解决真实复杂任务。主流的大模型已经几乎穷尽了互联网上的文本知识,称其为“上知天文,下知地理,中晓人和,明阴阳,懂八卦,晓奇门,知遁甲”可能也不为过。最新的模型在代码、数学等推理任务上也展示了强大的性能,但是面对真实世界的复杂任务时候,还不能很好地“运筹帷幄之中,决胜千里之外”。除了进一步扩充高阶数据的规模、质量和多样性,还需要突破“思维链推理-强化学习”的技术难点和规模化瓶颈,让模型自我学习和自我迭代,真正让推理能力具备泛化性,结合领域适配和垂直场景强化, 做好安全对齐和幻觉抑制,这样大模型才能在更多的场景落地开花。在科学智能上,大模型正在成为科学智能的底座,赋能科学家加快实现科学发现。在工业智能领域,大模型可以深入参与工业生产的“设计开发-生产制造-销售服务”的全流程,为新质生产力发展提供新动能。 最后,我们也应该看到,除了大模型,还有诸如世界模型、空间智能、具身智能、群体智能、神经符号结合等多种新技术和观点在科学界涌现,实现通用人工智能(AGI)的技术路径可能并不是单一的,我们也期待有更多更新的技术范式出现加速通用人工智能时代的到来,并且可能比我们原来预料的更快。 # 1.4 结语 大模型技术作为当前实现通用人工智能的主流技术路线,已成为全球科技领域最具前沿性和战略意义的赛道之一。从国际到国内,参与者众多,竞争异常激烈。美国的科技巨头如OpenAI、Google、Meta等凭借强大的算力基础、数据资源和算法创新,持续引领着大模型的发展潮流。令人欣喜的是,中国的科研创新力量在大模型技术的发展中正扮演着越来越重要的角色,以DeepSeek等为代表,中国众多的科技公司、初创企业以及学术机构正加速追赶,用原始创新和开源模式打破欧美的技术垄断,并在部分领域实现超越。这种全球范围内的技术角逐不仅推动了大模型性能的快速提升,也使得相关技术迭代空前发展。 然而,我们也必须清醒地认识到,通用人工智能的技术路径尚未完全收敛,大模型虽是当前的主流方向,但未必是唯一解法。大模型技术本身也在快速演进之中,正在从堆砌算力和数据的竞赛转向更高效、更灵活的架构设计。大模型面临的诸多核心挑战,如模型的可解释性、能耗效率、伦理风险等,仍需持续攻关。此外,诸如神经符号AI、量子计算与AI的结合、生物启发式计算等新兴技术路径,也提供了多样化通用人工智能技术探索可能。这种未收敛的状态既是挑战,也是机遇,它鼓励全球科研人员和产业界不断尝试新的思路和方法。 展望未来,中国人工智能发展不仅需要技术层面的持续突破,还需在国际合作与竞争中找到平衡点。对于中国而言,抓住这一历史性机遇,如持续加强国家政策支持、加大基础研究投入、培养跨学科人才、推动开源生态建设、完善产学研协同机制,将是实现持续不掉队甚至弯道超车的关键。对于全球人工智能发展来说,唯有通过开放协作、成果共享,才能加速通用人工智能实现,造福人类社会。 # 本章参考文献 # 1.1 国内外大模型技术发展态势 [1]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30. [2]Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020. [3]OpenAI. ChatGPT[EB/OL]. OpenAI, (2022-11-30)[2025-03-06]. https://openai.com/index/chatgpt/. [4]Achiam J, Adler S, Agarwal S, et al. Gpt-4 technical report[J]. arXiv preprint arXiv:2303.08774, 2023. [5]OpenAI. GPT-4V[EB/OL]. OpenAI, (2023-09-25)[2025-03-06]. https://openai.com/contributions/gpt-4v/ [6]OpenAI. Sora[EB/OL]. OpenAI, (2024-02-15)[2025-03-06]. https://openhaai.com/sora/ [7]OpenAI. O3 Mini[EB/OL]. OpenAI, (2025-01-31)[2025-03-06]. https://openai.com/index/openai-o3-mini/ [8]OpenAI. GPT-4.5[EB/OL]. OpenAI, (2025-02-27)[2025-03-06]. https://openai.com/index/introducing-gpt-4-5/ [9]Anthropic. Claude[EB/OL]. Anthropic, (2023-03-14)[2025-03-06]https://www.anthropic.com/news/introducing-claude [10]Anthropic. Claude 3[EB/OL]. Anthropic, (2024-03-04)[2025-03-06]https://www.anthropic.com/news/claude-3-family [11]Anthropic. Claude 3.5 Sonnet[EB/OL]. Anthropic, (2024-06-21)[2025-03-06]https://www.anthropic.com/news/claude-3-5-sonnet [12]Anthropic. Claude 3.7 Sonnet[EB/OL]. Anthropic, (2025-02-25)[2025-03-06]. https://www.anthropic.com/news/claude-3-7-sonnet [13]Google. Bard: Google's AI Search Updates[EB/OL]. Google Blog, 2023-02-07[2025-03-06]. https://blog.google/technology/ai/bard-google-ai-search-updates/. [14]Team G, Anil R, Borgeaud S, et al. Gemini: a family of highly capable multimodal models[J]. arXiv preprint arXiv:2312.11805, 2023. [15]Google. Google Gemini Next Generation Model: February 2024 Update[EB/OL]. Google Blog, (2024-02-15)[2024-05-06]. https://blog.google/technology/ai/google-gemini- next-generation-model-february-2024/ [16]Google. Google Gemini AI Update: December 2024[EB/OL]. Google Blog, (2024-12-03)[2024-05-06]. https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/ [17]xAI. Open Release of Grok-1[EB/OL].xAI, (2024-03-17)[2025-03-06]. https://x.ai/blog/grok-os [18]xAI. Grok-2 Beta Release[EB/OL].xAI, (2024-08-13)[2025-03-06].https://x.ai/blog/grok-2. [19]xAI. Grok-3 Beta[EB/OL].xAI, (2025-02-19)[2025-03-06].https://x.ai/blog/grok-3. [20]Touvron H, Lavril T, Izacard G, et al. Llama: Open and efficient foundation language models[J]. arXiv preprint arXiv:2302.13971, 2023. [21]Dubey A, Jauhri A, Pandey A, et al. The llama 3 herd of models[J]. arXiv preprint arXiv:2407.21783, 2024. [22]Meta. Model Cards and Prompt Formats for Llama3[EB/OL].Meta, (2024-12-06)[2025-05-06]https://www.llama.com/docs/model-cards-and-prompt-formats/llama3_3/. [23]百度云. 文心智能体平台-文档中心[EB/OL]. (2023-11-15)[2025-03-06].https://agents.baidu.com/docs/develop/model/ERNIE.Bot_introduce/ [24]Bai J, Bai S, Chu Y, et al. Qwen technical report[J]. arXiv preprint arXiv:2309.16609, 2023. [25]Bai J, Bai S, Yang S, et al. Qwen-vl: A frontier large vision-language model with versatile abilities[J]. arXiv preprint arXiv:2308.12966, 2023, 1(2): 3. [26]Yang A, Xiao B, Wang B, et al. Baichuan 2: Open large-scale language models[J]. arXiv preprint arXiv:2309.10305, 2023. [27]极客公园.Kimi智能助手支持200万字无损上下文,月之暗面大模型长文本新突破 [EB/OL]. (2024-03-20)[2025-03-07].https://hub.baaS.ac.cn/view/35888. [28]商汤科技. 率先完成"云、端、边"全栈布局!大模型性能对标GPT-4 Turbo,商汤日日新 SenseNova 5.0全面升级[EB/OL].(2024-04-23)[2025-03-06]. https://www.sensetime.com/cn/news-detail/51167729?categoryId=72. [29]Yang A, Yang B, Zhang B, et al. Qwen2.5 technical report[J]. arXiv preprint arXiv:2412.15115, 2024. [30]Liu X, Qin B, Liang D, et al. Autoglm: Autonomous foundation agents for guis[J]. arXiv preprint arXiv:2411.00820, 2024. [31]MinimaxMiniMax-01开源[EB/OL].Minimax, (2025-01-25)[2025-03-06].https://www.minimaxi.com/news/minimax-01-%E7%B3%BB%E5%8 8%97 [32]Qwen.Qwen 2.5 Max[EB/OL]. Qwen, (2025-01-28)[2025-03-06].https://qwen-ai.com/2-5-max/ [33]Bai S, Chen K, Liu X, et al. Qwen2. 5-VL Technical Report[J]. arXiv preprint arXiv:2502.13923, 2025. [34]Shao J, Chen S, Li Y, et al. Intern: A new learning paradigm towards general vision[J]. arXiv preprint arXiv:2111.08687, 2021. [35]Team InternLM. Internlm: A multilingual language model with progressively enhanced capabilities[EB/OL].(2023-9-27)[2025-03-06].https://github.com/InternLM/InternLM-techreport/blob/main/InternLM.pdf [36]浦语团队.书生·浦语2.0正式开源 [EB/OL].(2024-1-17)[2025-03-06].https://www.shlab.org.cn/news/5443847 [37]Chen Z, Wu J, Wang W, et al. Intervl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks[C]/Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024: 24185-24198. [38]Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. Science China Information Sciences, 2024, 67(12): 220101. [39]InternVL. InternVL 2.0[EB/OL]. (2024-07-02)[2025-03-06]. https://internvl.github.io/blog/2024-07-02-InternVL-2.0/ [40]INTERNLM. InternLM[EB/OL]. (2025-03-01)[2025-03-06]. https://github.com/InternLM/InternLM?tab=README-ov-file#model-zoo. [41]Chen Z, Wang W, Cao Y, et al. Expanding performance boundaries of open-source multimodal models with model, data, and test-time scaling[J]. arXiv preprint arXiv:2412.05271, 2024. [42]Ma X, Wang Y, Jia G, et al. Latte: Latent diffusion transformer for video generation[J]. arXiv preprint arXiv:2401.03048, 2024. [43]Fan W, Si C, Song J, et al. Vchitect-2.0: Parallel transformer for scaling up video diffusion models[J]. arXiv preprint arXiv:2501.08453, 2025. [44]Liu A, Feng B, Xue B, et al. Deepseek-v3 technical report[J]. arXiv preprint arXiv:2412.19437, 2024. [45]Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025. # 1.2 浅析大模型的核心技术 [1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30. [2] Sahoo P, Singh A K, Saha S, et al. A systematic survey of prompt engineering in large language models: Techniques and applications[J]. arXiv preprint arXiv:2402.07927, 2024. [3] 卡尼曼 D. 思考, 快与慢[M]. 胡晓姣, 李爱民, 何梦莹, 译. 北京: 中信出版社, 2012: 20-25. [4] Muennighoff N, Yang Z, Shi W, et al. s1: Simple test-time scaling[J]. arXiv preprint arXiv:2501.19393, 2025. [5] Lewis P, Perez E, Piktus A, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks[J]. Advances in neural information processing systems, 2020, 33: 9459-9474. [6] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695. # 第2章AI数据:驱动智能时代的核心引擎 # 2.1 模型突破推动数据需求升级 # 2.1.1 驱动人工智能进化的“燃料” 人工智能模型的发展史,本质上是一部“数据需求进化史”。从早期人工输入规则和知识图谱的符号主义(Symbolic AI),到深度学习时代让机器从海量数据中挖掘数据特征和规律,再到如今的大语言模型和多模态模型对数据规模、类型和质量的系统性重构,每一次模型的技术突破都伴随着对数据需求的重新定义。 一方面,是对数据数量的需求变化。以Transformer架构为例,其自注意力机制在理论上突破了传统RNN/CNN局部感知的局限[1],随之而来的就是对数据需求的指数级增长。比如GPT-3的训练数据量约 $45\mathrm{TB}^{[2]}$ ,相当于数个国家级图书馆的藏书量;多模态模型CLIP则需处理4亿对图文数据[3],相当于200万本图画书。这种“模型越复杂,数据越要吃撑”的强耦合关系,被Hoffmann等人[4]称为"Chinchilla Scaling Law”——模型参数和数据量应以相同比例增长的规律(佳数据量(Token数)约为模型参数量的20倍),才能实现最佳性能。 另一方面,是对数据质量的需求变化。随着大模型在语言理解和多模态领域的深入应用,高质量训练语料的重要性愈发凸显。除国外研究机构积极开源的训练数据集(如The Pile、C4、LAION-5B、ImageNet-21k等)外,国内研究机构也在积极打造面向大模型训练的大规模语料库。如,The Pile(EleutherAI):包含网络文本、学术论文、图书合集等,广泛用于GPT-NeoX等开源大模型的预训练,是开源社区中的高知识密度语料标杆;又比如,万卷语料库(WanJuan):由OpenDataLab联合多家机构推出的高质量训练语料系列,包括覆盖文本、图文和视频的万卷·多模态,以及面向通用基础能力的万卷·CC以及面向多语言的万卷·丝路系列;除此之外,谷歌团队提出的C4(Colossal Clean Crawled Corpus)和北京智源研究院发布的悟道语料库(WudaoCorpora)都为高质量训练语料奠定了重要基础。 庞大的规模和高维的质量,正在推动数据这个人工智能的“燃料”不断释放强劲动能。 # 2.1.2 从规模到价值的数据需求重构 当前大模型技术突破对数据需求的重构,可以从以下关键维度进行剖析: # (1) 数据质量的颗粒度从粗到细 传统监督学习模型(如 ResNet)依赖人工标注的“静态标签”(如 ImageNet 的类别标签),但大模型对数据的语义理解需求已从“类别判别”升级为“跨模态语义对齐”。如,多模态模型 PaLI 要求图文数据在像素、物体、场景、语义四个层级实现严格对齐[5]。同时,自监督学习的兴起使得数据必须包含足够的“隐式信息”——如,对比学习模型 SimCLR 要求原始单张图像可通过数据增强而生成多视角的图像[6],这些多视角的数据则是原始图像的“隐式信息”。 因此模型技术的迭代发展对原始数据的丰富性提出了更高要求。 # (2)数据模态的演变由单到多 大模型的数据需求正从单模态向多模态加速演进。早期模型(如BERT、GPT)仅依赖文本数据,通过语言模式学习语义,使用单一模态的数据会缺乏对现实世界的具象认知。多模态大模型(如GPT-4[7]、Flamingo)通过融合文本、图像、音频、视频等多模态的数据,构建不同模态之间的关联,模拟人类多感官协同的认知方式。因此模型技术的突破对原始数据的多样性提出了更高要求。 # (3) 训练数据的依赖由静到动 大模型落地面临的核心瓶颈之一是“知识冻结”——传统模型训练依赖离线静态数据,难以适应现实世界的动态变化。Meta开源的LLaMA采用了分阶段训练的方案,这为模型的应用落地产生更多灵活性,但是也要求数据的工程能力具备实时采集、清洗、去重能力。以金融领域为例,高频交易模型的训练数据需实现分钟级甚至更高频更新,并需要包括事件性的标签标记(如财报发布、政策变动的时间标记)。 # 2.1.3 数据需求变化牵引技术升级 模型突破引发的数据需求升级,正在倒逼数据生产链的技术重构。 # (1) 合成数据(Synthetic Data)的崛起 当真实数据难以满足模型需求时,合成数据则成为关键补充。NVIDIA的Omniverse平台通过物理仿真生成模拟的自动驾驶训练数据,其研究表明合成数据可将标注成本降低 $90\%^{[8]}$ 。然而,合成数据的“真实性鸿沟”(RealityGap)问题仍未完全解决——剑桥大学团队发现,过度依赖合成数据会导致模型在一些特殊场景下的边缘案例上性能下降[9]。 # (2)数据价值链的重构 传统数据标注产业(如通过人工对图像中物体进行边界框的标注)正被自动化工具取代。Google提出的"AutoML-Zero"方案可实现数据预处理流程的自动优化[10],而ScaleAI等企业则通过“人机协同标注”将标注效率提升3倍。这一变革的本质是数据的产生方式正从“劳动密集型”向“技术密集型”迁移。 # (3)隐私与合规的技术平衡 GDPR(欧盟《通用数据保护条例》)、CCPA(美国加利福尼亚州《消费者隐私法案》)等法规对数据使用的限制,迫使企业探索隐私计算落地新场景。联邦学习允许模型在非共享的数据上进行训练,但是其数据交互的通信成本高与异构数据处理困难的问题仍待突破。最新研究显示,差分隐私与联邦学习的结合可在保护数据隐私性和保障模型效果之间找到更佳的平衡。 # (4) 大模型中规模化法则(Scaling Law)的争议与现状 2020年,OpenAI在论文《Scaling Laws for Neural Language Models》[11]中提出,模型性能与计算量、数据量和参数量呈指数关系,即“大力出奇迹”的逻辑一度主导了大模型发展。过去十年,该定律支撑了以GPT系列为代表的模型技术突破。然而,随着性能提升放缓,学术界对其有效性产生分歧。争议本质指向数据瓶颈:互联网公开数据耗尽将导致传统预训练受限,但垂直领域的高质量数据与合成数据可能成为数据规模新的增长点。 AI模型的技术突破绝非孤立事件,其背后是数据需求从“量变”到“质变”的系统性升级。未来,数据将不再只是模型的“燃料”,而是驱动技术创新的“战略资产”。这一趋势对行业的核心启示在于:数据能力的构建必须与模型演进同步规划,任何脱离数据战略的技术路线图都将面临天花板效应。正如纽约大学教授Gary Marcus所指出的:“深度学习的天花板不是算力,而是高质量数据的可获得性。” # 2.2驱动因素推动数据生产革新 # 2.2.1 核心技术突破 大模型对数据规模、质量及多样性的需求升级正在倒逼数据生产技术的系统性革新。主要的数据生产技术体现在自动化、合成化与隐私化三个方面:自动化标注技术通过模型进行辅助标注,进而反哺数据生产,形成“模型-数据”闭环。例如,Google提出的SimCLR框架[1]利用对比学习自动生成标签,显著降低人工标注成本,ScaleAI的“人机协同标注”系统通过不确定性估计动态分配任务,效率提升 $300\%$ ;合成数据生成技术则在真实数据缺口场景下发挥重要作用,NVIDIA Omniverse通过物理仿真生成自动驾驶场景数据,而StyleGAN3生成的合成人脸在视觉真实性测试中表现优异[2];在隐私保护领域,联邦学习与差分隐私成为合规“标配”,蚂蚁链提出的“区块链+联邦学习"架构实现了跨境数据安全流转与可追溯。这些技术突破将数据生产从劳动密集型转向技术密集型,推动数据从采集到应用的全链条生产方式的革新,最终为大模型提供更可靠、更丰富的训练数据支撑。 # 2.2.2 大模型数据处理流程优化 大模型的高效训练离不开超大规模数据的高质量处理。从数据获取到标注,全流程均需要在规模、精细度与合规性之间取得平衡。以下四个阶段相辅相成,形成“大模型训练数据”的核心处理流程。 # (1) 数据去重 在大模型语料构建的初期,开发者往往会从网络爬取海量原始开放数据,或整合已有大规模数据集进行二次加工。在获取数据的基础上,要对重复数据进行去除,防止重复数据浪费存储和算力,或因模型过度拟合影响泛化性能。对多模态数据而言,还需结合特定的去重 算法防止数据视觉角度的重复。常见的去重方法如CommonCrawl采用算法过滤来快速判断网页是否已抓取[3],PaLM-2则结合语义相似度聚类来精确剔除重复文本[4]。 # (2)数据提取 数据提取包括网页类 HTML 数据的提取、文档类如 PDF 数据的提取等,目的是得到可被机器理解的自然语言,这一环节也是大模型数据处理的关键环节。在大模型场景下,“数据提取”不仅关乎文本可读性,更是对隐含结构、元数据以及多模态信息的深度挖掘。特别是 PDF 与 HTML 两种主流格式,对后续数据清洗、语义理解及模型训练有重大影响。 目前先进的文档布局理解与结构化建模通过视觉-文本多模态预训练,将版面信息(段落位置、字体、表格网格等)与文字内容共同编码,显著提升对段落合并、表格检测、公式识别等任务的抽取准确率。MinerU、Marker、Nougat等常用工具在复杂排版的文档、数学公式、表格内容识别和提取上为面向大模型的文档数据提供了高质量的语料基础。在HTML网页格式数据的抽取深度和动态性方面,较多前沿性研究在网页正文提取、噪声剔除、DOM树和与语义标记、跨页面整合等方面多有探索。 无论是PDF还是HTML,数据提取过程都直接影响训练语料的完整性、准确性与适用性。先进的文档理解模型、多模态预训练算法以及高可扩展的分布式数据管道,正在为大规模数据抽取提供新的路径。从全局来看,若在抽取阶段就能高效识别并剔除噪声、正确保留关键结构信息,将显著提升后续清洗、过滤与标注阶段的效率与质量。 # (3)清洗过滤 在获取并提取了海量文本或图像后,清洗与过滤是不可或缺的步骤。首先在不良内容过滤的方法上,GPT-4采用RoBERTa分类器过滤低质量文本[5],Google通过Perspective API基于BERT检测有害言论,准确率高达 $92\%$ [6]。其次,在内容主题与语言检测的方法上,针对多语言数据集(如Common Voice、Wikipedia Dump等),需要自动化检测并分割不同语言文本,以进行后续的分语种处理或多语种对齐。另外在数据分布一致性的检测上,当抽取到的数据分布与任务目标领域明显不符时,应及时进行抽样审查或统计分析,避免将不相关或噪声过多的数据注入训练集。 # (4)标注增强 为了进一步提升模型在特定任务中的性能,往往需要进行额外的标注与数据增强。这包括自动标注,即Meta的LLaMA通过掩码语言建模自动生成部分标签[7],T5模型利用知识蒸馏生成软标签[8];人机协同,即对于难度较高或模糊的样本,可通过不确定性估计将任务分配给人工标注员精修,提升整体标注质量;对比学习与数据增强,即在图像领域,SimCLR等对比学习框架能自动生成多视角图像;而在文本领域,可利用同义替换、反向翻译等技术增强样本多样性。 # 2.2.3 数据共享与协同 基于当前仍旧存在的合成数据的真实性鸿沟、隐私-效用平衡难题、多模态对齐成本高企等问题,未来可能的突破包括:高保真合成数据生成,即基于扩散模型的高保真图像/视频合成[9]有望弥补真实数据短板;零样本标注与提示词(Prompt)工程,即通过少样本或零样本的 Prompt 设计自动引导模型生成高质量标注[10],大幅减少人工参与;去中心化 Data DAO 生态,即利用区块链与加密技术构建分布式数据自治组织(如 Ocean Protocol),促进跨地区、跨机构的数据共享与交易;全球治理与标准化,即在国际层面需建立跨域数据流通标准(如 ITU AI 数据质量标准),并推进类似“一带一路”数据走廊的合作机制;在产业层面鼓励开源社区(OpenDataLab、ModelScope 等)共建新的数据平台与工具链。 数据生产技术的迭代不仅是工具的更新迭代,更是AI产业底层逻辑的深层重塑。实现大模型时代的可持续发展,需在技术自主化(国产化工具链)、生态协同化(产业与开源社区共建)与全球治理(国际数据流通标准)的多维度持续探索与突破。 # 2.3 技术演进推动数据生态重构 # 2.3.1 数据分工体系日益精细 当前全球人工智能数据产业已形成多层次协同体系,核心参与者围绕数据价值链条展开深度协作。首先,在数据生产层面,科研机构与科技巨头主导高质量数据资源的开发。OpenAI开发的WebText语料库[1]通过过滤和清洗CommonCrawl数据得到高质量的训练数据。其次,在数据服务层面,ScaleAI、Labelbox等技术企业依托AutoML工具链重构产业角色,将数据标注由纯人工标注阶段推向AI主导并结合人工阶段,驱动数据标注产业从劳动密集型向算法增强型转型。另外,在数据治理层面,制度创新与技术创新形成共振。上海数据交易所发布U235框架,连通真实世界和数据世界,基于SwiftLink管理平台核心架构实现数据上链、收益上链、资产上链,提升资产的真实性、透明性、流动性、经济性和共识性,使得“真数据”成为“金资产”,为数据要素创新应用探索路径,助推全球数据交易市场蓬勃发展。据统计,2023年全球数据交易规模约1261亿美元,至2030年预计有望达到3708亿美元。数据生态从线性供应链向网状价值网演进,催生出更具弹性与创造力的新型分工范式。 # 2.3.2 数据获取方式越趋便捷 数据开源使得数据的获取方式在广度、深度和便捷度上更进一步。在开源生态领域,国内外开源数据平台正加速向多模态、工具链整合及社区协作方向演进。国内以OpenDataLab为代表,聚焦大模型训练全链路支持,通过智能数据工具(如MinerU)和超大规模精标数据集(如“书生·万卷”),构建起覆盖预训练、微调到评测的完整生态,成为国产大模型数据基座的核心力量。国际层面,Kaggle凭借竞赛机制与海量公开数据集持续引领数据科学实践,HuggingFace则以模型库、数据集及开源工具重塑AI开发范式,推动全链路创新。Papers with Code 通过论文与代码的深度绑定加速科研复现,GitHub/Gitee 作为代码托管核心平台,在信创政策下成为国产替代与全球协作的关键枢纽。整体趋势显示,开源平台正从单一数据托管向“数据-工具-模型-应用”全栈生态升级,依托开放协作与 AI 原生工具(如代码生成、自动化标注),赋能开发者高效参与技术迭代,并加速跨领域交叉创新。 更深远的影响则来自开源生态的重构作用。DeepSeek 开源降低了模型使用门槛,未来将形成“大厂炼基座+中小厂做应用”分工。这种开放策略不仅加速垂直领域数据共享(如金融风控、工业质检的专有数据集开放),更倒逼行业数据标准建立——医疗影像 DICOM-CV互操作协议、自动驾驶场景的 nuScenes 标注规范等均在开源社区驱动下成型。技术栈革新与开源文化同向偕行,正构建起“数据生产-开放共享-标准反哺”的正向循环,重塑全生命周期技术价值链。 # 2.3.3 合规约束意识增强 全球数据生态正经历技术突破与监管框架的深度博弈,驱动生产模式与价值链条的范式重构。在监管引领侧,欧盟《人工智能法案》以数据可追溯性为核心要求,推动企业构建覆盖数据采集、标注、使用的全链路审计体系,倒逼合规能力嵌入技术底座。在技术驱动侧,特斯拉“自动标注工厂”通过仿真合成与强化学习实现标注效率跃升。2018年,为了应对越来越多的标注需求和越来越复杂的标注规则,特斯拉创建了千人规模的数据标注团队,并搭建了专业的数据标注系统。最初特斯拉大多数的标注还是在二维图像上进行,一个图文多模态模型需要533小时的人工标注完成。从2018到2021年,特斯拉的数据工程平台经历了3次迭代,2021年至今,特斯拉的数据标注开始转移到四维空间(三维空间+时间维度),通过轨迹的聚合重建与自动标注搭配,一个模型的标注仅需0.5小时算力+0.1小时人工,效率较2018年提升了800倍之多[4],标志着数据生产从依赖人力转向AI原生模式;更深层次的生态协同正在显现——Databricks提出的Lakehouse架构[5]打通数据治理与模型训练流程,实现数据治理与模型训练流程的无缝衔接,形成“数据-模型”双向增强闭环,使合规要求与模型性能同步优化。目前,越来越多的企业已经设立了独立数据资产管理部门,除合规执行外也涉及数据资产评估、跨域流通谈判与伦理风险对冲等业务,推动数据集生态由资源供给转向价值创造。在此进程中,合规约束非但未抑制创新,反而成为驱动技术代际跨越与生态位重组的核心变量。 # 2.4 全球竞争推动数据战略迭代 # 2.4.1 政策博弈与技术标准双重竞争 当前,数据主权和标准主导权已成为大国科技竞争的关键,中、美、欧采取了不同的策略。美国试图凭借技术优势,尤其是硅谷巨头,控制“算力-数据-模型”这三个核心环节,并通过《芯片与科学法案》等手段加强对算力基础设施和数据资源的控制,但其数据生态存在 结构性问题。中国拥有海量数据,这推动了人工智能的快速发展,但同时也面临底层技术依赖国外和需要摆脱技术跟随者角色的挑战。欧盟则侧重于制定规则,通过《人工智能法案》强调数据可追溯性,并试图建立“欧洲数据空间”[1],但严格的GDPR合规成本导致一些欧洲企业向亚太地区转移。国际竞争的重点正从技术转向标准制定,如电气电子工程师协会(Institute of Electrical and Electronics Engineers, IEEE)的《联邦学习标准》和中美企业在世界知识产权组织(World Intellectual Property Organization, WIPO)的专利争夺,都体现了对数据治理规则话语权的争夺。这场竞争的深层原因在于“数字主权”和“技术互通”之间的矛盾,各国都在争夺数据控制权、技术主导权和规则定义权,这正在重塑全球数字秩序。 # 2.4.2 数据要素与技术创新双重驱动 全球数据交易加速活跃,2023年全球市场规模达到了1261亿美元,但技术和制度上的限制仍然阻碍了数据价值的充分发挥。从政策层面看,国家出台的数据“二十条”旨在推动全国统一的数据市场建设,为释放国内数据要素的价值提供保障。上海数据交易所的发展就是一个例子,2024年的交易额已经超过40亿元,比去年和前年都有显著增长,挂牌的数据产品也超过了4500种[2]。尽管发展迅速,但数据定价仍然面临产权不清晰、价值评估模型缺失等问题。从技术层面看,在可信流通领域,蚂蚁链的“区块链+联邦学习”架构实现了跨境数据的“可用不可见”共享;在融合计算领域,华为云ModelArts攻克了文本、图像、视频等多种数据类型对齐的难题,支持大规模数据的联合训练。隐私计算技术也形成了双重保护,差分隐私通过加入噪声来保护个人数据,安全多方计算则实现了多方数据协同建模。这些技术结合,使数据在使用价值和合规性之间尽可能达到平衡,推动数据要素从封闭走向开放协作,为市场化进程提供创新动力。 # 2.4.3 立法自主、技术攻坚、生态协同三位一体 面对未来日益激烈的数据竞争,我们需要从数据主权、产业发展和生态构建三个方面入手,才能获得战略优势。首先,在数据主权方面,各国都在加快完善相关法律体系,建立跨境数据流动的“负面清单”,明确哪些敏感领域的数据不能随意传输,比如金融和地理信息等。同时,还要努力实现从芯片到训练框架的全套国产技术自主可控。国家级数据资源池的建设需要突破现有局限,整合政务、科研、产业等多个来源的数据,构建覆盖重点领域的基础数据集,从而强化数据的多样性和主权属性。其次,在产业发展方面,市场需要聚焦数据生产链上的关键环节不断创新。比如,在自动化标注领域,要对标国际领先技术,推动更多标注任务实现自动化。同时,多模态合成数据以及高质量的推理数据需要在医疗影像、自动驾驶和科学研究等领域加快应用。此外,还要培育一批数据服务商,构建包括标注工具链、数据交易平台和合规审计服务在内的完整产业链,实现上下游协同创新。最后,在生态构建方面,国际标准制定的话语权非常重要。中国通过“数字丝绸之路”建设“一带一路”数据走廊,推动与东盟、中东等地区的数据互联互通。同时,开源生态建设也需要双轨并行,一方面,开源 社区要加速覆盖核心数据集;另一方面,要推动国内开源数据平台赶超国际主流平台,最终形成“中国数据-全球生态”的良好局面。 # 2.5 结语 数据作为AI时代的核心燃料,既是人工智能时代的战略资源,也是推动人工智能发展的内驱动力,随着技术的不断迭代和对人工智能认知的不断升级,全球范围内的国家、地区、企业都对数据获取的重要性和数据使用的有效性寄予“厚望”,并不断探索和尝试。我国作为数据大国,必须在发挥数据要素的放大、叠加、倍增作用上持续发力,抓住未来3-5年的关键窗口期,实现“数据大国”到“数据强国”的质变,补足高质量发展的“数字板块”。 同时,我们也清醒地看到,在全球竞争环境下,各个国家、各个地区的法律法规不尽相同、不够完备,给数据的开发使用共享升级带来制度性障碍。同时,数据使用的各个环节和数据要素本身依然存在瓶颈性问题,亟需新的理论创新和技术突破。除外,数据的安全性问题也始终困扰着包括政治家、科学家、工程师和普通群众在内的所有人员,数据共享和数据保护在某种程度上是一对不可调和的矛盾。 面向未来,需要进一步完善法律法规、提升技术防护能力、加强监管执法,充分保护数据隐私安全。在这个前提下,加强数据治理、优化数据采集、推动数据共享,实现数据数量和质量的双提高。在技术层面要加强技术研发、拓展应用场景、培养专业人才,促进数据技术和应用的不断创新。各个国家、各个地区之间要进一步达成共识,共同参与国际标准制定、不断加强国际交流合作、不断推动技术输出引进,构建数据产业健康有序发展。 # 本章参考文献 # 2.1 模型突破推动数据需求升级 [1] Vaswani, A., Shazeer, N., Parmar, N., et al. Attention Is All You Need. Advances in Neural Information Processing Systems, 2017, 30. [2] Brown, T., Mann, B., Ryder, N., et al. Language Models Are Few-Shot Learners. Advances in Neural Information Processing Systems, 2020, 33. [3] Radford, A., Kim, J. W., Hallacy, C., et al. Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning (ICML), 2021. [4] Hoffmann, J., Borgeaud, S., Mensch, A., et al. Training Compute-Optimal Large Language Models. arXiv preprint arXiv:2203.15556, 2022. [5] Chen, T., Li, X., Scutto, S., et al. PaLI: A Jointly-Scaled Multilingual Language-Image Model. arXiv preprint arXiv:2209.06794, 2022. [6] Chen, T., Kornblith, S., Norouzi, M., et al. A Simple Framework for Contrastive Learning of Visual Representations. Proceedings of the 37th International Conference on Machine Learning (ICML), 2020. [7] OpenAI. GPT-4 Technical Report. Technical Report, OpenAI, 2023. [8] Kato, S., Takeuchi, E., Ishiguro, Y., et al. Autoware on Board: Enabling Autonomous Vehicles with Embedded Systems. 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) Workshop, 2018. [9] Ros, G., Sellart, L., Materynska, J., et al. The SYNTHIA Dataset: A Large Collection of Synthetic Images for Semantic Segmentation of Urban Scenes. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. [10] Real, E., Liang, C., So, D., et al. AutoML-Zero: Evolving Machine Learning Algorithms From Scratch. Proceedings of the 37th International Conference on Machine Learning (ICML), 2020. [11] Kaplan, J., McCandlish, S., Henighan, T., et al. Scaling Laws for Neural Language Models. arXiv preprint arXiv:2001.08361, 2020. # 2.2 驱动因素推动数据生产革新 [1] Chen, T., Kornblith, S., Norouzi, M., et al. A Simple Framework for Contrastive Learning of Visual Representations. Proceedings of the 37th International Conference on Machine Learning (ICML), 2020, pp. 1597-1607. [2] Karras, T., Aittala, M., Laine, S., et al. Alias-Free Generative Adversarial Networks. Advances in Neural Information Processing Systems, 2021, 34: 852-863. [3] Raffel, C., Shazeer, N., Roberts, A., et al. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research (JMLR), 2020, 21(140): 1-67. [4] Chowdhery, A., Narang, S., Devlin, J., et al. PaLM: Scaling Language Modeling with Pathways. arXiv preprint arXiv:2204.02311, 2022. [5] OpenAI. GPT-4 Technical Report. Technical Report, OpenAI, 2023. [6] H. Hosseini, S. Kannan, B. Zhang, and R. Poovendran, Deceiving Google's Perspective API Built for Detecting Toxic Comments, arXiv preprint arXiv:1702.08138, 2017. [7] Touvron, H., Lavril, T., Izacard, G., et al. LLaMA: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971, 2023. [8] Rombach, R., Blattmann, A., Lorenz, D., et al. High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 10684-10695. [9] Schick, T., Schütze, H., Siriwardhana, S., et al. True Few-Shot Learning with Language Models. Findings of the Association for Computational Linguistics (ACL), 2022, pp. 1805-1821. # 2.3 技术演进推动数据生态重构 [1] Brown, T., Mann, B., Ryder, N., et al. Language Models Are Few-Shot Learners. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901. [2] Rombach, R., Blattmann, A., Lorenz, D., et al. High-Resolution Image Synthesis with Latent Diffusion Models. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022, pp. 10684-10695. [3] Dwork, C., Kenthapadi, K., McSherry, F., et al. Calibrating Noise to Sensitivity in Private Data Analysis. Theory of Cryptography Conference (TCC), 2006, pp. 265-284. [4] 整数智能. 智驾数据的终极标注工具: 给 Tesla 带来 800 倍提效的 4D 标注工具. 技术报告, 整数智能信息技术 (杭州) 有限责任公司, 2024. [5] Armbrust, M., Ghodsi, A., Xin, R., et al. Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores. Proceedings of the VLDB Endowment, 2020, 13(12): 3411-3424. # 2.4 全球竞争推动数据战略迭代 [1] European Commission. Proposal for a Regulation Laying Down Harmonised Rules on Artificial Intelligence (Artificial Intelligence Act) [EB/OL]. (2021-04-21)[2025-03-23]. https://digital-strategy.ec.europa.eu/en/library/proposal-regulation-laying-down-harmonised-rules-artificial-intelligence. [2]上海数据交易所,弗若斯特沙利文(Frost&Sullivan),头豹研究院,等.《2024年中国数据交易市场研究报告》[R].上海数据交易所2025年年度发布会,2024-11-25. # 第3章AI算力:支撑智能进化的底座 算力,作为处理和分析这些海量数据的能力,正日益成为数字经济的核心基础设施。算力产业是以计算能力为核心,涵盖硬件、软件、服务及应用的完整产业链。其核心价值在于从“成本中心”转向“价值创造中心”,成为驱动AI产业化发展的核心引擎。它贯穿了从底层芯片制造到千行百业智能化应用的各个环节,如同一条庞大而精密的生产线,源源不断地为数字世界提供动力。本章主要按产业链的位置和产品形态划分进行介绍,分算力硬件基础层(上游)、算力软件服务层(中游)、算力应用场景层(下游)。 # 3.1上游:AI算力硬件基础层 上游主要包括芯片、服务器、存储设备、网络设备等硬件。这些是算力产业链的核心环节,为算力设施提供运算、存储和网络的基础能力。 # 3.1.1 芯片 芯片是AI算力的核心硬件支撑,如同汽车的发动机,决定了整个系统的性能和效率。当前AI芯片市场呈现多元化竞争格局,主要包括图形处理单元(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等专用计算芯片,以及新兴的类脑芯片等。根据《中国算力发展指数白皮书(2022年)》,中国智能算力占比已超 $50\%$ ,人工智能芯片(如NPU)正加速商业落地,尤其在生成式AI和大模型训练中占据主导地位。国际数据公司(IDC)与浪潮信息日前联合发布《中国人工智能计算力发展评估报告》显示,2024年,中国智能算力市场规模达190亿美元,同比增长 $86.9\%$ ,其中GPU占比超 $60\%$ ,但ASIC和DPU因能效优势增速更快。 在AI浪潮推动大模型研发和相关应用层出不穷的大背景下,算力需求维持高景气度,整体算力产业链持续受益。英伟达(NVIDIA)在GPU领域占据主导地位,其Blackwell需求强劲,供不应求,而国产替代芯片如昇腾、昆仑等也在快速发展。此外,芯片的制造、设计、封测技术的革新也成为了构筑算力芯片进一步发展的重要底座,芯片制造和CoWoS封装产业链也因旺盛需求积极扩产。 目前AI芯片以芯片内、节点内及系统级异构计算为主流技术发展方向。国外主要以英伟达(NVIDIA)系列、谷歌(Google)TPU系列作为领航,其特点如下: 英伟达(NVIDIA)系列:(1)A100/H100 GPU(Ampere/Hopper架构)。A100GPU在FP16精度下的峰值算力达312TFLOPS(每秒浮点运算次数,是衡量算力性能的常用单位之一),H100结合Transformer引擎特有的动态精度切换机制优化大模型训练,将单精度计算效率提升至理论值6倍以上,并支持多实例GPU(MIG)技术,可将单卡分割为多个独立实例,提升资源利用率。(2)B200/GB300(Blackwell架构)。首个采用多芯片封装(Chiplet)设计的GPU,集成多达2080亿个晶体管,单卡算力可支持1.8万亿参数GPT模型的训练,能耗较前代降低 $75\%$ 。可通过NVLink和Quantum-X800 InfiniBand实现超大规模集群互联,支持千卡级并行训练。 谷歌(Google)TPU系列:TPU v4/v5。Google设计的专用架构,为TensorFlow优化,采用脉动阵列设计,加速矩阵运算,TPU v4单芯片BF16算力达275TFLOPS,TPU v5进一步优化能效比。可通过光互连技术(OCI)构建TPU Pod,支持数万芯片互联,单集群可训练超千亿参数模型。谷歌内部用于搜索、翻译等AI服务,对外则通过Google Cloud提供TPU租赁。 ■Intel公司Gaudi高性价比。基于16nm工艺,ResNet-50训练性能达NVIDIA V100的4倍,功耗降低 $50\%$ ,集成10个100GbE以太网端口,支持标准网络协议扩展。支持FP32、bfloat16精度,内置RDMA技术,可构建无阻塞大规模集群。 ■ AMD公司最新的AI数据中心InstinctMI325XGPU,配备256GBHBM3E内存,在某些基准测试中性能超过英伟达的H200GPU。 ■ Groq公司,专为AI推理设计,提供高性能和低延迟的AI推理能力。其开发出的一种新AI处理器LPU(Language Processing Unit),理论上推理速度相较于英伟达GPU提高了10倍,但成本却可以降低到十分之一。 # 国内主要AI芯片及其特点: ■ 寒武纪MLU100云端智能芯片。国内首款云端AI芯片(2018年发布),理论峰值算力达128万亿次定点运算,采用 $16\mathrm{nm}$ 工艺,典型功耗仅80瓦,支持大规模数据中心的复杂智能任务。支持端云协同,与终端处理器(如寒武纪1M)适配,适用于视觉、语音、自然语言处理等多种场景。 ■华为昇腾系列AI芯片。昇腾910系列是国产高性能AI芯片,支持混合精度计算,FP16精度下峰值算力达320TFLOPS,适配大模型训练与推理。昇腾云服务提供全栈AI解决方案,支持昇思(MindSpore)框架,广泛应用于智算中心与企业级AI应用。 ■ 沐曦专注于高性能GPGPU设计,支持深度学习和大模型推理。 ■ 天数智芯智铠系列。通用GPU芯片支持FP32/FP16混合精度计算,适配主流AI框架(如TensorFlow、PyTorch)。适用于云端推理和训练任务,强调低延迟与高吞吐量。 ■ 摩尔线程MTT系列GPU。支持Ollama开源框架。提供从云端到边缘的多场景AI算力支持,兼顾图形渲染与计算加速。 燧原科技邃思系列AI芯片。专注云端AI训练与推理,支持FP32/FP16/BF16等多种精度,部署于多个智算中心。采用自研架构,优化能效比,适用于大规模集群训练。 ■ 壁仞科技BR系列AI芯片。BR100系列采用7nm制程工艺,单芯片峰值算力达到每秒千万亿次浮点运算(1PFLOPS)。其BF16算力突破1000TFLOPS,8位定点算力达2000TOPS以上,领先于同期竞品如英伟达A100。 # 3.1.2 服务器 服务器是指在网络环境中为客户提供各种服务的计算机,其承担着数据存储、转发、发布等任务。按用途可分为通用服务器和专用服务器。通用服务器的核心计算单元通常由CPU芯片提供;专用服务器通过集成GPU、ASIC、FPGA等芯片,提供AI训练、AI推理、图形渲染、科学计算等功能,满足客户在专用场景下的需求。AI服务器需求快速增长,也推动了光模块、AI芯片等上游产品的增长。 # 3.1.3 存储设备 算力芯片需要存储芯片配合运行,主要包括RAM、ROM两类。由于AI需要频繁读写,RAM对于AI影响更大,其中包含用于芯片高速缓存的SRAM、主存储器DRAM(含HBM)等。ROM包含NAND Flash、Nor Flash等形态。目前,DRAM和NAND Flash是主流的两种存储芯片。HBM属于DRAM的子品类,其主要特点是多层DRAM芯片堆叠,并采用大量TSV互联,因而带宽显著高于其他DRAM芯片,主要用于高性能计算场景。竞争格局从全球HBM产能来看,海力士相对领先,三星、美光紧随其后,国产化需求迫切,我国存储芯片企业亟待突破。 目前国内长江存储凭借技术突破和政策支持,正从“追赶者”向“领跑者”转型。尽管面临国际竞争和供应链压力,但其国产替代及AI赛道布局,正在为未来发展注入强劲动力。长江存储研发出232层3D NAND芯片,位密度达 $19.8\mathrm{Gb / mm^2}$ ,超越了同样在开发232层QLC3D NAND芯片的美光和英特尔(Solidigm)。自主创新的Xtacking架构缩短产品上市周期,提升存储密度和I/O速度,如X3-9070芯片读速达7000MB/s。产品覆盖全场景,提供3DNAND闪存晶圆、颗粒及消费级/企业级SSD,应用于移动设备、数据中心、AI服务器等领域。代表产品如致态TiPlus7100系列SSD,采用Xtacking3.0技术,寿命达2400TBW。2024年全球存储市场规模达1298亿美元,长江存储通过技术迭代加速追赶三星、SK海力士等巨头。合肥长鑫专注于DRAM(动态随机存储器)研发与生产,产品主要用于计算机、服务器等设备的内存条。其技术源于对德国内存企业奇梦达的技术收购,目前量产19nm工艺的DDR4芯片,并计划推进更先进制程。 表 3.1 合肥长鑫与武汉长江存储技术突破 <table><tr><td>维度</td><td>合肥长鑫(DRAM)</td><td>武汉长江存储(NAND)</td></tr><tr><td>技术领域</td><td>DRAM(动态内存)</td><td>NAND Flash(闪存)</td></tr><tr><td>核心突破</td><td>氮化硅层、CMOS集成、DDR5/LPDDR5技术</td><td>Xtacking架构、3D NAND堆叠技术</td></tr><tr><td>产能目标</td><td>2025年30万片/月(DRAM)</td><td>2025年30万片/月(NAND)</td></tr><tr><td>市场定位</td><td>国内服务器、PC、移动设备DRAM主力供应商</td><td>国产SSD、手机存储芯片核心供应商</td></tr><tr><td>行业意义</td><td>打破三星、SK海力士、美光垄断,保障供应链安全</td><td>实现NAND Flash国产化,降低对进口依赖</td></tr></table> 合肥长鑫与武汉长江存储分别代表中国DRAM和NAND Flash领域的突破,是国产存储器产业的核心力量。两者通过技术追赶和产能扩张,逐步打破国际垄断,推动中国半导体产业链自主化,未来在AI、5G、数据中心等场景中将发挥关键作用。 # 3.1.4 网络设备 网络设备用于构建高效的数据传输网络。在如今超大模型与超大集群时代,网络设备的重要性极大提升。目前来看,铜连接(或可能其他)承担机柜内超高速连接,光模块和交换机承担机柜间拓展的分工形式已形成明显趋势。 在超大规模计算时代,网络设备已成为AI算力的“神经网络”,其技术演进直接决定着超大模型的训练效率和数据中心的扩展能力。国际巨头思科、英伟达、博通等凭借技术积累和生态优势占据高端市场,而国内厂商如华为、新华三、光迅科技等通过国产替代和差异化创新(如硅光技术、液冷方案)快速崛起。未来,随着800G网络、DPU和AI网络调度技术的普及,网络设备将从“连接工具”进化为“智能算力基础设施”,成为全球科技竞争的新焦点。 表 3.2 国际国内网络设备相关企业对比 <table><tr><td>公司</td><td>技术领域</td><td>核心突破</td><td>代表产品</td><td>市场定位</td><td>行业意义</td></tr><tr><td>思科(Cisco)</td><td>交换机、路由器、SDN</td><td>高端交换机市场主导、SDN(ACI架构)</td><td>Nexus 9000系列(800G交换机)、ACI平台</td><td>全球高端数据中心核心网络设备供应商</td><td>推动软件定义网络(SDN)标准化,定义数据中心网络架构</td></tr><tr><td>英伟达(NVIDIA)</td><td>AI网络、交换芯片、光模块</td><td>InfiniBand技术、DPU(BlueField)、AI优化网络</td><td>Quantum-2平台、BlueField-4DPU、HDR 200GLInfiniBand</td><td>AI超算集群与云服务商首选</td><td>通过网络与计算融合,加速AI训练与推理效率</td></tr><tr><td>博通(Broadcom)</td><td>交换芯片、光模块、全栈方案</td><td>Tomahawk系列交换芯片(800G)、协议标准制定</td><td>Tomahawk 5交换芯片、StrataXGS系列交换机</td><td>全球交换芯片与光模块技术霸主</td><td>推动400G/800G光模块标准化,支撑超大规模数据中心建设</td></tr><tr><td>华为</td><td>全栈网络设备(交换机、光模块、软件)</td><td>AI Fabric(零丢包)、液冷技术、硅光模块</td><td>CloudEngine系列(400G/800G交换机)、凌霄硅光模块</td><td>国内政企、运营商及超大规模数据中心</td><td>推动国产全栈网络解决方案,打破高端市场垄断</td></tr><tr><td>新华三(H3C)</td><td>交换机、SDN、企业级网络</td><td>AI驱动网络(智能流量调度)、CloudOS云平台</td><td>S12500/S10500系列交换机、Comware系统</td><td>国内政企、金融、教育等垂直领域</td><td>通过AI优化网络运维,助力企业数字化转型</td></tr><tr><td>光迅科技</td><td>光模块、硅光技术</td><td>400G/800G 硅光模块、国产化替代</td><td>100G/400G光模块、硅光芯片(1.6T原型)</td><td>光模块中低端市场国产化核心供应商</td><td>降低光模块成本,提升中国在光通信领域的全球竞争力</td></tr></table> # 3.2 中游:算力软件服务层 中游环节主要涉及算力网络的建设与运营,包括数据中心(IDC)、边缘计算、智算/超算中心以及云计算服务等。这一环节通过提供IDC服务、云服务、计算服务等,为下游应用提供算力支持。 # 3.2.1 数据中心与边缘计算 数据中心为存放服务器、交换机等网络IT设备并提供专业运维服务的机房,主要用于组织、处理、存储和传输大量数据,本质是通过为IT设备供给电力、空间、散热等方式,推动能源要素向数据要素转换。我国IDC行业的主要参与者分为三大群体:一是以中国电信、中国移动、中国联通为主的基础电信运营商群体;二是以润泽科技、奥飞数据、万国数据、世纪互联等为代表的专业IDC服务商群体;三是以阿里云、华为云、腾讯云为代表的云服务商,也围绕云服务自建数据中心。 边缘计算是指将计算能力从网络核心下沉到网络边缘,通过在终端设备附近建立计算节点,使数据、应用和服务的主要分析处理环节都在边缘节点进行。其目的是为了实现:降低时延,扩展带宽;位置感知,用户识别;本地化;支持设备异构性;以及提高资源利用率等。 智能计算中心(AIDC)专注于AI训练和推理,是人工智能发展的重要支撑。如华为昇腾和阿里云智算集群是国内智能计算中心的代表。华为昇腾智能计算中心依托华为强大的技术研发能力和产业生态优势,为人工智能开发者提供了高效、便捷的计算平台。其采用了先进的昇腾芯片和智能计算架构,能够实现大规模的AI训练和推理任务。如在智能安防领域,华为昇腾智能计算中心可以对大量的监控视频进行实时分析和处理,快速识别出异常行为和目标,为城市安全提供了有力保障。阿里云智算集群是阿里云推出的面向人工智能领域的高性能计算平台。它集成了阿里云的先进技术和资源,能够为用户提供灵活、可扩展的算力服务。阿里云智算集群广泛应用于电商、金融、医疗等多个行业,为企业的智能化转型提供了强大的支持。如在医疗领域,阿里云智算集群可以帮助医疗机构对大量的医学影像数据进行分析和诊断,提高疾病诊断的准确性和效率[1]。 目前,国内已建成超250个智算中心,这些智算中心分布在不同的地区和行业,为人工智能的发展提供了强大的算力支持[2]。它们不仅推动了人工智能技术的创新和应用,也为数字经济的发展注入了新的动力。 # 3.2.2 云计算服务 云计算服务是指通过互联网按需提供的计算资源、应用程序及服务,用户无需自行购置或维护物理设备,即可灵活使用存储、服务器、数据库、软件等资源。其核心特点在于弹性扩展和按使用付费的模式。 目前,观察和分析AI算力基础设施的视角主要在于:超大规模云服务厂商如何应对大模型对并行加速计算的内在需求以及进行“规模化”创新。伴随大模型技术的汹涌发展和背后 涌入的资本驱动,云厂商以大模型为工作负载,对基础设施的创新和服务能力水平逐渐分层,其中新进入者AI算力云(如:CoreWeave)在竞争分化中更占有优势。 自2012年AlexNet图像识别神经网络首次在多张NVIDIA GPU上进行训练以来,深度学习浪潮正式拉开帷幕。在2012年至2020年期间,随着深度学习技术的不断发展,全球云计算市场也逐渐走向成熟。在此阶段,开发者通常在单台到百台GPU服务器上完成模型训练,随后根据需求将推理部署在本地服务器或云端。2020年起,以OpenAI为代表的开发者开始使用数千张GPU进行预训练大语言模型的训练,2022年底,通用对话机器人ChatGPT作为大模型的典型应用被推出。为了支持用户规模的快速增长和应用服务的规模化,开发者通过自建GPU集群和租赁第三方云服务的方式满足需求。大模型从训练研发到推理生产,均以云(服务器集群)作为核心基础设施。 从整体市场看,提供AI云服务的传统超大规模提供商包括谷歌、微软、亚马逊、甲骨文,以及中国互联网大厂腾讯、百度、阿里巴巴等。尽管Meta、xAI、字节跳动和特斯拉也拥有强大的GPU集群,但目前并不对外提供AI云服务,因此不属于这一类别。Google拥有当今世界上最先进的计算系统,并率先大规模使用许多关键技术,如其机架级液冷架构和多数据中心训练[4],这些技术现在也被其他大模型初创公司和AI算力云巨头采用。 从集群规模、服务客户规模角度,目前在全球范围最主要的四家AI算力云巨头是Crusoe、Nebius、Lambda Labs和CoreWeave,其中CoreWeave是迄今为止全球最大的AI算力云,管理着非常高性能的GPU集群,并被OpenAI和Meta甚至Nvidia委托管理其内部大型GPU基础设施[5]。 中国的新型AI算力云的领军企业是字节跳动旗下的火山引擎,以及硅基流动等在中国AI行业的其他创新力量,在2024年底到2025年初国产DeepSeekV3/R1大模型推出后,中国算力云和模型厂商、GPU厂商合作,推进实现大模型在国产GPU芯片上的推理甚至训练,该进程正在快速地迭代和演进[6]。 # 3.3下游:算力应用场景层 算力作为数字经济时代的核心生产力,正深度融入千行百业,形成"算力+产业"的创新范式。如在智能制造领域,工业边缘数据中心通过实时算力支持智能检测与故障分析,推动传统工厂向"智慧工厂"转型;教育领域通过公共算力资源覆盖校园,为高等教育和职业教育提供沉浸式实训环境;金融领域构建分布式算力架构,实现高频交易与低时延风控的协同;交通领域部署多层级算力设施,支撑车路协同自动驾驶与港口自动化生产;医疗领域则依托算力处理海量医疗影像数据,提升疾病诊断精度。此外,算力在元宇宙、数字孪生等新业态的拓展应用,正推动产业边界持续扩展。工信部2025年启动的算力强基揭榜行动,更将绿色算力、安全算力等关键技术纳入重点攻关方向,为产业深度赋能[7-8]。以下是目前紧密相关的一些重要领域的算力应用场景示例: # 3.3.1 互联网与消费:大规模数据处理 在互联网与消费领域,电商、游戏、视频等行业产生了大量的数据,需要强大的算力进行处理。 电商行业是数据密集型行业之一。电商平台每天都会产生海量的交易数据、用户行为数据等。这些数据对于电商企业来说具有重要的价值,可以帮助他们了解用户需求、优化商品推荐、提高客户满意度。如,阿里巴巴电商业务中历史数据存储与查询相关业务,大量采用基于列存储技术的HiStore数据库,双11当天HiStore引擎处理数据记录超过6万亿条、原始存储数据量超过5PB。从单日数据处理量上看,该系统已成为全球最大列存储数据库[9]。在如此体量巨大的平台上,每天的实物和虚拟商品交易达到亿级别[10],通过强大的算力支持,阿里巴巴可以对这些数据进行实时分析和处理,为用户提供个性化的商品推荐和优质的购物体验。 游戏行业也是算力需求较大的行业之一。随着游戏画质和复杂度的不断提高,游戏对计算能力的要求也越来越高。例如,一些大型3D游戏需要在短时间内处理大量的图形渲染和物理模拟任务。通过云计算和边缘计算等技术,游戏厂商可以将这些计算任务分配到云端或边缘设备上进行处理,提高游戏的运行效率和稳定性。 视频行业同样离不开算力的支持。随着高清视频、4K视频甚至8K视频的普及,视频的制作、传输和播放都需要强大的计算能力。例如,抖音等短视频平台每天上传的视频数量数以百万计。通过算力支持,这些平台可以对视频进行快速地编码、解码和处理,确保用户能够流畅地观看视频。 # 3.3.2 智能制造:工业互联网、机器人、自动驾驶 在智能制造领域,工业互联网、机器人、自动驾驶等应用对算力提出了极高的要求。 工业互联网是智能制造的核心技术之一,它通过将工业设备、传感器、控制系统等连接起来(IoT),实现数据的实时采集、传输和分析。在工业生产过程中,会产生大量的生产数据、设备状态数据等。通过强大的算力支持,企业可以对这些数据进行分析和挖掘,实现生产过程的优化和智能化管理。例如,在汽车制造企业中,通过工业互联网和算力支持,可以实现对生产线的实时监控和故障预警,提高生产效率和产品质量。 机器人是智能制造的重要工具之一。机器人需要具备强大的计算能力来实现自主导航、目标识别、动作控制等功能。例如,在物流仓库中,智能机器人可以通过激光雷达、摄像头等传感器获取周围环境信息,然后通过强大的算力进行实时处理和分析,实现自主导航和货物搬运。 自动驾驶是未来交通发展的重要方向。自动驾驶汽车需要在复杂的路况下实时感知周围环境、做出决策和控制车辆行驶。这需要强大的算力来处理大量的传感器数据和进行复杂的算法计算。例如,特斯拉的自动驾驶汽车配备了先进的传感器和强大的计算芯片,通过不断学习和优化算法,提高自动驾驶的安全性和可靠性。 # 3.3.3科研与公共服务:气候模拟、基因测序、智慧城市 在科研与公共服务领域,气候模拟、基因测序、智慧城市等应用也离不开算力的支持。 气候模拟是研究气候变化的重要手段。通过建立复杂的气候模型,科学家可以模拟不同气候情景下的气候变化趋势。这需要强大的计算能力来处理大量的气象数据和进行复杂的数值计算。例如,国家气候中心利用超级计算机进行气候模拟,为气候变化研究和应对提供了重要的科学依据。 基因测序是生物医学领域的重要技术之一。通过对生物体的基因进行测序,可以了解生物体的遗传信息和疾病发生机制。基因测序会产生大量的基因数据,需要强大的算力来进行数据分析和解读。例如,华大基因利用先进的测序技术和强大的算力支持,开展大规模的基因测序项目,为人类健康和生物科学研究做出了重要贡献。 智慧城市是城市发展的未来方向。通过将物联网、大数据、人工智能等技术应用于城市管理和服务中,可以实现城市的智能化运行和管理。在智慧城市建设中,需要处理大量的城市运行数据,如交通流量、能源消耗、环境质量等。通过强大的算力支持,可以对这些数据进行实时分析和处理,为城市管理者提供决策支持。例如,一些城市通过建设智慧城市平台,利用算力支持实现了交通拥堵预警、能源消耗优化等功能,提高了城市的运行效率和居民的生活质量。 # 3.3.4 金融与能源:高频交易、风险分析、能源调度优化 在金融与能源领域,高频交易、风险分析、能源调度优化等应用对算力也有很高的要求。 金融领域,高频交易是一种利用计算机算法进行快速交易的策略。高频交易需要在极短的时间内对市场行情进行分析和判断,并做出交易决策。这需要强大的计算能力和低延迟的网络连接。例如,一些大型金融机构,包括量化投资公司,利用高性能的服务器和算法交易系统,进行高频交易,获取市场差价收益。 风险分析也是金融领域的重要工作之一。金融机构需要对各种风险因素进行分析和评估,如信用风险、市场风险、流动性风险等。通过强大的算力支持,可以对大量的金融数据进行分析和建模,提高风险分析的准确性和可靠性。例如,银行可以利用机器学习算法对客户的信用风险进行评估,为贷款决策提供依据。 在能源领域,能源调度优化是提高能源利用效率和保障能源安全的重要手段。通过对能源生产、传输、消费等环节的数据进行实时监测和分析,利用强大的算力进行优化调度,可以实现能源的合理分配和高效利用。例如,电网企业可以利用智能电网技术和算力支持,对电力负荷进行预测和调度,提高电网的稳定性和可靠性。 # 3.4 算力发展现状与挑战分析 # 3.4.1 硬件突破:多元架构与生态博弈 GPU的统治地位与国产突围。英伟达凭借其CUDA生态和算力优势占据全球AI训练市场超 $80\%$ 份额[11]。但国产GPU正加速突破,2025年,国产GPU企业摩尔线程凭借自主研发的MTTS4000系列产品,通过动态重构技术实现图形渲染与AI计算自由切换,在 Resnet50、BERT等多个AI基准测试中达到了国际一流的水平,成为了首个真正打破国际巨头垄断的本土GPU企业[12];华为昇腾910B在昇腾社区生态中支持超200个应用,政务云市场占有率高达 $67\%$ [13-14]。 专用芯片的崛起,异构计算成为新趋势。谷歌TPU通过脉动阵列架构实现张量运算效率提升15-30倍[15];华为昇腾NPU采用达芬尼架构,支持原生MindSpore框架,在端侧推理场景能效比达15.8TOPS/W;光子芯片(如Lightmatter)通过光子计算突破电子芯片的能耗瓶颈,某实验室测试显示其推理速度远比GPU更快[16]。 量子计算的潜在颠覆,量子算法(如Grover搜索)可加速参数空间探索。微软Azure Quantum平台通过量子计算重构梯度下降的优化范式,不仅加速了大模型训练,更开辟了“量子-AI-HPC”三元融合的新赛道。随着量子纠错技术与混合架构的成熟,未来AI训练有望突破“摩尔定律”限制,实现指数级效率跃迁[17]。量子神经网络(QNN)的并行性有望解决经典模型在复杂优化任务中的局部最优困境。 软件与算法协同,效率革命与生态适配。模型压缩与轻量化方面,知识蒸馏技术使大模型体积缩小的同时保持较高的准确率(如医疗影像诊断系统);混合精度量化将原来较大的浮点数压缩,推理速度得以大幅提升;剪枝技术通过动态跳过冗余计算分支,使自动驾驶障碍物识别帧率也大幅提高。分布式训练框架创新方面,Primus 框架通过动态负载均衡和智能任务分配,使百万级参数模型训练通信开销降低[18];PyTorch DDP 结合 Ring AllReduce 架构,实现多卡并行训练效率提升,华为 MindSpeed 的 P2P 分流技术利用昇腾芯片异构计算能力,优化长序列训练稳定性等。DeepSeek 在 2024 年底、2025 年初得到全球瞩目也是最好的现实案例。 # 3.4.2 当前挑战:技术瓶颈与结构性矛盾 # (1) 算力瓶颈与制程限制 芯片制程逼近物理极限(1nm节点),传统冯·诺依曼架构面临"内存墙"与"通信墙"双重制约,导致算力密度提升乏力[19]。尽管摩尔线程通过7nm Chiplet工艺实现良品率提升,但英伟达H200流片成本飙升至单次2.3亿元,暴露高端芯片供应链的脆弱性。全球智能算力规模虽达335EFLOPS(2023年),但高性能算力占比不足 $30\%$ ,且国产芯片单卡训练效率不到A100的一半,形成"量级追赶、能效代差"的困境。美国对华芯片出口管制(如1017新规)进一步加剧技术封锁,CUDA生态垄断导致国产替代成本高昂。 # (2)异构计算协同不足 随着计算需求的多样化,CPU、GPU、FPGA、ASIC等不同架构计算单元被广泛应用。然而,当前不同架构计算单元之间的协同效率较低。一方面,技术标准的不统一使得各计算单元在通信和协作时存在障碍;另一方面,缺乏有效的调度算法和软件支持,难以充分发挥不同计算单元的优势,实现算力资源的最优调度。这导致了在实际应用中,算力资源的浪费和计算效率的低下。 # (3)高能耗与碳排放争议 AI训练能耗持续攀升,ChatGPT每天响应约2亿个需求,消耗超过50万度电力,相当于1.7万个美国家庭平均一天的用电量[20]。训练一个大型AI模型的碳排放量相当于5辆汽车整个生命周期的排放量;使用1750亿个参数训练GPT-3消耗了1287兆瓦时的电力,并导致产生了502吨二氧化碳当量,相当于驾驶112辆汽油动力汽车一年。GPT-3每日运行产生的碳足迹有50磅,相当于一年排放8.4吨二氧化碳。据预测,我国到2030年智算中心年用电可能达到0.6万亿千瓦时至1.3万亿千瓦时,占全社会用电的 $5\%$ 至 $10\%^{[21]}$ 。冷却系统能耗占数据中心总能耗的 $40\%$ ,液冷技术(如联想问天海神)虽能效提升 $30\%$ ,但中小型数据中心仍依赖传统风冷,平均PUE值达 $1.5^{[22-23]}$ 。绿色算力发展面临"高配置、低效能"悖论—— $80\%$ 智算中心未配备向量数据库,数据预处理消耗 $45\%$ 算力资源,形成"算力增长、功耗失控"的恶性循环。 因此,需要进行能效优化与开发有效液冷技术。能效优化方面,算法与芯片协同设计成为核心,通过算法创新降低训练算力,推动高能效芯片需求。算法与芯片的协同设计已成为提升计算能效的核心路径。其核心理念是通过算法层面的轻量化设计,减少模型对计算资源的依赖,从而降低芯片硬件设计的复杂度与能耗需求。而液冷技术、存算一体架构等技术加速应用,有助于应对数据中心能耗攀升问题。液冷与存算一体技术正与AI调度算法结合,如谷歌利用强化学习动态调节数据中心制冷系统,进一步降低 $10\% - 15\%$ 的冷却能耗。到2025年,绿色化技术有望将全球数据中心碳排放强度削减 $40\%$ 以上。 未来,随着大模型参数量持续增长,“算法轻量化+芯片定制化"双轨策略将成为平衡性能与能耗的关键,预计到2026年,协同设计技术可使AI训练综合能效提升3-5倍。 # (4) 算力分配不均与生态断层 全球来看,存在地域资源垄断与马太效应。目前北美是主导地位,美国占据全球超算TOP500榜单的 $34\%$ ,英伟达、AMD等企业垄断高端GPU市场,形成技术护城河。东亚具有追赶压力,中国依托政策驱动在智算中心建设上快速扩张,但高端芯片仍依赖进口;日本、韩国聚焦半导体制造,但应用生态碎片化。欧洲掉队,发展中国家边缘化,非洲、拉美等地区数据中心覆盖率不足 $10\%$ ,算力需求与供给倒挂,难以支撑本地数字化转型。算力定价权集中,云计算巨头(如亚马逊、微软)掌握定价话语权,中小企业被迫承担溢价,加剧资源分配不公。 中国国内来看,算力供需的时空错配。我国算力资源分布不均,东部地区需求旺盛但资源相对紧张,西部地区资源丰富但需求相对不足。“东数西算也具有一定局限性,中国西部可再生能源丰富,但网络带宽不足导致跨区域传输时延超50ms,实时性业务难以落地。由于跨区域调度机制不完善,东西部在商业模式协调上困难重重,电价与算力成本难以实现有效平衡。此外,同质化竞争加剧,进一步阻碍了算力资源的合理配置和跨区域协同发展。 # (5) 算力调度标准体系、互操作性缺失以及产业链协同不足 目前,算力度量、调度、结算等方面缺乏统一标准,异构资源的识别与感知技术也不成熟。这导致了不同算力资源之间难以实现互联互通和协同工作,形成了算力孤岛现象。缺乏统一标准和互操作性,限制了算力市场的规范化发展和资源的高效利用。 算力服务商与行业应用需求之间存在脱节现象,缺乏能够满足行业多样化需求的一体化解决方案。同时,传统企业对算力价值的认知不足,导致算力在行业应用中的深度和广度不够。产业链协同不足,使得算力行业难以形成完整的生态系统,限制了其对实体经济的支撑作用。 # (6) 市场认知与应用深化难题 一是当前算力市场存在供需结构失衡的问题。通用算力占比过高,而随着人工智能等新兴技术的发展,智能算力缺口日益增大,边缘算力布局也明显不足。这种供需结构的失衡,导致算力资源无法有效匹配行业多样化的需求,限制了算力在不同领域的深入应用。二是冷热数据处理矛盾。在“东数西算”过程中,约 $80\%$ 的“冷数据”适合迁移至西部地区进行存储和处理,但对于时效性强的应用,仍需要在东部地区就近处理“热数据”。如何优化资源调配策略,平衡冷热数据的处理需求,成为“东数西算”工程实施过程中的一大难题。三是成本与效益平衡。在高电价地区,算力中心的运营成本压力巨大。为实现成本与效益的平衡,需要通过提升机柜功率密度、优化资源利用率等方式降低成本。然而,这些措施在实际实施过程中面临着技术和管理等多方面的挑战。 # (7) 此外,我国还面临核心技术瓶颈与自主化等难题 高端芯片依赖度高。我国在高端芯片领域,如光刻机设备等,仍面临严峻的技术瓶颈。由于技术研发滞后,目前对进口高端芯片的依赖程度极高。这种依赖不仅使得我国算力基础设施建设容易受到国际形势变化的影响,面临供应链安全风险,更重要的是,芯片自主创新能力的不足已成为阻碍算力基础设施发展的关键因