> **来源:[研报客](https://pc.yanbaoke.cn)** # 2026 # 年国际人工智能安全报告 # 2026 # 年国际人工智能安全报告 # 贡献者 # 主席 Yoshua Bengio 教授,蒙特利尔大学/LawZero/Mila - 魁北克人工智能研究所 # 专家顾问小组 专家顾问小组是一个国际顾问机构,就报告内容向主席提供建议。专家顾问小组仅提供技术反馈。报告及其专家顾问小组并未认可任何特定的政策或监管方式。 小组由来自30多个国家和国际组织提名的代表组成,包括:澳大利亚、巴西、加拿大、智利、中国、欧盟(EU)、法国、德国、印度、印尼、爱尔兰、以色列、意大利、日本、肯尼亚、墨西哥、荷兰、新西兰、尼日利亚、经济合作与发展组织(OECD)、菲律宾、韩国、卢旺达、沙特、新加坡、西班牙、瑞士、土耳其、阿联酋、乌克兰、英国和联合国(UN)。 可在此处查询专家顾问小组的完整成员名单:https://internationalaisafetyreport.org/expert-advisory-panel # 首席撰稿人 Stephen Clare, 独立人士 Carina Prunkl, 法国国家信息与自动化研究所 # 报告规划和范围界定负责人 Daniel Privitera, 欧盟人工智能研究中心 Sören Mindermann, 独立人士 # 章节负责人 Maksym Andriushchenko, 图宾根 ELLIS 研究所 Ben Bucknall, 牛津大学 Malcolm Murray, SaferAI # 核心撰稿人 Shalaleh Rismani, Mila - 魁北克人工智能研究所 Conor McGlynn, 哈佛大学 Nestor Maslej, 斯坦福大学 Philip Fox, 欧盟人工智能研究中心 # 撰稿小组 Rishi Bommasani, 斯坦福大学 Stephen Casper, 麻省理工学院 Tom Davidson, Forethought Raymond Douglas, Telic Research David Duvenaud, 多伦多大学 Usman Goha, 爱荷华州立大学 Rose Hadshar, Forethought Anson Ho, Epochal Tiancheng Hu, 剑桥大学 Cameron Jones, 石溪大学 Sayash Kapoor, 普林斯顿大学 Atoosa Kasirzadeh, 卡内基梅隆大学 Sam Manning, 人工智能治理中心 Vasilios Mavroudis, 艾伦·图灵研究所 Richard Moulange, 长期韧性研究中心 Jessica Newman, 加利福尼亚大学伯克利分校 Kwan Yee Ng, Concordia AI Patricia Paskov, 牛津大学 Girish Sastry, 独立人士 Elizabeth Seger, Demos Scott Singer, 卡内基国际和平基金会 Charlotte Stix, Apollo Research Lucia Velasco, 马斯特里赫特大学 Nicole Wheeler, 高级研究与发明署 # 主席顾问* * 任期为规划阶段(2025年2月至7月);自7月起,担任报告团队顾问 Daniel Privitera, 主席特别顾问、欧盟人工智能研究中心 Sören Mindermann, 主席科学顾问、Mila-魁北克人工智能研究所 # 高级顾问 Daron Acemoglu, 麻省理工学院 Vincent Conitzer, 卡耐基梅隆大学 Thomas G. Dietterich, 俄勒冈州立大学 Fredrik Heintz, 林雪平大学 Geoffrey Hinton, 多伦多大学 Nick Jennings, 拉夫堡大学 SusanLeavy,都柏林大学 Teresa Ludermir, 伯南布哥联邦大学 Vidushi Marda, AI 协作 Helen Margetts, 牛津大学 John McDermid, 约克大学 Jane Munga, 卡内基国际和平基金会 Arvind Narayanan, 普林斯顿大学 Alondra Nelson, 普林斯顿高等研究院 Clara Neppel, 电气电子工程师学会 (IEEE) Sarvapali D.(Gopal) Ramchurn, 英国负责任人工智能 (Responsible AI UK) Stuart Russell, 加利福尼亚大学伯克利分校 Marietje Schaake, 斯坦福大学 Bernhard Schölkopf, 图宾根 ELLIS 研究所 Alvaro Soto, 智利天主教大学 Lee Tiedrich, 杜克大学 Gael Varoquaux, 法国国家信息与自动化研究所 姚期智, 清华大学 张亚勤, 清华大学 # 秘书处 英国人工智能安全研究所: Lambrini Das、Arianna Dini、Freya Hempleman、Samuel Kenny、Patrick King、Hannah Merchant、Jamie-Day Rawal、Jai Sood、Rose Woolhouse Mila - 魁北克人工智能研究所: Jonathan Barry、Marc-Antoine Guérard、Claire Latendresse、Cassidy MacNeil、Benjamin Prud'homme # © Crown 版权所有 2026 除非另有说明,否则,本出版物根据《开放政府许可协议》第3.0版的条款授权。要查看此授权,请访问https://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/,或写信至Information Policy Team,The National Archives,Kew,London TW9 4DU,或发送电子邮件至psi@nationalarchives.gsi.gov.uk. 对于我们已标识的任何第三方版权信息,您需要向相关版权持有人获取许可。 有关本出版物的任何查询请发送至: secretariat.AIStateofScience@dsit.gov.uk. # 免责声明 本报告综合了现有关于先进人工智能能力与风险的研究成果。本报告并不一定代表主席、撰稿或顾问小组中任何特定个人、或支持其编制工作的任何政府的观点。报告主席对报告负有最终责任,并全程监督了报告的编制过程。 研究序列编号:DSIT2026/001 # 致谢 # 民间社团和行业评论者 # 民间社团 Ada Lovelace 研究所、非洲技术研究中心、新西兰人工智能论坛/Te Káhui Atamai Iahiko o Aotearoa、亚洲人工智能安全、Stichting Algorithm Audit、卡内基国际和平基金会、法律与创新中心/Certa 基金会、人工智能治理中心、首席大法官 Meir Shamgar、数字法律与创新中心、数字未来实验室、EON研究所、EQUIANO 研究所、Good Ancestors Policy、Gradient 研究所、法律与人工智能研究所、Interface、以色列民主研究所、Mozilla 基金会、NASSCOM、Old Ways New、RAND、皇家学会、SaferAI、瑞士工程科学院、长期韧性研究中心、艾伦·图灵研究所、伦理中心、未来协会、HumAlne基金会、土耳其人工智能政策协会 # 行业 Advai、Anthropic、Cohere、德勤、Digital Umuganda、Domyn、G42、谷歌 DeepMind、Harmony Intelligence、Hugging Face、Humain、IBM、LG AI Research、Meta、微软、Naver、OpenAI、Qhala # 非正式审阅者 Markus Anderljung、David Autor、Mariette Awad、Jamie Bernardi、Stella Biderman、 Asher Brass、Ben Brooks、Miles Brundage、 Kevin Bryan、Rafael Calvo、Simeon Campos、 Carmen Carlan、Micah Carroll、Alan Chan、 Jackie Cheung、Josh Collyer、Elena Cryst、 Tino Cuéllar、Allan Dafoe、Jean-Stanislas Denain、Fernando Diaz、Roel Dobbe、Seth Donoughe、Izzy Gainsbury、Ben Garfinkel、 Adam Gleave、Jasper Götting、Kobi Hackenburg, Lewis Hammond、David Evan Harris、 Dan Hendrycks、Jose Hernández-Orallo、 Luke Hewitt、Marius Hobbahn、Manoel Horta Ribeiro、Abigail Jacobs、Ari Kagan, Daniel Kang、Anton Korinek、Michal Kosinski, Gretchen Krueger、Dan Lahav、Anton Leicht、 Vera Liao、Eli Lifland、Matthijs Maas、James Manyika, Simon Mylius、AJung Moon、Seán Ó hÉigeartaigh, Tamara Paris、Raymond Perrault、Siva Reddy, Luca Righetti、Jon Roozenbeek、Max Roser, Anders Sandberg、Leo Schwinn、Jaime Sevilla, Theodora Skeadas、Chandler Smith、Tobin South、Jonathan Spring、Merlin Stein、David Stillwell、Daniel Susser、Helen Toner、Sander van der Linden、Kush Varshney、Jess Whittlestone, Kai-Cheng Yang 秘书处和写作小组感谢 José Luis León Medina 在质量控制和引文格式化方面、以及 Amber Ace 在文案编辑方面的协助。 此翻译版本由 Acolad 团队完成,并由孙圆圆完成额外技术语言审核。 # 目录 贡献者 2 致谢 4 前言 6 关于本报告 9 自2025年报告发布以来的重要进展 10 执行摘要 11 导言 13 # 1.通用型人工智能的背景信息 15 1.1. 什么是通用型人工智能? 16 1.2.当前能力 24 1.3.到2030年的能力 29 # 2.风险 37 2.1.恶意使用风险 38 2.1.1.AI生成的内容与犯罪活动 38 2.1.2. 影响和操纵 43 2.1.3.网络攻击 48 2.1.4.生物和化学风险 54 2.2.故障风险 60 2.2.1. 可靠性挑战 60 2.2.2失控 64 2.3. 系统性风险 70 2.3.1.劳动力市场影响 70 2.3.2.对人类自主性的风险 74 # 3.风险管理 79 3.1.技术与制度性挑战 80 3.2.风险管理实践 85 3.3. 技术防护与监测 97 3.4.开放权重模型 107 3.5.建设社会韧性 111 # 结论 117 词汇表 118 格式化引文 125 参考文献 126 # 前言 # 对一项快速发展的技术的全新科学评估 这是第二份《国际人工智能安全报告》,该报告基于世界各国领导人在2023年布莱切利公园人工智能安全峰会上提出的任务要求,旨在建立一个证据基础,为关于通用型人工智能的关键决策提供依据。 今年,我们对本报告进行了若干改进,使其更具实用性且更容易理解。 首先,为帮助政策制定者在存在不确定性的情况下更好地理解潜在结果的范围,我们借鉴了经合组织和预测研究所开展的新研究,提出了更具体的场景和预测。 其次,经过广泛磋商,我们缩小了范围,将重点放在新兴风险上:即人工智能能力前沿领域所产生的风险。鉴于该领域存在高度不确定性,本报告提供的严谨分析尤为珍贵。更窄的范围也确保本报告能与其他工作相辅相成,包括联合国人工智能独立国际科学小组的工作。 当然,有些事情并没有改变。 这仍是目前对人工智能能力、风险及风险管理最严谨的评估。其制定过程汇集了 100 多位专家的贡献, 包括由 30 多个国家和政府间组织提名的专家提供的指导。 本报告的基本目标也没有改变:促进各方对人工智能能力如何演进、相关风险以及可用于缓解这些风险的技术手段达成共识。 人工智能的进步速度带来了严峻挑战。但是,与众多参与撰写这份报告的专家们合作的过程让我重燃了希望。我对所有贡献者的巨大努力深表感激 - 我们正在逐步理解这些风险。 通过这份报告,我们希望加深大家对当今时代最具影响力的技术变革的集体理解。 Yoshua Bengio教授 蒙特利尔大学/LawZero/ Mila - 魁北克人工智能研究所兼主席 # 通过国际合作构筑人工智能的安全未来 人工智能持续重塑我们面前的可能性 - 它正在改变经济格局, 振兴公共服务, 并极大加速科学进步。这种进步速度要求我们对人工智能的能力保持最新且共同的理解。这项工作将建立信任, 推动普及应用, 并为人工智能创造全人类共享的繁荣铺平道路。 《2026年国际人工智能安全报告》凝聚了各国政府、各类组织、民间社会及行业伙伴的通力协作,共同完成了这项严谨可靠、基于实证的分析工作。该报告为政策制定者和世界领导人提供了重要工具,助其在充满挑战且瞬息万变的局势中把握方向。 英国将继续致力于加强国际伙伴关系、科学合作以及推动创新人工智能研究的机构,包括英国人工智能安全研究所。继布莱切利公园(2023年11月)、首尔(2024年5月)和巴黎(2025年2月)成功举办具有里程碑意义的峰会之后,我尤其期待印度人工智能影响力峰会的召开-本报告将在该峰会上正式发布-以确保人工智能服务于人类福祉、促进包容性增长并塑造可持续的未来。 我很荣幸能提交这份报告,并感谢 Yoshua Bengio、撰写团队以及所有贡献者对这项计划的奉献精神。携手同行 - 通过共同承担责任和开展国际合作 - 我们能够开辟一条道路,让人工智能为每个国家、每位公民带来安全保障、发展机遇和经济增长。 国会议员 Kanishka Narayan, 人工智能与网络安全大臣, 英国科学、创新和技术部 英国政府 # 让所有人都能公平地获得人工智能 第二份《国际人工智能安全报告》建立在布莱奇利公园2023年人工智能安全峰会的授权基础上。它旨在建立对先进人工智能能力和风险的共同的、基于科学的理解。 本版本重点介绍快速发展的通用型人工智能系统,包括语言、视觉和代理模型。它还检视了相关挑战,包括对劳动力市场、人类自主权和权力集中的更广泛影响。 随着人工智能系统能力不断提高,安全和保障仍然是重中之重。该报告重点介绍了模型评估的实用方法、危险能力阈值和“如果-就”安全承诺以减少高影响故障。 我们的全球风险管理框架仍不成熟,量化基准测试有限,且证据缺口巨大。这些缺口必须与创新一起解决。 对于印度和全球南方而言,人工智能安全与包容性、安全和制度机构准备情况密切相关。人工智能模型的负责任开放性、计算和数据的公平获取以及国际合作也至关重要。 作为2026年印度人工智能影响力峰会的主办国,印度在塑造全球人工智能安全工作方面发挥着关键作用。该报告旨在帮助决策者、研究人员、行业和民间社会制定国家战略。 # Ashwini Vaishnaw 铁路、信息与广播和电子与信息技术部长印度政府 # 关于本报告 这是《国际人工智能安全报告》的第二版。该系列在2023年布莱切利公园人工智能安全峰会后创立,旨在促进国际社会对先进人工智能系统能力与风险的科学共识。由逾百名人工智能(AI)专家组成的多元化团队指导了该框架的制定工作,其中包括一个国际专家顾问小组,其成员提名来自30多个国家和国际组织,涵盖经济合作与发展组织(OECD)、欧洲联盟(EU)及联合国(UN)。 # 范围、焦点与独立性 范围:本报告聚焦通用型人工智能:能够在不同场景中执行多种任务的人工智能模型与系统。这些模型和系统能够执行生成文本、图像、音频或其他形式数据等任务,并常被应用于各类特定领域的场景。 焦点:本报告聚焦于新兴风险:即人工智能能力前沿领域中产生的风险。布莱切利宣言在2023年人工智能安全峰会后发布,强调“人工智能‘前沿’领域存在特殊安全风险”,包括滥用风险、控制问题及网络安全风险。该宣言还承认了人工智能更广泛的影响,包括对人权、公平性、问责制和隐私权的影响。本报告旨在对考虑这些更广泛问题的评估加以补充,包括联合国人工智能独立国际科学小组的评估。 独立性:在主席的领导下,独立撰写团队对内容拥有完全自主权。报告旨在整合科学证据,为明智的政策制定提供支持。它并未提出具体的政策建议。 # 流程与贡献者 《国际人工智能安全报告》由一支多元化的团队撰写, 团队成员超过 30 人, 由主席、首席撰稿人和章节负责人领导。它经过结构化的审查流程。初稿由外部领域专家进行审阅, 随后整合稿由以下人员审阅: 一个由30多个国家和国际组织(包括经合组织、欧盟和联合国)提名代表组成的专家顾问小组 由国际顶尖研究人员组成的资深顾问团 来自行业和民间社会组织的代表 撰写团队、章节负责人、首席撰稿人及主席将审阅者提供的反馈意见纳入考量,并在适当之处予以采纳。 # 自2025年报告发布以来的重要进展 自2025年1月首份《国际人工智能安全报告》发布以来的重要进展。 通用型人工智能能力持续提升,尤其在数学、编程和自主运行领域表现突出。顶尖人工智能系统在国际数学奥林匹克竞赛题目中取得了金牌级表现。在编程领域,智能体如今能够可靠地完成原本需要人类程序员花费约半小时的任务,而一年前这一时间还不到十分钟。尽管如此,性能表现仍然“参差不齐(jagged)”,领先系统在某些看似简单的任务中仍会出现故障。 通用型人工智能能力的提升越来越多地来自应用于模型初始训练后的技术。这些“后训练”方法包括针对特定任务优化模型,并在生成输出时允许模型使用更多算力。与此同时,投入更多算力进行初始训练也持续提升模型能力。 - 人工智能的应用虽发展迅猛,但在不同地区极不均衡。人工智能的普及速度已超越个人计算机等前代技术,目前每周使用主流人工智能系统的人数至少达到7亿。在某些国家,超过 $50\%$ 的人口使用人工智能,但在非洲、亚洲和拉丁美洲的很多地区,使用率可能仍低于 $10\%$ 。 - 人工智能科学能力的提升加剧了人们对其在生物武器研发中被滥用的担忧。由于部署前的测试未能排除这些模型可能实质性帮助新手开发此类武器的可能性,因此,多家人工智能公司在2025年发布新模型时增加了额外安全防护措施。 - 更多证据表明人工智能系统已被用于现实世界的网络攻击。人工智能企业的安保分析表明,恶意行为者和与国家相关的团体正在利用人工智能工具辅助网络行动。 可靠的部署前安全测试已变得更难实施。模型越来越常见地能够区分测试环境和实际部署环境,并利用评测体系中的漏洞。这意味着危险能力在部署前可能无法被发现。 - 行业对安全治理的承诺已得到扩大。2025年,12家公司发布或更新了前沿人工智能安全框架 - 这些文件阐述了它们在构建更强大模型时如何管理风险的计划。大多数风险管理举措仍属自愿性质,但一些司法管辖区已开始将某些实践正式纳入法律要求。 # 执行摘要 本报告评估了通用型人工智能系统的能力范围、其带来的风险以及如何管理这些风险。本报告在逾百名独立专家的指导下完成,其中包括来自30多个国家及欧盟、经合组织和联合国等国际组织的提名专家。在主席领导下,共同撰写本报告的独立专家们对其内容拥有完全的自主权。 本报告重点关注功能最强大的通用型人工智能系统及其相关的新兴风险。通用型人工智能指能够执行多种任务的人工智能模型和系统。新兴风险是指在通用型人工智能能力前沿领域出现的风险。其中部分风险已然显现,并造成了有据可查的危害;其余风险虽仍存在不确定性,但一旦发生可能造成严重后果。 本项研究的目的是帮助政策制定者应对通用型人工智能带来的“证据困境”。人工智能系统正迅速变得更加强大,但关于其风险的证据出现得较为缓慢,且难以评估。对政策制定者而言,行动过早可能导致无效干预措施固化,而等待确凿数据则可能使社会面临潜在严重负面影响的风险。为缓解这一挑战,本报告尽可能具体地综合了关于人工智能风险的已知信息,同时突出了仍存在的认知空白。 虽然本报告侧重于风险,但通用型人工智能也能带来显著效益。这些系统已在医疗、科学研究、教育等领域得到有效应用,尽管全球应用程度参差不齐。但要充分发挥其潜力,就必须有效管理风险。滥用、故障和系统性中断会侵蚀信任并阻碍采用。参加人工智能安全峰会的各国政府发起本报告,因为对这些风险的清晰认知将使相关机构能够根据风险的严重程度和发生概率采取相称的应对措施。 # 能力正在快速提升,但发展不均衡 自2025年报告发布以来,通用型人工智能能力持续提升,这得益于一系列新技术的应用 - 这些技术能在初始训练后进一步增强系统性能。AI开发者持续训练性能更优的更大模型。过去一年间,他们通过“推理时扩展(inference-time scaling)”进一步提升了模型能力:使模型在给出最终答案前调用更多计算资源以生成中间步骤。该技术在数学、软件工程和科学领域中更复杂的推理任务上取得了尤其显著的性能提升。 与此同时,系统能力仍存在“参差不齐”的现象:领先系统可能在某些复杂任务上表现出色,却在其他更简单的任务上表现欠佳。通用型人工智能系统在诸多 复杂领域表现卓越,包括生成代码、创建逼真图像,以及解答数学和科学领域的专家级问题。然而,它们在处理某些看似更简单的任务时仍会遇到困难,例如统计图像中的物体数量、对物理空间进行推理,以及在更长的工作流中从基础性错误中恢复。 人工智能发展至2030年的轨迹尚不明确,但当前趋势表明其仍将持续进步。AI开发者押注计算能力仍将至关重要,已宣布投入数千亿美元用于数据中心建设。至于能力能否继续像最近这样快速提升,目前尚难预测。从现在到2030年,技术进步可能出现三种情形:一是放缓或趋于平稳(例如因数据或能源瓶颈所致);二是维持当前增速;三是实现爆发式增长(例如当人工智能系统开始加速自身研发进程时)。 # 针对若干风险的现实世界证据正在不断增加 通用型人工智能风险主要分为三类:恶意使用、故障和系统性风险。 # 恶意使用 AI 生成的内容与犯罪活动:人工智能系统正被滥用于生成诈骗、欺诈、敲诈勒索及未经同意的私密影像。尽管此类伤害的发生已有充分记录,但关于其发生率和严重程度的系统性数据仍然有限。 影响和操纵:在实验环境中,AI生成的内容在改变人们信念方面,其效果可与人类撰写的内容相媲美。现实世界中利用人工智能进行操纵的案例已有记录,但尚未广泛传播,不过随着技术能力的提升,此类现象可能会增加。 网络攻击:人工智能系统能够发现软件漏洞并编写恶意代码。在一项竞赛中,一个智能体识别出了真实软件中 $77\%$ 的漏洞。犯罪集团和与国家有关联的攻击者正在积极利用通用型人工智能开展行动。究竟是攻击者还是防御者能够从AI辅助中获益更多,这一点目前尚不明确。 生物和化学风险:通用型人工智能系统能够提供有关生物和化学武器研发的信息,包括病原体的详细信息以及专家级实验室操作指南。2025年,多家开发者在无法排除这些模型可能协助新手开发此类武器的可能性后,相继发布了配备额外安全防护措施的新模型。目前仍难以评估物质壁垒在多大程度上继续制约着试图获取这些资源的行为主体。 # 故障 可靠性挑战:当前的人工智能系统有时会出现诸如捏造信息、生成有缺陷的代码以及提供误导性建议等功能失常。智能体因其自主行动特性而带来更高风险,这使得人类更难在功能失常造成危害前及时干预。现有技术虽能降低故障率,但仍达不到许多高风险环境所需的标准。 失控:失控场景是指人工智能系统脱离任何人的控制运行,且没有明确途径恢复控制的情形。当前系统尚不具备引发此类风险的能力,但在自主运行等相关领域正不断改进。自上次报告以来,模型区分测试环境与实际部署场景的情况日益普遍,同时评测体系中的漏洞也更易被发现-这些漏洞可能导致危险能力在部署前未被察觉。 # 系统性风险 劳动力市场影响:通用型人工智能很可能实现广泛认知任务的自动化,尤其在知识工作领域。经济学家对未来影响的程度存在分歧:有人预计失业岗位将被新增就业机会所抵消,而另一些人则认为广泛的自动化可能大幅减少就业机会并降低工资水平。早期证据表明整体就业未受影响,但在某些受人工智能影响的职业中,如写作领域,已出现对初级职业工作者需求下降的迹象。 对人类自主性的风险:人工智能的使用可能影响人们做出明智选择并付诸行动的能力。早期证据表明,过度依赖人工智能工具可能削弱批判性思维能力,并助长“自动化偏见”-即未经充分审视就盲目信任人工智能系统输出结果的倾向。“AI 伴侣”应用程序现已拥有数千万用户,其中一小部分人表现出孤独感加剧、社交参与度降低的趋势。 # 采用多重方法进行分层管理可实现更稳健的风险管理 由于技术和制度层面的挑战,管理通用型人工智能风险具有相当的难度。从技术角度而言,新能力有时会以不可预测的方式出现,模型内部运作机制仍未被充分理解,且存在“评测缺口”:部署前的测试表现无法可靠预测实际应用中的效用或风险。从制度层面看,开发者存在将重要信息保密的动机,而开发速度的加快又会形成压力,迫使他们优先考虑速度而非风险管理,这使得机构更难建立治理能力。 风险管理实践包括威胁建模以识别漏洞、能力评测以评估潜在危险行为,以及事件报告以收集更多证据。2025年,12家企业发布或更新了其前沿人工智能安全框架-这些文件阐述了它们在构建更强大模型时如何管理风险的计划。尽管人工智能风险管理举措仍主要基于自愿原则,但少数监管体系已开始将某些风险管理实践正式纳入法律要求。 技术防护措施正在改进,但仍存在显著局限性。例如,旨在诱发有害输出的攻击已变得更为困难,但用户有时仍可通过改写请求或将其拆分为更小的步骤来获取有害输出。通过叠加多重安全防护措施,可以增强人工智能系统的稳健性,这种方法被称为“纵深防御”。 开放权重模型带来了独特的挑战。它们能带来显著的研究和商业效益,特别是对资源有限的行为主体而言。但是,它们一旦发布便无法撤回,其安全防护机制更易被绕过,且行为主体可在非监控环境中使用——这使得滥用行为更难预防和追踪。 社会韧性在管理人工智能相关危害方面发挥着重要作用。由于风险管理实践存在局限性,它们很可能无法预防某些与人工智能相关的事件。为吸收并从这些冲击中恢复,社会韧性建设措施包括:强化关键基础设施,开发工具识别AI生成的内容,以及建立应对新型威胁的制度能力。 # 导言 当前领先的通用型人工智能系统已能通过法律和医学领域的专业执业资格考试,在给定简单提示词的情况下编写可运行的软件,并能像学科专家一样解答专业博士级别的科学问题。就在三年前,当ChatGPT推出时,它还无法可靠地完成上述任何一项任务。这种转变的速度令人惊叹,尽管未来变化的速度尚不确定,但大多数专家预计人工智能将继续进步。 如今,近十亿人已在日常工作中使用通用型人工智能系统进行工作和学习。企业正投入数千亿美元建设基础设施,用于训练和部署这些系统。在许多情况下,人工智能已开始重塑人们获取信息、做出决策和解决问题的方式,其应用领域涵盖从软件开发到法律服务再到科学研究的各个行业。 但这些使系统变得有用的能力,也带来了新的风险。能够编写可运行的代码的系统同样有助于创建恶意软件。能够总结科学文献的系统可能助长恶意行为者策划攻击。随着人工智能被应用于医疗保健、关键基础设施等高风险领域,其蓄意滥用、故障和系统性中断可能造成严重后果。 对于政策制定者而言,变革的速度、应用的广度以及新风险的出现都提出了重要问题。通用型人工智能能力发展迅速,但收集和评估其社会影响所需证据仍需时日。这形成了本报告所称的“证据困境”。政策制定者若行动过早,则可能实施无效甚至有害的干预措施。但等待确凿证据可能使社会面临潜在风险。 # 本报告的作用 本报告旨在帮助政策制定者应对这一困境。它提供了一份关于通用型人工智能能力与风险的最新且国际共享的科学评估。 撰写团队由逾百名独立专家组成,其中包括一个专家顾问小组,该小组成员来自30多个国家和政府间组织,包括欧盟、经合组织和联合国。报告还纳入了来自学术界、产业界、政府部门及民间社会的评审人员所提供的反馈意见。尽管贡献者在某些观点上存在分歧,但他们共同认为,开展建设性且透明的人工智能科学讨论对于全球民众认识该技术的益处并减轻其风险至关重要。 由于证据困境在科学认知最薄弱的领域最为尖锐,故本报告聚焦于新兴风险:即在通用型人工智能能力前沿领域涌现的风险。其分析聚焦于仍存在高度不 确定性的问题, 旨在与那些关注人工智能更广泛社会影响的研究工作形成互补。。尽管本报告借鉴了国际专业知识并致力于具有全球适用性, 但读者需注意,人工智能的普及率、基础设施及制度环境存在差异,这意味着风险在不同国家和地区可能呈现出不同的表现形式。 这些风险的证据基础参差不齐。某些风险,例如人工智能生成媒体造成的危害或网络安全漏洞,如今已有充分的实证依据。针对其他方面的证据 - 尤其是人工智能能力未来发展可能引发的风险 - 则依赖于建模演练、受控条件下的实验室研究以及理论分析。此处的分析综合运用 2025 年 12 月前发布的广泛科学、技术及社会经济证据。在高度不确定性依然存在的情况下,它指出了证据缺口以指导未来研究。 # 自2025年报告以来的变化 本期《国际人工智能安全报告》是继2025年1月首版报告发布后的最新成果。自那时起,通用型人工智能及其在研究界中的认知持续演进,故有必要进行重新评估。 过去一年里,AI开发者持续训练着规模更大、能力更强的人工智能模型。但是,他们还通过新技术实现了显著的能力提升 - 这些技术使系统能够调用更多计算能力来生成中间步骤,最终得出答案。这些新型“推理系统”在数学、编程和科学领域展现出显著提升的性能。此外,智能体 - 即能在有限人类监督下自主行动的系统 - 正变得越来越强大且可靠,尽管它们仍容易出现基础性错误,从而限制了它们在许多场景中的实用性。 通用型人工智能系统也在持续普及,在某些地区的发展速度甚至超过了以往许多技术,但各国和各地区的发展仍存在显著差异。在科学知识相关能力方面取得的性能提升也促使多家开发者发布了配备额外安全防护措施的新模型-因为他们无法完全排除这些模型可能协助新手开发武器的可能性。 本报告对上述所有进展进行了更深入的探讨,并融入若干新的结构要素,以提升其实用性和可读性。其中包含与预测研究所(Forecasting Research Institute)共同制定的能力预测,以及与经合组织共同制定的情景分析。与首份报告相同,每个章节均包含自上次报告以来的最新进展、政策制定者面临的关键挑战和证据缺口以指导未来研究。 # 本报告的组织结构 本报告围绕三个核心问题展开: # 第1 通用型人工智能如今能做什么,其能力又将如何演变? 章阐述通用人工智能的开发过程(§1.1.什么是通用型人工智能?)、当前能力与局限性(§1.2.当前能力),以及未来几年将影响发展的因素(§1.3.到2030年的能力)。 # 第2 通用型人工智能会带来哪些新兴风险? 章涵盖恶意使用带来的风险,包括将人工智能系统用于犯罪活动(§2.1.1.AI生成的内容与犯罪活动)、操纵行为(§2.1.2.影响与操纵)、网络攻击(§2.1.3.网络攻击),以及开发生物或化学武器(§2.1.4.生物和化学风险);故障风险,包括运行失效(§2.2.1.可靠性挑战)和失控(§2.2.2.失控);以及系统性风险,†包括劳动力市场的扰乱(§2.3.1.劳动力市场影响)及对人类自主性的威胁(§2.3.2.对人类自主性的风险)。 # 第3有哪些风险管理方法,它们的有效性如何? 章探讨通用型人工智能带来的独特政策制定挑战(§3.1.技术和制度挑战)、当前风险管理实践(§3.2.风险管理实践)、开发者为增强人工智能模型与系统的鲁棒性及抵御滥用能力所采用的各类技术(§3.3.技术防护与监测)、开放权重模型的特殊挑战(§3.4.开放权重模型),以及使社会更具韧性以应对潜在人工智能冲击与危害的努力(§3.5.社会韧性)。 通用型人工智能的发展方向在许多方面仍存在重大不确定性。但今天由开发者、政府、社区和个人做出的决定将决定其未来的发展轨迹。本报告旨在确保决策者在充分理解人工智能能力、风险及风险管理方案的基础上作出决策。 # 第1章 # 通用型人工智能的背景信息 过去一年来, 通用型人工智能模型和系统的能力持续提升。当前领先的系统在一系列专业和科学领域的标准化评测中, 已达到甚至超越专家级水平, 涵盖从法律和化学的本科考试到研究生水平的科学问题。然而, 它们的能力也“参差不齐”: 在某些高难度基准测试中表现卓越, 却在一些基本任务上失败。当前的系统有时仍会提供虚假信息, 在训练数据中较少见的语言上表现欠佳, 难以应对现实世界的限制, 例如不熟悉的界面和不常见的问题。缓解这些限制是一个正在积极研究的领域, 研究人员和开发者正在部分领域取得进展。对人工智能研究和训练的持续投资预计会在 2030 年之前推动能力的持续进步, 尽管对于将出现哪些新能力以及当前的缺陷是否会得到解决, 仍然存在很大不确定性。 本章介绍通用型人工智能当前和未来的能力。第一节介绍通用型人工智能, 阐述这些系统的工作原理及其性能驱动因素 (§1.1.什么是通用型人工智能?)。第二节探讨当前的能力和局限性 (§1.2.当前能力)。一个反复出现的主题是 “评测差距”: 系统在部署前评测 (如基准测试) 中的表现往往似乎高估了其实际效用, 因为此类评测未能充分反映现实世界任务的全部复杂性。最后一节探讨到 2030 年能力将如何演变 (§1.3.到 2030 年的能力)。AI 开发者正大力投资于算力、数据生成和研究。但是, 这些投入将如何转化为未来的能力提升, 仍存在很大的不确定性。为说明各种可能结果的范围, 本节介绍了经合组织提出的四种情景, 涵盖从能力提升停滞到改进速度加快的不同情形。 # 第1.1.节 # 什么是通用型人工智能? # 内容提要 - “通用型人工智能”是指可以执行各种任务、而非专注于一个特定功能或领域的人工智能模型和系统。此类任务的范例包括生成文本、图像、视频和音频,以及在计算机上执行操作。 通用型人工智能模型基于“深度学习”。现代深度学习涉及使用大量计算资源来帮助人工智能模型从庞大的训练数据集中学习复杂的关联和抽象特征。 - 开发领先的通用型人工智能系统已变得非常昂贵。为了训练和部署此类系统,开发者需要大量的数据、专业劳动力以及大规模的计算资源。获取这些资源以从头开始开发领先的系统现在要花费数亿美元。 - 自上次报告(2025年1月)发布以来,能力提升已越来越多地来自于后训练方法以及在使用时投入的额外计算资源,而不仅仅依赖于模型规模的扩大。以往的性能提升主要是由于将模型设计的更大并在初始训练期间使用更多数据和算力。最近,开发者投入了更多资源用于额外的后训练方法和在模型生成输出时分配更多的计算资源。 # 什么是通用型人工智能系统? 通用型人工智能系统是从大量数据中学习模式的软件程序, 使它们能够执行多种任务, 而非专注于某个特定功能或领域 (参见表 1.1)。为了创建这些系统, AI 开发者需要执行一个多阶段的流程, 该流程需要大量的计算资源、大型数据集和专业性的知识 (参见表 1.2)。开发和部署人工智能系统都需要有计算资 源(通常缩写为“算力”),并包括专门的计算机芯片以及运行这些芯片所需的软件和基础设施。由于通用型人工智能系统是在大型和多样化的数据集上训练的,因此它们可以执行许多不同的任务,例如文本摘要、图像生成或编写计算机代码。本节解释了如何构建通用型人工智能系统、什么是“推理”模型,以及政策决定如何影响通用型人工智能系统的开发。 表1.1:有几种不同类型的通用型人工智能。在本报告中,可以预测多种类型分子结构信息的模型被视为“通用型”人工智能,因为它们可被适配用于多种任务。例如,经过训练可以预测蛋白质结构的模型适用于各种其他任务,例如预测蛋白质相互作用、预测小分子结合位点以及预测和设计循环肽(40)。 <table><tr><td>通用型人工智能的类型</td><td colspan="2">示例</td></tr><tr><td rowspan="6">语言系统</td><td>— Apertus (1)</td><td>— GPT-5 (7*)</td></tr><tr><td>— Claude Sonnet-4.5 (2*)</td><td>— Hunyuan-Large (8*)</td></tr><tr><td>— Command A (3*)</td><td>— Kimi-K2 (9*)</td></tr><tr><td>— EXAONE 4.0 (4*)</td><td>— Mistral 3.1 (10*)</td></tr><tr><td>— Gemini-3 Pro (5*)</td><td>— Qwen3 (11*)</td></tr><tr><td>— GLM-4.5 (6*)</td><td>— DeepSeek-V3.2 (12*)</td></tr><tr><td rowspan="2">图像生成器</td><td>— DALL-E 3 (13*)</td><td>— Midjourney v7 (15*)</td></tr><tr><td>— Gemini 2.5 Flash (14*)</td><td>— Qwen-image (16*)</td></tr><tr><td rowspan="3">视频生成器</td><td>— Cosmos (17*)</td><td>— Runway (19)</td></tr><tr><td>— SORA (18*)</td><td>— Veo 3 (20*)</td></tr><tr><td>— Pika (19)</td><td></td></tr><tr><td rowspan="3">机器人和导航系统</td><td>— Gemini Robotics (21*)</td><td>— Octo (24*)</td></tr><tr><td>— Gr00t N1 (22*)</td><td>— OpenVLA (25*)</td></tr><tr><td>— MobileAloha (23)</td><td>— PaLM-E (26)</td></tr><tr><td rowspan="2">各类生物分子结构的预测器</td><td>— AlphaFold 3 (27)</td><td>— CellFM (29)</td></tr><tr><td>— AMPLIFY (28)</td><td>— Evo 2 (30)</td></tr><tr><td rowspan="4">智能体</td><td>— AlphaEvolve (31*)</td><td>— Magentic-One (35*)</td></tr><tr><td>— ChatGPT Agent (32*)</td><td>— OpenScholar (36*)</td></tr><tr><td>— Claude Code (33*)</td><td>— The AI Scientist-v2 (37*, 38*, 39*)</td></tr><tr><td>— Doubao-1.5 (34*)</td><td></td></tr></table> # 深度学习是通用型人工智能的基础 研究人员使用一种称为深度学习的流程来构建通用型人工智能模型,该流程训练模型通过示例进行学习 (41)。不同于软件工程,深度学习模型可学会根据数据来完成任务,而不依赖手写指令。通过处理大量数据(如图像、文本或音频),这些模型能够发现表示这些数据的方法,从而创建对模式 (patterns)(如形状、词语关联或声音结构)的内部表示 (internal representations),帮助模型识别其中的关系,并生成与其训练目标一致的输出。然后,它们利用这些学到的内部表征作为抽象特征 (abstract features) 来分析新的相似数据并以相同风格生成输出。例如,根据足够多的 19 世纪浪漫英语诗歌示例进行训练的通用型人工智能模型能够识别这种风格的新诗歌,并以类似的风格生成新材料。 在更精细的层面上,深度学习的工作原理是通过互连的信息处理节点层来处理数据。这些节点通常被 称为“神经元”,因为它们的设计灵感大致来源于生物大脑(“神经网络”)中的神经元(图 1.1)(42)。随着信息从一层神经元流向下一层,模型逐渐将数据转换为更抽象的表现形式(representations),这些表现形式由学习到的特征(feature)群组组成,即模型在数据中自动发现的模式,而非手动编码的模式。例如,在图像处理模型中,第一层可能会学会检测边缘或基本形状等简单特征,而较深的层则结合这些特征来挑选出面部或物体等更复杂的图案。 所有层的特征都是通过定义训练程序的优化过程发现的。在训练过程中,当模型出错时,深度学习算法会调整神经元之间各种连接的强度,以提升模型的表现。节点之间每个连接的强度通常称为“权重”。这种分层方法为“深度学习”这一名称的由来 事实证明,对于以前被认为传统手工编程计算系统和其他早期的符号或基于规则的人工智能方法来说很难完成的任务,深度学习在让人工智能系统完成这些 神经网络结构 图1.1:“神经网络”的示意图。当今的通用型人工智能模型都基于这些网络,这些网络的灵感大致来自生物大脑。不同的网络有着不同的规模和架构。但是,它们都由被称为“神经元”的连接信息处理单元组成,其中神经元之间的连接强度被称为“权重”。权重通过使用大量数据进行训练来更新。来源:《2025年国际人工智能安全报告》(50)(经修改)。 任务方面非常有效。现在,大多数最先进的通用型人工智能模型都基于一种被称为“transformer”的特定神经网络架构(43,44)。Transformer使用“注意力”机制(45),帮助模型在处理信息时专注于输入数据中最相关的部分,例如确定句子中哪些单词对理解其含义最为重要。这种特殊的模型构建方式为翻译(43)、自然语言处理(46)、图像识别(47*)和语音识别(48*,49)带来了显著改进,最终导致了开发出当今最先进的模型。 # 通用型人工智能是分阶段开发的 开发通用型人工智能系统涉及多个阶段,从初始模型训练到部署后监测和更新(图 1.2)。实际上,这些步 骤通常以迭代的方式重叠。每个阶段需要不同的资源输入(例如数据、人力、计算)和不同的技术,有时由不同的开发者执行(图1.2和表1.2)。 例如,模型预训练通常需要大量的算力和数据,因此该阶段对影响计算资源或训练数据访问权限的策略特别敏感(51,52)。同样,数据筛选(data curation)和一些模型微调方法目前需要大量的人力来进行初始数据标记(53)。因此,这一阶段对人力成本、平台政策或影响跨境合同安排的法规的变化很敏感。 图1.2:通用型人工智能开发阶段的示意图。来源:《2026年国际人工智能安全报告》。 <table><tr><td>1. 数据收集和 策管</td><td>在训练通用型人工智能模型之前,开发者和数据工作者会收集、清洗、策管和标准化原始训练数据,使其成为可供模型学习的格式。这可能是一个劳动密集型过程。当前最先进模型背后的训练数据集包含了来自整个互联网的海量示例。 团队通常会开发复杂巧妙的筛选方法,以减少有害内容、消除重复数据,并改善不同主题和来源的代表性(54,55)。数据筛选还可以帮助减少侵犯版权和隐私的行为,移除含有害知识的示例,处理多种语言,改善数据溯源的文档记录(56,57,58)。</td></tr><tr><td>2. 预训练(训 练的第一 阶段)</td><td>在预训练期间,开发者向模型提供大量多样化的数据,以赋予广泛的信息基础和上下文理解能力。此过程会生成“基础模型”。这是一个高度的数据密集型和计算密集型过程。 在预训练期间,模型会接触到数十亿或数万亿个内容示例,例如图片、文本或音频。 通过这种接触,模型会逐渐发现抽象特征来表示数据,并学习这些特征之间的关联,从而能够根据上下文理解新的输入。这种预训练过程需要数周或数月(59),使用数万或数十万个图形处理器(GPU)或张量处理单元(TPU)(60),这些专门的计算机芯片旨在快速处理海量此类计算。一些开发者使用自己的算力进行预训练,而另一些开发者则使用专业算力提供商提供的资源。</td></tr><tr><td>3. 后训练和微 调(训练的 第二阶段)</td><td>“后训练”进一步完善了基础模型,以针对特定应用对其进行优化。这是一个中等的计算密集型和高度劳动密集型过程。转向使用“合成数据”(模仿现实世界数据、但使用算法或模拟创建的人工生成信息)可帮助降低这一阶段的劳动密集度。 后训练包括各种微调技巧和其他改良。“监督微调”包括在特定数据集上对已训练好的模型进一步训练,以提升其在该领域的表现(61,62)。例如,可以在大型放射影像数据集上进一步训练通用模型。“强化学习”(RL)包括通过在模型生成理想输出时给予“奖励”(提供正面反馈),而在生成不理想输出时给予“惩罚”(提供负面反馈),从而提升模型的表现。它有两个重要的子类别。“基于人类反馈的强化学习”(RLHF)包括根据人类反馈,奖励符合人类偏好的输出,并惩罚不符合人类偏好的输出(63,64*)。“可验证奖励强化学习”(RLVR)用于提升需要事实正确性的任务(例如数学或代码生成)的模型表现。开发者通常在使用后训练方法与运行测试之间交替进行,直到结果显示模型达到所需规格为止。</td></tr></table> 表1.2:在通用型人工智能的每个开发阶段,人工智能模型都经过改进以供下游使用,并最终作为完全集成的人工智能系统进行部署,进行监测和更新。 <table><tr><td>4. 系统集成</td><td>开发者将一个或多个通用型人工智能模型与其他组件相结合,以创建可供使用的“人 工智能系统”。GPT-5(举例)是一个处理文本、图像和音频的通用型人工智能模型 (model),而 ChatGPT 则是一个将多个不同规模和功能的模型与聊天界面、内容 处理、Web 访问和应用程序集成相结合、以创建功能性产品的通用型人工智能系统 (system)。 除了使人工智能模型具备运行能力外,人工智能系统的其他组件还用于增强能力、实 用性和安全性。例如,系统可能带有过滤器,用于检测和屏蔽包含有害内容的模型输 入或输出 (65*)。开发者还越来越多地使用“脚手架”,即围绕通用型人工智能模型构 建的附加软件,使其能够前瞻规划,追求目标并与世界互动 (66)。</td></tr><tr><td>5. 部署和发布</td><td>部署是使集成化人工智能系统可用于其预定用途的过程。开发者和部署者将人工智能 系统落地到现实世界的应用程序、产品或服务中。开发者可以在内部(供自己使用)或 外部(供私人客户或公众使用)部署人工智能系统。在外部部署人工智能系统时,企业 通常通过在线用户界面或应用程序编程接口(API)为用户提供访问权限。例如,一家 公司可能会设计一个定制的客服聊天机器人,该聊天机器人由另一家公司的通用型人 工智能系统提供支持。 “人工智能系统部署”是指通过集成工具和接口将模型提供给现实世界使用,而“模型 发布”则涉及让其他人可以访问基础模型——可以是开放权重(可下载的参数),也 可以是封闭权重(仅限API访问)。参见§3.4.开放权重模型。</td></tr><tr><td>6. 部署后监测 和更新</td><td>开发者经常收集和分析用户反馈,跟踪影响和性能指标,并进行迭代改进,以解决在 实际使用过程中发现的问题 (67)。改进通过更新系统集成来实现,通常是通过持续的 微调和为模型提供访问(最近)事实的外部数据库的权限。这样可以使大型人工智能 模型保持更新,而无需重复整个预训练过程 (68*)。这使得各项能力能在连续的训练 轮次中积累,同时保持稳定性并降低计算成本。</td></tr></table> # 推理系统在推理过程中生成“思维链”来提升表现 推理(Inference)发生在人工智能模型训练完成后用户使用该模型时。例如,当有人要求人工智能系统进行旅行规划时,就会进行推理,其背后的模型会利用其在地理、交通和美食方面所学知识的相关方面来生成行程。 过去十年来,人工智能能力的提升主要来自于更大规模的训练;也就是说,增加了用于训练人工智能模型的计算量。但最近,研究人员通过允许模型更长时间地处理信息,以及训练模型在完成任务时生成明确的推理步骤,取得了更多进展 $(69^{*},70)$ 。像这样运行的人工智能系统被称为推理系统,它们在解决问题或回答问题时所进行的中间解释被称为思维链。推理系统在使用时需要更多的计算资源来生成这些复杂的思维 链 (71, 72, 73, 74), 并且在训练期间需要更多资源, 这样它们才能更好地学会推理。实际上, 这些推理能力让人工智能系统能够通过将任务迭代地分解为更小的步骤来解决更复杂的问题。表 1.3 展示的是非推理系统和推理系统解决同一问题的示例。 推理系统在解决挑战性问题的能力方面已取得重大突破。例如,2025年,专门用于解决数学问题的推理系统,如谷歌的 Gemini Deep Think 以及 OpenAI 一款尚未发布的处于实验阶段的模型,(在结构化测试环境中)解答国际数学奥林匹克竞赛题目时,达到了相当于人类金牌选手的水平 (75, 76)。推理系统在数学、逻辑谜题和结构化科学问题等形式化领域已展现出显著进展,在这些领域中,逐步推理过程可以被明确验证 (77)。但是,推理系统也可能会因产生无关紧要、没有成效或重复的思维链而失败 (78, 79)。 # 在晨光中像夜晚一样黑。我高高在上,直至被碾碎。我坐在干燥处,直至被淹没。我是什么? # 示例:模型在无推理情况下的回复 答案是“方糖”。 以下是答案如何契合这些谜语的: 1. “在晨光中像夜晚一样黑”——方糖是白色的,但是当你把它放到深咖啡或茶水中时, 它会显得很黑。 2. “我高高在上, 直至被碾碎”——方糖通常存放在高处 (比如橱柜或高的架子) 直到需要为止, 然后被研磨或压碎加入饮品中。 3. “我坐在干燥处, 直至被淹没”——方糖在被放入液体 (如茶或咖啡) 之前, 会干燥地放在表面或容器中, 放入液体中后, 它就会被“淹没”。 答案与谜语非常契合,而且这是一个巧妙的文字游戏! # 示例:推理系统的思维链和回复 让我来逐句解析一下: 1. “在晨光中像夜晚一样黑。” - 这表明某种东西在早上显得很黑,尽管早晨本身是明亮的。 2. “我高高在上,直至被碾碎。” - 这表明某些东西起初位置很高,但最终变得很低。它也可能是指随着时间推移而磨损或减少的物理物质。 3. “我坐在干燥处,直至被淹没。” - 这表明某种东西通常是干燥的,但随后会变湿或“淹没”在液体中。 让我推理一下什么东西适合上述所有描述: - 铅笔?铅是黑色的,它位于高处(可能在铅笔筒里),随着使用会被磨削,如果掉入水中,则可能会被淹没。 - 咖啡豆?它们很黑,高高地放在架子上,被研磨之后,再淹没在热水中,用来制作咖啡。 - 蜡烛? 未点燃时天是黑的, 放置在高处, 随着燃烧会逐渐磨短, 如果浇水就会被 “淹没” 熄灭。 铅笔和蜡烛的解释似乎很合适,因为位于高处或被淹没并不是它们制造或使用过程中的关键特征。我认为咖啡豆的解释更合适,尤其是提到“晨光”时。 这个谜语的答案是咖啡豆。 表1.3:非推理系统(左)与推理系统(右)解答同一谜语的示例。这些示例改编自真实的人工智能回复。推理系统在提供最终答案之前,会通过构建一条“思维链”,花费更多的时间和算力来“思考”。 AI智能体建构示例-一套能够在很少监督和指令下运行的AI系统 图1.3:智能体的示意图:一种人工智能模型(中心),已被配置为能够迭代地进行规划、推理并使用工具来完成现实世界任务。来源:《2026年国际人工智能安全报告》。 # 关于训练方法的最新动态 自上次报告 (2025 年 1 月) 发布以来, 一种名为蒸馏(distillation) 的训练方法极大地提高了对某些模型进行微调的效率。蒸馏包括根据更强大(通常规模更大)的 “教师” 模型的输出对 “学生” 模型进行训练, 从而让学生模型能够直接模仿教师模型的输出 $(80^{*})$ 。例如, DeepSeek 开发了一个名为 DeepSeek-R1 的大规模模型, 该模型擅长思维链推理。R1 生成的推理输出随后用于微调较小的学生模型, 包括 DeepSeek-v3。DeepSeek-v3 保留了 R1 在数学、编程和文档分析方面的大部分能力, 据报道其微调成本约为 10,000 美元 (尽管未报道其预训练成本) $(81^{*})$ 。这很可能比微调其他能力相当但规模更大的模型的成本低几个数量级。 因此, 蒸馏可以成为模型获得更强大能力的一种经济而有效的方式 (82)。一些研究人员仅使用由最先进模型生成的约 1,000 个样本, 对高性能模型进行微调 (83)。由于蒸馏需要先前既有的教师模型, 因此无法直接用于推动最先进模型能力的进一步提升。但它能加速先进人工智能能力的普及, 即使这些能力源自闭源模型 $(84^{*})$ 。 再加上“分布式计算”和去中心化训练(开发者使用多个处理器、服务器或数据中心共同进行人工智能训练 或推理的方法 (85, 86, 87)) 方面的技术进步, 许多人工智能开发项目依赖大规模、集中式计算基础设施的程度已经降低。这日益使得资源不那么多的行为主体也能够开发和部署强大的系统。 # 关于智能体的最新动态 自上次报告(2025年1月)发布以来,开发者在结合人工智能模型与工具方面取得的进展,推动了日益强大的智能体的开发。智能体被设计用来追求目标,这些目标通常由用户以自然语言指定。为了实现这些目标,它们可以访问内存、计算机界面和网络浏览器等工具。这些工具以及用来将它们与模型相结合的代码被称为脚手架,它们可以帮助智能体自主地与外界互动、制定计划、记住重要细节并追求目标 $(88^{*}, 89)$ ,几乎无需人类的监督或协助。例如,Manus AI 是一个广受欢迎的智能体,能够自动执行各种任务,包括网络搜索、软件开发和在线购物(90)。图1.3展示了一个简单的智能体示例,该智通体体由通用型人工智能模型“大脑”组成,能够迭代地进行规划、推理并使用工具实现记忆、网页浏览和计算机操作。 智能体的数字基础设施正在扩大 (91), 它们在各行各业中越来越普遍 $(92, 93^{*}, 94^{*})$ 。智能体是为研究 $(37^{*})$ 、软件工程 (95)、机器人控制 $(96^{*})$ 和客户服务 (97) 等 任务开发的。持续的研发让智能体或多智能体系统的能力稳步提高、自主性更强。研究人员估计, 智能体能够完成的软件基准测试任务的复杂性大约每 7 个月翻一番 (另见 §1.2.当前能力) (98)。专家们认为, 随着智能体能力不断增强, 它们将带来重大机遇和风险 (99, $100^{*}$ ) (参见 §2.2.1.可靠性挑战)。 # 证据差距 围绕通用型人工智能系统开发过程的主要证据差距,源于缺乏有关其开发方式的公开信息。一些开发者对如何开发通用型人工智能系统非常透明 (1, 101)。但总的来说,公众和政策制定者对如何开发、保护、评估和部署最先进模型的了解程度有限。对于内部部署的人工智能系统尤其如此,这些系统在人工智能公司内部使用,但未被外部利益相关者使用或理解 (102, 103)。这种有限的外部可见性给透明度和监督带来了挑战。多位研究人员指出,在训练数据 (104, 105, 106)、通用型人工智能模型 (107, 108)、智能体 (92)、评测方法 (109)、开发流程 (110)以及安全性 (111)等方面,存在透明度不足且不一致的问题。有时为了保护公司的商业秘密和知识产权,需要对外部披露予以限制。同时,低透明度使得独立研究人员和政策制定者更难以研究通用型人工智能模型和系统。 # 第1.2.节 # 当前能力 # 内容提要 通用型人工智能系统可以熟练地执行一系列范围明确的任务。这些任务包括用多种语言流利地交谈、生成代码以完成特定的软件任务、创建逼真的图像和短视频,以及解决研究生水平的数学和科学问题。 - 但是, 其能力参差不齐 (jagged): 仍然有许多任务人工智能系统不能很好地执行。例如,在多步骤项目中, 人工智能系统可能会因简单的错误而脱离原进程; 继续生成包含虚假陈述 (“幻觉”) 的文本; 且尚无法通过集成机器人组件以执行基本的物理任务, 例如家务。当以英语以外的语言提示时, 它们的表现也往往会下降, 因为这些语言在训练数据集中所占比例较低。 - 智能体越来越有能力完成有用的工作。例如,智能体已展现出在有限的人工监督下完成各种软件工程任务的能力。然而,它们尚无法完成全面自动化许多工作岗位所需要的复杂任务和长期规划。 - 自上一份报告(2025年1月)发布以来,“推理系统”的进步已推动提升了在更复杂任务方面的表现。推理系统能够将问题分解成更小的步骤,并比较不同答案。这尤其提高了它们在数学、编程和科学研究相关任务上的表现。 - 核心挑战是新出现的“评估差距”:现有评估方法无法可靠地反映系统在现实世界环境下的表现。许多常见的能力评估已经过时,受到数据污染的影响(当人工智能模型根据评估中使用的相同问题进行训练时),或者只专注于狭窄的任务集。因此,它们对现实世界中人工智能的性能所提供的洞察有限。 通用型人工智能系统展现出许多卓越的能力。领先的系统目前已在数学竞赛中达到金牌级别,并能协助科研人员提出假设和排查实验室工作中的问题。在各种基准测试和任务特定评测中,它们与专家的表现相当,在某些情况下甚至超越专家的表现。然而,这些系统展现的性能配置也参差不齐:它们的能力因不同的任务和环境而有很大差异。它们有时仍会产生虚假 信息(“幻觉”),即使给出的输入相同或相似,也会产生不一致的输出。存在“评测差距”:人工智能系统在部署前评测等受控环境中经常有出色的表现,但在现实世界环境下表现较差。这种变化性使得难以通过单一指标来评估通用型人工智能能力。本小节概述了人工智能系统的能力及其缺点(表1.4)。 大多数专家认为,通用型人工智能系统目前可以执行以下任务: 表 1.4: 当前通用型人工智能系统的主要能力和限制摘要。 <table><tr><td>用多种语言进行流利的对话</td><td>为狭窄、定义明确的软件任务编写并调试代码</td><td>生成高逼真度的图像和短视频片段</td><td>解决研究生水平的、结构明确的考试类数学与科学问题</td><td>为科学研究做出贡献,例如通过文献综述和数据分析</td></tr><tr><td colspan="5">大多数专家认为,通用型人工智能无法执行以下任务:</td></tr><tr><td>独立地执行为期多天的项目</td><td>以很高的可靠性生成没有虚假陈述(“幻觉”)的文本</td><td>执行涉及机器人的有用任务,如家务劳动</td><td>解决需要新颖洞察力或大量复合推理的数学和科学问题</td><td>在数字资源远少于英语的语言中表现可靠</td></tr></table> # 当前的通用型人工智能系统能做些什么? 现在,通用型人工智能系统在标准化评测中的表现等于或高于人类专家的水平(图1.4),涵盖的定义明确的专业和科学领域越来越多。例如,领先的模型在从化学到法律等学科的本科考试中得分超过 $90\%$ (MMLU, $(112^{*})$ ),在研究生水平的科学考试中得分超过 $80\%$ (GPQA, $(14^{*})$ )。2025年7月,谷歌DeepMind和OpenAI的模型在国际数学奥林匹克竞赛中获得了金牌级别的成绩,在模拟竞赛环境下解决了六个问题中的五个(76)。除了基于文本的推理外,这些系统还显示出强大的多模态能力:它们可以根据简单的文本提示 $(13^{*}, 18^{*}, 113^{*}, 114^{*}, 115^{*}, 116^{*})$ 创建逼真的图像、高清短视频、三维场景和音乐作品,并且它们正开始处理复杂的传感器数据以指导物理机器人 $(21^{*})$ 。 # 先进的能力正在提升医学、教育、软件开发和其他领域的生产力 先进的人工智能能力现在可为实用工具提供支持,这些工具在特定任务中可以不亚于或超过人类表现,可以提高多个领域的生产力 $(117^{*})$ 。 在医学领域,人工智能系统可以分析临床场景并进行诊断性对话,从而生成可能的诊断列表。在 特定的模拟环境中, 尽管它们缺乏现实世界临床部署所需的可靠性和一致性, 但它们的准确度可能会超过人类医生 (118, 119)。 在教育领域,从课程设计到学生评估等领域,人工智能系统正迅速被采用,改变了教育流程 $(120^{*}, 121)$ ,同时学生的广泛使用正对现有学术评估的完整性和有效性构成重大挑战 $(122)$ 。 在软件开发方面,人工智能编程助手现在已被广泛采用,一些研究表明,使用人工智能助手的开发者完成某些任务的平均速度比不使用的开发者快 $20\% - 30\%$ (123\*, 124, 125\*)。 一 客户服务、咨询和专业写作等其他领域的大规模研究发现, 人工智能辅助工作可以显著提高生产力, 尽管这些影响会因任务和工作人员群体而有所不同 (126, 127, 128, 129, 130)。(有关通用型人工智能对劳动力市场影响的更详细讨论, 请参见 §2.3.1. 劳动力市场影响。) # 通用型人工智能系统辅助科学研究 研究人员现在使用通用型人工智能系统来支持相对复杂的跨学科任务。研究人员已经证明,人工智能系统可以在高水平的人类指导下,设计用于医疗用途的新型蛋白质,这些蛋白质随后可在实体实验室中被验证 (131)。其他系统发现了比长期以来人工设计的方 领先的通用型人工智能模型性能已在多项关键基准测试中得到提升 图1.4: 2023年4月至2025年11月期间, 主流通用型人工智能系统在关键基准测试中的得分。这些基准测试涵盖编程(SWE-bench Verified)、数学(MATH和FrontierMath)以及科学推理(GPQA Diamond)等领域的高难度问题。以OpenAI的o1为代表的推理系统在数学任务上表现出显著提升的性能, 这一点在MATH基准测试中表现得尤为明显。来源: Epochach AI, 2025 (138)。 法更有效的新算法 $(31^{*})$ 。值得注意的是, 此类进步往往较少依赖最新模型的原始性能, 而更多地依赖于恰当的系统集成。通用型人工智能也越来越多地被用于加速人工智能研究本身, 这一趋势的重大影响将在 §1.3.进一步讨论。到 2030 年的能力。在社会科学领域, 研究人员正使用人工智能通过自动标注来加速数据分析, 通过使用智能体模拟个人和集体行为来探索社会互动机制 (132, 133, 134)。从分析转向直接应用, 研究人员开始使用通用型人工智能系统来设计和研究可扩展的新型社会干预方案。例如, 近期的工作探索了利用人工智能介导的对话在民主辩论中寻求共识, 或通过对话减少人们对阴谋论的相信程度 (135, 136, 137)。 # 通用型人工智能系统目前的局限性是什么? 尽管能力有所提高,但通用型人工智能系统在不同任务和情境下的表现仍然参差不齐。本节重点介绍了一些突出的局限性,尽管所面临的挑战范围更为广泛。 # 当前的人工智能系统仍然存在可靠性挑战 尽管最近有所改进, 但通用型人工智能系统会不可靠, 容易出现基本的事实和逻辑错误。即使是擅长完成复杂任务的系统也可能生成不存在的引文、传记或事实, 这种现象被称为 “幻觉” $(139, 140, 141^{*})$ 。它们的表现也可能不一致; 例如, 在问题描述中插入无关信息时, 数学问题的准确度可能会大大降低 $(142^{*})$ 。这种脆弱性延伸到多模态能力: 模型在空间推理任务 (例如对场景中物体进行基本计数) 上的表现往往较差 $(143, 144)$ 。尽管专家的人工监督可以减轻其中一些风险, 但也存在相应的过度依赖的危险, 即用户信任不正确的输出, 因为这些输出可以流畅而自信地呈现 $(145, 146)$ (参见 §2.3.2. 对人类自主性的风险)。这种不可靠性使得难以在医疗和金融等高风险环境安全地采用此类系统, 因为在这些环境中, 错误可能会造成严重后果, 仍然需要对系统输出进行人工验证。 # 系统在长期规划和应对意外障碍方面存在困难 通用型人工智能系统还难以完成需要长期规划、在多个步骤保持连贯策略以及适应意外障碍的任务。随着任务长度增加,智能体往往难以跟踪其进展,且无法可靠地处理预期之外的输入(147, 148, 149*)。例如,即使是简单的网站弹出式广告也可能使整个任务脱离原进程(150)。大规模评测证实了这种现状:在软件开发中,能力最强的系统在持续两小时以上的任务中只能成功完成 $50\%$ ,而要达到 $80\%$ 的成功率,则需要将其限制在更简单的25分钟任务(98, 151)。目前,对冗长或复杂任务的可靠自动化执行仍然不可行。 # 与物理世界的互动仍具有挑战性 事实证明,在数字任务上取得的进展也难以转化为机器人技术,因为现实物理世界的复杂性带来了新的挑战。最近的进展集中体现在视觉-语言-动作(VLA)模型上,这些基础模型旨在使机器人能够遵循自然语言指令、解析多模态感官数据并生成运动命令。最先进的系统,如π0.5(152\*)和Gemini Robotics(21\*),现在已能够理解“清洁厨房”等简单的口头命令,还能在不熟悉但受控环境中执行一系列物理步骤。但是,当前的VLA模型在面对非常规物体形状和意外事件时表现仍然不佳(152\*)。确保此类系统能够在不同的环境中安全且可靠地运行,以最大程度降低人身伤害 或财产损失的风险,并保持良好表现,仍然是一个活跃的研究领域 (153, 154, 155*)。 # 在不同语言和文化下的表现参差不齐 通用型人工智能模型和系统的能力还会因语言和文化而有所不同。这些模型在英语任务上的表现最佳,反映出大多数训练数据来自西方来源这一事实(156\*, 157)。例如,一项针对83种语言的人工智能模型的评测发现,使用非拉丁字母文字的语言以及数字资源有限的语言,其模型表现明显较差(158)。这种差距还延伸到文化知识方面(159);一项研究表明,人工智能模型对有关美国日常文化的问题回答正确率为 $79\%$ ,而对埃塞俄比亚文化相关问题的正确率仅为 $12\%$ (160)。另一项研究发现,当前模型在高资源语言中“推理”更为有效,这可能会扩大语言之间的表现差距(161)。除了语言和文化方面之外,在地理和社会经济方面也出现了类似的情况。模型在推荐中对弱势人口群体所在地区代表性不足(162);例如,当被要求推荐餐厅时,它们可能不会推荐贫困地区的餐厅,并且在事实回忆中,其对低收入国家的表现也出现下降(163, 164)。这种不平等因评测基准本身严重偏向英语而进一步加剧,从而形成了一个生态系统,在这个生态系统中,低资源的语言持续处于系统性地研究不足且优化不足的状态(165\*, 166)。 图1.5: 通用型人工智能模型(s1)在推理密集型任务中的表现, 随测试时计算资源 (即在推理过程中使用额外的计算资源) 的多少而变化。在生成回复期间分配更多的计算时间可显著提升在数学(AIME 2024)和博士级科学问题(GPQA Diamond)上的表现。来源: Muennighoff 等人, 2025 (173)。 # 更新 自上次报告 (2025 年 1 月) 发布以来,“推理”系统已成为主流(参见 §1.1.什么是通用型人工智能?以了解其发展的详细信息)。这些系统通过在自身“思维链”中生成并比较多个答案、再输出最终答案,在高难度数学、编程和科学任务中展示出显著提升的表现(图 1.5) $(112^{*}, 167^{*})$ 。由于这些模型的表现部分取决于推理时计算,因此它们的有效能力可能会在初次开发后发生变化,即随着被分配更多计算资源而提高。 与此同时,人工智能企业更加注重开发智能体,尤其是在软件工程(168)和计算机操作 $(169^{*}, 170^{*})$ 等领域。尽管可靠性仍然是瓶颈,但这些智能体能够自动执行的任务的复杂程度正在迅速提高 (98)。最后,使模型形成长期记忆并从用户交互中持续学习,正逐渐成为一个关键发展领域 $(171, 172^{*})$ 。 # 证据差距 能力的参差不齐以及评测差距,使得通用型人工智能的能力难以被可靠地衡量和预测(174,175)。其表现在很大程度上还依赖于具体的测试样本和使用的提示词,因此很难以高置信度地证明人工智能系统不具备执行某些(可能危险的)任务的能力 $(176^{*})$ 。目前尚没有个统一、全面且持续更新的人工智能能力综述,导致人们对该领域的理解支离破碎且往往过时。包括本报告在内的现有综述(138,177)虽提供了有价值的总结,但在这一快速发展的领域中也仅是静态概述。由于没有广泛认可的能力分类体系,政策制定者不得不在零散的基准测试和信息来源中摸索来形成对整体情况的认知。 # 基准测试通常无法预测在现实世界的表现 基准测试的可靠性正引发更多担忧。许多能力评测都依赖于标准化的基准测试。然而,许多模型可能使用了来自这些基准测试本身的数据进行训练——这一问题被称为数据污染(data contamination),而目前大多数开发者并未对此进行追踪或披露 (178)。这可能导致性能得分虚高,无法反映模型的真实能力 $(179^{\star})$ ,而仅仅体现其记忆答案的能力(180,181,182)。当前评测做法的另一个局限性是,它们依赖于受控实验室环境中的自动化测试。但是,这往往高估了人工智能系统在动态现实场景中的实际效用(147、 $149^{\star}$ 、183、184)。例如,一项研究发现,虽然智能体可以生成可运行代码,但该代码在实际项目中使用之前,仍然需要大量的人力来修复文档、格式和质量方面的问题 (185)。为了应对这些局限性,一门专门的“评估科学(evaluation science)”正在兴起,倡导采用严谨的方法论,确保外部效度(external validity),并更准确地预测模型在现实世界的表现 $(186^{\star},187)$ 。例如,近期的基准测试已开始衡量人工智能系统在具有经济价值的任务 $(188^{\star},189^{\star})$ 和现实世界远程劳动 $(190^{\star},191^{\star})$ 方面的表现。 # 人工智能如何增强人类能力的证据尚无定论 持续衡量人工智能的实际益处具有挑战性,因为成功既取决于具体任务,也取决于用户利用人工智能完成任务的技能,这意味着实验室结果往往无法预测其在现实世界的价值。例如,一项研究表明,模型独立运行的准确度并不能可靠地预测人机协作的表现 (192)。许多研究证实,使用人工智能可以带来积极的提升 (126, 127, 128)。然而,近期一项研究发现,尽管软件开发人员主观认为人工智能提高了他们的工作效率,但实际上在复杂的编程任务中,人工智能反而使经验丰富的程序员效率降低了 $19\%$ (129)。 # 第1.3.节 # 到 2030 年的能力 # 内容提要 人工智能开发的投资预计未来几年将大幅增长。预测表明,到2030年,用于训练最大人工智能模型的算力可能会增长125倍,而不会达到能量、芯片或数据的硬性上限。训练方式利用这些算力的效率也会预计每年提高2-6倍。 能力提升的轨迹从渐进甚至停滞到快速加速都有可能。尽管进行了大量投资,技术限制或能源瓶颈等不确定因素可能会限制能力的提升,而正向反馈回路(例如有助于人工智能研究的人工智能系统)可能会加速进展。对于哪种轨迹最有可能,几乎没有专家共识。 如果各项能力继续以目前的速度提升,到2030年,人工智能系统将能够完成范围明确的软件工程任务,而这些任务需要人类工程师几天才能完成。针对其他领域未来表现的预测很少,而能力提升在多大程度上能够泛化到训练数据更为有限、性能难以评估的领域,目前尚不明确。 - 自上次报告(2025年1月)发布以来,主要趋势表明各项能力将继续提升。出于对未来收益的预期,人工智能公司宣布前所未有地投资超过1000亿美元用于数据中心开发,以支持更大规模的训练和更广泛的部署。 — 2030 年之后, 人工智能能力的发展轨迹变得更加难以预测。随着时间的推移, 一些专家预计, 将很难获得大规模训练所需的数据、芯片、资本和能源。但是, 研究人员可能会找到更高效使用这些资源的方法, 或者发现避开当前瓶颈的新方法。哪些考虑因素将最为重要, 目前极不确定。 近年来,人工智能进步的关键投入(算力、算法改进和数据)呈指数级增长,新的推理时扩展(inferencetime scaling)方法正进一步提高模型的能力,甚至在模型完成训练之后。如果这些趋势继续下去,专家预计,人工智能能力到2030年将大幅提高。但是,研究人员无法可靠地预测具体能力何时会出现,专家们对投入是否会继续呈指数级增长存在分歧。有人预计,当前的训练技术会进入平台期,或者数据和能源瓶颈会限制未来的发展。不过,也有一些人认为,进展将进一步加快,因为将人工智能系统应用于人工智能研究本身可能会产生正反馈回路(193,194)。为了阐明这些不同的发展轨迹,本节介绍了与经合组织合作开发的2030年四种人工智能能力情景。技术补充文件中提供了有关扩展定律、投入的扩展和当前基准测试表现的其他技术细节。 # 进展的驱动因素:算力、算法和数据 前沿人工智能的进展由三个投入驱动:算力、算法进步和数据。 算力是指用于人工智能开发和部署的计算资源, 包括硬件、软件和基础设施。更多的算力使得可以在更大规模的数据集上训练更大的模型 (见图 1.6), 从而在各类任务中有更好的表现 $(195^{*}, 196^{*})$ 。算力还可以在部署期间用来提高人工智能系统输出的质量 $(197^{*}, 198)$ 。 算法的进步可提高计算资源转化为模型性能的效率, 也能催生质变产出全新的能力。如果一个模型在达到相同性能水平时所使用的训练或推理计算更少, 它就比另一个模型更高效 (199)。例如, GPT-5 比 GPT-4.5 用于训练领先AI模型的算力已指数级增加 图1.6:2012年至2025年间用于训练领先人工智能模型的计算量(以浮点运算(FLOP)衡量)。现在最大的训练运行很可能已超过 $10^{26}$ 次FLOP。来源:EpochAI,2025(203)。 更高效, 因为它很可能使用了更少的计算资源进行训练 (200), 但在一系列基准测试中, 它的表现优于 4.5, 例如包含博士水平科学问题的 GPQA Diamond (201)。 数据是指用于训练模型的信息,包括来自互联网的文本、图像和人工生成的合成数据(202)。数据的数量和质量对进展都很重要。 近年来, 这三个驱动因素均显著增长。对于计算密集度最高的模型, 训练算力每年增长约 5 倍。如果这种趋势持续到 2030 年, 那么这些模型的训练所用的计算量将大约是目前的 3000 倍 (204, 205)。根据 2024 年的一项研究, 算法效率每年提高约 2-6 倍, 减少了等效性能所需的计算量 (199)。训练数据集已从数十亿个数据点扩展到万亿个数据点, 平均每年增长 2.5 倍 (206)。不同于主要依赖更多训练算力和更大数据集的传统方法, 新的推理时扩展方法可进一步提高模型训练后的能力 (173, 207*)。一项研究发现, 人工智能系统能够在约 $80\%$ 的情况下完成那些明确规定的软件工程任务这些任务通常需要人类专家花费 30 分钟才能完成, 而且这些任务的时长每七个月就翻一倍 (图 1.7)。如果这种趋势继续下去, 人工智能系统到 2027 年就能完成耗时数小时的任务, 到 2030 年就能完成耗时数天的任务 (98)。 # 人工智能能力在未来几年将如何变化? # 关键投入到2030年实现指数级增长在技术上是可行的 到2030年左右,前沿人工智能的关键投入(算力、算法技术和数据等)的指数增长在技术上是可行的。对生产能力、投资和技术进步等限制因素的分析表明,前沿模型所使用的算力有望以当前速度持续增长,而不会在芯片制造或能源生产方面触及根本性瓶颈(204, 208)。为了支持这种扩展,各企业纷纷对计算基础设施进行大量投资;例如,Meta和OpenAI宣布计划分别投入650亿美元和5000亿美元(209, 210)。重要的是,这些投资还支持增加推理算力和用于研发的计算资源,后者占人工智能公司算力支出的很大一部分(211)。 过去,算法效率的提升每年额外带来2-6倍的性能提高(199)。然而,专家们对这种增长的可持续性存在分歧,尤其是在2030年以后。分歧主要集中在能源限制和高质量数据短缺是否会迫使当前的开发方法发生根本性变化(206)。 AI系统在更长的软件任务中的能力持续提升 图1.7:智能体随着时间推移能够以 $80\%$ 成功率完成的软件工程任务的时长(以人类专业人士完成这些任务所需的时间来衡量)。近年来,任务时长大约每七个月就翻一倍。来源:Kwa等人,2025年(98)。 # 专家们预计在解决问题方面将继续取得进展 如 §1.2. 当前的能力所述, 人工智能模型在数学推理方面已取得快速进展。在这些进展的基础上, 专家预测, 到 2027-2028 年, 基于推理的问题解决能力将取得重大进步。根据预测研究所进行的一项研究, 专家预测, 在本科水平的 FrontierMath 问题上, 人工智能模型到 2027 年达到 $55\%$ 准确率、到 2030 年达到 $75\%$ 准确率的概率为 $50\%$ (212)。然而, 对于这些能力是否会超出数学和编程范围, 专家们存在分歧。关于推理技术影响的大多数证据仍然局限于这些领域 $(197^{*}, 213^{*}, 214^{*})$ 。为确定推理技术的泛化能力有多强, 还需要进行更广泛的评测和尝试, 将人工智能系统的推理技能应用于法律和科学推理等新领域。 人工智能系统在自主软件执行方面也取得了快速进展。在2019年只能完成人类专家耗时几秒的任务的人工智能系统,现在能以 $80\%$ 成功率完成人类专家耗时30分钟的软件工程任务 $(98,215^{*})$ 。在过去6年中,该指标(人工智能系统能以 $80\%$ 成功率完成的最长任务时长)大约每七个月就翻一倍。如果这种趋势继续下去,人工智能系统到2027-2028年就能自主完成耗时数小时的软件项目,到本十年末就能完成耗时数天的项目。但是,这些预测假设成功率为 $80\%$ ,这可能低于许多专业场景中自主部署所需的标准。目前的证据表明,随着任务时间增加,性能呈下降趋势,这表 明要达到可用于实际生产的成功率,可能需要新的技术创新 (98)。此外,这些基准测试任务在系统性方面与现实世界的软件工作存在差异,可能高估了实际进展:例如,它们不包含现实世界中“混乱”的因素,例如资源限制、信息不完整或多智能体协作等 (98)。 # 专家们对专业领域进展的规模和时机存在分歧 通用型人工智能能力有望到2028至2030年在许多专业领域得到提升,但专家们对这些进展的程度和时机存在分歧。人工智能系统已在某些科学基准测试中超越了研究生水平的表现,例如在GPQA Diamond测试中,当前领先的模型现已超越博士级别的专家(216)。趋势外推表明,尽管预测仍存在不确定性,但模型可能会在未来几年内在多个专业科学领域达到研究级的水平。 即使整体表现稳步提升,特定能力也可能以不可预测的方式出现。例如,通用型人工智能模型在被提示逐步推理时,在大数加法任务上表现出性能的显著跃升,而不是随着模型规模扩大而逐步提升(217,218, $219^{*}$ ,220,221)。研究人员将这种突然的跃升称为“涌现能力(emergent capabilities)”。这给规划带来了挑战,因为很难预测人工智能系统何时会突然获得具有战略意义的相关认知能力。重要的是,研究人员尚 通用型AI开发商营收在快速增长 图1.8:主要人工智能企业自2023年以来的预计年化收入。来源:EpochAI,2025(228)。 无法确定新的预测方法是否会使能力涌现更具可预测性,而且他们对于这些能力跃升究竟有多不可预测也存在分歧(222,223,224,225\*)。 # 哪些瓶颈可能会放缓进展? # 额外计算带来的经济回报可能会减少 仅靠资源规模的扩张可能导致经济效益递减,并有可能减缓进展,因为要保持同样的能力提升速度,需要的投资会越来越大。当前的前沿人工智能训练仅计算资源就已经耗费了约5亿美元,预计下一代模型需要10亿至100亿美元(204,226)。同时,消费者对人工智能系统的信任度平均仍较低,许多企业也难以成功部署人工智能系统,这相当于将数千亿美元的大规模投资押注于不确定的回报(93\*,209,227)。如果这些投资未能产生收入(图1.8),企业可能会大幅减少在扩大规模方面的投入。这会为能力进步设置潜在的上限,因为如果没有持续的投入,近年来推动进展的每年5倍的训练算力增长将会大幅放缓。在这种情况下,能力提升在很大程度上取决于算法进展,而不仅仅是物理的扩展。 # 目前尚不清楚人工智能辅助研究自动化将在多大程度上加快人工智能研发 专家们对人工智能辅助研究自动化能否在未来十年显著加快人工智能进展存在分歧。在一项试点研究中, 预测专家们被问及在未来几年内将六年 (2018-2024年) 的进展压缩到短短两年内的可能性 (229)。人工智能预测专家给出的中位概率为 $20\%$ ,而超级预测者 (擅长预测的通才) 估计的概率仅为 $8\%$ 。然而,在人工智能系统在为期一个月的研究项目中表现优于人类研究人员的情景下,预测者估计的概率增加到 $18\%$ (229)。在此类情景下,人工智能研究可以更快地实现完全自动化,有人猜测这可能会大大加速人工智能的发展。 目前关于人工智能辅助研究自动化的实证是不一的。在一项衡量人工智能研究工程能力的基准测试中,智能体在2小时任务中的表现要优于人类,但在8小时任务中的成功率则较低(230)。尽管这一证据具有启发性,但它并未考虑人工智能研发的现实瓶颈,例如研究人员必须应对不明确的目标,以及需要很长时间才能了解某项算法改进是否真正提升了模型性能。这种不确定性给政策制定者和机构带来了极大的规划挑战:如果每一项加快人工智能研发步伐的人工智能进展又能促进下一次进展,那么数十年的进步就可能在几年内发生。 # 商业性部署往往落后于能力提升 当前的人工智能系统在受控环境中展现出先进的能力, 但它们在不同行业的采用速度各不相同。人工智能编程助手在发布后 1-4 年内就被软件开发人员广泛采用 (231)。相比之下, 许多行业在部署人工智能系 统时面临重大障碍 (232, 233)。在研究环境中实现人体级诊断准确度的医疗保健人工智能系统,通常需要额外3-5年的监管批准、临床整合和医生培训才能实现广泛部署 (234)。专家预测,到2030年,自动驾驶汽车技术的部署仍将受到限制,理由是文化抵制、基础设施要求和监管阻力 (212)。在全球雇佣了 $60\%$ 劳动力的中小企业尤其面临部署挑战,包括技术专长有限、算力基础设施不足以及极高集成成本,可能延缓人工智能的采用 (235, 236)。地缘政治因素,包括对先进半导体的出口管制和司法管辖区之间不同的监管框架,可能会造成更多障碍,影响人工智能能力的发展和部署 (237, 238)。 尽管如此,专家们对部署差距会迅速缩小或成为长期限制因素仍存在分歧。一方面,特定行业对人工智能工具的迅速采用表明,如果企业观察到实在的生产率提升和竞争优势,部署将会加快 (239)。其他研究人员则认为,无论技术进步如何,组织和监管层面的适应本质上都需要数年时间 (240)。这种分歧对政策制定的时机有重要影响。为快速部署人工智能能力而制定的政策可能为时过早,而假设采用速度缓慢的政策则可能不足以有效应对相关风险。 # 到2030年可能取得的进展图景:经合组织进展情况 鉴于当前趋势和不确定性,包括上文详述的趋势和不确定性,经合组织制定了以专家和证据为依据的多个情景,说明人工智能在2030年之前会如何发展或放缓(241)。经合组织与《国际人工智能安全报告》合作,将这些情景纳入到该报告。分析表明,以下四大类情景到2030年都是合理的: # 情景1:进展停滞 在这种情景下,人工智能能力基本保持不变。近年来观察到的快速提升停止,进展陷入停滞。 情景:2030 年,人工智能系统能快速地执行一系列人类需要数小时才能完成的任务,但鲁棒性和幻觉问题会影响可靠性 (98, 242)。人工智能系统通常依赖人类的大量支持来完成任务,例如详细提示、审查和提供背景信息。它们缺乏强大的能力来学习新技能或形成记忆、在时间较长的复杂任务中保持连贯性,或应对动态的物理或社交环境 (243)。 - 路径:2025年之后,现有前沿人工智能模型开发方法所取得的进展将触及根本性限制。这种情况可能会在人工智能进展因以下原因而放缓时出现:更大规模的训练和更强大推理系统带来的收益递减;算力资源或其他关键投入的获取受限;人工智能投资大幅减少;或缺乏重大的算法突破 $(244, 245^{*})$ 。 历史类比:客机速度在1930年至1960年间迅速提升,随后因实际条件限制而稳定在500节左右(246)。 # 情景2:进展放缓 在这种情景下,现有人工智能系统训练方法框架内取得的渐进式提升实现持续但较缓慢的进展。 情景:2030年,人工智能系统可媲美有用的助手。它们有着深厚的知识基础,擅长标准形式的结构化推理,可以有效地执行需要使用计算机、浏览网络或代表用户与他人或服务部门进行有限互动的任务。它们可以保留相关的记忆,保持连贯的推理,并纠正错误,以执行时间更长或更复杂的任务。它们缺乏稳健地学习新技能的能力,而且只能在有限的、受控环境(例如工厂或实验室)中处理实体(physical)任务或具身(embodied)的社交任务。 一 路径:2025 年之后,前沿模型开发者的方法难以克服持续学习、元认知与自主性、问题解决、创造力、物理任务和社交互动方面的局限性,而现有的训练范式提供的解决方案并不完美 (243)。预训练、推理和后训练的扩展与一些算法创新相结合,继续取得进展,但进展速度比近年来要慢,推理系统也未能像预期那样能力泛化(generalise)(247, 248)。投资者看到持续投资的回报降低,因此继续扩大规模的能力有所放缓。硬件、基础架构、自然资源、数据供应和能源方面的瓶颈限制了快速扩大算力和数据的能力 (208)。 历史类比: 抗生素的发现曾在 20 世纪 40 年代到 60 年代经历了一个快速突破的 “黄金时代”, 后来由于现有发现方法中的 “低垂果实” 被耗尽而逐渐放缓 (249)。 # 情景3:进展继续 # 在这种情景下,持续快速进展。 情景:到2030年,人工智能系统将媲美专家水平的协作者。它们能在数字环境中圆满执行许多专业任务,而这些任务可能需要人类一个月才能完成。人工智能系统通常依赖人类来提供宏观的指导,但通常能够高度自主地朝着既定目标开展工作,包括自主地与一系列利益相关方进行互动。它们能够有效地形成并检索记忆,在某种程度上还可以“在工作中学习”。它们可以成功地处理受控环境之外的一些实体任务和具身社交任务。 - 路径:2025年之后,人工智能能力将通过更大规模的训练、更强大的推理系统以及新的算法创新而持续地快速提升(151)。算力和数据投入将持续扩大,在2030年之前不会遇到实质性瓶颈,这与目前对持续增长可能范围的估计相符(203,208)。现有方法的迭代和扩展或算法创新,让开发者能够克服当前在持续学习(continual learning)等领域的局限性。 历史类比:摩尔定律,即芯片的计算能力在五十年间大约每两年翻一番(250)。 # 情景4:进展加速 在这种情景下,重大进展使人工智能系统在大多数甚至所有能力维度上达到或超过人类水平。 情景:到2030年,人工智能系统可媲美人类级别的远程工作者。人工智能系统在认知任务中的自主性和认知能力达到或超过人类水平。它们能够胜任且自主地朝广泛的战略目标努力,并能在情况发生变化时进行反思并调整目标,同时还能在必要时与人类协作。人工智能系统能在部署期间无缝地学习新信息和技能。人工智能引导的机器人能够在许多行业和岗位中,在动态的真实环境中处理复杂的实体或社交任务。由于实体任务之间泛化方面的挑战,人工智能在这些实体任务和具身任务中的表现仍普遍落后于人类,除非该系统是为某项特定任务而专门开发的(251,252)。 - 路径:2025年之后,通过持续或加速扩大预训练、后训练和推理的规模,现有范式内的人工智能能力将持续呈指数级提升。重大的算法突破以及人工智能编程助手对人工智能发展越来越大的贡献进一步放大了这些提升 $(31^{*}, 253^{*})$ 。 历史类比:由于开发了新的测序范式,DNA测序在2000年到2020年期间取得了惊人的进步(254)。 这些情景分析表明,到2030年,人工智能的发展有可能会从停滞不前到快速提升到超越人类认知能力的水平。支持这些情景的完整分析可见经合组织(2026)人工智能进展情景:探索2030年前的可能发展途径(241)。 # 最新动态 自上次报告(2025年1月)发布以来,观察到的发展总体上与该报告中概述的人工智能快速进展轨迹保持一致。通用型人工智能系统在能力、成本可承受性和普及程度方面均显著提升,在科学推理和自主任务执行方面取得了尤其显著的进步。主要人工智能公司和云提供商已宣布规模空前的数据中心投资,总额达数千亿美元,印证了对上一份报告所预期的算力规模提升趋势的持续投入 $(255^{*}, 256^{*}, 257^{*})$ 。AI开发者在开发智能体方面已取得实质性进展,这些智能体能够更可靠地执行更长的多步骤任务且所需的人类监督更少,包括在计算机操作和工具使用方面的提升。推理时计算扩展的采用已在多个开发机构广泛普及 $(167^{*}, 258^{*}, 259^{*}, 260^{*})$ 。现在,人工智能工具通常被集成到 人工智能开发工作流程中,用于编写训练代码、设计硬件架构和生成合成训练数据。 # 证据缺口 围绕未来人工智能能力的主要证据缺口包括与预测相关的科学证据有限、对现实世界中制约人工智能进展的因素数据不足,以及对自动化是否以及在多大程度上能够加速人工智能发展的了解有限。首先,研究人员无法可靠地预测人工智能系统何时会具有某些能力,也无法预测扩大关键投入的回报率递减会在哪些方面限制进展。基准测试表现与现实世界表现之间的关系也仍然知之甚少;因此,即使基准测试表现易于预测,但其对应的现实世界影响仍高度不确定。 其次,关于可能限制人工智能进展的现实制约因素的证据有限。这些制约因素包括2030年之后训练数据的可用量尚不明确,以及能源生产、芯片制造和资本支出能否跟上人工智能发展的需求。 第三, 对人工智能自动化自身研发过程的反馈回路机制, 以实验为依据的认知很少 (194)。特别是, 对在这个过程中需要多少人为监督、以及大规模实验中缓慢的反馈回路是否会制约加速, 存在很大的不确定性 (261, 262)。 这些证据缺口迫使政策制定者在两种风险之间权衡:一方面可能低估快速出现的能力,另一方面又可能对未必能转化为实际应用的技术进步反应过度。这使得针对多种情景制定应急预案至关重要。 # 政策制定者面临的挑战 对于负责人工智能能力预测的政策制定者来说,关键挑战包括测量工具的不可靠以及关于何时发展某 些能力的不确定。当前的基准测试通常无法准确体现现实世界的能力,这促使人们加快努力开发更具挑战性和更有现实意义的评测 $(263^{*}, 264, 265, 266)$ 。例如,即使某个模型在编程基准测试中达到 $90\%$ 的准确度,这并不意味着它可以构建可运行的软件应用程序。由于训练效率提升、推理时优化和架构创新等关键指标的数据有限,对算法效率进步的预估高度不确定。例如,尽管对语言模型算法效率的研究表明,根据先前的数据,效率每年提升3倍,但这些研究无法排除每年2-6倍的提升速度范围(199)。 这一预测问题加剧了能力轨迹的不确定性,而能力轨迹又会带来截然不同的政策影响。如果算法进步继续以当前预估的上限速度推进,则到2030年,模型可能仅需原先1/10至1/100的算力即可实现同等能力。因此,在人工智能进展速度和人工智能发展形态的快速变化的情况下,监管机构需要考虑一个兼具适应性与韧性的框架,特别是在所需资源方面。为减少不确定性,必须对具体指标进行监测,包括现实任务评测、算法创新的速度,以及全新能力的涌现。 # 技术补充 # 规模定律常被用作经验性指导 “规模定律 (Scaling laws)” 描述了模型规模、计算资源与性能之间可预测的关系。当模型开发者将训练算力提高 10 倍时, 模型在语言理解、图像识别和代码生成等不同任务中的性能往往会以可预测的幅度提升 $(195^{*}, 196^{*})$ 。这种可预测的关系持续体现在模型规模跨越六个数量级的过程中——从小型研究模型到如今耗资数亿美元进行训练的前沿人工智能系统, 表示此规律反映了神经网络学习方式的根本特质。这种持续性促使许多开发者和投资者将规模定律视为有用的经验性指导, 为重大投资决策提供了依据。但是, 规模定律属于经验性规律, 而非数学上的保证。它们是根据观察到的行为推断出来的,可能会在超出当前经验范围的算力或数据规模下失效。另外, 由于它们预测的是技术指标而非终端用户价值, 因此现实世界中的性能表现或经济回报未必会随着训练算力的增加而平稳提升。例如, 尽管 GPT-4.5 达到了符合规模定律的技术提升, 但 OpenAI 仍决定停止其开发, 这表明进一步扩大规模并不总能转化为相称的经济价值 (200)。 # 数据可用量可以通过使用多模态和合成数据来提升 人工智能的许多进展源于在日益庞大的数据语料库(通常是从互联网获取的文本数据)上训练模型。但是,高质量的语言数据是有限的,这增加了未来进展可能因数据可用性受限而遭遇瓶颈的可能性。 即便如此, 如果公共互联网文本数据变得稀缺, 仍存在多种技术来获取更多数据。例如, 如果文本数据变得稀缺, AI 开发者或许能够改用其他类型的数据 (“多模态数据”)。目前的估计表明, 公共互联网上存在大约 $10^{13}$ 个高质量文本词元, 而模型所使用的训练数据集已接近这一极限 (267)。然而, 图像数据可提供 $10^{4} - 10^{15}$ 个词元的额外训练信号, 视频数据可增加 $10^{15} - 10^{16}$ 个词元, 而来自 “物联网” 设备的传感器数据每年可贡献 $10^{17}$ 个词元 (268)。挑战不在于数据数量, 而在于质量和相关性: 单个视频帧所包含的语义信息少于一段文字, 因此需要新的技术来从视频中提取有意义的训练信号。 研究人员还在研究使用人工智能模型来为模型生成训练数据(“合成数据”)。在具有可验证输出的领域(例如数学、编程和形式推理),模型可以通过提出解决方案并检查正确性来生成训练数据 $(269^{*})$ 。近期兴起的一波推理时扩展技术体现了这一方法:模型在数百万条自生成的推理链上进行训练,其中每个步骤都可以得到验证 $(112^{*}, 270)$ 。然而,在答案更难或无法验证的领域,例如创意写作、战略规划和科 学假设生成, 合成数据有可能导致模型崩溃, 即错误会在连续几代的训练中放大 (271)。研究人员正在探索是否可以通过训练单独的验证器模型将合成数据方法扩展到更难验证的领域。如果在某些任务上验证变得比生成更容易, 模型或许就能在没有明确基准真相 (ground truth) 的情况下在新数据上进行训练, 尽管这种方法目前仍主要停留在理论阶段 (272)。 # 物理基础设施可能会限制计算资源的规模扩大 人工智能算力的能源需求巨大,目前人工智能用电量的增长速度可能会持续数年。预计到2026年,全球人工智能计算所需的电力消耗将相当于奥地利或芬兰的用电量 (273)。根据当前人工智能训练用电量的增长速度,2030年最大规模的人工智能训练任务将需要4—16吉瓦(GW)的电力,这足以满足数百万美国家庭的用电需求(60,274)。即便在今天,OpenAI规划中的“星际之门”数据中心用电量已达到1.2GW的规模,而Meta规划中的路易斯安那州数据中心预计将超过2GW(210,274)。在预测研究所的一项调查中,专家预测,在中位情景中,到2030年底,美国 $7.4\%$ 的电力消耗将用于训练或部署人工智能系统(212)。尽管这些能源需求非常大,但美国(大多数前沿人工智能模型目前在这里开发)正在加快建设电力基础设施,以满足这些需求并连接不同地区的数据中心。这些努力很可能足以支持规模达10GW级别的训练任务,因此至少在本十年结束前,能源瓶颈很可能不会阻碍算力的持续扩展(275)。 生产和改进人工智能芯片方面存在挑战,但很可能被克服。建造一座计算机芯片制造工厂通常需要3-5年时间 $(276^{*}, 277)$ ,而供应链短缺有时会延迟关键芯片组件的生产 $(278, 279, 280)$ 。但是,主要人工智能公司仍然可以通过占据人工智能芯片库存的很大一部分,在短期内维持算力增长。例如,一项研究估计,在任何时间点,一家人工智能公司所拥有的全球数据中心人工智能芯片的份额在 $10\%$ 至 $40\%$ 之间(208)。此外,芯片生产的现有趋势和技术可能性也表明,到2030年,训练人工智能系统所用的算力有望达到GPT-4(2023年领先的语言模型)的10万倍。这足以支撑当前训练计算的增长速度,该速度意味着在同期内总量将增加10,000倍(208)。因此,尽管芯片生产的制约因素十分显著,但只要投资持续,它们在2030年之前不太可能阻碍最大规模模型以当前速度进一步扩展。然而,目前尚不清楚类似的投资水平是否会持续下去,这也是未来几年人工智能能力不确定的主要原因。 # 了解当前硬性基准测试 如上所述,衡量人工智能进展的一个参考指标是模型可以完成的任务时长:在软件工程领域,该时长大约每七个月翻一番。为研究这一趋势,研究人员创建了170项与研究或软件工程相关的任务,从耗时数分钟的快速错误修复到耗时数天的功能实现(98)。模型必须在能反映人类工作的约束条件下解决问题。结果显示了一种持续的指数级增长模式:例如,在 $50\%$ 的成功率下,可解决的任务最大时长已从2019年的几秒增加到2025年的2.5小时;而在 $80\%$ 的成功率下,任务时长则要短得多,目前约为20-30分钟。超出这些限度后,成功率急剧下降:在2.5小时任务上保持 $50\%$ 成功率的模型,在4小时任务上的成功率会降至 $25\%$ 以下。该评测还强调了能力的不对等:模型在代码生成和语法转换方面表现出色,但在架构决策和跨文件重构方面仍然表现较差,而人类软件开发人员能更自然地处理这些任务。 FrontierMath 是另一个高难度的基准测试, 它通过由顶尖数学家专门创建的旨在挑战人工智能系统的问题, 来评测人工智能在数学推理方面的能力极限。该基准测试包含原创的研究级数学问题, 这些问题要求具备深入的概念理解能力、创造性的证明策略, 以及融合数论、实分析和代数几何等多个数学领域的技术的能力 (281)。这些问题均未发表, 并经过 60 多位数学家的审核, 以防模型在测试之前查看它们。这些问题分为三个主要层面: 大约 $25\%$ 属于国际数学奥林匹克竞赛水平, 约 $50\%$ 需要研究生水平的知识, 而最难的约 $25\%$ 是研究级问题, 需要顶尖数学家花费数小时甚至数天的时间才能解决。当该基准测试于 2024 年发布时, 当时最先进人工智能系统在整个题集上的总体得分低于 $2\%$ 。不过, 近期的模型展现出积极趋势: 根据 Epochach AI 的评测数据, OpenAI 的 GPT-5 在该基准测试中得分约为 $25\%$ , 而新发布的 o4-mini 的得分也达到了约 $20\%$ , 甚至在最高难度级别也具有一定能力, 这表明与基线水平相比取得了快速进展。重要的是, 这些成功的模型采用了新的推理扩展技术 (281)。 # 第2章 # 风险 通用型人工智能系统已经在现实世界中造成了危害。恶意行为者使用AI生成的内容进行欺骗和欺诈;由于错误和意外行为,人工智能系统生成有害输出;且部署正在对劳动力市场、信息生态系统和网络安全系统产生影响。此外,人工智能能力的提升可能会带来更多尚未显现的风险。了解这些风险(包括其机制、严重程度和发生概率)对于有效的风险管理和治理至关重要。 本章探讨了通用型人工智能系统的前沿能力可能带来的风险。这些风险分为三类:(1) 滥用风险,即行为主体故意利用人工智能系统造成伤害;(2) 故障风险,人工智能系统出现故障或以意料之外的有害方式运行;(3) 系统性风险,源于整个社会和经济的广泛部署。这些类别并不穷尽,也非相互独立(有些风险可能跨越多个类别),但可以为分析不同危害机制提供一种有条理的途径。 本章并未对人工智能风险进行详尽调查,将某个风险纳入讨论并不一定意味着该风险很可能、严重或需要采取政策行动。各个小节的证据基础差异很大。在某些情况下,存在明确的危害证据和有效的解决方法。在其他情况下,通用型人工智能的影响和缓解措施的有效性仍不明确。 # 第2.1.节 # 恶意使用风险 # 2.1.1.AI生成的内容与犯罪活动 # 内容提要 通用型人工智能系统可以生成逼真的文本、音频、图像和视频,这些内容可以被用于犯罪目的,例如欺诈、勒索、诽谤、制作未经同意的私密影像和儿童性虐待材料等。例如,有明确案例表明,诈骗者会利用语音克隆和深度伪造技术来冒充高管或家庭成员,以达到诱骗受害者转账的目的。 一 易于获取的人工智能工具大大降低了大规模制作有害合成内容的门槛。许多工具都能免费使用或者价格低廉,不需要技术专业知识,并且可以匿名使用。 - 深度伪造色情内容明显更针对妇女和女童群体,因此尤其令人担忧。研究表明,网络上 $96\%$ 的深度伪造视频都是色情内容。 $15\%$ 的英国成年人表示看过深度伪造色情图片,在一项涉及 10 个国家的调查中,有 $2.2\%$ 的受访者表示曾有人制作过自己的未经同意的私密影像。 - 关于这些危害的发生率和严重程度,目前所掌握的系统性数据还很有限,因此很难评估总体风险或设计有效的干预措施。事件数据库和调查性新闻收集了个别案例,但缺乏全面的分析。由于感到尴尬或担心遭到进一步伤害,个人和机构往往不愿举报人工智能驱动的欺诈或滥用事件。 - 自上一份报告(2025年1月)发布以来,区分AI生成的内容与真实媒介变得越来越难。在一项研究中,参与者在 $77\%$ 的时间里会将人工智能生成的文本误认为是人写的。在另一项关于音频深度伪造的研究中,听众在 $80\%$ 的时间里会将人工智能生成的声音误认为是真实说话者的声音。 - 政策制定者面临的主要挑战包括:低举报率、检测工具无法跟上生成质量的变化以及难以将内容追溯至创作者。此外,某些内容(例如儿童性虐待材料)即使被正确识别为人工智能生成的内容,也依然具有危害性,这意味着仅靠检测无法完全解决这些风险。 恶意行为者使用通用型人工智能系统创建逼真的虚假内容,以实现诈骗、勒索或操纵目的 (282)(参见表 2.1)。通用型人工智能为大规模生成虚假内容提供了便利,这些内容可能会被用来骚扰或伤害个人,例如未经同意的色情视频 (283)。但是,尽管已有严重伤害案件的记录(284、285),但有关这些事件发生频 率和严重程度的全面公开数据仍然有限,因此很难对该问题进行全方位评估。本节重点介绍人工智能生成的虚假内容如何造成伤害,尤其是针对个人的伤害,而不是通过操纵实现的伤害,§2.1.2.影响和操纵将对后者进行探讨。 表 2.1: 人工智能生成的虚假内容已被用于制造各种针对个人的伤害, 包括诽谤、诈骗、敲诈和心理虐待。 <table><tr><td>诽谤</td><td>生成展示他人参与有损自身名誉的活动(例如性行为或吸毒)的虚假内容,然后将内容发布出来,以达到损害他人声誉、破坏职业生涯和/或迫使他人停止参与面向公众的活动(例如政治、新闻或娱乐活动)的目的(286)。</td></tr><tr><td>心理虐待/霸凌</td><td>制作有关个人的有害描述,主要目的是虐待他人并给他人造成心理创伤(287)。受害者通常是儿童。</td></tr><tr><td>诈骗/欺诈</td><td>利用人工智能生成内容(例如模仿受害者声音的音频片段),以实现授权金融交易等目的(288)。</td></tr><tr><td>敲诈/勒索</td><td>未经个人同意制作与其有关的虚假内容,(例如私密图像),并威胁若不满足其财务要求就将这些内容公布出来(289)。</td></tr></table> # 利用人工智能内容实施犯罪 恶意行为者利用人工智能生成的内容来实现欺诈、身份盗窃和勒索等犯罪目的。例如,诈骗者利用人工智能工具生成语音克隆或深度伪造 (deepfakes) 来骗受害者转账 (289、290)。记录在案的事件包括:多名高管曾授权向诈骗分子转账数百万美元,普通百姓向冒充亲人的冒名者汇出小额贷款款 (291*、292)。犯罪分子还会利用人工智能生成的内容实施以下犯罪活动:身份盗用(例如,利用模仿受害者的假声音或肖像来授权银行转账,或者诱骗技术系统管理员泄露登录凭证等信息) (293);敲诈,索要金钱、机密或裸照 (294、295);或蓄意破坏,出于专业、个人或政治目的损害个人声誉 (296、297、298、299)。研究人员还指出,深度伪造可能会威胁法庭诉讼中所出示证据的可靠性 (300)。尽管举报的事件数量在不断增加 (图 2.1),但关于人工智能驱动的犯罪发生频率或严重程度,目前掌握的系统性数据十分有限。因此很难评估人工智能总体上会增加多大的风险,也难以设计有效的缓解措施。 # 人工智能生成的色情内容 人工智能生成的色情内容日益泛滥,其中包括主要针对妇女和女童的未经同意的私密影像。人工智能系统生成的图像在真实性和复杂性方面已经有了显著提升(图2.2)。向人工智能工具提供某个人的照片后,这 些工具已经能够生成这个人在各种场景中的图像或视频(包括带有性暗示的图像或视频),并且非常逼真(302)。 # 人工智能生成的色情内容明显更针对妇女和女童 一项研究估计 $96\%$ 的深度伪造视频是色情视频(303), $15\%$ 的英国成年人表示看过深度伪造的色情图片 $(304^{*})$ , 绝大多数 “脱衣” 类应用程序都明确针对女性 (305)。在另一项针对 10 个国家 16,000 多名受访者的调查中, 有 $2.2\%$ 的受访者表示曾有人制作过自己的未经同意的私密影像 (287)。带色情内容的深度伪造也被用于亲密伴侣虐待, 同样对女性的影响尤其严重(298、306)。民意调查显示, 绝大多数人认为此类图像的生成具有极大的危害性 (302)。尽管许多系统都有防止此类用途的防护措施, 但用户有时仍然可以绕过这些措施, 或者找到缺乏安全防护的替代系统 (307、308)。 人工智能工具有一个尤其令人担忧的用途: 生成涉及未成年人的色情内容。2023 年, 一项研究发现, 在用于训练 Stable Diffusion 等热门人工智能模型的开放数据集中, 存在数百张儿童性虐待图像 (309)。儿童也可能利用人工智能生成的内容虐待同龄人。这类活动的总体发生率尚不清楚 (310)。但是, 举报的事件数量正在不断增加。例如, 有学校曾举报学生使用 “脱衣类应用程序” 来制作和共享人工智能生成的色情图 # 媒体报道的涉及内容生成的人工智能事件和危险正在增加 经合发展组织AI事件和隐患监测器的数据库中涉及“内容生成”事件的数量 事件和隐患数量 图2.1:经合组织的AIIncidents and Hazards Monitor数据库中记录的“内容生成”相关事件数量随时间的变化。其中包括人工智能生成内容(例如深度伪造的色情图片)的相关事件。自2021年以来,每月举报的事件数量显著增加。来源:经合组织AIIncidents and Hazards Monitor (301)。 像, 受害者均为同龄人 (主要是女性) (311)。在另一项小型研究中, 17 名来自美国的教育工作者发现有人在学校利用人工智能生成未经同意的私密影像, 他们对此表示出了越来越强烈的担忧 (312)。 # 更新 自上一份报告 (2025 年 1 月) 发布以来, 区分 AI 生成的内容与真实内容变得越来越难。在一项研究中, 经过五分钟的交谈后, 参与者在 $77 \%$ 的时间里会将 OpenAI GPT-4o 模型生成的文本误认为是人写的 (313)。同样, 其他研究也表明, 人类很难识别出深度伪造内容, 且表现通常不如随机猜测准确 (314、315)。对于音频深度伪造, 一项研究发现, 在 $80 \%$ 的情况下, 人们会将人工智能语音克隆误认为是真实说话者的声音, 表明这类用途会增加冒充风险 (315)。但是, 结合视频、音频和文本的多模态人工智能输出似乎比单独的文本或音频更容易检测。 # 证据缺口 证据缺口主要源于缺乏全面可靠的统计数据,无法综合评估虚假内容造成危害的频率和严重程度。尽管越来越多的研究记录了虚假内容的增长情况(尤其是色情内容),并提供了有力证据来证明由此产生的危害,但大多数证据都来自事件数据库(例如 AI Incident Database、经合组织推出的 AI Incidents and Hazards Monitor),并非通过系统评估或人口层面的研究得来的(292、301)。关键的实证证据仍然存在缺口,几乎没有专家共识,尤其是在人工智能驱动的勒索、校园儿童性虐待材料和蓄意破坏的发生率方面存在严重分歧。不愿举报此类事件可能是造成这一情况的原因之一。例如,机构和个人在遭遇利用人工智能实施的欺诈行为时,往往会因为尴尬或担心受到进一步伤害而不愿意举报 (290)。需要提供多种途径来检测或举报事件 (316)。 # 缓解措施 目前有一些对策可以帮助人们识别人工智能生成的虚假内容,例如警告标签和人工智能检测工具,这些措施的效果好坏参半。某些人工智能和机器学习工具经过训练后能够检测图像和视频中的异常,从而能够识别虚假图像,但效果较为有限 (317)。同样,“警告标签”可以提醒用户注意潜在误导性内容,但作用不大。例如,一项研究发现,在人工智能生成的视频上添加警告标签后,参与者识别这类视频的准确性从 $10.7\%$ 提高到了 $21.6\%$ ,但大多数人仍然无法识别深度伪造 (318)。除检测外,以预防为重点的技术还包括:限制人工智能模型的使用权(例如,仅限经过 审查的用户使用), 以及安全防护 (例如分类器、过滤器或防止模型生成有害或误导性内容的规则) (参见 §3.3.技术防护与监测)。但是, 就开放权重的模型而言, 恶意行为者可以绕过这些措施 (参见 §3.4.开放权重模型)。从模型训练数据中滤除色情内容也正在成为一种有效方法, 该方法能够增加生成未经同意的私密影像的难度 (319)。 水印技术和内容日志在验证内容真实性方面颇具前景,但存在技术缺陷,且会引发隐私问题。水印技术是在内容创建过程中将机器可读的数字签名嵌入其中,从而能够实现对内容来源和真实性的自动可追溯验证。研究人员提出,可以利用水印来 # AI生成图片质量已快速提高 图片生成模型对提示“一个人正在大学实验室一间会议室作报告。他们正在介绍一张显示有丝分裂如何工作的图表,这张图表展示在其身后的一块大屏幕上。”作出回复。 OpenAI DALL-E2 (2022年3月) OpenAI GPT-4o (2024年5月) OpenAI DALL-E3 (2023年10月) Google Nano Banana Pro (2025年11月) 图2.2:使用最先进(发布时)的图像生成工具制作的人工智能图像。这些图像表明,在短短几年内,人工智能生成的图像越来越逼真。每个示例中都使用了以下提示:“一个人在大学实验室的会议室内做演示。这个人正在描述一份展示有丝分裂原理的图表,该图表显示在其身后的大屏幕上。”来源:《2026年国际人工智能安全报告》。 帮助消费者识别人工智能生成的内容, 包括视频 (320、321)、图像 (322、323、324*)、音频 (325)和文本 (326) 等。但是, 经验丰富的行为主体能够去掉独立的水印, 或者能够骗过检测器, 从而降低水印的有效性, 对于开放权重模型来说尤为如此 ( $\S 3.4$ .开放权重模型) $(327^{\star}, 328)$ 。这种情况下, 可采用以下方法进行补充: 在真实媒介中嵌入水印或安全元数据, 例如可验证的来源与创作记录等 (329、330、331)。例如, 可以要求录制设备嵌入独特的数字签名, 有助于将其录制的内容与 AI 生成的内容区分开来。另一种方法是维护人工智能输出日志, 并通过对比这些日志来识别新生成的人工智能内容 (332)。但是, 这种方法存在可扩展性问题, 容易被规避, 并且会引发与记录用户交互相关的隐私问题 (333)。尽管这些缓解措施本身并非万无一失, 但新的研究表明, 将这些缓解措施结合起来, 并纳入到更广泛的标准和政策生态系统中, 可以弥补各自的局限性, 帮助用户更可靠地检测 AI 生成的内容 $(324^{\star})$ 。 # 政策制定者面临的挑战 政策制定者面临的主要挑战包括:统计数据不可靠、技术性限制和技术的快速发展。由于存在低举报率和不可靠的统计数据,很难对人工智能生成的有害内容进行全方位评估,也难以选出有效的干预措施 (334)。要追溯 AI 生成内容的创作者也颇具难度,尤其是在使用开放权重模型时。检测和水印技术有所改进,但效果仍不稳定,且面临着技术挑战 (333、335)。人工智能内容生成的技术发展也可能削弱这些技术的有效性。例如,一项研究发现,深度伪造检测基准测试(使用精心挑选的人工智能生成媒体和真实媒体示例,旨在测试深度伪造检测工具的性能)已经过时,在检测现实世界的深度伪造时,这类基准测试的性能比使用评估常用的基准测试时降低了大约 $50\%$ (317)。这些限制因素意味着可能需要采用多层技术手段,才能确保人工智能生成内容的检测具有高鲁棒性。最后,值得注意的是,即便人工智能生成的内容被明确标识为合成内容(例如儿童性虐待材料),仍然可能会造成危害,这意味着仅靠检测无法消除所有风险。 # 2.1.2. 影响和操纵 # 内容提要 人工智能系统可以通过生成影响人们观念和行为的内容来造成危害。一些恶意行为者会故意利用人工智能生成的内容来操纵他人,而其他危害(比如对人工智能的依赖)则是无意中造成的。 一系列实验室研究表明,与人工智能系统进行交互可以导致人们的信念发生显著变化。在实验环境中,人工智能系统在说服他人改变观点方面表现出色,通常至少能达到非专业人类参与者的水平。但是,关于这些系统在现实环境中的说服效果,目前掌握的证据仍然有限。 由于能力的不断提升、用户依赖性增强以及基于用户反馈进行的训练,人工智能系统生成的内容在未来可能会变得更具说服力。影响内容的普及程度、影响力和潜在危害性的因素目前尚不明确。来自理论和模拟研究的一些证据表明,分发成本和固有的说服难度等因素会限制内容的影响力。 - 自上一份报告(2025年1月)发布以来,关于人工智能系统能够生成操纵性内容的证据有所增加。最新研究表明,人们与人工智能系统交互的时间越长,交互方式越个性化,就越容易觉得系统生成的内容具有说服力。越来越多的证据表明,人工智能系统会通过谄媚和冒充行为产生操纵作用。 - 对于所有已提出的缓解策略,呈现其有效性的证据不一。在实践中,操纵行为可能很难被发现,因此很难通过培训、监测或防护措施进行预防。旨在降低操纵风险的措施也可能会削弱人工智能系统的有用性(例如,用作教育工具时)。 现在,每天都有数亿人通过聊天助手、社交媒体、客户服务机器人、伴侣应用程序和其他服务与 AI 生成的内容进行交互。这些内容可以影响他们的观点、购买决策和行动。这种影响大多是无害的或甚至是有益的,但是 AI 生成的内容也可能被用来操纵人们:在人们毫无察觉或未经同意的情况下改变其信念或行为。 # 人工智能操纵的形式和危害 专家们通常会将操纵与理性劝说区分开来, 前者是在对方毫无察觉或不理解的情况下, 通过影响他人来实现目标(336、337), 后者是使用诚实且理性的论据去影响他人, 使对方能够真正认同新的信念 $(337 、 338 ^ {*})$ 。实际上, 这种区分是有争议的: 研究人员在如何识别有害操纵并将其与合理影响区分开来方面存在分歧(336、337、339、340)。因此, 虽然本节主要关注的是有害操纵, 但也讨论了其他可能被视为中立甚至有益的说服方式。 # 人工智能操纵可能带来的危害包括对个体的剥削以及系统性信任丧失 通用型人工智能系统能够生成各种有说服力的内容(图2.3),这些内容可能会产生或加剧多种风险。许多伦理学家认为,具有操纵性的内容本质上是有害的,因为受操纵的人无法控制自己的行