> **来源:[研报客](https://pc.yanbaoke.cn)** # 金融业AI基础设施发展报告 # (2024—2025年) 北京金融科技产业联盟 2026年2月 # 版权声明 本报告版权属于北京金融科技产业联盟,并受法律保护。转载、摘编或利用其他方式使用本报告文字或观点的,应注明来源。违反上述声明者,将被追究相关法律责任。 # 编制委员会 # 编委会成员: 黄程林 翁晓俊 # 编写组成员: 马超裴凯洋吴建波于森郭振宇张林李银凤 周炜昕 张硕 姚远 朱佑虹 杨志涌 陈文 王勇 梁佳荣 蒋钢 李伟波 方宏宽 汪尔敏 齐璇 战茅 许高峰 杨景瑞 李一昂 陈理想 崔雨萍 王滢 武耀文 穆文楷 方如利 齐贝贝 左麟 黄承伟 曹竞男 张淮声 陶中玉 # 编审: 黄本涛 周豫齐 # 参编单位 北京金融科技产业联盟秘书处 中国工商银行股份有限公司 中国光大银行股份有限公司 中国人民保险集团股份有限公司 浪潮电子信息产业股份有限公司 中兴通讯股份有限公司 麒麟软件有限公司 飞腾信息技术有限公司 海光信息技术股份有限公司 中国移动通信集团有限公司政企客户分公司 格兰菲智能科技股份有限公司 # 前言 近年来,人工智能与各行业各领域广泛融合,工信部、网信办等部门陆续出台多项关于算力等信息基础设施的文件,提出优化算力布局、提升智能算力占比、推动绿色低碳发展,鼓励算网协同与普惠性算力服务等。2025年,国务院《关于深入实施“人工智能+”行动的意见》进一步强调构建全国一体化算力网与智算资源协同。这些政策共同形成顶层设计,为金融业AI基础设施建设指明方向。 当前,人工智能技术与金融业务深度融合,金融机构已广泛开展AI基础设施建设。为及时总结金融业AI基础设施建设的发展经验和创新思路,推动AI基础设施向高效、绿色、安全、协同的方向发展,特编制此报告,以期为金融机构AI基础设施建设提供前瞻性、可操作性参考。 本报告第一部分从政策、行业和技术3方面阐述了金融业AI基础设施的发展背景,分析了国内外AI芯片产业格局与金融业应用情况,提出“助力绿色数据中心建设”与“优化AI算力平台能力”两大研究目标。第二部分聚焦“推进AI基础设施建设优化”,系统论述绿色环保、存网算协同、云数智融合及安全可靠4个关键方向,并提供了具体技术路径与实施方案。第三部分选取中国工商银行、中国光大银行、中国人保三家机构,展示其在千卡规模AI算力云、GPU资源池化与弹性调度、液冷实验室建设等方面的创新实践。第四部分直面当前存在问题,指出AI芯片选型难、 异构芯片兼容性不足、传统机房改造挑战等现实困境。第五部分“发展展望”提出应围绕能效提升、供应链稳定与安全可控持续发力,并建议开展量子计算等前沿技术探索,为行业长远发展储备能力。 关键词:算力基础设施、绿色环保、存网算协同、云数智融合、安全可靠 # 目录 # 一、总述 1 (一)研究背景 1 (二)现状分析 7 (三)研究目标 9 # 二、推进AI基础设施建设优化 11 (一)绿色环保 11 (二)存网算协同 17 (三)云数智融合 21 (四)安全可靠 23 # 三、金融业AI基础设施建设优秀案例分析 28 (一) 中国工商银行千卡规模 AI 算力云建设 ..... 29 (二)中国光大银行云平台AI算力创新实践 29 (三)中国人保大模型智算液冷实验室建设 30 # 四、存在问题 31 # 五、发展展望 33 # 参考文献 34 # 一、总述 # (一)研究背景 2024年3月,“人工智能+”行动首次被写入政府工作报告。作为人工智能三大关键要素之一的算力是其中核心要素,是推动人工智能发展的基石。IDC最新预测结果显示,2025年中国智能算力规模将达到1,037.3EFLOPS,并在2028年达到2,781.9EFLOPS,2023—2028年中国智能算力规模五年年复合增长率达 $46.2\%$ 。中国人工智能算力基础设施发展呈现出多元化、服务化、场景化、绿色化等特征。如何绿色、便捷、高效地使用智能算力资源,将成为AI基础设施建设的一项重要任务。 # 1.政策背景 2024年8月,工信部等十一部门联合印发《关于推动新型信息基础设施协调发展有关事项的通知》。其中算力基础设施作为新型信息基础设施的重要组成部分,被重点提及。文件中具体强调,要优化布局算力基础设施、鼓励网络与算力设施协同发展、推进数据中心等重点设施绿色低碳发展等。国家在优化算力布局、推动算网融合发展、构建绿色低碳算力基础设施等方面进行了充分全面的战略顶层设计,以加速我国构建覆盖广泛、安全可靠、绿色高效的算力基础设施体系。 从2018年至今,工信部、发改委、中国科学院等多部门相继发布了指导类或支持类政策文件,如表1所示。尤其是近几年,我国在政策层面对算力基础设施的发展持续加码,如2023年10 月发布的《算力基础设施高质量发展行动计划》提出,到2025年,我国智能算力占比达到 $35\%$ ,东西部算力平衡协调发展。密集的政策表明国家层面正在不断加大投入力度,促进算力基础设施建设,优化布局结构,满足经济社会各领域对算力的旺盛需求。 表 1 算力基础设施相关政策文件 <table><tr><td>时间</td><td>部门</td><td>文件</td><td>重点内容解读</td><td>政策性质</td></tr><tr><td>2025年8月</td><td>国务院</td><td>《关于深入实施“人工智能+”行动的意见》</td><td>提出强化智能算力统筹基础支撑能力。支持人工智能芯片攻坚创新与使能软件生态培育,加快超大规模智算集群技术突破和工程落地。优化国家智算资源布局,完善全国一体化算力网,充分发挥“东数西算”国家枢纽作用,加大数、算、电、网等资源协同。加强智能算力互联互通和供需匹配,创新智能算力基础设施运营模式,鼓励发展标准化、可扩展的算力云服务,推动智能算力供给普惠易用、经济高效、绿色安全。</td><td>指导类</td></tr><tr><td>2024年8月</td><td>工信部等十一部门</td><td>《关于推动新型信息基础设施协调发展有关事项的通知》</td><td>明确要进行全面统筹,推动优化布局算力基础设施,具体举措包括各类算力基础设施向枢纽节点部署、逐步提升智能算力占比,以及鼓励企业发展算力云服务等。与此同时,要推动算力的跨区域均衡普惠发展,《通知》特别提到,西部地区合理布局重大算力设施,探索建设超大型AI训练算力设施。</td><td>指导类</td></tr><tr><td>2024年1月</td><td>工信部等七部门</td><td>《关于推动未来产业创新发展的实施意见》</td><td>推动下一代移动通信、卫星互联网、量子信息等技术产业化应用,加快量子、光子等计算技术创新突破,加速类脑智能、群体智能、大模型等深度赋能加速培育智能产业。加快突破GPU芯片、集群低时延互连网络、异构资源管理等技术,建设超大规模智算中心,满足大模型迭代训练和应用推理需求。</td><td>指导类</td></tr><tr><td>2023年10月</td><td>工信部等六部门</td><td>《算力基础设施高质量发展行动计划》</td><td>结合算力基础设施产业现状和发展趋势,明确了“多元供给,优化布局;需求牵引,强化赋能;创新驱动,汇聚合力;绿色低碳,安全可靠”的基本原则,制定了到2025年的主要发展目标,提出了完善算力综合供给体系、提升算力高效运载能力、强化存力高效灵活保障、深化算力赋能行业应用、促进绿色低碳算力发展、加强安全保障能力建设等六方面重点任务,着力推动算力基础设施高质量发展。</td><td>指导类</td></tr><tr><td>2023年2月</td><td>中共中央、国务院</td><td>《数字中国建设整体布局规划》</td><td>建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。</td><td>支持类</td></tr><tr><td>2022年11月</td><td>工信部</td><td>《关于印发中小企业数字化转型指南的通知》</td><td>加大工业互联网、人工智能、5G、大数据等新型基础设施建设力度,优化中小企业数字化转型外部环境。</td><td>支持类</td></tr><tr><td>2022年7月</td><td>科技部等六部门</td><td>《关于加快场 景创新以人工 智能高水平应 用促进经济高 质量发展的指 导意见》</td><td>场景创新成为人工智能技术升级、产业增长的新路径,场景创新成果持续涌现,推动新一代人 工智能发展上水平。重大应用场 景加速涌现。场景驱动技术创新成效显著。场景创新合作生态初步形成。场景驱动创新模式广泛应用。</td><td>支持类</td></tr><tr><td>2021年7月</td><td>工信部</td><td>《新型数据中心发展三年行动计划(2021-2023年)》</td><td>推动新型数据中心与人工智能等技术协同发展,构建完善新型智能算力生态体系。</td><td>支持类</td></tr><tr><td>2018年11月</td><td>工信部</td><td>《新一代人工 智能产业创新 重点任务揭榜 工作方案》</td><td>在人工智能主要细分领域,选拔领头羊、先锋队,树立领域标杆企业,培育创新发展的主力军,加快我国人工智能产业与实体经济深度融合。</td><td>指导类</td></tr></table> # 2.行业背景 随着AI技术的飞速发展,AI应用已经渗透到金融行业的方方面面。OCR、指纹识别、语音识别等传统识别类AI技术早已和金融业务深度融合。 近几年,新兴的生成式AI技术也如雨后春笋般在金融行业落地,广泛应用到营销、风控、运营等多种关键业务中,极大提升了金融行业的服务水平。业界普遍认为,高质量的数据是AI发挥 价值的关键,而先进的数据基础设施则是汇聚高质量数据的先决条件。因此,构建可价值变现、可持续演进、具有业务韧性的金融数据基础设施,是金融行业在AI时代的必然选择,专业存储汇聚海量、高质量的数据,助力AI应用价值释放。在AI大模型掀起的浪潮之下,巨大的算力需求应运而生。因此,支撑算力能力提升的基础设施建设也备受行业关注。 # 3. 技术背景 2025年,金融应用创新工作步入深水区,依托开源技术展开数字基础设施自主创新为金融行业新型数字基础设施建设提供了重要技术途径。当前,以芯片、一般业务系统和办公软件为代表的核心品类正加速释放,并逐步深入到核心关键业务系统。部分金融机构也实现了核心系统等关键应用从专有机型到通用服务器集群的迁移,部分大型金融机构基于开源技术开展自主研发,基本实现可以支撑自身要求的新型数字基础设施。 但是金融领域AI基础设施建设不是简单的替换,在打造金融行业新型数字基础设施的过程中,除了投研及人才不足,还存在技术路线分散、关键技术难度大、技术体系标准缺失和安全基础不牢靠等缺陷。因此需要积极探索新技术、新领域,不断推进金融行业信息化、数字化、智能化的改造。通过制定金融业AI基础设施建设的标准,一方面规范AI芯片厂商的设计标准,满足金融业对AI芯片的便捷性使用和灵活部署的需求;另一方面为广大金融企业提供参考建议,未来的AI基础设施建设既能满足金融企业 的实际应用需求、又能满足绿色环保低碳要求。 # (二)现状分析 # 1. 国内外发展现状 # (1) 国外 英伟达是人工智能主力芯片供应商,是GPGPU领域的龙头企业,在技术上保持着绝对领先,平均每两年推出新一代芯片架构,每代产品性能始终能够保持稳定的提升和强大的产品竞争力。目前,英伟达的产品矩阵已覆盖数据中心、专业图形图像、消费级游戏和汽车等多业务场景。其中,面向数据中心场景,英伟达先后发布了V100、A100、H100,以及基于最新的Blackwell架构的B200和B300芯片,依托成熟的CUDA软件生态体系,并结合持续迭代升级的NVLink高速互连技术与NV Switch高性能交换架构,英伟达构筑了坚实的技术壁垒,奠定了其在全球市场的领导地位。公司最新推出的基于B300 GPU打造的NVL72智算超级节点,旨在为万亿参数级超大模型训练提供足够的算力支撑,其创新的超节点架构已成为引领智能计算领域的行业标杆。 AMD是高性能计算(High Performance Computing, HPC)主力芯片供应商,全球领先的半导体技术提供商,产品覆盖GPU、APU(Accelerated Processing Unit)及FPGA等多个领域。AMD EPYC(霄龙)处理器面向云计算、HPC等高性能计算工作场景,凭借多核优势以及优异性能,在服务器领域始终保持着较高的市场份额。同时,AMD也是少数可以和英伟达可以在全球范围内 GPGPU领域展开竞争的企业,AMDInstinct系列加速器结合ROCm生态,可以满足Exascale级(百亿亿次级)工作负载需求,加速大规模HPC和AI训练任务。 # (2) 国内 目前,国内AI加速卡主要采用GPGPU和DSA架构路线,国内主要的AI芯片包括海光、天数智芯、华为昇腾、昆仑芯、寒武纪等。其中,海光、天数智芯等采用的是GPGPU技术架构,而华为昇腾、昆仑芯、寒武纪等则是采用了DSA类芯片架构。 GPGPU是通用架构设计,拥有大量的计算核心和并行处理单元,擅长处理大规模的并行计算。其架构相对较为通用,具有较高的可编程性,开发者可以使用通用的编程语言进行编程,方便将现有的通用计算代码迁移到GPGPU平台上。 DSA架构则通常是针对特定领域的需求进行定制化设计,其目的是针对特定任务或领域进行高度优化,具有高度的专用性。它可能会采用特定的计算单元、存储结构和数据通路等,以更好地适应目标领域的计算特点。作为国内AI芯片领域的领军企业,华为依托自主研发的昇腾AI处理器及灵衢网络高性能互联架构,率先推出业界领先的384液冷智算超级节点。该节点不仅是国内首个实现商用的智算超节点解决方案,其峰值INT8算力性能更超越国际同类标杆产品(如NVL72),为万亿参数级超大模型的训练任务提供了坚实的算力底座。 # 2.金融业应用情况 目前,各大金融机构主要采用英伟达GPU为主的技术路线,初步完成AI基础设施的建设,为AI服务提供算力保障,赋能各种业务场景,在业务上实现降本增效。 随着政策的不断变化和技术的不断迭代更新,目前金融机构已建成的AI基础设施正不断地遇到新的挑战:首先,在政策方面要求优化布局算力基础设施、满足绿色低碳发展要求,因此要求机房需支持高密服务器、液冷服务器的部署策略,降低基础设施的PUE,提升基础设施的能效比和能算比。其次,随着芯片工艺技术的不断更迭,未来基础设施的发展将趋向于高密算力的部署方式。由于已建成的AI基础设施与传统的以CPU为主的基础设施共用一个机房,因此机房将无法满足用于AI大模型训练的高密算力基础设施的高能耗和高散热需求。最后,随着AI芯片技术的不断发展,目前市场上已涌现出不同厂商的AI芯片,未来AI基础设施的部署策略将从以英伟达GPU为主的技术路线向多个AI芯片组合部署的技术路线转移。如何简单、高效地完成各种AI芯片的组合部署,也是AI基础设施建设面临的一大挑战。 # (三)研究目标 智算中心是中国经济发展的重要新型基础设施,是提升国际竞争力的关键基础设施,是数字经济高质量发展的重要支撑。德勤在其《2024AI智算产业趋势展望分析报告》中指出“当前中国将采取‘基础设施+生态参与方+应用场景’三位一体的智算中心统筹布局思路,引导技术升级、角色升级和应用场景同步升 级”,“各行业数字化转型升级进度逐步加快,全社会数据总量爆发式增长,进而激发超大规模数据资源计算,围绕智算中心建设,将实现AI产业化发展,并推动产业AI化赋能”。算力发展是技术变革的关键推动力量,智能算力水平是数字化应用建设及发展的底层基础。 1.助力金融业绿色数据中心建设。在“双碳”目标全面推进与可持续发展迫切需求的双重驱动下,建设绿色数据中心已然成为金融业发展的重要方向。采用高效节能的服务器设备、存储设备和网络设备,降低设备运行过程中的能耗。采用先进的冷却技术和散热方式,确保设备在良好的环境中运行,降低散热成本。同时,优化数据中心的结构,通过存网算协同提升资源利用率,加强智能化管理对数据中心的设备运行状态、能源消耗情况、业务负载等进行实时监测和分析,合理调整资源分配,提高数据中心的运行效率和可靠性。 2. 优化金融业AI算力平台能力。大力优化金融业人工智能算力平台的综合能力,使其在金融领域发挥出更为强大的作用。通过不断引入先进的技术和理念,对金融业AI算力平台进行全方位升级与改进。从硬件设施的更新换代到软件算法的持续优化,确保平台具备更高效的计算速度、更强大的数据处理能力以及更稳定的运行性能,为风险评估、投资决策、客户画像等关键业务提供坚实的技术支撑。同时,积极探索创新的架构设计和资源分 配策略,以提升平台的可扩展性和灵活性,应对金融市场的动态变化和不断涌现的新需求。 # 二、推进AI基础设施建设优化 # (一)绿色环保 通过高效利用能源、冷却技术优化等方式,提升AI基础设施的能效比和能算比,降低单位算力的碳排放量,实现绿色环保。 # 1.高密AI服务器 高密 AI 服务器是指单个节点配置 4 块及以上 AI 芯片的服务器,相比于普通 AI 服务器(单节点配置 $1 \sim 2$ 块 AI 芯片的服务器),高密 AI 服务器聚合更多的 AI 芯片,提供更大的 AI 算力。 高密AI服务器分为传统模型高密服务器和大模型高密服务器。传统模型高密AI服务器通常用于OCR、NLP、卫星遥感等模型的训练和推理任务部署,与普通AI服务器相比,在提供相同AI算力的情况下,高密AI服务器使用更少的非AI芯片器件(包括CPU、主板等),减少非AI芯片器件产生的能耗开销,提升AI服务器的能算比。大模型高密AI服务器主要用于大模型的训练和推理任务,与传统模型高密AI服务器相比,大模型高密AI服务器不仅聚合8块及以上支持大算力、拥有大容量和适配高带宽的AI芯片,同时采用AI芯片专用的高速总线模组连接AI芯片,减少大模型任务执行过程中大量数据交换的时延,提升分布式任务执行过程中的算力资源利用率(即MFU:Model FLOPS Utilization,MFU=模型实际使用的AI芯片算力/AI芯片的规格 算力),充分发挥每单位能耗的算力供给,进一步提升能算比。 但是,高密AI服务器尤其是大模型高密AI服务器,单节点功耗高达 $10\mathrm{kW}+$ ,为解决散热问题,该类型服务器配置更多的散热设备,因此产生额外的能耗用于服务器散热,导致AI服务器能效比下降。 # 2.液冷服务器/机房 随着大模型不断演进、参数规模不断膨胀,模型对高密AI服务器的算力规模不断增加,因此高密AI服务器的能耗还会不断增加。在现有架构下,采用风冷方式解决高密AI服务器的散热问题已趋于极限,随着芯片的制程工艺不断发展带来的AI芯片的功耗增加、单节点支持更多AI芯片数量带来的功耗增加,未来高密AI服务器采用风冷方式进行散热设计将面临巨大挑战。同时,采用风冷散热方式导致高密AI服务器的能效比下降问题,与国家“双碳”政策下工信部、地方政府、运营商、互联网企业设定的碳达峰、碳中和的绿色环保目标不符。若使用液态冷却剂来代替空气,通过循环流动将服务器内部的热量带走,液态冷却剂的导热性能远高于空气,因此可以实现更高效的散热,解决高密AI服务器的散热问题。同时,由于液冷可以更有效地移除热量,因而可以减少冷却系统的能耗,提升高密AI服务器的能耗比。此外,液冷还可以利用水的比热容较大这一特性,实现更稳定的温度控制,提高高密AI服务器的稳定性。 液冷散热技术主要有间接式(冷板)液冷、浸没式液冷、喷 淋式液冷技术,其技术特点如图1所示。 图1 液冷散热技术特点 经过调研对比,冷板式液冷技术散热功率密度高,机房空间利用率提升 $2 \sim 5$ 倍;快接头实现自动泄压,双向密封无泄漏,整体安全可靠;实现超低噪音,噪声比普通机房至少低 6dB。浸没式液冷也具有长期技术积累,采用新材料,冷却工质无毒无腐蚀,机箱密封不泄漏,实现安全可靠。 现阶段冷板式液冷行业成熟度最高,供应链最完善,市场应用最广,可延续当前服务器架构,兼容风冷散热,同时适用于新旧机房,PUE达 $1.2\sim 1.3$ 。浸没式液冷采用全新架构,更适用于新建机房,PUE相对冷板式液冷更低,可达 $1.01\sim 1.09$ ,是未来液冷的发展趋势。两大液冷技术各有优势,可按需进行部署应用。 很多数据中心液冷规模化部署应用中,主要推进冷板式液冷、浸没式液冷两大技术方向。具体方案、建议使用应用场景、方案优点、存在问题如表2所示。 表 2 液冷散热技术方案对比 <table><tr><td>方案</td><td>建议应用场景</td><td>方案优点</td><td>存在问题</td></tr><tr><td>冷板式液冷</td><td>单柜≥15kW PUE 1.15~1.2</td><td>1.电子器件不接触液体,漏液风险低。2.可兼容现有服务器架构,改造成本低。</td><td>1.机柜功耗较低时,节能收益不显著。2.液冷系统设计需要考虑现有设备的器件布局。</td></tr><tr><td>浸没式液冷</td><td>单柜≥80kW PUE 1.04~1.1</td><td>1.散热效率高,机房PUE相比于冷板式液冷更低。2.所有器件均浸没于液体中,板内液冷结构设计相对简单。</td><td>1.光缆接口浸入介质流体中时,变化导致信号反射丢失。2.浸入流体时电路或系统的信号完整性、信号耗损等问题。3.材料与工质间相容性问题。4.需要配置单独的专用维护设备进行单板清洗、废液处理。5.对环境洁净度要求高,灰尘混入液体将导致硬件故障。</td></tr><tr><td>喷淋式液冷</td><td>单柜≥30kW PUE 1.05~1.1</td><td>1.加强了芯片表面与冷却液之间的对流换热;散热效率更高。2.冷却液集中收集在储液箱中,冷却液需求量较浸没式少。</td><td>1.光缆接口浸入介质流体中时,变化导致信号反射丢失。2.浸入流体时电路或系统的信号完整性、信号耗损等问题。3.材料与工质间相容性问题。4.需要配置单独的专用维护设备进行单板清洗、废液处</td></tr><tr><td></td><td></td><td></td><td>理。 5.对环境洁净度要求高,灰尘混入液体将导致硬件故障。 6.喷淋过程中冷却液会出现飘逸,从而对机房及设备环境产生影响。</td></tr></table> # 3.能源供应 能源供应为智算中心基础设施提供能源和供配电服务,主要涉及大模型训练、小模型训练、推理、训推合一等4种主要业务场景。智算芯片的负载特性和智算模型算法与通算差异很大,其新的动态特性使训练集群内呈现微秒和毫秒级的瞬时功率脉冲、极大功率阶跃幅值、功率波动相似性、类周期性。面对智算中心目前出现的上述挑战,万卡规模容量对本地电网影响,以及智算芯片后续产品更严苛的动态特性,目前行业趋向采取三个阶段的优化方式应对智算训练的挑战,其一为基于通算数据中心设计、产品和方案的智算工程优化过渡阶段方式,其二为智算数据中心打造适配的新设计、产品和方案的小革新阶段方式,其三为智算数据中心打造全新的完全革新阶段方式,但革新方式也需逐步完善。 从解决方案和建设难度上看,保障万卡及以上规模的大模型训练长期安全运行,是能源供应和供配电的最大挑战。基于安全可靠和经济性的全链路创新,是目前业内在研究、试验模拟和优 化的重点。 智算训练下,能源供应和供配电的方案,从全链路的系统角度看,主要涉及智算服务器和整机柜 PSU 电源、不间断电源 UPS/HVDC/电力模块和电池、油机、配电架构、数据中心园区微网和储能等,以及未来的电压制式提升、能源路由、长时储能、小型核电 SMR 等。具体到三个阶段的优化方式,简要优劣对比如表 3 所示。 表 3 三阶段优化方式优劣对比 <table><tr><td>优化演进阶段</td><td>特征</td><td>优势</td><td>劣势</td><td>备注</td></tr><tr><td>阶段一,智算工程优化过渡阶段</td><td>以十、百、千卡为主,少量万卡等,机柜功率达~40kW级</td><td>1.能快速满足智算基本建设和训练紧迫性需求。2.工程设计和设备商可快速满足。</td><td>1.更考验能源供应和供配电关键设备自身研发冗余度、长期可用性等。2.供电异常有可能导致训练中断,增加运维故障处理压力。</td><td>现有产品的临时应对方案</td></tr><tr><td>阶段二,小革新阶段</td><td>以千卡、万卡为主,少量十万卡等,机柜功率达~100kW级</td><td>1.在能平抑一定的智算训练负载特性冲击下,实现对能源供应和供配电长期可靠性运行。2.降低运维故障处理难度。</td><td>1.可选设备供应商较少。2.工程设计需要匹配。3.运维人员需要培训。</td><td>现有设备匹配智算需求的小革新方案</td></tr><tr><td>阶段三,完全革新阶段</td><td>以万卡、十万卡为主,少量百万卡等,机柜功率 ~200kW级</td><td>1.数据中心微网与本地配电网协同支撑,微网内能源可调度。2.供电容量、性能、占地合理,经济性较好。3.支持智算芯片长期演进的可靠智算能源供应和供配电整体解决方案。</td><td>有一定难度,且涉及生态重大改变。</td><td>达到智算最优需求匹配的完全重构方案</td></tr></table> # (二) 存网算协同 存网算协同是指在数据处理和分析过程中,存储、网络和计算资源通过高效协同工作,优化数据处理流程,提升系统的整体性能,包括存储协同、网络协同、计算协同。 # 1.存储协同 存储协同是指通过多种技术和策略,将不同存储资源、存储系统或存储设备进行整合和协同工作,以提高数据存储的效率、可靠性和可用性,实现数据的高效共享、管理和调度。存储协同主要包括分布式存储协同、存储虚拟化协同、存储与计算协同。 # (1) 分布式存储协同 (a) 数据冗余与备份:通过在多个节点上存储相同的数据 副本,提高数据的可靠性和可用性。 (b) 负载均衡:根据节点的性能和负载情况,合理分配数据存储任务,避免单点过载。 (c) 故障转移与恢复: 在节点故障时, 自动将数据请求转移到其他正常节点, 并在故障节点恢复后进行数据同步。 (d) 数据压缩与去重: 通过数据压缩和去重技术, 减少存储空间需求, 提高存储效率。 # (2) 存储虚拟化协同 (a) 存储资源池化: 将不同存储设备的资源抽象成一个统一的存储池, 实现资源的灵活分配和管理。 (b) 动态资源调度: 根据应用需求和存储资源的使用情况,动态调整存储资源的分配。 # (3) 存储与计算协同 (a) 存算一体: 将存储和计算功能集成在同一芯片或系统中, 减少数据传输延迟, 提高系统整体性能。 (b) 智能缓存与预取: 通过智能缓存和数据预取技术, 将热点数据缓存在靠近计算节点的位置, 提高数据访问速度。 # 2. 网络协同 网络协同是指通过深度融合AI技术与通信网络,实现计算资源、通信资源和网络资源的高效协同与优化配置,从而提升AI模型的训练和推理效率,同时优化通信网络的性能和服务质量。通过采用智能网络进行调度,确保关键环节获得足够的网络 带宽和优先级,实现智能、高效、灵活的计算通信融合系统构建,满足日益增长的智能化应用需求。网络协同主要包括智能网络管理、云边协同架构、模型分割与协同推理。 # (1)智能网络管理 (a) 智能网络优化: 通过机器学习算法实时监测网络状态,自动调整网络配置,优化流量分配。 (b) 故障预测与自愈: 利用 AI 模型预测网络故障, 实现自动化的故障检测和修复, 提高网络的可靠性和可用性。 # (2) 云边协同架构 (a) 边缘端: 部署轻量级的 AI 模型, 负责实时数据处理和初步推理, 满足低延迟需求。 (b) 云端: 部署完整的 AI 大模型, 处理复杂的全局任务,提供更强大的计算能力和存储资源。 (c) 协同机制: 边缘端将预处理后的数据或请求发送到云端, 云端返回处理结果, 减少数据传输量和延迟。 # (3) 模型分割与协同推理 (a) 模型分割: 根据设备的计算能力和网络带宽, 动态划分神经网络的层次结构, 将部分推理任务分配到边缘设备。 (b) 协同推理: 仅传输少量中间结果, 减少带宽消耗和传输时延, 同时提高系统的整体吞吐量。 # 3. 计算协同 通过采用云计算、边缘计算等技术为分布式计算提供弹性资 源,以提升计算资源利用效率、加速计算过程。通过采用融合不同类型的计算资源(如CPU、GPGPU、NPU、ASIC等),发挥各自的优势,进一步提升计算资源利用效率、加速计算过程。计算协同主要包括端边云计算协同、计算卸载和资源分配、算法与模型协同。 # (1)端边云计算协同 (a) 端边计算协同: 终端设备与边缘服务器协同工作, 将部分计算任务从终端设备迁移到边缘服务器, 减轻终端设备的计算负载, 提高响应速度。 (b) 云边计算协同:边缘计算与云计算协同,边缘设备处理实时性要求高的任务,云计算处理复杂或大规模计算任务。 (c) 端边云计算协同:结合终端设备、边缘服务器和云计算中心,实现多层次的计算协同,满足不同场景下的需求。 # (2) 计算卸载和资源分配 (a) 任务卸载: 将计算密集型任务从资源受限的设备卸载到计算能力更强的边缘服务器或云端。 (b) 资源动态分配: 根据任务需求和设备状态, 动态分配计算、存储和网络资源, 提高资源利用率。 # (3)算法与模型协同 (a) 模型拆分与部署: 将深度学习模型拆分为边缘端和云端两部分, 边缘端负责实时推理, 云端负责复杂计算。 (b) 算法更新与同步: 云端构建和优化算法模型后, 将其 下放到边缘端,确保边缘端执行计算的准确性。 # (三)云数智融合 云数智融合是一种将云计算、大数据和AI相结合的技术概念,旨在实现数据的高效处理、分析和利用,通过充分发挥云计算的弹性、可扩展性和灵活性,结合大数据的处理、分析能力和人工智能的智能决策、自学习的能力,为企业提供实时、高效、智能的数据服务,包括一云多算、云智融合、云数融合。由于本报告主要涉及人工智能,因此仅针对一云多算、云智融合开展进一步分析。 # 1. 一云多算 一云多算是指通过云的弹性按需能力,凭借集约化的服务模式和基于高性能“裸金属+容器”算力核心引擎,建设云原生统一算力调度层,打造统一调度、资源池化、异构纳管能力,将通用的基础能力下沉到编排引擎,实现通用、大数据、机器学习、大模型场景等各类异构资源池协同调度。为实现通用计算、大数据计算、人工智能计算提供统一的资源调度服务,首先需要将CPU、AI芯片、存储、网络等各种资源池化后进行统一的资源管理,其次在资源调度时根据不同的调度策略实施资源分配,再次在计算服务结束后对分配的资源统一进行回收。在服务过程中,需要对各种资源进行监控,根据监控结果实施资源的弹性伸缩,以确保充分利用各种计算资源。一云多算架构如图2所示。 图2 一云多算架构 # 2. 云智融合 云智融合是指云计算和AI技术的深度融合,利用云计算的弹性、可伸缩性,结合人工智能的计算能力和智能决策,以提供更加智能、高效、可靠的服务和应用。云智融合可通过采用AI算力资源虚拟化、自动弹性伸缩等技术,实现智能算力集约调度,解决智算领域存在云原生场景下AI算力资源使用粗放、算力资源利用率不高等痛点问题。 AI算力资源虚拟化是指通过软件或硬件的方式,将物理AI芯片的算力资源划分为多个虚拟的AI算力资源,以供多个虚拟机或容器使用。这种技术提高了AI芯片的资源利用率,降低了硬件成本,并提供了更加灵活和高效的计算环境。其主要实现方式包括AI芯片分区、AI芯片时分复用,其简介和特点参见表4。 表 4 AI 算力资源虚拟化方式简介和特点 <table><tr><td>虚拟化方式</td><td>简介</td><td>特点</td></tr><tr><td>AI芯片分区</td><td>将AI芯片的计算资源根据固定的比例划分为多个虚拟算力资源,每个虚拟机可以分配到一个或多个虚拟算力资源。</td><td>资源划分比例一般为1/2、1/4、1/8等配置比例,仍可能存在剩余的AI芯片算力资源未被利用。与直接使用AI芯片相比,无时延损失。</td></tr><tr><td>AI芯片资源时分复用</td><td>将AI芯片的计算资源通过采用时分复用的方式,提供给用户。</td><td>可以灵活调度使用AI芯片资源,充分挖掘AI芯片的资源。与直接使用AI芯片相比,存在一定的时延损失。</td></tr></table> 自动弹性伸缩是一种云计算服务特性,可以根据实际需求自动调整AI芯片资源的使用量,以最小的AI芯片资源使用开销,确保应用场景性能和稳定性。其工作原理如下:当应用监控发现应用场景的AI算力资源大幅提升或趋于饱和时,系统会自动拉起更多的容器,提供应用更充足的AI算力资源;当发现应用场景的AI算力资源使用率严重下滑时,系统释放一定数量的容器,回收部分AI算力资源。通过动态调整AI算力资源,一是确保应用始终有足够数量的AI算力资源可用;二是提升算力资源的利用率,赋能更多的应用场景。 # (四)安全可靠 # 1.基础设施安全 # (1) 硬件安全 芯片在进行 AI 计算过程中,若未对数据进行有效的保护, 容易造成数据泄露或数据完整性被破坏,因此对于AI芯片尤为重要。首先,通过采用内存加密技术,防止AI芯片的内存数据因受到物理攻击,导致数据泄露或数据完整性被破坏。其次,在分布式计算过程中,除了硬件层面的加密外,通过采用跨节点数据加密和访问认证机制,防止非授信服务器对数据的非法访问,增加数据安全性。最后,AI芯片可以集成硬件加密加速器,提高加密和解密操作的性能,确保加密处理不显著影响系统运行的整体效率。 # (2) 软件安全 为降低 AI 芯片使用门槛,AI 芯片厂商都会提供相应的固件和底层硬件库函数,但是固件或库函数可能存在安全风险和漏洞,建议通过引入并及时更新安全扫描软件,对固件或库函数进行安全扫描,防止因固件或第三方库函数的漏洞引入安全问题。同时,需要及时更新已修复漏洞的固件或库函数,防止因更新不及时引入安全问题。 # (3) 虚拟化安全 在云计算环境中,AI模型训练常常使用共享的AI集群资源。使用虚拟化技术,即使不同租户在共享同一个AI芯片资源,也能保持使用的硬件资源相对独立性,确保硬件资源相互隔离,防止某个租户非法获取或篡改其他租户的数据,解决云用户的数据安全问题。同时,硬件支持的AI芯片虚拟化技术也可将自研各算法库运行在虚拟化环境中,确保各个算法库的运行互不干扰。 # 2. 模型安全 对于传统模型,防止数据投毒、对抗样本攻击、模型窃取,满足模型可解释需求;对于生成式人工智能模型,满足价值对齐的需要,确保 AI 以对人类和社会有益的方式行事。 # (1)可解释性 当前,AI算法模型内部逻辑复杂,而且模型复杂度越高,越难以实现模型的可解释性,这会导致推理结果难以解释和预测,用户难以对AI技术建立信任,也有可能带来潜在的安全隐患和伦理、偏见等问题。 通过敏感性分析、局部近似、样本原型的方法可以提高模型的局部可解释性,即通过分析输入样本的每一维特征对模型最终决策结果的贡献,来判断对于一个样本,哪些部分对决策结果是重要的。也可以通过特征分析、概念分析、规则提取的方法,从整体上解释模型背后的复杂逻辑以及内部的工作机制。此外,通过知识蒸馏的方法,如模型压缩、树的正则化或者降维等方式,可以将一个复杂模型转化为简单的可解释性模型,从而提高复杂模型的可解释性。 # (2) 对抗样本攻击 攻击者加入设计的对抗样本数据,或者无意间怀有偏见的样本数据引入,则会扰动、误导AI模型出错,输出置信度很高的错误推理结果,甚至可能造成模型的运行瘫痪。 针对带有扰动设计的对抗样本攻击, 采用鲁棒训练方法进行 防御最可靠,即通过在训练数据中引入对抗样本,或在训练过程中加入正则化项等方法对模型进行特殊训练,使模型对于对抗样本的鲁棒性得到较大的提升;采用输入增强方法进行防御最简单、最通用,即通过对输入数据进行检测和过滤,排除潜在的对抗样本,但是检测规则对于对抗样本的识别有效性有较大的影响。此外,还有以下方法可以提升对抗样本攻击的防御能力:对输入数据进行随机化处理;对训练后的模型进行压缩、微调等。 # (3) 模型窃取攻击 攻击者可以通过发送轮询数据并查看对方的响应结果, 来推测 AI 模型的参数、结构、功能等算法核心信息, 导致模型机密信息泄露, 甚至存在被修改、嵌入后门的风险。 目前,检测潜在的攻击并对其拒绝服务,是一种对目标模型影响最小的防御方式。通过构建输入数据的分布、特征、预测结果等不同的样本,并对不同测试数据上的行为差异进行建模,识别攻击者和普通用户的服务请求之间存在的数据差异、行为差异、目标差异,限制潜在攻击者周期性地大量查询请求,防止恶意查询,阻止其通过多次联合查询来窃取数据或隐私信息。 # (4) 生成式内容安全 AI 模型不具备人类的价值判断能力以及政治意识,仅以完成用户任务以及提升效率为导向,因此攻击者可以通过加入存在偏见或歧视的训练数据,导致模型输出不公平的结果,违反道德、伦理等社会公德;攻击者也可以通过提示词,诱导 LLM 大模型泄 露隐私数据,甚至输出对社会产生危害的回答,对社会的安全稳定带来不利影响。 针对生成内容安全问题,需要通过实施事前辨别、事中干预、事后应急等措施,将生成式风险的社会影响度降到最低。首先,在模型训练的时候,构造正向安全的数据集,并通过强化学习、价值对齐器,确保模型输出与人类价值、真实意图、伦理原则相一致。其次,在模型服务阶段,需要自动审核提示词内容,识别违规提示词,确保输出内容安全合规。最后,在输出内容已经产生社会影响的情况下,及时给出问题解决策略,降低事件对企业声誉的影响;同时追溯风险源,避免同类风险事件再次发生。 # 3.数据安全 防止有毒信息和违法不良信息进入模型和个人隐私信息泄露。 # (1) 数据投毒攻击 攻击者在训练数据中注入特定的“毒化”数据以污染训练数据,影响甚至干预模型的正常训练结果,使整个模型或者模型的某个方面失去功能。 对于该种类型的攻击,在模型训练前,应对训练数据进行检测、清洗和修复,移除异常或不准确的数据点,得到一个减毒,甚至是无毒的训练数据集,在这个基础上训练模型就能有效降低数据投毒的不良影响,恢复模型的正常功能。在训练集不够的情况下可增加训练数据集,可以对原有数据集进行一定形式的转变 来扩大数据集,在增强的、多样化的训练集上训练模型,会得到较高的准确率。 # (2) 数据窃取攻击 攻击者通过与模型交互,依据模型的预测结果尝试恢复该预测结果对应的输入数据,数据窃取攻击可能会导致大量用户隐私信息的泄露。 为了防止数据在训练过程和训练结果中被窃取, 应采取一系列措施确保数据在收集和存储中的安全性, 首先, 对敏感数据进行加密和脱敏处理; 其次, 使用可靠的数据存储和传输方式, 如加密存储和传输, 以确保数据的安全性; 最后, 建立数据访问控制和审计机制, 以监测和防止未经授权的访问和数据泄露。 # (3) 属性推断攻击 大模型训练都需要大量的数据作为输入,在训练过程中,如果未对数据进行适当的脱敏处理,或者使用不可靠的存储和传输方式,攻击者从模型的预测以及计算的中间信息就可以恢复输入数据的部分敏感属性,导致关键隐私信息泄露。 对于该种类型的攻击,需要在模型训练过程中,合规地使用个人隐私数据,加强隐私保护和数据治理、建立数据管理制度、提高数据处理效率、遵守数据透明度义务等方面的具体要求,严格落实关于用户控制权、知情权、选择权等合法权益,促进数据的可管控、可监督、可追溯和可信赖。 # 三、金融业AI基础设施建设优秀案例分析 # (一)中国工商银行千卡规模AI算力云建设 工商银行在同业率先建成千卡规模自主可控AI算力云,算力资源的分配时效、稳定性均达国际领先水平,为实现高水平科技自立自强贡献力量。首先,通过打造智算云原生架构,实现算力分钟级弹性分配。在云智融合方面,运用算力池化、虚拟化等技术,整体算力资源使用率提升超 $50\%$ 。针对大模型服务启动慢的痛点,大镜像创新采用p2p镜像传输,大模型文件通过预热缓存技术缩短时长,大模型服务启动整体提速一倍以上,分钟级伸缩。在异构管理方面,通过建设独立云底座,GPU、NPU、MLU等异构千卡规模算力混合部署,分用户资源隔离,训练推理集群隔离,资源弹性调度、统一监控、统一运维。其次,AI算力集群规模最大,30天+连续训练不中断。在稳定性方面,目前已建成的集群千卡规模达到总算力1.5EFLOPS,为解决大规模集群下的计算任务分发夯死、卡顿等问题,采用算力多级编组调度策略,具备TB级数17天内完成千亿大模型全参稳定训练的能力,同时兼容小模型训练。在高效协同方面,通过建立流量感知模型,自动修正网络偏离参数,控制存储读写速度,优化算力资源调度,实现0丢包、超10000I/O吞吐的算网存高效融合协同。最后,同业率先打造绿色低碳基础设施,能耗达到绿色数据中心领先水平,获得绿色数据中心评定。 # (二)中国光大银行云平台AI算力创新实践 光大银行2021年启动全栈云平台建设,是“ $123+\mathrm{N}$ ”数字化 银行发展体系中的两大技术平台之一,也是业务拓展核心生产力的基础平台,其中AI算力云是该平台的一个重要组成部分。该平台已完成如下建设:一是实现GPU资源池化,支持原生容器、K8S、虚拟机、裸金属服务器和物理机等多元化部署场景;二是支持GPU资源聚合(适用于训练场景),即通过将多机多卡快速聚合到一个任务,可免去复杂的调度过程与模型拆分过程,实现快速交付;三是支持GPU细粒度切分(适用于推理场景),即通过将GPU按需切分给多个推理任务,实现多个任务同时并发、相互隔离,进而提高资源利用率、增加业务规模。四是支持资源动态伸缩,即所有虚拟GPU资源的分配与回收都保持动态运转,并可以按需调整、无需重启。五是支持调用内存补充显存(适用于长尾应用叠加场景),即当GPU面临显存不足时,可以调用系统内存补充显存。六是支持资源动态分配和释放(适用于AI算法开发场景),即仅当有AI编译程序需要运行时,才会占用物理GPU资源,并在程序执行完毕后,执行资源动态释放,从而实现GPU动态共享。 # (三)中国人保大模型智算液冷实验室建设 2024年5月中旬,中国人保在北方信息中心建立的大模型智算液冷实验室正式投产。液冷实验室部署的双冷源单机柜功率达 $20\mathrm{kW}$ 、峰值测试功率达30KW,是目前行业内标准机柜功率(2.5kW)的8~12倍。采用可动态调整、弹性适配业界主流液冷服务器的模块化、松耦合架构,应用最高容错等级2N架构液 冷CDU拓扑,分别从冷却塔、双路冷冻水等三路冷源引入冷水,大幅度提升机柜供冷可靠性。智能小母线系统自低压配电系统引至机柜,有效消除单点故障,保障系统架构的业务连续性及稳定性。借助冷板热交换、小母线供电等新技术,将PUE优化至1.06,大幅降低能耗,预计每年可节约近百万KWH用电,向绿色低碳算力基础设施建设迈出坚实的第一步。 # 四、存在问题 (一)AI芯片采购选型难度高。AI是人工智能赋能业务场景的关键基础设施,但是AI芯片选型与传统的硬件(如CPU和磁盘)选型不尽相同,除了规格参差不齐之外,AI芯片种类繁多且不同的AI芯片对人工智能模型、算法和框架的兼容性也存在差异,金融机构难以直接通过产品的参数规格选择合适的芯片产品,业界也没有AI芯片统一的评估标准。因此,大部分金融机构在采购前,都会与芯片厂商沟通,协调测评样机进场开展芯片原型验证工作,开展AI芯片规格验证、业界热点模型验证、企业自身特色模型验证。由于前两者是一个重复工作,并且大部分金融机构对AI芯片均会开展业界热点模型的验证工作,目前各家金融机构单独对AI芯片进行选型测评的方式,不仅耗费大量的人力和物力,还增加了不必要的时间成本。同时,由于样机数量有限,基本在大型金融机构流转,中小金融机构很难取得实测机会,影响其对AI芯片的采购。 (二)AI芯片间难以无缝衔接。众所周知,AI芯片能够为人工智能算法提供算力,一方面是AI芯片支持大量的并行计算能力,另一方面是因为AI芯片配套了底层驱动,支持上层的人工智能算法的实现。目前AI芯片生产厂商众多,AI算法的实现过程中,使用的底层接口也是各家厂商自定义实现的,因此存在以下两方面的问题:首先,模型推理能否完成跨芯片迁移,取决于芯片厂商是否适配了模型使用的算法;其次,模型训练难以使用不同型号的芯片联合进行分布式训练。这将导致数据中心在进行AI芯片采购的时候,即使有备选方案,仍存在以下风险:一是备选方案中的AI芯片无法适配运行在原有AI芯片上的模型,导致生产可用性风险;二是备选AI芯片与原AI芯片的算力无法聚合,导致训练算力不足风险。 (三)机房建设存在较大挑战。目前,金融机构的数据中心机房大部分都是面向通算服务器建设的,而智算需配套高密AI服务器和高带宽网络,因此在机架设计、能源、散热和网络建设方面,对传统机房提出了极大的挑战。一是传统机房配置12kW规格的机柜,由于高密AI服务器功耗至少需要10kW,为确保服务器供电稳定性,采用双路供电,单个高密AI服务器至少需要占用两个机柜,对于传统机房的容量带来极大的挑战。二是高密AI服务器的高功耗导致数据中心的电力需求激增,传统的数据中心不一定能够满足多个高密AI服务器的能耗要求,大规模部署高密AI服务器对机房的能耗带来极大的挑战。三是传统机房 的散热模式是依照风冷散热模式进行建设的,难以满足高密AI服务器的散热需求,因此机房面临大规模液冷模式改造带来的成本压力的挑战。四是AI计算对网络的带宽、吞吐量和低延迟要求极高。传统数据中心的网络架构需要升级为支持高密度连接和高带宽的架构,例如采用400G和800G的光纤网络,对机房网络的运维带来极大的挑战。 # 五、发展展望 在金融行业,AI基础设施的发展正迎来一个关键转折点。随着技术的不断进步,AI已对金融服务的智能营销、智能运营、智能风控、智能投研、智能投顾、智能客服助手、智能办公、智能研发、智能运维等多个应用场景实现赋能。未来,AI基础设施建设除了赋能业务场景,将更加关注能耗比和能算比的提升、供应链的稳定、基础设施的安全等各个维度,构建稳定的AI平台,为业务提供传统模型及大模型的训练和推理服务。但目前AI基础设施建设面临AI芯片选型难度高、AI芯片间不能无缝衔接、机房建设存在较大挑战等问题,亟须制定AI芯片统一测试方法以降低AI芯片选型难度、推动厂商统一驱动接口以支持AI芯片间无缝对接、研究机房建设方案以提供金融机构参考。此外,通过组织金融机构开展量子计算和光学计算等前沿技术研究,在相关领域进行AI计算的前瞻研究,在AI基础设施建设方面积累更多的经验,为后续基础设施建设转型提供参考建议。 # 参考文献 [1]国发〔2025〕11号 《关于深入实施“人工智能+”行动的意见》 [2]工信部联通信〔2024〕165号 《关于推动新型信息基础设施协调发展有关事项的通知》 [3]工信部联通信〔2023〕180号 《算力基础设施高质量发展行动计划》 [4]中共中央、国务院.《数字中国建设整体布局规划》.2023 [5]国科发规〔2022〕199号《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》 [6]工信厅信发〔2022〕33号 《关于印发中小企业数字化转型指南的通知》 [7]工信部通信(2021)76号《新型数据中心发展三年行动计划(2021—2023年)》 [8]工信厅科〔2018〕80号 《新一代人工智能产业创新重点任务揭榜工作方案》 [9]IDC、浪潮信息.《2025年中国人工智能计算力发展评估报告》 [10] 德勤. 《2024AI智算产业趋势展望分析报告》