> **来源:[研报客](https://pc.yanbaoke.cn)** # 中国开放数据白皮书2025 The State of Open Data in China 2025 # 长期关注中国学者的开放数据态度、共享实践与政策环境 A long-term focus on Chinese scholar's attitudes towards open data, their sharing practices, and the policy environment 高质量科学数据是科学研究的重要基石。科学数据与人工智能的深度融合,更是推动创新突破、实现可持续发展的关键要素。 ——曹宏斌 中国工程院院士、中国科学院过程工程研究所研究员 开放数据是科学信任的基石:当研究数据得到共享,方法保持透明,结果可重复时,科学公信力随之提升,科研进程得以加速。我衷心感谢中国科学院计算机网络信息中心与施普林格·自然展开合作,并引导推进这一愿景。 —Harsh Jegadeesan 施普林格·自然首席出版官 # 中国开放数据白皮书 # 2025 # 目录 前言 4 2025年中国开放数据情况分析报告 6 基于国际合作的高能物理科学数据共享 12 我国气象科学数据开放共享实践与展望 16 我国地震科学数据管理与开放共享的现状及未来发展的思考 18 数据驱动的冰冻圈研究范式实践 20 智能化赋能医学数据管理与开放共享的思考 24 高质量科学数据集建设及典型案例 26 数据驱动的催化科学创新实践与进展 28 中国科学院化学化工科学数据中心:化学化工基础数据资源建设及AI-Ready应用实践 30 高质量科学数据的 AI 就绪度评价实践 32 推动开放科学实践:中国开放数据现状及其对基础设施、自动化和合作的影响 36 作者简介 38 # 前言 # 曹宏斌 中国工程院院士、中国科学院过程工程研究所研究员周园春 中国科学院计算机网络信息中心副主任、研究员 高质量科学数据,是将科学数据转化为现实生产力、真正赋能各行各业数字化转型的引擎。2025年5月,国家数据局印发《数字中国建设2025年行动方案》,该方案特别强调,在重点领域建设高质量数据集,并积极开展人工智能高质量数据集建设。本报告深入探讨了高质量科学数据建设,通过分析2025年的调研结果,详细剖析了我国科学数据政策的落实情况、FAIR原则的实践进展以及AI技术在数据管理中的应用;同时,报告还吸纳了多篇行业论文,涵盖物理学、化学、地球科学和医学等学科领域的创新实践进展,探讨了气象和地震科学数据在经济社会发展、防灾减灾中的深度应用,以及高质量数据集建设、应用和评价的典型实践。 报告以我国开放数据发展现状开篇,中国科学院计算机网络信息中心姜璐璐等分析了2025年中国开放数据调查情况。今年调查显示,中国学者对开放数据的支持度较高,近八成受访者支持将研究数据开放获取作为学术惯例,大部分受访者在实践中已遵循FAIR原则,AI工具在数据管理中的应用逐步深化。对此,报告提出了加强科学数据开放共享政策落实、关注科研人员现实担忧、消解数据共享阻碍因素、加强数据管理并采用可信平台、合理利用AI工具等多方面工作建议。 多个国家科学数据中心在各自学科领域的科学数据开放共享中展开了丰富实践,取得显著成效。在高能物理领域,中国科学院高能物理研究所姜晓巍等探讨了高能物理科学数据的国际合作与共享机制,重点分析其特点、挑战及实践,展示了国家高能物理科学数据中心在推动全球数据协同治理中的关键作用。该中心将持续推动大科学装置科学数据的长期保存与可持续开放共享,在技术层面依据FAIR原则建立全流程管理规范,在管理层面制定分阶段、分级别的数据开放策略,在组织机制层面统筹“实验组—实验室—资助机构”三方力量,构建稳定、可持续的数据保存与共享长效机制。 在气象科学领域,国家气象信息中心肖文名详细介绍了我国气象科学数据开放共享的实践进展与未来展望,强调其在推动气象事业发展、支撑国家科技创新及促进经济社会进步中的重要作用。气象科学数据开放共享不仅提升了数据的利用价值,还促进了气象事业与经济社会各领域的深度融合。未来将强化部门、地方、企业、科研机构间的数据共享,建立健全安全可信机制,形成不少于5个细分领域高质量数据集,孵化30个认证数据服务,吸引30家第三方服务商入驻,构建“可信管控、合规运营、价值共创” 的生态体系。 在地震科学领域,中国地震台网中心黄兴辉等探讨了我国地震科学数据管理与开放共享的现状,分析其在地震监测、预警、科研及社会应用中的成效,并对未来发展方向提出思考,旨在推动地震科学数据资源体系的高质量建设与全球服务能力提升。国家地震科学数据中心通过整合多学科观测数据与科技项目汇交数据,构建了覆盖全生命周期的高质量数据资源体系,为地震科学研究和防灾减灾事业提供了坚实基础。未来需进一步加强国际合作,推动全球数据资源共享,同时深化智能化技术应用,提升数据处理与服务能力,为全球防灾减灾和地球科学研究作出更大贡献。 在地球科学领域,中国科学院西北生态环境资源研究院康建芳等探讨了数据驱动的冰冻圈研究范式实践,重点分析冰冻圈科学数据资源体系建设、整编标准规范及开放共享实践,旨在提升冰冻圈数据质量与可用性,支持全球气候变化研究。通过物理机理与AI的深度融合、构建冰冻圈数字孪生及跨尺度多要素联动研究,将进一步深化对冰冻圈演变机制的理解,为全球生态保护与灾害防治提供科学依据。 在医学领域,中国医学科学院医学信息研究所刘辉等探讨了智能化技术在医学数据管理与开放共享中的应用价值、面临挑战及未来发展方向,旨在通过人工智能赋能,推动医学数据高效利用与价值释放,助力医疗卫生事业高质量发展。智能化手段正为医学数据管理带来范式变革,借助AI技术的应用,显著提升了数据管理效能、数据质量以及共享安全水平。我国在医学数据管理与开放共享方面已取得实质性突破,但仍面临数据安全、标准互操作性等挑战。未来需要通过政策完善、技术应用和人才培养等多方面努力,进一步释放医学数据的价值潜能。 在高质量科学数据生产、应用和评价方面,也产生了多个典型案例成果。关于高质量科学数据生产,中国科学院计算机网络信息中心王鹏飞等分析了高质量科学数据的内涵,认为高质量科学数据不仅是“可获取数据”,还需具备真实性、结构化、可计算性和可解释性。以团队发表的scCompass单细胞数据集为典型案例,论证了当数据具备结构统一、质量可控和语义自洽特性时,人工智能即可真正参与科学推理,实现数据与知识的共生循环。高质量科学数据既是人工智能科研的新能源,也将成为人类知识体系自我进化的新起点。 关于高质量科学数据的应用,国家纳米科学中心高扬等探讨了数据驱动方法在催化科学中的创新实践与进展,展示了中国在基于领域知识的催化性能预测、可解释模型辅助的反应器件开发和全流程机器人化学家等方向的突破,并展望了未来数据驱动催化研究的主要方向。未来研究应聚焦于数据标准化、模型深度融合和自主研发平台建设,进一步释放数据驱动催化研究的创新潜力,为实现高效、精准的催化材料开发奠定基础。 中国科学院过程工程研究所赵月红等介绍了中国科学院化学化工科学数据中心在化学化工基础数据资源建设、AI-Ready数据集构建及应用实践方面的成果,并探讨了未来结合人工智能技术推动化学化工领域发展的方向。随着人工智能技术的发展,化学化工科学数据中心将进一步加强与AI的深度融合,推动高质量数据资源建设和智能化应用,为化学化工领域的创新提供坚实支撑。 关于高质量科学数据的评价,中国科学院计算机网络信息中心秦川等介绍了科学地平线(SciHorizon)平台在高质量AI就绪(AI-Ready)科学数据评价方面的实践,构建了国际首个面向“数据+模型”的综合评价框架,从规范性、可用性、可解释性和合规性四个维度刻画高质量科学数据的AI就绪程度。这一框架不仅提升了科学数据的可识别性,还为AI4Science创新提供了系统性评价支撑。未来,科学数据将实现“可评价、可治理、可调用”的一体化支撑,为AI4Science创新提供更加稳固和持续的动力,推动科学研究迈向智能化新阶段。 施普林格·自然研究数据创新总监 Graham Smith 分析了基础设施、自动化与合作对推动开放科学实践的影响,介绍了施普林格·自然推出的开放科学助手工具,可帮助作者完善数据可用性声明和共享方案,让数据开放更易实现且更具可操作性。此外,他认为,数据开放共享的基础设施有助于规范共享标准,提升数据质量;数据出版赋予数据集正式可见性和可引用性,为其带来了学术认可的路径。最后,他介绍了施普林格·自然在中国的相关合作策略及实践案例。 综上所述,在科学数据与AI融合的浪潮中,各领域在高质量科学数据资源建设、AI融合应用、开放共享机制构建及评价体系创新等方面已取得显著成效:从高能物理的全球协同治理到化学化工的AI-Ready数据集实践,从冰冻圈的数字孪生探索到医学数据的智能化管理,从地震、气象科学的全生命周期数据资源体系到SciHorizon平台的“数据+模型”评价框架,均为数据驱动的科 学创新奠定了坚实基础。展望前路,我们需要进一步深化跨领域协同与国际合作,推动数据标准化与AI技术的深度融合,构建安全可信、价值共创的数据生态,使高质量科学数据成为AI-4Science创新的核心引擎,助力全球科技进步与可持续发展。 # 2025年中国开放数据情况分析报告 姜璐璐 张泽钰 李宗闻 李成赞 周园春 中国科学院计算机网络信息中心 今年是 figshare 与 Springer Nature 携手面向全球科研人员发放《开放数据状况调查问卷》的第 10 年,也是《中国开放数据情况分析报告》连续发布的第 3 年。本次报告主要基于 2025 年中国受访学者填写《开放数据状况调查问卷》的情况,对本年度中国开放数据总体情况做出分析和梳理。 # 一、问卷调查基本情况 本次调研共收到来自中国学者的有效问卷1015份。为尽可能准确反映中国受访者的开放数据情况,报告去除了仅填写所在国家或地区、学科领域、工作年限等基础信息的问卷,基于772份问卷开展系统分析与整理。 本次报告统计的中国受访者中,有 $65\%$ 来自高校, $12\%$ 来自医院, $11\%$ 来自科研机构,分列中国受访者占比的前三位(见图1)。 图1 中国受访者所属机构类型前五(2025) 中国受访者的学科背景情况显示,排名前三位的分别是医学(27%)、生物学(19%)和工程学(11%),与上一年度的情况基本持平。今年,地球与环境科学领域的受访者占比小幅上升至 $9\%$ 位列第四位(见图2)。 图2 中国受访者所从事的学科领域前十(2025) # 二、调研主要发现 # 1. 中国学者对开放数据的支持度稳定保持在高位 在开放获取方面(见图3),2023年至2025年三年间,支持开放获取的人数占比常年稳定在 $80\%$ 以上,且每年有轻微增长。需要注意的是,2025年反对开放获取的中国学者占比激增至 $11\%$ 在开放数据态度方面(见图4),自2023年起,支持“让研究数据开放获取成为学术惯例”的中国受访者占比稳定在 $78\%$ ;同时,2025年反对开放数据的受访者占比为 $5\%$ ,较2024年有轻微下降。 图3 中国受访者对研究论文开放获取的态度(2023-2025) 图4 中国受访者对研究数据开放获取的态度(2023-2025) # 2. 中国学者数据共享的阻碍因素并未得到有效缓解 在数据共享时的主要担忧方面(见图5),抢发 $(40\%)$ 、担心数据滥用 $(38\%)$ 和数据含有敏感信息 $(33\%)$ 是2025年中国受访者排名前三的担忧因素。总体来看,与2023、2024年调研情况基本一致。 图5 中国受访者数据共享时的担忧(2025) 不容忽视的是,数据贡献认可度依旧是科研人员关注的重点, $24\%$ 的中国学者认为贡献未得到适当承认或认可是他们在共享数 据时的主要担忧。事实上,中国受访者常年认为自己在数据共享方面的贡献并未获得足够认可(近三年统计情况见图6)。数据显示,认为自己未获得适当认可的受访者占比在逐年小幅下降,但常年超过 $50\%$ ;同时,认为自己在数据共享方面的贡献获得适当认可的受访者占比逐年上升,从2023年的 $18\%$ 上涨至2025年的 $27\%$ 。可见,中国受访者的数据贡献认可度虽逐年提升,但整体认可度仍明显不足。 与此同时,“数据引用”依然是中国受访者数据共享的第一驱动因素(见图7),占比达到 $71\%$ ,连续4年居于首位;其次,“期刊或出版商要求”、“提升我的研究影响力和可见度”,分列第二、三位,成为驱动中国受访者共享数据的重要动因。 图6 中国受访者对数据共享贡献认可度的态度(2023-2025) 图7 中国受访者数据共享的驱动因素(2025) 关于“您在公开研究数据方面需要哪些领域的帮助”(见图8), $56\%$ 的学者需要数据版权或许可协议方面的帮助,其次是寻找合适的基金 $(48\%)$ 和数据管理政策 $(39\%)$ ,相较前两年结果并无改善。统计显示(见图9),近一半的学者在数据共享时会寻求同事或导师 $(46\%)$ 、网络搜索 $(39\%)$ 等非正式渠道的帮助。此外,统计显示(见图10), $30\%$ 的学者没有可用的数据共享资金,其中 $19\%$ 的学者不知道有何可用资金, $11\%$ 的学者自费进行数据共享。这在一定程度反映出,我国在数据共享方面的政策宣贯、培训支持、专用资金方面存在明显缺口。 图8 中国受访者共享数据所需要的帮助(2025) 图9 中国受访者在获取数据管理或开放帮助时所依赖的资源(2025) 图10 中国受访者数据共享可用资金渠道(2025) # 3. 中国学者已在数据共享中广泛遵循 FAIR 原则 数据整理作为数据管理流程中的关键环节,是实现高质量数据共享的重要基础。今年的统计结果显示(见图11),超过 $82\%$ 的学者已经养成数据整理的习惯,另有 $10\%$ 的学者虽有意愿但因缺乏相关资源未能付诸实践。从受访学者所属学科分布来看(见图12),地球与环境科学 $(90\%)$ 、社会科学 $(88\%)$ 和工程学 $(84\%)$ 等5个学科,具有数据整理习惯的受访者超过 $80\%$ 。从受访学者所属机构的类型来看(见图13),研究机构 $(87\%)$ 、私营公司 $(85\%)$ 及大学 $(84\%)$ 拥有数据整理习惯的受访者超过 $80\%$ 。 图11 您在数据收集过程中或之后,会为私下或公开分享而整理/准备数据吗?(2025) 图12 部分学科具有整理数据习惯受访者比例(2025) 图13 各类机构具有整理数据习惯受访者比例(2025) 对于FAIR原则[1]的认知,《中国开放数据报告2024》[2]显示,2020年起,熟悉或听说过FAIR原则的中国学者占比超过从未听说过此原则的人数占比,越来越多的中国学者开始了解并逐渐熟悉开放数据文化与基础知识。对于FAIR原则的实践,2025年的调查结果显示(见图14),已有超过 $87\%$ 的学者认为自己的数据共享实践已经完全或部分遵循FAIR原则,且这一比例在近三年统计中也呈现稳步增长态势(见图15)。 图14您认为您的数据共享符合FAIR原则的程度如何(2025) 图15 完全/部分遵循FAIR原则的中国受访者比例(2023-2025) 从受访者所属学科来看(见图16),社会科学 $(93\%)$ 、化学 $(89\%)$ 、医学 $(89\%)$ 和生物学 $(89\%)$ 的受访者遵循FAIR原则情况较好,占比均在 $90\%$ 左右。从受访者所属机构来看(见图17),来自医学院、研究机构和私营公司的受访者在数据共享中遵循FAIR原则的占比超过 $90\%$ 。 图16 部分学科数据共享完全/部分遵循FAIR原则受访者比例(2025) 图17 各类机构数据共享完全/部分遵循FAIR原则受访者比例(2025) 可以发现,数据管理与FAIR化共享已成为中国学者的普遍共识,并在实践中取得显著成效。浅析其原因:社会科学研究数据多源自调查统计,更易于实现结构化与标准化;生命科学领域的国际期刊与资助方较早推行数据共享要求,为该领域数据FAIR化提供了强大动力。 # 4.AI在辅助数据管理实践上发挥了更多积极作用 在数字化智能化快速演进的今天,AI工具是否帮助更多科研工作者开展数据管理与数据共享实践,成为一个值得关注的问题。 近三年的统计数据显示(见图18),越来越多的中国受访者开始使用AI工具辅助数据管理工作。“经常使用”和“已开始使用”AI工具进行数据管理的受访者占比逐年稳定增长;其中,在“数据处理”阶段使用AI工具的受访者比例高于其他阶段。 此外,不同学科背景的受访者在使用AI工具辅助数据管理方面表现出明显差异(见图19): 地球与环境科学领域的中国受访者在各个阶段的AI工具使用或计划使用占比均为最高,数据收集阶段为 $80\%$ ,数据处理阶段为 $88\%$ ,元数据创建阶段为 $78\%$ 。其中, $20\%$ 的该领域受访者 图18 中国受访者使用AI工具管理数据的情况(2023-2025) 图19 不同学科领域的中国受访者使用AI工具管理数据的情况(2025) 表示经常使用AI工具, $38\%$ 已开始使用,另有 $30\%$ 计划使用AI工具进行数据处理。 材料科学与化学领域的中国受访者也具有较高的AI工具使用或计划使用占比,数据收集阶段分别为 $75\%$ 和 $77\%$ ,数据处理阶段分别为 $87\%$ 和 $79\%$ ,元数据创建阶段分别为 $75\%$ 和 $73\%$ 。 社会科学和工程学在“尚未考虑使用”或“尚不了解AI工具”的占比较其他学科高,医学与生物科学领域的使用情况与中国受访者的整体情况基本一致。 尽管各学科间存在明显差异,但普遍更倾向在“数据处理”阶段使用AI工具。 # 三、对策与建议 # 1. 进一步加强并压实科学数据开放共享政策落实 科学数据开放共享对确保科研诚信、提高数据利用率、促进国家科技水平提升等具有重要意义,应进一步加强并压实科学数据开放共享政策落实,激励并支撑科研人员开展数据共享实践。 近年来,我国陆续出台多部与科学数据管理和开放共享有关的政策文件:2018年,国务院办公厅印发《科学数据管理办法》;2022年,中国科协办公厅、中国科学院办公厅联合发布《关于组织开展期刊论文关联数据汇交工作的通知》;国家新闻出版署 2022-2025连续四年在前一年度期刊核验工作的通知中,明确将“是否将论文数据加工整理并保存”纳入学术期刊出版核验项。然而,调查数据显示,科研人员在落实相关政策、开展数据共享实践时仍存在诸多困难,且未得到有效指导。 当前情况下,应在已有政策文件的基础上,进一步加强科学数据开放共享政策的具体落实工作,为科研人员开展数据共享实践提供有效支持。具体建议如下:第一,加强科学数据共享全流程的服务与支撑工作,广泛开展数据共享培训活动、建设推广合格的数据存储平台等,帮助科研人员更便捷地开展数据共享工作;第二,给予合理的资金支持与保障,确保科研人员有足够资金开展科学数据开放共享的相关工作,同时配套激励措施,形成数据开放共享的良性循环;第三,在做好支撑和指导工作的基础上,逐步提高科学数据开放共享程度,健全配套政策与措施,推动科学数据开放共享从鼓励共享过渡到强制共享。 # 2. 关注科研人员现实担忧,消解数据共享阻碍因素 推动科学数据开放共享,需关注科研人员的现实担忧和实际需求,消解数据共享阻碍因素,激励更多科研人员参与科学数据开放共享实践,共创良好氛围与生态。 第一,完善科学数据开放共享文化与社群生态建设。抢发、担心数据滥用、数据引用等是受访者最主要的担忧,且中国受访者常年认为自己在数据共享方面的贡献并未获得足够认可,构建良好的数据共享文化与生态迫在眉睫。本报告建议,一方面,加强政策宣传引导,举办形式多样的培训讲座,推广良好的数据共享文化氛 围与最佳实践路径;另一方面,广泛推广并实践标准规范的科学数据引用,充分保障数据作者权益,确保科研人员获得足够的贡献认可。 第二,推动科学数据管理人才队伍建设,提升科研群体科学数据专业素养。在数据共享方面,调查显示,科研人员需要数据版权或许可协议、寻找合适的基金、数据管理政策等方面的帮助,且实践中,大部分科研人员多依赖同事或导师、网络搜索等非正式渠道的支持。2025年12月,国家发展改革委、国家数据局、教育部、科技部、中共中央组织部联合发布《关于加强数据要素学科专业建设和数字人才队伍建设的意见》(发改数据〔2025〕1425号),明确提出“加快数据领域学术共同体和数字人才梯队建设”。当前,应持续加强科学数据专业人才队伍建设,为科学数据蓬勃发展保驾护航。 # 3. 前置数据管理时机,采用可信平台,是实现 FAIR 原则的有效路径 前文调查结果显示,中国受访者具备数据整理习惯的比例较高,为推动数据FAIR化共享奠定了良好基础。本报告建议,资助方、科研机构、高校等应要求科研人员制定完善的项目数据管理计划,引导科研人员在科研活动伊始便启动科学数据管理工作,以FAIR原则为指导,明确元数据标准、存储库选择、许可协议选择等关键问题。同时,可引入或强化图书馆、信息中心等技术支持部门的培训,为科研人员提供数据整理、元数据标注、存储库选择等咨询服务。 实际上,FAIR原则评估指标体系对元数据和数据文件的机器可读性、标识符管理方案、许可协议合规性等均有详细规定。可信的数据存储共享平台不仅能提供数据长期保存服务,更是确保数据可发现、可访问、可互操作、可重用的重要基础设施,其建设需要耗费大量人力、物力、财力。因此,科研主体无需重复建设平台,使用可信的公益性数据共享平台,是低成本、高效率、高质量实现数据FAIR共享的有效方式。例如,由我国自主研发运维的科学数据银行(Science Data Bank, ScienceDB)是我国首个且唯一获得Springer Nature推荐的通用型数据存储库,该平台已为全球18000多个期刊/机构提供论文关联数据出版服务。 # 4. 拥抱AI工具,合理服务数据管理实践 2025年8月21日,中国政府发布《国务院关于深入实施“人工智能+”行动的意见》(国发[2025]11号),明确提出加快实施“‘人工智能+’科学技术”重点行动,驱动技术研发模式创新和效能提升。从提质增效的角度来看,合理利用AI工具进行科学数据管理和数据治理具有重要意义:在数据收集阶段,AI工具可通过自动化方式提升数据质量和工作效率,如辅助数据收集过程中的初步清洗、验证和异常识别等工作,可有效减少人工错误,确保数据准确性及完整性;在数据处理阶段,AI工具具备高效的数据处理和大数据分析能力,可以自动识别数据中的模式和趋势,助力发现潜在关联和异常,在数据归一化、标准化处理方面优势显著(2025年的统计显示,“数据处理”阶段AI工具使用占比最高); 在元数据创建和整理阶段,AI工具可提升元数据的可发现性、可重用性、完整性、规范性和丰富性,便于他人快速理解和使用数据。 然而,AI工具的使用也须谨慎考虑人工智能与专业经验之间的平衡关系。显然,AI工具在提升数据管理效率与共享质量上潜力巨大,但确保数据管理符合伦理要求、数据产品满足社群的研究需要更为关键。此外,数据管理和数据共享过程中,AI使用情况的透明性至关重要,这有助于构建信任,保障数据用户的知情权。 AI工具正不断渗透科研全过程,我们需要探索和迭代AI在数据管理中的应用,提升数据管理效率和共享质量;同时,持续审视这种高效带来的潜在伦理风险,增强监管体系的抗风险能力。 # 参考文献 [1] Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18 [2] 于贵瑞,周园春,姜璐璐等.《中国开放数据报告2024》[DS/OL].V1.Science Data Bank,2024[2025-12-11].https://cstr.cn/31253.11.31253.11.10.6084/m9.figshare.28044521.v1.CSTR:31253.11.10.6084/m9.figshare.28044521.v1. # 基于国际合作的高能物理科学数据共享 姜晓巍王爽张玄同陈刚张红梅胡皓曾珊闫晓飞齐法制 中国科学院高能物理研究所 国家高能物理科学数据中心 高能物理实验具有规模大、投入高、技术复杂等特点,其发展高度依赖于广泛的国际合作。科学数据的开放共享不仅是高能物理科研活动的核心环节,也是推动全球科研协同的重要基础。当前,高能物理科学数据规模已达EB级,数据开放共享面临巨大挑战。为此,全球高能物理科学数据中心携手构建了分布式数据平台,推动数据资源的高效整合与共享利用。 国家高能物理科学数据中心深度参与国际数据框架的设计与构建,主导多项国内大型高能物理实验项目(BESIII, JUNO, LHAASO等),建立国内第一个高能物理领域数据开放共享平台,采用“数据+软件+环境”三位一体的高能物理独特的共享模式,实现数据的高效共享与利用,为国内外高能物理大科学实验的全球化数据共享和利用提供了强有力的支撑。 # 一、高能物理数据开放共享特点 # 1. 国际合作是高能物理实验的基础 现代高能物理实验因其空前的规模和复杂度,必须依赖国际合作整合资金、技术和人才,协同攻克科学难题。几乎所有实验均组建国际合作组,对产生的海量数据进行共享与联合分析,以确保科学成果归属的公正性和科研价值最大化。欧洲大型强子对撞机、我国的高海拔宇宙线观测站和江门中微子实验等,均依托国际合作模式,这对实验的成功建设和成果产出发挥了重要作用。 # 2. 国际合作EB级科学数据全球协同治理 当前,国际高能物理数据总量已达EB级,单一机构难以独立承担其存储、处理与共享任务,需依赖全球范围内的协同治理机制。在政策层面,全球高能物理研究机构共同构建了数据合作与贡献机制,依据各参与方从科学研究中所获成果的比例确定其数据贡献责任,从而在组织架构层面保障高能物理数据的全球开放共享。在技术层面,国际各大高能物理实验均建立网格数据平台,面向超大规模科学数据开放共享,研发分布式数据存储、数据传输与调度、分布式数据处理等关键技术,结合国际合作机制整合全球高能物理数据中心资源与算力,共同支撑海量数据的存储管理、共享流通与协同分析任务。 # 3. 高能物理数据全球开放共享面临诸多挑战 高能物理数据开放当前已形成以国际顶尖机构主导、多国平台协同、资源联动开放的格局。国家高能物理科学数据中心整合多领域数据,面向全球用户开放,开展国际合作并提供数据与分析服务。但受数据自身特性、技术条件及管理规则等因素影响,高能物理领域在数据洪流与技术瓶颈、开放共享复杂性和多样化以及数据长期保存与可持续性等方面仍然面临诸多挑战。 # 二、国际合作组织及机制 高能物理领域历经数十年发展,已形成一系列相对成熟的国际合作组织和机制,共同推动数据生态的健康发展。以下列举高能物理领域典型的国际组织或社区。 # 1. WLCG (the World LHC Computing Grid) WLCG最初为服务欧洲大型强子对撞机实验而设立,经过近20年发展,现已发展为覆盖全球40多个国家、近200个数据中心的分布式计算网络[1]。我国是该组织最早成员之一,国家高能物理科学数据中心作为核心成员,持续提升数据设施和技术能力,依据签署的谅解备忘录,承担国际高能物理科学数据共享利用任务[2]。 # 2. EGI (European Grid Infrastructure) EGI是欧洲分布式科研计算与数据处理平台,为跨国科研项目提供统一、先进的数据保存与分析服务[3]。国家高能物理科学数据中心作为EGI区域中心中国分中心(NGI_CHINA),是中国参与国际数据网格体系建设的国家级节点,主要负责国内计算和数据资源与国际科研数据平台的互联互通和技术支持,为高能物理等大型国际合作实验提供数据共享和利用能力。 # 3. DPHEP (Data Preservation in High Energy Physics) DPHEP是由国际未来加速器委员会推动成立的高能物理数据长期保存策略研究与规划的工作组织,旨在保障实验数据在实验结束后的长期可访问、可理解与可重用,倡导构建包含数据、软件、元数据、文档和处理环境在内的完整“信息生态系统”,实现从支持出版的数据到原始探测数据的多层级保存[4]。作为DPHEP的创始成员,国家高能物理科学数据中心积极推动相关政策在国内的实践,促进我国大科学装置数据的长期保存与可持续利用。 # 4. 实验国际合作组 国际各大高能物理实验成立的国际合作组负责制定数据分级分类、数据质量体系和共享规则。国家高能物理科学数据中心遵循各实验国际合作组规则,建设数据基础设施,发展科学数据技术,统筹实现数据的高效组织和共享利用,为上万名全球物理学家提供高质量数据服务。 # 5. 国家高能物理科学数据中心 国家高能物理科学数据中心作为我国高能物理领域的唯一的国家级数据中心,不仅深度参与了国际合作,还主导了北京谱仪(BES)、江门中微子实验(JUNO)、高海拔宇宙线观测站(LHAA-SO)等重大科学装置的数据处理、保存与开放共享。数据中心建立了国际化的数据管理与服务平台,不仅为国内科研团队提供强力支撑,更积极组织全球范围内的数据协作。当前,国家高能物理科学数据中心已成为推动国际高能物理领域开放数据的重要枢纽。 # 三、高能物理科学数据国际合作实践 # 1. 全球化数据开放共享平台 国家高能物理科学数据中心牵头国内各单位参与国际高能物理实验的科学数据开放共享,是国际高能物理核心数据中心之一, 目前建有1个国际网格一级站点和4个二级站点,是LHCb实验的亚洲区域数据中心,承担区域内的数据开放共享和利用[5]。作为国内高能物理大装置实验的数据汇交和管理中心,国家高能物理学数据中心构建了全球化的数据开放共享平台,面向科学数据全生命周期管理的需求,系统化推进高能物理科学数据的标准化整合与开放共享。 # 2.大规模数据保存与利用的紧耦合协作机制 在高能物理科学数据国际合作实践中,构建了数据保存和数据分析资源的协作调用机制。通过发展国际通用的高能物理分布式数据生态中间件架构,实现全球数据中心的数据资源和计算资源的高效调度和协作,形成了以地区的数据存储站点为中心辐射区域范围内的计算站点的模式,为匹配的计算站点提供科学数据下载,数据产品回传,元数据归档等全流程管理服务。这一机制有效避免大规模数据跨区域传输的资源浪费,降低数据处理和利用过程的失败率,提高了地区级数据中心与区域内其他数据处理节点的协作效率,达到了加快科学数据分析速度和科研产出效率的目的。 # 3. 高效的数据通信能力 在高能物理科学数据国际合作中,LHCOPN与LHCONE构成了高效可靠的底层数据通信设施[6]。LHCOPN作为专用高速光纤网络,以欧洲核子中心为汇聚中心,连接全球17个WLCG一级数据中心,支撑大规模高能物理科学数据传输需求;LHCONE则是覆盖超100个WLCG二级数据中心的虚拟专用网络。二者通过网络互信技术简化安全控制流程,消除网关型网络安全设备性能瓶颈,大幅提升数据交换效率。这一双层网络架构已经成为国家高能物理领域数据共享的核心支撑保障设施,为LHC、日本Belle-II、我国JUNO等高能物理实验以及SKA等非高能物理实验的海量数据跨境交换、分布式数据存储等提供了重要保障。 # 4. 全球协作数据软件生态 全球高能物理数据中心采用统一的、基于通用标准协议的数据软件生态,构建了高能物理数据全球协作的技术基石。国家高能物理科学数据中心组织参与关键领域数据软件的全球协作研发并作出中国贡献,同时推动我国高能物理领域相关科学数据软件 的技术和生态发展。Rucio分布式数据管理软件提供跨站点数据存储资源管理、数据分发、数据调度的自动化服务;DIRAC分布式数据处理软件通过整合分布式异构计算资源面向跨地区多数据中心提供数据共享利用服务;DOMAS则是由国家高能物理科学数据中心围绕我国先进光源数据管理需求自主规划、设计和开发的数据全生命周期软件[7]。这些软件均通过标准化接口开放给全球合作的实验用户和领域软件开发者,建设了面向全球合作开发者的软件社区,持续推动着领域科学数据软件生态的发展。 # 四、总结与思考 高能物理领域的科研活动与国际合作相辅相成,全球协作与开放共享已成为该领域科学数据工作的核心任务与重要组织方式。科学数据的国际合作既是获取前沿超大规模高质量数据集的重要途径,也是推动我国科学数据技术与生态发展的关键手段之 一。为此,我们已基于国际通行标准,合作建设高能物理分布式数据平台,旨在支撑我国主导的大科学装置实现全球化数据开放共享。 当前,国际合作实验所产生的数据规模日益庞大,且实验装置本身又具有高度专用性。要实现真正有效的数据开放共享,仅提供数据是远远不够的,必须大力发展配套的数据软件与环境生态,构建“数据+软件+环境”三位一体的开放共享模式,从而实现对这类宝贵科学数据资源的高效利用与深度共享。 面向未来,国家高能物理科学数据中心将持续推动大科学装置科学数据的长期保存与可持续开放共享。在技术层面,将依据FAIR原则,建立覆盖数据获取、处理、归档与发布的全流程管理规范,确保数据在全生命周期内具备可发现、可访问、可互操作和可重用的特性。在管理层面,将借鉴DPHEP等国际先进经验,制定分阶段、分级别的数据开放策略,根据数据敏感性与价值设计差异化的开放路径与访问机制。在组织机制层面,我们将积极发挥桥 # LHCOPN 图1 LHCOPN组织架构图 梁作用,统筹“实验组—实验室—资助机构”三方力量,明确权责、优化流程、保障资源,构建稳定、可持续的数据保存与共享长效机制。 # 参考文献 [1] WLCG. The World LHC Computing Grid [EB/OL]. https://wlcg.web.cern.ch/, 2025-11-19. [2] Ellis, K. V., The WLCG Data Challenge[J]. EPJ Web of Conferences. EDP Sciences, 2025, 337. [3] Sipos, Gergely, et al. Scientific Data Spaces-Experiences from the EGI-ACE project[J]. Open Research Europe, 2024, 4: 136. [4] Arbey, Alexandre, et al. Data Preservation in High Energy Physics[J]. arXiv preprint arXiv:2503.23619, 2025. [5] 亚洲唯一LHCb国际高能物理数据网格一级站点通过国际认证[EB/OL].https://www.nhepsdc.cn/news/detail/140/,2024-06-28. [6] Martelli, Edoardo. Evolving the LHCOPN and LHCONE networks to support HL-LHC computing requirements[J]. EPJ Web of Conferences. EDP Sciences, 2024, 295. [7] Hu, Hao, et al. DOMAS: a data management software framework for advanced light sources. Synchrotron Radiation, 2024, 31 (2): 312-321. # 我国气象科学数据开放共享实践与展望 肖文名 国家气象信息中心主任、党委书记 气象科学数据作为国家基础信息资源的重要组成部分,对国家安全、经济发展和社会进步具有不可估量的价值。自2001年科技部批准并下达基础性工作重点项目“气象资料共享系统建设”,气象科学数据共享成为国家科学数据共享领域首个试点与示范项目,到2019年6月,“国家气象科学数据中心”正式成为首批认定的20个国家科学数据中心之一,为气象科技资源全面开放共享奠定坚实基础,其开放共享对于推动国家气象事业发展、支撑国家科技创新及促进经济社会进步具有重要意义。 # 一、气象科学数据的特点 气象科学数据具有以下七个特点: 1. 观测体系全。观测方式从人工到全面自动化、从直接到遥感遥测;观测内容从大气物理到化学变化,从大气圈到多圈层,构成天地空一体化气象综合观测体系。 2. 时间序列长。是我国有文字记载以来历史年代最久远、保存最完整、最系统的地球信息资源之一。 3. 空间覆盖广。从地面到高空、星际空间,从区域到全球尺度,涵盖大气层内外、大气层与地表、地球表面(陆地和海洋)的观测。 4. 产品体系多。包含基础加工、遥感反演、融合分析、再分析、预报预测和公共服务等多种产品。 5. 更新速度快。采集频率达分钟级甚至秒级,数据处理速度快,服务时效高。 6. 质量控制严。制定统一格式标准规范,建立多种技术方法的质量控制体系,基础数据质量控制覆盖率超 $95\%$ 7. 融合价值大。与经济各行业、人们生产生活联系紧密,独立存在价值有限,融合其他数据可产生巨大效益,是开放共享程度高的政府部门数据,是促进融合创新、强化监管及实现智慧气象的关键。 # 二、气象科学数据开放共享目录清单 2001年,中国气象局第4号令公布《气象资料共享管理办法》,率先启动气象科学数据共享试点工作。2015年,中国气象局第27号令《气象信息服务管理办法》公布,鼓励依法设立并从事气象信息服务的法人和组织,开展面向用户需求的信息服务活动。同年,公布第二批《基本气象数据开放共享目录》,开放5类17种气象数据和产品,依托中国气象数据网向社会公众免费提供基本气象资料和加工产品共享服务。2023年,相继发布两批次《基本气象数据开放共享目录》,对外开放的基本气象数据达12类106种数据和产品;同时,构建了高价值气象数据产品管理平台,实现了产品准入申请及审批流程的在线管理,确保了数据产品的权威性和合法性。此后两年,进一步拓展气象数据和产品开放共享深度与广度,2024年,在第七届数字中国建设峰会·数字气象分论坛上,发布了第五批开放共享气象数据《人工智能气象大模型训练专题数据目录》,涵盖地面、高空、卫星、雷达、数值模式等6大类12种数据和产品;2025年,在第四届中国-东盟气象合作论坛上,依托中国气象数据网英文版面向国际社会发布第六批《中国气候数据产品国际共享目录》,推动气象数据服务进入“全球覆盖、智能响应、场景融合”的新阶段。 图1 第五批开放共享气象数据《人工智能气象大模型训练专题数据目录》 中国气象局全球气候数据集MA GLOBAL CLIMATE DATASETS 图2 第六批《中国气候数据产品国际共享目录》 # 三、气象科学数据开放共享服务平台 中国气象数据网作为国家气象科学数据中心的重要组成部分,是中国气象局面向社会公众开放共享气象科学数据的关键平台,依托该网站实现气象数据统一汇聚、集中管理、规范共享和高效服务。自2015年正式上线服务以来,中国气象数据网不断优化平台功能,提升服务质量;2016年推出英文版,推进气象科学数据的国际化开放共享;上线移动端APP,结合互联网技术,方便用户随时随地获取气象资料和产品;利用公共云的计算、存储和网络资源,提升服务的高可靠性和高并发能力。为深入推进气象数据在不同行业和领域的多元化融合应用,中国气象数据网对外发布气象数据API接口,提供涵盖地面、高空、卫星、雷达以及数值预报模式等多类气象观测数据和产品的便捷、高效、标准服务,促进气象数据在各领域的广泛应用。 # 四、气象科学数据开放共享主要成效 据统计,2015年以来,国家气象科学数据中心基于中国气象数据网向全社会共享包括精细化智能网格预报产品在内的12类100余种气象数据产品,服务全球153个国家和地区、全国21个行业,累计实名用户注册数突破63万,访问量超过62亿人次,服 务量超过1.3PB。用户涉及的主要领域中,教育、地球科学、农业科学、环境与安全、气象位列前五。累计为国内2433家科研院所和高校提供数据服务,支持科研项目超2.5万项,其中包括国家科技重大专项2700余项(含973、863项目)、国家重大研发计划1100余项、国家自然科学基金10600余项,有效支撑国家科技创新发展。企业注册用户超2200个,涉及专业技术服务、软件、公共管理等多个行业。这些企业将气象数据与不同领域资源相融合,在交通运输、新能源、农业、公共管理及基于大数据技术的智慧城市、智慧交通等领域进行广泛应用。 图3 国家气象科学数据中心(中国气象数据网) # 五、未来展望 我国气象科学数据开放共享,不仅提升气象数据的利用价值,还促进气象事业与经济社会各领域的深度融合。随着《政务数据共享条例》2025年正式实施,我们将强化部门、地方、企业、科研机构的数据共享,建立健全安全可信机制,提升气象数据流通监管能力,推动数据合规有序流通。计划形成不少于5个细分领域高质量数据集,孵化30个认证数据服务,吸引30家第三方服务商入驻,构建“可信管控、合规运营、价值共创”的生态体系。构建“部门-地方-企业-科研机构”数据融合开发利用生态圈,共同推动新技术在气象领域的应用,加快面向场景的高质量数据集研制供给,加大数据主体权益保护力度,让气象科学数据成为驱动经济社会高质量发展的强劲引擎。 # 我国地震科学数据管理与开放共享的现状及未来发展的思考 黄兴辉 杨天青 庞丽娜 陈通 中国地震台网中心 国家地震科学数据中心 # 一、引言 地震灾害是全球范围内造成重大人员伤亡和经济损失的主要自然灾害之一。我国地处环太平洋地震带和欧亚地震带,地震活动频繁,历史上曾多次遭受强震侵袭,最早的地震记载可追溯至公元前1831年泰山地震(见于《竹书纪年》)。与此同时,中国也是世界地震观测事业的发源地,东汉张衡发明的候风地动仪开创了人类仪器测震的先河。史籍中对地震事件的系统记录,不仅丰富了全球历史地震案例库,也为研究地震复发规律与构造活动特征提供了珍贵的历史依据。 自二十世纪五十年代起,我国开始建设全国性地震监测台网,逐步推动观测体系迈向数字化与现代化。如今,中国已建成全球规模最大的地震预警网络,在重点地区实现秒级地震预警能力。海量连续、高质量的地震观测数据,不仅有力支撑了地震监测预报、应急响应等业务工作,也为地球科学前沿探索提供了重要的数据基础。作为首批认定的20个国家科学数据中心之一,国家地震科学数据中心持续推动数据资源的整合与开放共享,为地震科技创新与防灾减灾事业提供坚实的平台支撑。 # 二、地震科学数据资源、应用成效及开放共享 # 1. 地震科学数据资源 国家地震科学数据中心主要汇聚与地震科学相关的固体地球物理学、大地测量学、地质学、地球化学及灾害学等关键领域的科学数据,目前资源总量已超过1.48PB。这些数据资源有三个重要来源: (1) 地震监测数据中心常规产出的地震业务数据。分布在全国的地震台站所采集的观测数据,实时传输至中国地震台网中心,经各业务部门实时处理并生成各类地震产品后,最终由国家地震科学数据中心统一归档与管理,形成包括事件波形数据、地震目录、震相数据、震源机制解等在内的标准化数据产品,面向社会提供共享服务。观测数据主要来源于三大国家级地震站网:测震站 网、强震动站网和地球物理站网。这些数据具有持续时间长、覆盖范围广、质量稳定可靠等特点,能够持续产出,是数据中心最核心的数据资源。2024年,随着国家地震烈度速报与预警工程顺利通过验收,我国已建成全球规模最大的地震预警系统。该预警台网实时接入全国约1.8万个台站的连续波形数据,未来将为数据中心带来更加海量、连续和高质量的数据资源。 (2) 科技项目汇交数据。2018年,国务院办公厅发布的《科学数据管理办法》明确规定,政府预算资金资助的各级科技计划项目所形成的科学数据,应由项目牵头单位汇交到相关科学数据中心。数据中心从2021年开始接收项目汇交数据,目前,已经完成56个项目的汇交工作,共汇交749个数据集,1223.74万条记录,总数据量超过520TB。 (3) 融合前两类数据资源形成的数据产品或数据集。基于数十年积累的地震目录、震相报告和连续波形数据加工生产的中国地震局“谛听”地震监测人工智能数据集1.0、2.0和中国地震局“震典”地震监测人工智能数据集1.0(CSNCD),是国内地震科学领域规模最大、质量最高、应用最广、产出成果最丰富的人工智能数据集。“震典”数据集入选国家数据局首批高质量数据集典型案例[1]。“谛听”数据集用于训练地震监测多任务深度学习模型[2],支撑训练国内首个亿级参数量地震波大模型[3]。 # 2. 地震科学数据应用成效 地震科学数据与产品不仅为地震速报、预警和预报等核心业务提供关键支撑,更广泛应用于国家重大战略工程、重点科研项目以及高科技产业发展,为社会经济安全与科技进步提供坚实保障。 (1) 国家地震速报、预警、预报业务。在高质量地震监测数据的支撑下,我国地震监测预警能力持续提升,已实现全国分钟级地震速报、重点危险区 $90\%$ 以上的秒级预警覆盖,以及分钟烈度速报,为应急抢险决策提供了关键信息支持。同时,数据也有效支撑了从长期到临震的预报及震后趋势研判工作,全面服务于国家防震减灾重大需求。 (2) 国家重大工程建设。地震科学数据与产品在国家能源、交通、水利等重大基础设施建设中发挥着关键支撑作用,主要应用于地震安全性评价、工程抗震设计及灾害风险防控等重要环节。依据《中华人民共和国防震减灾法》规定,重大建设工程以及可能 引发严重次生灾害的建设项目,必须按照国务院相关要求开展地震安全性评价,并依据经审定的评价结果确定抗震设防标准,严格执行抗震设防措施。多年来,基于科学数据和评价方法的地震安全性评价工作,已为大亚湾核电站、三峡水利枢纽、西气东输管道工程、青藏铁路等一系列国家重大工程提供了可靠的抗震设防依据,在保障工程安全与区域稳定方面取得了显著的社会效益与经济效益。 (3) 预警数据服务于交通、能源、高科技制造等领域。依托实时地震预警数据生成的地震预警信息,正逐步应用于国家重大基础设施、城市生命线工程和高科技制造业等关键领域。利用地震预警系统提供的数秒至数十秒预警窗口,相关系统可自动触发紧急处置措施,如关闭燃气管网、停运核反应堆、暂停精密制造流程等,从而有效遏制次生灾害,提升重大设施与战略性产业的地震韧性。 (4) 支撑科学研究创新。地震科学数据为地球科学多个前沿领域, 如地壳运动、地震监测预测、空间科学及大地测量学等, 提供了不可或缺的基础数据支撑。基于这些数据, 已累计支持国内外科研团队发表科技论文千余篇, 其中包括世界知名期刊的高水平论文[4]。同时, 数据服务还助力科研院所及企业取得科技成果 300 余项, 有力推动了相关领域的科研创新与技术发展。 # 3. 地震科学数据开放共享 国家地震科学数据中心对数据实行分级分类管理,在确保数据安全的前提下,通过开放下载、订单服务与协议服务等多种方式,为用户提供差异化、分层次的数据服务,充分释放数据的应用价值。为持续优化服务,中心定期开展用户问卷调查,系统了解用户群体特征、数据需求、使用习惯及服务评价,并将反馈结果作为改进工作的重要依据。同时,中心积极拓展高质量数据集的典型应用场景,以响应新时代对地震科学服务提出的更高要求。 # 三、未来发展思考 虽然我国数据中心的数据开放共享已取得一定成效,但与地震学研究联合会数据中心(IRISDMC)、强震动数据中心(CESMD)和国际地震中心(ISC)等国际知名数据中心相比,在面向全球的数据开放共享方面仍存在明显差距;与日本防灾科技研究所(NIED)等区域性数据中心相比,在全球用户服务的规范化方面亦有待提升。此外,数据量的快速增长,以及大数据与人工智能技术的迅速发展,也对数据开放共享的方式提出了新的要求。 # 1. 构建高质量的地震科学数据资源体系 在现有数据资源汇集的基础上,着力构建覆盖多观测手段、全生命周期,统筹“量”“质”“用”协同发展的高质量地震科学数据资源体系。系统整合测震、形变、电磁、流体等多学科业务观测数据与产品,以及科技项目汇交数据,打破各观测网络之间的“数据孤岛”,依托统一标准与共享平台,推动数据全面互联互通与深度融合,最终形成能够完整刻画地球物理场动态变化的有机数据 整体。 # 2.打造数据安全服务体系 构建覆盖数据分级分类、访问控制、审计追踪和应急响应的全流程安全管理制度。明确不同敏感级别数据的共享策略与使用边界,为数据开放共享服务提供严格的制度依据与操作规范。开发数据“可用不可见”技术应用平台,在原始数据不离开安全托管环境的前提下,允许授权用户对数据进行授权范围内的计算与分析,并只向外输出“计算结果”而非“原始数据”本身。这有效实现了数据“价值流转”与“内容保护”的有机统一,从根本上规避了数据泄露与滥用风险。 # 3. 推进智能化地震数据开放共享 高质量的数据最终价值体现在其应用效能上。地震科学是观测数据驱动的科学,也是观测数据、产品和人工标签丰富的科学[5]。人工智能时代的地球科学研究需要数据中心、科研院所和超算中心组成相对独立又紧密配合的有机整体[6]。面对海量数据,需充分利用大数据与人工智能技术,加工生产种类丰富的标准化、高质量的人工智能数据集,发展智能化的数据挖掘、分析与信息提取工具。不仅要提供原始的“数据原料”,更要加工生成易于理解和使用的“数据产品”与“知识服务”,如地震危险性分析、震后快速响应产品等,从而精准服务于科研人员、政府决策部门和社会公众,真正释放数据的潜在价值。 # 4. 进一步推进国际合作 地球科学的研究需要全球视野和全球观测数据的支撑。在数据安全服务的前提下,数据中心应进一步加强地震科学数据开放共享国际合作。未来数据中心可以在加强与国外科学数据机构合作联合开展全球融合数据库建设、牵头研究制定科学数据国际标准、搭建常态化的科学数据合作交流平台等方面努力,为全球防灾减灾、地球科学研究贡献中国数据力量。 # 参考文献 [1] 国家数据局. 高质量数据集典型案例名单发布[EB/OL]. (2025-09-12). https://www.nda.gov.cn/sjj/zwgk/tzgg/0912/20250912130433113171778_pc.html. [2] LI S, YANG X, CAO A, et al. SeisT: A Foundational Deep-Learning Model for Earthquake Monitoring Tasks[J]. IEEE Trans. Geosci. Remote Sens, 2024, 62, 1-15. DOI: 10.1109/TGRS.2024.3371503. [3] 新华社. 我国发布首个亿级参数量地震波大模型[EB/OL]. (2024-07-29). https://www.gov.cn/yaowen/libbiao/202407/content_6965096.htm. [4] WEI S, WANG X, LI C, et al. Supershear rupture sustained through a thick fault zone in the 2025 Mw 7.8 Mandalay earthquake [J]. Science, 2025, 390 (6772), 468-475. DOI: 10.1126/science.adz2101. [5] MOUSAVI S M, BEROZA G C. Deep-learning seismology[J]. Science, 2022, 377 (6607), eabm4470. DOI: 10.1126/science.abm4470. [6] ARROWSMITH S J, TRUGMAN D T, MACCARTHY J, et al. Big Data Seismology[J]. Rev. Geophys., 2022, 60 (2): e2021RG000769. DOI: 10.1029/2021RG000769. # 数据驱动的冰冻圈研究范式实践 康建芳 张耀南 任泽瑶 张彩荷 国家冰川冻土沙漠科学数据中心 中国科学院西北生态环境资源研究院 # 一、冰冻圈科学数据资源体系建设 # 1.冰冻圈科学数据资源概况 冰冻圈作为世界气象组织 (WMO) 认定的地球气候系统第五大圈层, 涵盖冰川、冻土、积雪、冰盖、湖泊与河冰、海冰、冰架、冰山及大气中的冻结水等要素, 其动态演变过程深刻影响全球水文循环格局、气候系统稳定性、生态环境安全及社会经济可持续发 中国冰冻圈观测起步比较早,1958年就在天山1号冰川建立了观测系统,1985年正式建立了“天山1号冰川物质平衡数据库”。经过近67年的发展,围绕青藏高原、天山、祁连山、玉龙雪山、阿尔泰山、大小兴安岭等中国冰冻圈区域,形成了“空天地”一体化的完善观测网络,以国家冰川冻土沙漠科学数据中心为核心,建立起针对冰川、冻土、积雪等冰冻圈要素的科学数据中心,积累了涵盖冰川分布、冰川物质平衡、冰储量、冻土温度、冻土活动层厚度、积雪反照率、雪深度、河湖冰、海冰、大气冰等冰冻圈要素约1.5PB的体系化科学数据。重点形成了青藏高原、天山、祁连山、大兴安岭地区的特色数据体系[6]。同时面向全球冰冻圈研究,系统分析了国际上目前与冰冻圈研究相关的国 图1 全球冰冻圈主要科学数据中心分布 展[1-4]。在世界气候研究计划(WCRP)气候与冰冻圈计划(CliC)的推动下,冰冻圈科学已逐渐发展为国际地球系统科学的重要前沿[5]。全球冰冻圈观测体系自20世纪中后期逐步建立,形成了以WGMS、GTN-P、GTN-S、WMO/GCW等为核心的国际观测网络(见图1)。NASA、NOAA、ESA等机构依托多源卫星遥感,生产了大量覆盖冰川、积雪、冻土、海冰、河湖冰、大气冰的全球数据产品。 与冰冻圈相关的数据来源广泛。经分析,与冰冻圈密切相关的核心数据800余类。其中冰川数据约178类、积雪数据约101类、冻土约97类、海冰约的179类。这800多个类别时间跨度长、数据质量高的冰冻圈要素数据, $90\%$ 可通过开放共享途径获取(见图2)。 图2 冰冻圈科学数据主题类型分布 际科学数据资源情况(见图3)。这些数据构成了一个涵盖地面观测、卫星遥感、模型模拟、实验分析、实地调查以及无人机和物联网等多源观测的数据资源体系,总体与冰川、冰盖、积雪、冻土、冰山、海冰等相关,经分析制备形成的高质量数据产品约500TB;各类与冰冻圈观测相关的卫星遥感数据资源约450PB,是冰冻圈研究最丰富的数据来源;通过数值模拟形成支持冰冻圈开展大范围研究的模拟数据约45PB,这部分数据是开展气候变化背景下,研究冰冻圈全球、区域以及流域尺度变化特征的基础驱动数据;针对冰冻圈地面原位观测的站点数据约500GB,这类数据价值非常高,通常用于验证各类生产的数据产品。总体来看,卫星遥感数据、数值模拟数据存在时空分辨率和反演模型机理不足等问题,导致难以准确刻画冰冻圈现状与变化;地面观测数据精细准确,但观测站点空间分布离散稀疏、跨区域或全球尺度的定位观测难以体系化部署,导致在全球范围内站点的数据空间异质性不能充分表达、整体刻画冰冻圈的数据支持能力不强;模型模拟数据可以实现时空覆盖,但受模型机理和驱动数据的限制,模拟结果存在较多的不确定性[7]。 # 2.冰冻圈科学数据整编标准规范 冰冻圈数据来源多元、模态多样,尤其随着卫星、物联网等信息技术的快速发展,多源观测数据快速增长,构建统一规范的冰冻圈科学数据整编标准体系,是提升冰冻圈数据质量与可用性的关 键保障。不同来源的冰冻圈涵盖了光学、微波、SAR、激光测高等多类型遥感数据、地面监测数据以及数值模拟数据,这些数据的空间基准、格式和参数等差异较大,需采用标准化的技术进行数据再整编:对冰川、积雪、冻土、海冰与河湖冰等要素数据进行结构化再组织,开展多源数据一致性检查、遥感与地面观测交叉验证及模型产品精度评估;采用NetCDF、HDF、GeoTIFF等通用格式,建立完整的元数据,记录数据来源、生产流程与质量信息,保证数据可追溯;逐步对接WMO/GCW、GTN-P等国际标准,使我国冰冻圈数据具备国际兼容性与可持续共享能力[8]。目前已建立冰川、冻土等冰冻圈要素整编的团体标准,按照标准指引开展了不同来源数据的整编融合,形成了可比较的高质量的冰冻圈数据产品,并通过标准接口和DOI、CSTR标识体系的规范化科学数据服务,支持全球化冰冻圈研究。 # 3.冰冻圈科学数据资源体系构建 冰冻圈作为地球系统的第五大圈层,与其他圈层存在密切的物质能量交换。冰冻圈科学涵盖了冰冻圈水文、冰冻圈气象、冰冻圈生态、冰冻圈可持续发展等众多的衍生学科体系,我们称为“冰冻圈科学树”[9]。为此,需要围绕“冰冻圈科学树”建设数据资源体系,实现“全要素一多尺度一多源融合”的体系化科学数据组织(见图4)。首先,依据冰川、积雪、冻土、海冰、冰架冰山、河湖冰等要素分类,建立覆盖全球极地与青藏高原、中高山地区的全要素数 图3 冰冻圈科学数据主要类型 图4“全要素—多尺度—多源融合”的冰冻圈科学数据资源体系 据体系,使基础数据(边界、分布)、动态数据(流速、厚度、积雪物候、冻融状态)与衍生产品(冰川厚度、雪水当量、冻土分布等)形成统一体系。其次,构建“天空地”一体化数据链条:卫星遥感提供大范围连续监测保障数据,航空/无人机提供高精度补充数据,地面站点观测提供验证校准数据,再分析与模式模拟数据提供背景场与长期气候驱动数据,通过多源数据协同采集、时空基准一致性转换、多模态数据互补融合、标准规范整编集成、质控评估、许可准入发布全流程,完成原始数据获取、多平台数据联合整合、格式投影标准统一,制备成“全球—区域—流域—局地”四种类尺度的高质量标准化数据产品,提供开放共享、可视化服务、在线分析与用户反馈等服务。目前国际上围绕冰冻圈各类数据的主流供给机构,包括美国国家雪冰数据中心(NSIDC)、世界冰川监测处(WGMS)、国家冰川冻土沙漠科学数据中心(NCDC)等[2]。NSIDC平台主要提供全球冰冻圈背景数据产品,NCDC平台主要提供青藏高原与中低纬度高山冰冻圈关键区的高分辨率数据,两者形成科学数据互补,有助于推动我国冰冻圈研究从区域尺度观测向全球变化评估的跨尺度分析深入。 # 二、冰冻圈科学数据开放共享实践 # 1. 冰冻圈科学数据供给 冰冻圈科学数据正由单一观测向现场观测、卫星遥感观测与数值模拟/再分析观测等多源协同观测发展,形成相互校验、彼此补位的科学数据资源体系。其中,站点观测作为“地面真值”,直接量测冰川物质平衡、冻土活动层厚度、雪深与雪水当量以及海冰厚度等关键量。但受成本、地形与气候条件限制,原位观测在时空覆盖上存在显著缺口;卫星遥感自20世纪70年代以来提供了区域、全球尺度的连续监测,如Landsat、ICESat、CryoSat-2、SMOS等传感器记录了极地冰盖质量变化、海冰范围与厚度以及积雪覆盖等信息。同时人工智能在解译、融合反演与误差校正等技术手段的应用,显著提升了生产效率[10];数值模拟与再分析通过同化观测,生成空间连续、物理一致的冰冻圈变量场。目前,世界冰川监测服务处(WGMS)长期汇聚归档全球冰川变化数据,为评估冰川对气候变化的响应提供了基准[11]。美国国家雪冰数据中心(NSIDC)对全球化冰冻圈数据进行长期存档与分发,在全球气候变化研究中得到广泛应用[12];欧洲中期天气预报中心(ECMWF)ERA系列中的雪深与土壤温度,为理解冰冻圈与气候系统的耦合过程提供系统化的分析框架[13];国家冰川冻土沙漠科学数据中心(NCDC)集中开展青藏高原、祁连山、大兴安岭地区等国内数据的集成与供给,推进冰冻圈数据由零散观测向多源、多尺度的综合数据体系化建设,致力于打造全球冰冻圈研究体系化科学数据供给中心。 # 2.冰冻圈科学数据共享实践 国家冰川冻土沙漠科学数据中心,借鉴NSIDC与WGMS等 机构的长期存档与产品化服务建设经验及技术体系,聚焦冰川、冻土、沙漠、积雪、黄土及其灾害领域的科学数据资源整合与共享服务,形成了涵盖野外观测、调查分析等多源数据的整合体系。NCDC遵循FAIR(可发现、可访问、可互操作、可重用)原则,提供长期存档与DOI标识,并在有助于跨来源集成的统一数据格式、元数据与语义规范[14]的指导下,参考世界气象组织(WMO)、国际科学理事会(ISC)以及NSF、NSFC等国家科研资助机构的开放政策[15],从制度层面保障可信数据共享供给。截止2025年10月,已为114个国家和地区的150万人提供了累计17PB的冰冻圈科学数据服务;联合其它科学数据机构针对25个国家和地区,开展了70次冰冻圈灾害的科学数据应急响应处置服务,应急响应科学数据下载量达11PB,形成了常态化灾害应急响应机制和数据服务流程;总页面访问量达1.8亿人次,元数据访问量达2400万人次。 # 三、数据驱动的冰冻圈研究范式探索 冰冻圈作为气候系统的关键敏感组分,存在多要素非线性联动、跨圈层耦合及长灾害链演化机制。传统物理模型在描述复杂过程时虽具备物理一致性,但在应对多源异构数据、参数不确定性和高维非线性动力学时存在明显局限。因此,亟需构建融合“大数据(Data) + 人工智能(AI) + 模型(Model)”的新型研究范式,来支持针对冰冻圈的系统性研究。为此,国家冰川冻土沙漠科学数据中心构建了全球冰冻圈研究引擎GCE(Global Cryosphere research Engine)(见图5),搭建了“大数据+AI+模型”研究新范式:一是“将物理模型嵌入AI”,将守恒律、能量平衡及动力学方程等物理约束引入人工智能模型中(如深度神经网络),从而规避“黑箱”学习的局限,显著提升了人工智能在冰冻圈研究外推预测中的物理合理性与可解释性;二是“将AI嵌入物理模型”,利用人工智能模型(如深度学习)技术替代或增强传统模型中计算开销巨大的参数化过程(如积雪-冰川能量收支、冻土热传导等),有效提高了大尺度模拟的效率和精度;三是利用“数据驱动耦合AI的参数优化”来确定物理模型的参数,依托多源观测数据并结合人工智能的模式识别与优化能力,动态校准物理模型的关键参数与边界条件,缓解参数不确定性对模拟结果的制约。在实际应用新研究模式中,三种大数据驱动的耦合AI方式在不同应用层面互为补充,支持冰冻圈系统的多尺度、多要素的联动模拟研究。全球冰冻圈研究引擎GCE,整合了400多个算法、120多个模型及20多个人工智能模型,构建了多源数据处理、智能算法调度与多尺度模拟能力,可支持从局地、流域、区域到全球尺度的冰冻圈长期演变分析与预测;同时引入了大模型支持,实现了智能融合计算与自然语言交互机制,进一步提高冰冻圈智能化研究的效率和灵活性,助力研究从单要素模拟向多要素联动跨尺度智能化模拟研究跃迁,可为“一带一路”及中巴经济走廊沿线的国家重大工程安全、区域生态保护、冰湖溃决、热融滑塌和灾害链防控提供核心模拟分析能力。 图5 全球冰冻圈研究引擎GCE的基本架构 # 四、未来发展思考 数据驱动的研究范式已为冰冻圈研究带来变革,未来将朝向更深层次的机理融合、系统模拟与社会应用发展。一是物理机理与AI的深度融合,未来趋势是发展物理信息机器学习和可解释的人工智能模型,将已知的物理定律作为约束条件嵌入神经网络架构,构建既遵从物理规律又能从数据中学习未解析过程的“黑箱”模型,揭示冰冻圈演变新机理过程;二是构建“冰冻圈数字孪生”,实现系统模拟与预测未来的终极目标,集成多源观测、数据同化、AI与高性能计算的全息虚拟系统,实现对全球或区域的冰川、冰盖、冻土、海冰等要素的实时模拟,及从小时到世纪尺度的评估;三是开展跨尺度多要素联动的冰冻圈过程认知,形成对全球冰冻圈过程更系统全面的新认识,进一步考虑大气冰冻圈和海冰的作用,为全球北极航运提供冰冻圈研究成果支持,同时还应开展星球冰冻圈数据资源创新建设,为星球冰冻圈研究开展前期准备。 # 参考文献 [1]秦大河.冰冻圈科学辞典[M].气象出版社,2014. [2]秦大河,姚檀栋,丁永建等.冰冻圈科学概论[M].北京:科学出版社,2017. [3] 辛羽飞, 卡林根. 全球冰冻圈变化预测研究现状[J]. 极地研究, 2008, 20(3):12. [4] 丁永建, 杨建平, 方一平等. 冰冻圈变化的适应框架与战略体系[J]. 冰川冻土, 2020, 42(01):11-22. [5] 杨建平.“美丽冰冻圈”的缘起与发展[J].气候变化研究进展,2024,20(06):711-720. [6] 冉有华, 李新, 车涛等. 中国冰冻圈遥感近期研究进展与若干前沿问题探讨[J]. 遥感学报, 2025, 29 (06): 1831-1847. [7] 张耀南.《冰冻圈大数据挖掘分析关键技术及应用专题》卷首语[J].中国科学数据(中英文网络版),2025,10(03):194-196. [8] Bojinski, S., Verstraete, M., Peterson, T. C., Richter, C., Simmons, A., & Zemp, M. The concept of essential climate variables in the context of global climate observing[J]. Bulletin of the American Meteorological Society, 2014,95 (9), 1431-1443. [9] Qin D, Ding Y, Xiao C, et al. Cryospheric Science: research framework and disciplinary system[J]. National Science Review, 2018,5 (02):255-268. [10] 唐学远. 中国极地冰冻圈人工智能技术应用的进展与展望[J]. 地球科学进展, 2025, 40(08):778-793. [11] Zemp M, Hoelzle M, Haeberli W. Six decades of glacier mass-balance observations: a review of the worldwide monitoring network[J]. Annals of Glaciology. 2009, 50 (50):101-111. doi:10.3189/172756409787769591. [12] Fetterer, F., Knowles, K., Meier, W. N., Savoie, M. & Windnagel, A. K. Sea Ice Index. (G02135, Version 2). [Data Set]. Boulder, Colorado USA. National Snow and Ice Data Center. 2016. https://doi.org/10.7265/N5736NV7.2025-11-25. [13] Lindsay, R., M. Wensnahan, A. Schweiger, and J. Zhang. Evaluation of Seven Different Atmospheric Reanalysis Products in the Arctic. J. Climate, 2014, 27, 2588-2606, https://doi.org/10.1175/JCLI-D-13-00014.1. [14] 王瑞丹,高孟绪,石蕾等. 对大数据背景下科学数据开放共享的研究与思考[J]. 中国科技资源导刊,2020,52(01):1-5+26. [15] NSF. NSF Public Access Plan 2.0[EB/OL]. (2023) [2023-02]. https://un-cch-rdmc.atlassian.net/wiki/spaces/RDMG/pages/451936336/NSF+Guidance. # 智能化赋能医学数据管理与开放共享的思考 刘辉吴思竹 中国医学科学院医学信息研究所 医学数据作为国家重要的战略性资源,其高效管理与开放共享对推动医学科技创新、提升医疗服务质量和保障全民健康具有不可替代的战略价值。随着人工智能(Artificial Intelligence, AI)技术突破性发展,智能化手段正为医学数据管理带来范式变革,借助智能化手段赋能医学数据管理与开放共享,正逐渐成为推动医疗卫生事业实现高质量发展的关键驱动力[1]。 # 一、医学数据管理与开放共享现状 我国医学数据管理与开放共享政策框架日臻完善。国家出台的《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》和《“十四五”全民健康信息化规划》明确将健康医疗大数据作为国家基础性战略资源,并规划了发展方向和目标[2][3]。在数据管理和共享方面先后发布了《科学数据管理办法》和《国家科学数据共享服务平台管理办法》等文件,明确“共享为常态、不共享为例外”原则,规范数据全流程管理[4][5]。随后发布的《全国医疗卫生机构信息互通共享三年攻坚行动方案(2023—2025年)》、《“数据要素×”三年行动计划(2024—2026年)》和《可信数据空间发展行动计划(2024—2028年)》等政策,不仅进一步强调了数据共享的战略性地位,也明确要求推进跨部门、跨区域互联互通,加强健康医疗领域数据的高质量语料库建设,推动行业可信数据空间试点建设[6][7]。《个人信息保护法》、《数据安全法》、《网络数据安全管理条例》和《中华人民共和国人类遗传资源管理条例》等法规,将数据安全与隐私保护纳入法治轨道[8][9][10][11]。 我国已陆续建成中国慢性病前瞻性队列、中国百万人群队列等多个大型人群队列,涵盖慢病防控、心血管疾病和出生队列等方向,部分队列规模居全球前列[12]。国家健康医疗大数据中心(江苏、贵州、福建、山东和安徽分别代表东西南北中区域中心)以及国家医学中心、国家区域医疗中心等建设稳步推进,持续构建统一权威、互联互通的数据汇聚和共享平台。全国也已逐步建立60多家大数据交易所,尤其是在北京、上海、深圳、广州和福建等交易所,积极开展了标注数据、专病影像库、算法模型和分析报告等多类型健康医疗数据产品的挂牌,并实现了部分健康医疗数据产品的成功交易。在医学科学数据管理和共享仓储建设方面,医学信息所研发建设的国家人口健康科学数据中心数据仓储(Population Health Data Archive, PHDA),获得国际 CoreTrustSeal 全 球可信任存储库认证,持续支持国家人口健康科学数据中心开展国家预算支持的各级各类科研项目和其他来源产出的领域科学数据的汇交和共享,整合生物医学、基础医学、临床医学、公共卫生、中医药和药学等多领域数据资源4万多个,提供汇聚融合、存储管理和共享利用多维服务,提供多场景化医学数据应用[13]。总之,我国医学数据管理与开放共享已形成政策支撑、平台布局、成效显现的良好态势,不断推动医学数据高效利用与价值释放。 # 二、智能化在医学数据管理和共享中的核心价值 我国医学数据管理与开放共享领域虽发展迅速,但“数据孤岛”、数据质量缺陷、数据管理自动化程度有限、安全隐私保护机制不足及数据利用供需失衡等深层次问题,仍是制约数据价值充分释放的瓶颈。人工智能成为颠覆多学科发展的最新范式,并且也正逐步成为驱动医学数据管理与共享的核心引擎,在破解上述问题中发挥关键作用[14]。针对数据分散,利用AI驱动的语义知识图谱与多模态大语言模型技术,可实现跨模态数据精准检索与智能知识推荐,显著提升科研发现效率与临床决策支持能力;针对数据质量缺陷,AI融合自监督学习与领域知识算法,能实现实时清洗、完整性补全及一致性校验,动态学习数据质量规则,构建从检测、治理到反馈的闭环优化机制,显著提升数据治理效力和可靠性,并通过智能化语义标注和评估提升创建高质量数据集的效果和效率;针对数据管理自动化程度有限、AI优化数据存储和管理策略,实现基于安全和价值等多维度的分类分级存储与智能动态调度,提高资源管理和利用效率;针对安全隐私保护不足,通过AI与联邦学习、差分隐私、同态加密等隐私增强计算技术融合,构建“数据本地化、价值可流通”的安全共享范式,形成可信数据空间;针对数据利用供需失衡,通过AI驱动的需求侧智能挖掘与供给侧语义画像技术,可实现精准供需匹配与动态协同,缓解数据利用供需失衡。国家卫生健康委员会最新发布的《关于促进和规范“人工智能+医疗卫生”应用发展的实施意见》,也为人工智能技术在健康医疗领域的应用指明了场景方向与落地路径[15]。通过大语言模型、知识图谱等智能技术深度融入医学数据汇聚、存储、治理、分析、共享等全生命周期环节,可系统性提升管理效能、数据质量及共享安全水平,更有效地激活医学数据的要素价值,促进其充分释放。 # 三、智能化赋能医学数据管理与开放共享面临的挑战 尽管智能化为医学数据管理与开放共享带来了巨大机遇,但其在实践中仍面临诸多挑战,需要多方协同应对。 # 1. 数据安全与隐私保护风险 医学数据安全依然是首要关切。虽然隐私计算等技术提供了保护手段,但AI模型本身也可能成为攻击目标。此外,AI算法的“黑箱”特性也使得隐私保护的效果难以完全验证。 # 2. 数据标准与互操作性问题 数据标准化问题制约着智能化的深度应用和数据的广泛共享。不同医疗机构、不同系统之间的数据标准不统一,即使经过AI技术标准化处理,也可能因为底层元数据定义、代码体系的差异,难以实现无缝对接和互操作。 # 3. 算法偏见与公平性问题 如果训练数据本身存在人群代表性不足、历史偏见等问题,那么AI模型可能会学习并放大这些偏见,导致在数据管理和共享应用中产生不公平的结果。 # 4. 人才短缺与跨学科协作障碍 医学数据管理与开放共享的智能化,需要既懂医学专业知识,又掌握数据科学、人工智能技术,同时了解法律伦理和信息安全的复合型人才。然而,目前这类人才供给严重不足。 # 5. 伦理法规与激励机制尚不完善 虽然我国已出台《网络安全法》、《数据安全法》和《个人信息保护法》等法律法规,但针对医学数据这一特殊类型数据的智能化管理与开放共享,还需要更细化、更具操作性的实施细则和配套政策。 # 四、未来展望与发展建议 当前,我国医学数据治理与共享应用正处于从基础建设覆盖向质量优化、从基础可用性向高效赋能的关键转型期。在顶层设计、基础设施支撑及关键技术应用等领域已取得实质性突破,应用场景亦持续深化拓展。前瞻未来,人工智能等前沿技术将驱动医学数据管理与开放共享向更高层次发展,呈现出智能化水平跃升与安全防护体系强化的双重演进趋势。鉴于此,未来发展的核心路径是一项系统工程,旨在不断突破挑战、把握机遇,在安全合规的框架下:持续完善政策法规体系;加强建设高质量医学数据集,并推动数据标准的制定与应用;研发与应用公平、可信的健康医疗及数据管理垂直大模型与智能体;深化隐私计算等关键技术的融合应用;以及着力培养跨学科复合型人才;遵循伦理规范和建立有 效的医学数据共享激励机制,系统性破除数据孤岛,充分释放数据要素价值潜能,提升医疗服务效能、促进医学研究创新、保障全民健康水平。 # 参考文献 [1] Wang, H., Fu, T., Du, Y. et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620: 47-60. https://doi.org/10.1038/s41586-023-06221-2 [2] 国务院办公厅. 关于促进和规范健康医疗大数据应用发展的指导意见[EB/OL]. (2016-06-24) [2025-11-20]. https://www.gov.cn/zhengce/content/2016-06/24/content_5085091.htm [3] 国家卫生健康委员会.“十四五”全民健康信息化规划[EB/OL].(2022-11-09)[2025-11-20].https://www.nhc.gov.cn/guihuaxxs/c100133/202211/fae867435fea479c828cb50047526a69.shtml [4]科学技术部.科学数据管理办法[EB/OL].(2018-03-17)[2025-11-20].https://www.gov.cn/gongbao/content/2018/content_5283177.htm [5] 科学技术部. 国家科学数据共享服务平台管理办法[EB/OL]. (2019-02-13) [2025-11-20]. https://www.most.gov.cn/xxgk/xinxifenlei/fdzdgknr/fgzc/gfxxwj/gfxxwj2018/201802/t20180224_138207.html [6] 国家数据局.“数据要素×”三年行动计划(2024-2026年)[EB/OL].(2024-01-04)[2025-11-20].https://www.nda.gov.cn/sjj/zhuanti/ztsjysx/qt/0902/ff808081-91bfe71b-0191-d61c0cad-052a.pdf [7]国家数据局.可信数据空间发展行动计划(2024—2028年)[EB/OL].(2024-06-30)[2025-11-20].http://www.ndrc.gov.cn/xxgk/zcfb/tz/202407/t20240701_1367598.html [8] 全国人民代表大会常务委员会. 个人信息保护法[EB/OL]. (2021-08-20) [2025-11-20].https://www.cac.gov.cn/2021-08/20/c_1631050028355286.htm [9] 全国人民代表大会常务委员会. 数据安全法[EB/OL]. (2021-06-11) [2025-11-20].https://www.cac.gov.cn/2021-06/11/c_1624994566919140.htm [10] 国务院. 网络数据安全管理条例[EB/OL]. (2024-09-24) [2025-11-20]. https://www.gov.cn/gongbao/2024/issue_11646/202410/content_6980863.html [11] 国务院. 中华人民共和国人类遗传资源管理条例[EB/OL]. (2019-05-28) [2025-11-20]. https://www.gov.cn/gongbao/content/2019/content_5404150.htm [12] Hu Z, Lv J, Pan A, Christiani D C.et al. Landscape analysis of large scale cohort development in China[J]. BMJ, 2025, 391:e082562. https://doi.org/10.1136/bmj-2024-082562. [13]吴思竹,钱庆,周伟,等.面向人口健康领域科研项目数据汇交的数据仓储设计与实现[J].数据分析与知识发现,2020,4(12):2-13. [14] Moor, M., Banerjee, O., Abad, Z.S.H. et al. Foundation models for generalist medical artificial intelligence[J]. Nature, 2023, 616, 259-265. https://doi.org/10.1038/s41586-023-05881-4 [15] 国家卫生健康委员会. 关于促进和规范“人工智能+医疗卫生”应用发展的实施意见 [EB/OL]. (2024-03-15) [2025-11-20]. http://www.nhc.gov.cn/gui-huaxxs/s7788/202403/7a9b12d7b1c44c4b82f5f5d745f5a5e.shtml # 高质量科学数据集建设及典型案例 王鹏飞 汪嘉葭 中国科学院计算机网络信息中心 科学研究正处在由经验驱动向数据驱动的深刻转型之中。人工智能、大模型与高性能计算的发展,使数据不再是科研的附属物,而是成为了新的生产资料。研究范式正在从“实验一分析一结论”的线性模式,转向“数据一模型一知识”的循环体系。科研效率的提升,愈发取决于数据的质量和可计算性。然而,当下科研数据普遍存在碎片化、标准不统一、缺乏可验证性与共享机制复杂等问题,数据“可见但不可用”的现象广泛存在,成为智能化科研的突出瓶颈。为支撑AI驱动的科学探索,亟需构建一个高标准、系统化、可信任的科学数据基础设施,实现从数据积累到知识生成的闭环。国际上,美国Bridge2AI计划、欧盟EOSC项目等都将高质量科学数据作为战略核心,通过标准化与智能治理推动新一轮科技创新。 2025年8月,国务院发布《深入实施“人工智能+”行动的意见》,明确提出要“打造开放共享的高质量科学数据集,提升跨模态复杂科学数据处理水平”。2025年10月,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》中明确开始全面实施“人工智能+”行动,旨在加快人工智能领域算力、算法和数据的高效供给。近年来,我国高质量数据集建设正在加速推进。目前在科学数据集建设上,我国虽然已在生物、材料、地学等具体领域积累了丰富的数据资源,但系统层面的统筹与高质量供给仍显不足。建设体系化、高可信的科学数据集,不仅关乎科研范式的跃迁,更攸关国家科技创新与知识安全的根基。 # 一、高质量科学数据的内涵与标准 高质量科学数据并非简单的“可获取数据”,而是具备真实性、结构化、可计算性和可解释性的知识资产。它要求数据来源明确、信息完整、语义统一,并能经得起算法处理和持续验证。国际上通行的FAIR原则,即可发现、可获取、可互操作、可重用(Findable、Accessible、Interoperable、Reusable),构成了数据开放共享的基础。而随着AI的深度介入,FAIR正向“FAIR+AI-Ready”演化,核心是让数据不仅能被人理解,更能被机器理解与计算。高质量科学数据需在格式标准、语义一致、标注精确、元信息完整的前提下,使算法能够直接参与学习与推理,从而从“被动存储”转变为主动生成知识的载体。 同时,高质量科学数据建设也关涉伦理与社会信任。特别是在医学、生物与社会科学等领域,偏差控制、隐私保护和知情合规已成为衡量高质量的重要维度。科研数据应既保证科学真实性,又体现责任可追溯性。换言之,高质量与高可信是一体两面的要求,只有科学可信与社会可信并重,AI-Ready的数据体系才能获得长期生命力。 # 二、体系化建设框架与关键技术路径 高质量科学数据的建设是一项系统工程,应覆盖采集、处理、标注、共享与持续维护的全过程。采集阶段需制定统一实验记录规范,确保存储信息来源清晰、条件可核查;处理阶段通过自动清洗与格式标准化,减少冗余和批次偏差;标注阶段建立统一本体体系,实现语义一致;发布与共享环节提供开放接口与云端服务,使数据具备“可计算”的可调用特性;维护阶段则应引入版本控制与动态评估体系,实现质量的持续监测和迭代改进。 智能化技术正在成为这一体系的核心驱动力。AI的自动质控、异常检测和语义识别,大幅提升了数据治理效率与精度。通过建立“数据质量指数(Data Quality Index, DQI)”体系,可在准确性、完整性、可计算性和合规性等维度进行定量评估,使高质量科学数据建设成为可衡量、可反馈的过程。在此基础上,应形成“数据即服务(Data as Service)”的新型科研生态,让科学数据成为动态演化的智能资源,而不仅是静态档案。 # 三、高质量数据典型案例: scCompass 2025年,团队在顶级科学领域期刊《Advanced Science》发表的scCompass高质量单细胞数据集,受到国际领域学者的高度关注,是高质量科学数据建设典型案例。当前scCompass针对单细胞转录组学研究,已建立覆盖数据采集、质控、语义建模与知识推理的完整体系,展示了AIReady科学数据的现实路径。scCompass以标准化为核心:数据层采用统一的结构与语义映射,确保不同实验和机构之间的互操作;智能质控层借助机器学习算 法进行动态检测与校正,形成自动化质量管理机制;同时将细胞类型、状态、功能与疾病表型关系以图结构形式表达,使信息从数据升华为知识;开放接口层则提供多模态可视化与模型接入能力,打造可扩展的科研生态。 scCompass 数据集构建,进一步推动了单细胞领域数据的智能治理。该数据集已汇聚来自人类、小鼠等 13 个模式物种共超 2.27 亿个单细胞的高质量数据,为横向生命规律发现、模型训练与多物种比对提供关键数据支撑。目前,数据集已应用于支持首个知识与数据联合驱动的亿级参数多物种生命基础大模型。同时,生命科学领域研究者可利用 scCompass 快速用于领域相关研究,如罕见细胞亚群识别、组织发育轨迹重建、疾病通路分析,以及在人类与模式生物间开展跨物种比较。相比 CELLxGENE、Bridge2AI 等项目,scCompass 在标准化和智能化融合方面更为彻底,推动高质量科研数据从共享平台向知识引擎转型。它证明了当数据具备结构统一、质量可控和语义自治特性时,人工智能即可真正参与科学推理,实现数据与知识的共生循环。 # 四、高质量科学数据的应用与展望 高质量科学数据是智能科研的起点。以scCompass为代表的成功实践表明,未来科研体系的发展方向将由“数据开放”迈向“数据智能”。跨学科的标准化体系、AI驱动的自动治理机制以及可追溯的伦理框架,将共同构筑新一代科研基础设施。未来的科学,不仅依赖数据,更由数据参与创造。高质量科学数据既是人工智能科研的新能源,也将成为人类知识体系自我进化的新起点。 面向2030年,AI-Ready科学数据将推动科研范式的全面重塑:各学科的数据将实现语义互通,数据的管理与使用将实现自主化,科研活动将形成以数据和模型双驱动的自演化系统。我国应加快建立统一标准体系和高质量评估机制,推动跨领域平台协同与国际标准互认,在政策、技术、治理与人才层面形成合力,打造开放、可信且可持续的国家数据生态。 # 参考文献 [1] Kidwai-Khan F, Wang R, Skanderson M. et.al. A roadmap to artificial intelligence (AI): Methods for designing and building AI ready data to promote fairness[J]. Journal of Biomedical Informatics, 2024. https://linkinghub.elsevier.com/retrieve/pii/S1532046424000728 (2024) [2] Wilkinson, M. D. et.al. The FAIR Guiding Principles for scientific data management and stewardship[J]. Sci. Data, 2016, 3:160018 doi: 10.1038/sdata.2016.18. [3] Clark T, Caufield H, Mohan JA. et.al. Al-readiness for Biomedical Data: Bridge2AI Recommendations[EB/OL]. (2024-10-23) https://doi.org/10.1101/2024.10.23.619844. [4] Christensen T, Ladino C, Clarkin D. et.al. What is AI-Ready Open Data? [EB/OL]. (2020-10-22) https://www star.nesdis.noaa.gov/star/documents/meetings/2020AI/presentations/202010/20201022_Christensen.pdf (2020) [5] 国家天文科学数据中心. 美国国家科学基金会如何定义 AI-Ready 数据集[EB/OL]. (2024-12-19) https://nadc.china-vo.org/article/20241219164120 [6] Bridge2Al. Program Snapshot[EB/OL]. (2025-1-12) https://www.commun-fund.nih.gov/bridge2ai [7] Kidwai-Khan F, Wang R, Skanderson M. et.al. A roadmap to artificial intelligence (AI): Methods for designing and building AI ready data to promote fairness. Journal of Biomedical Informatics[EB/OL]. (2024) https://doi.org/10.1016/j.jbi.2024.104654 [8] Yang CH, Feuer B, Jubery Z. et.al. Arboretum: A Large Multimodal Dataset Enabling AI for Biodiversity. arXiv. https://doi.org/10.48550/arXiv.2406.17720. (2024) [9] Hiniduma K, Byna S, Bez JL. et.al. Data Readiness for AI: A 360-Degree Survey.[EB/OL] (2024) arXiv. https://doi.org/10.48550/arXiv.2404.05779. [10] Hu Y, Wan S, Luo Y. et.al. Benchmarking algorithms for single-cell multi-omics prediction and integration[J]. (2024) Nat Methods. https://doi.org/10.1038/s41592-024-02429-w. [11] CZI Cell Science Program, Abdulla S, Aevermann B. et.al. CZ CELLxGENE Discover: a single-cell data platform for scalable exploration, analysis and modeling of aggregated data[J]. NAR. 2024 https://doi.org/10.1093/nar/gkae1142 [12] Cui H, Wang C, Maan, H. scGPT: toward building a foundation model for single-cell multi-omics using generative AI[J]. (2024) https://www.nature.com/articles/s41592-024-02201-0. [13] Theodoris C. Xiao L, Chopra A. et.al., Transfer learning enables predictions in network biology[J]. Nature. (2023) https://www.nature.com/articles/s41586-023-06139-9. [14] Li M, Ang KS, Teo B. et.al., Rediscovering publicly available single-cell data with the DISCO platform[J]. NAR. 2024. https://doi.org/10.1093/nar/gkae1108. [15] Clark T, Mohan J, Schaffer L. et.al. Cell Maps for Artificial Intelligence: AI-Ready Maps of Human Cell Architecture from Disease-Relevant Cell Lines[EB/OL]. (2024-05-21) https://doi.org/10.1101/2024.05.21.589311. # 数据驱动的催化科学创新实践与进展 高扬王露笛王斌杜一 国家纳米科学中心 中国科学院计算机网络信息中心 作为支撑现代社会运转的基石技术,催化科学每一次突破都深刻影响着能源、材料与环境科学的进程。然而,面对气候变化等全球性挑战的严峻性和紧迫性,依赖于“试错”与“直觉”的传统研发范式已难以满足时代需求。近年来,数据科学的浪潮正为这门古老而重要的学科带来一场深刻的范式革命。本文追踪国内外催化科学数据的发展现状,从基于领域知识的催化性能预测、可解释模型辅助的反应器件开发、全流程机器人化学家等方面,阐述了中国在数据驱动催化研究的创新实践,并提出了未来数据驱动催化研究的主要方向。 # 一、催化科学数据的特点和现状 催化科学的数据具有内在复杂性,呈现出鲜明的学科特色。其一,多源异构性:数据来源横跨理论计算(如密度泛函理论,简称DFT)、实验合成、性能测试及先进表征,模态涵盖数值、谱图、图像与文本,面临跨尺度、多模态的复杂融合挑战。其二,高维稀疏性:催化剂性能是组分、结构、工艺等构成的天文数字级“化学空间”的函数,而现有数据仅是其中极其稀疏的采样,这构成了机器学习面临的“维度灾难”与泛化难题。其三,强物理约束性:数据点间并非独立存在,其背后受深刻的物理化学规律支配,这为发展物化知识引导的人工智能提供了坚实基础。 针对催化科学数据的上述特点,目前催化领域大规模、高质量的催化数据集主要是通过高通量计算得到。其中,最具代表性的是由Meta AI(原Facebook AI)和卡内基梅隆大学于2020年联合发起的OpenCatalyst数据集[1,2]。该数据集由核心数据集OC20和后续的OC22构成,包含了超过130万次针对催化剂表面与吸附小分子相互作用的DFT弛豫计算,是迄今为止催化领域规模最大的公开数据集。其目标是训练一个通用的图神经网络模型,绕过昂贵的DFT计算,快速准确地预测任意催化剂表面的反应能量,极大地推动了AI算法在原子尺度模拟中的应用与发展。相较于理论计算数据集,催化领域的实验数据呈现出典型的“孤岛”状态。大量数据以非结构化形式散落在科研人员的实验记录本、本地硬盘以及学术论文的图表和补充材料中,且缺乏统一的元数据标准,导致数据的查找、提取和复用极为困难,给数据驱动的相关研究造成了巨大障碍。 # 二、数据驱动催化研究的创新实践 近年来,我国在数据驱动催化研究方面取得系列突破,尤其在基于领域知识的催化性能预测、可解释模型辅助的反应器件开发、全流程机器人化学家等方向成果显著,有力推动了催化研究从传统“试错模式”向“理性设计”的范式转型,大幅提升了新材料发现与过程优化的效率,也为深入理解催化机制提供了新路径。 # 1. 基于领域知识的催化性能预测 从科研文献中抽取结构化知识,是构建数据驱动研究范式的基础。自然语言处理技术的进步,为高效自动化地实现这一目标提供了关键支撑。笔者团队通过系统构建催化剂知识体系,依托自主开发的AutoDive标注平台,构建了涵盖材料、调控方法、产物及性能等多类实体的 $\mathrm{CO}_{2}$ 还原催化剂专用数据集[3]。基于此,进一步发展了基于深度学习的多任务实体识别模型与生成式大模型的知识抽取流程,实现了领域知识的高效转化[4,5]。为实现基于文本描述的催化性能预测,团队创新性地开发了融合语义信息(词嵌入)与关系描述(图嵌入)的法拉第效率预测模型。该工作首次将自然语言处理深度学习模型成功应用于指导电催化剂的理性设计,开辟了数据驱动催化剂开发的新路径。 # 2. 可解释模型辅助的反应器件开发 反应器件的优化是催化剂走向工业化应用的关键。在电还原 $\mathrm{CO}_{2}$ 制备高价值化学品的过程中,膜电极电解池作为核心设备,其性能受器件构型、催化剂特性与操作参数等多因素复杂协同作用的制约。为突破传统研究方法难以量化该影响的瓶颈,笔者团队构建了涵盖上述多类参数的 $\mathrm{CO}_{2}$ 电解膜电极器件数据集(MED3)[6]。基于该数据集训练机器学习模型并开展可解释性分析,团队成功指导开发出一种可在纯水环境中稳定运行的新型膜电极器件,有效解决了传统碱性电解液易盐析、稳定性差的技术难题。 # 3. 全流程机器人化学家 传统化学研究范式涵盖文献调研、理论模拟与实验验证等环节,高度依赖科研人员的个人经验与手动操作,导致研发周期漫长、整体效率受限。为突破这一瓶颈,人工智能与自动化技术的深 度融合已成为驱动研究范式变革的关键突破口。在此背景下,中国科学技术大学成功研制了国际领先的“数据智能驱动全流程机器化学家”平台[7]。该平台系统集成了移动机器人、智能化工作站、操作系统与科学数据库,实现了研究流程的全面自动化与智能化。其核心突破在于:平台通过智能解析上万篇学术论文,自主选定候选元素,并融合海量理论计算与全流程实验数据,构建出理论指导实验、实验反馈优化理论的闭环智能模型。在此模型驱动下,平台成功从高达55万种的庞大候选组合中,快速定位并合成出性能最优的高熵催化材料,充分验证了其强大的自主发现能力。 # 三、数据驱动催化研究的未来展望 数据科学与人工智能的浪潮,正推动催化研究从经验主义的“手工作坊”时代,迈向精准、高效的“智能制造”新纪元。展望未来,数据驱动不仅仅是工具的革新,更将引发一场涵盖研究范式、组织形态乃至科学家角色的系统性革命。从数据的角度看,随着FAIR原则的普及,未来的催化数据将实现标准化、云端化和互操作;对于商业敏感数据和数据主权问题,联邦学习将成为重要的数据协作模式。从模型角度看,未来的人工智能模型将深度融合数据驱动与物理知识,模型的可解释性、泛化能力和数据效率将得到极大提升。从实验的角度看,能够实现“感知-决策-执行”智能闭环的自主催化研发平台将成为驱动创新的核心引擎,将新催化剂的发现和优化周期从传统的数年压缩至数周甚至数日,实现效率的指数级提升。此外,人工智能将成为科学家的“超级助理”和“灵感激发器”,将他们从繁琐的重复性劳动中解放出来,专注于提出颠覆性的科学问题、进行顶层设计和伦理监督,从根本上颠覆传统的科研组织架构。 # 参考文献 [1] CHANUSSOT L, DAS A, GOYAL S, et al. Open Catalyst 2020 (OC20) dataset and community challenges [J]. ACS Catalysis, 2021, 11: 6059-6072. DOI: 10.1021/acscatal.0c04525. [2] TRAN R, LAN J, SHUAIBI M, et al. The Open Catalyst 2022 (OC22) Dataset and Challenges for Oxide Electrocatalysts [J]. ACS Catalysis, 2023, 13: 3066-3084. DOI: 10.1021/acscatal.2c05426. [3] GAO Y, WANG L, CHEN X, et al. Revisiting electrocatalyst design by a knowledge graph of Cu-based catalysts for $\mathrm{CO}_{2}$ reduction [J]. ACS Catalysis, 2023, 13: 8525-8534. DOI: 10.1021/acscatal.3c00759. [4] WANG L, GAO Y, CHEN X, et al. A corpus of $\mathrm{CO}_{2}$ electrocatalytic reduction process extracted from the scientific literature [J]. Scientific Data, 2023, 10: 175. DOI: 10.1038/s41597-023-02089-z. [5] CHEN X, GAO Y, WANG L, et al. Large language model enhanced corpus of $\mathrm{CO}_{2}$ reduction electrocatalysts and synthesis procedures [J]. Scientific Data, 2024, 11: 347. DOI: 10.1038/s41597-024-03180-9. [6] HUANG J, WANG H, HUANG X, et al. Integrating machine learning insights in membrane electrode assembly for $\mathrm{CO}_{2}$ electrolysis [J]. Advanced Functional Materials, 2025: e18997. DOI: 10.1002/adbm.202518997. [7] ZHU Q, ZHANG F, HUANG Y, et al. An all-round Al-Chemist with scientific mind [J]. National Science Review, 2022, 9: nwac190. DOI: 10.1093/nsr/nwac190. # 中国科学院化学化工科学数据中心:化学化工基础数据资源建设及AI-Ready应用实践 赵月红 薛春伯 中国科学院过程工程研究所 中国科学院化学化工数据中心 随着信息化时代的到来以及人工智能技术的普及,化学化工科学数据的作用日益凸显。本文首先结合具体实例分析了化学化工领域科学数据的特点和管理挑战;之后,介绍了中国科学院化学化工科学数据中心在化学化工基础数据资源建设、服务和管理方面所做的工作,并以环境分离萃取剂设计为案例,探讨高质量 AI-Ready 数据集的建设和应用;最后,结合前沿 AI 技术,对本中心未来的发展方向做出了展望。 # 一、化学化工科学数据特点 化学化工科学数据通常来源于化学化工领域科学研究中通过现场采集、实验以及模拟计算等方式所获取的信息,其种类丰富且分类方式多样。通过对化学化工科学数据进行有效的汇总、清洗、整编,构建高质量化学化工科学数据库,对材料筛选、实验设计、模型拟合等应用具有重要意义。近年来,大模型等人工智能(AI)技术大量应用于化学化工领域[1-3],对大规模化学化工 AI-Ready 数据集的需求迫切。深入了解化学化工科学数据的特性,对于数据资源建设、有效管理以及高质量 AI-Ready 数据集的构建和应用具有重要意义。 # 1. 规模庞大且增长迅速 以化合物分子为例,国际知名PubChem数据库已收录超过2亿个分子结构,且数量逐年增长。这对数据库的数据处理、存储、检索等能力提出很高要求。 # 2. 数据结构复杂多样 化学化工科学数据通常为多模态数据,例如理化性质等数值关系型数据、分子图片/谱图等图像数据、文献等非结构化文本数据,以及实时仪表监测的时间序列数据。这对化学化工科学数据的标准及格式统一带来巨大挑战。 # 3. 多尺度深度关联耦合 化学化工科学数据所描述的对象通常跨多个尺度[5],从微观的分子原子,到介观的纳米颗粒、生物质材料,再到宏观的化工反应器,其尺度跨越超10个数量级。不同尺度间的数据既有区别又相互关联耦合,使数据的整合、挖掘、分析更具挑战。 # 二、化学化工科学数据建设和AI-Ready应用 本中心自建成以来,始终保持建设与应用协同的发展思路,实现化学化工科学数据的有效集成、管理和稳定更新;建成包括化学物质基础数据库、领域科研数据汇交及共享平台等基础数据资源,并以此为基础构建高质量AI-Ready数据集用于化学化工领域实践;形成国内规模最大、稳定在线服务的化学化工科学数据资源体系。 # 1. 化学化工基础数据资源 # (1) 化学物质基础数据库 化学物质基础数据库[6](见图1)涵盖化学化工常用的40余万种化合物的基本标识、2D/3D结构信息、理化性质,以及热化学、相平衡、相变等热力学基础数据;并基于Web API整合外部机构数据,通过分子唯一标识进行关联,实现了质谱数据、毒性数据、化学品数据的补充。为提升对下游任务的数据服务能力,数据库支持多物性联合高级检索、大模型语义增强检索和批量提取,满足各类应用的多样性数据需求。 # (2) 领域科研数据汇交及共享平台 领域科研数据汇交及共享平台[7](见图2)主要面向领域研究项目的数据汇交、管理及服务,已发布超3000个数据集,涵盖化工、冶金、能源等多个领域,指导“化工冶金”、“储能先导”和“锂先导”等专项的数据汇交。本平台通过完善数据汇交标准、建立规范化数据资源目录以及人工复核的方式,应对不同学科研究数据的复杂性;此外,通过建立基于数据共享方式的访问权限控制系统,确保数据的受控开放,保障数据安全性。 # 2. 高质量 AI-Ready 数据集构建与应用 基于化学化工基础数据资源,本中心开发AI-Ready数据提取加工工具,并以环境分离萃取剂设计作为示范应用。具体如下: (1) 针对化学物质基础数据库、离子形态专题库和量化计算专题库中的数据, 进行数据清洗、加工和进一步整编, 提升数据质量和数量; 通过化合物物性估算方法的评估与筛选, 利用相关工具 图1 化学物质基础数据库 图2 专题数据开放平台 计算完成超过1千万种化合物的基础结构数据和基本性质的补充完善。 (2) 根据微观性能/性质数据生成特点, 利用 Gaussian、RDKit 等专业软件搭建流程化数据加工平台——将专用计算软件封装为独立算子, 依托中国科学院网络信息中心研发的 Pi-Flow[8]可视化流程计算工具构建工作流, 部署了多节点集群任务管理平台, 实现化学化工科学数据的批量并行高通量加工处理。 (3) 针对萃取剂设计的应用需求, 利用流程化数据加工平台生产数据, 获取表面积/体积、亲核/亲电性等影响分离性能的几何/电子结构描述符数据; 利用化合物标识关联对齐、构建高质量 AI-Ready 专题 “构-效” 数据集。 (4) 基于图神经网络、多层感知机等模型构建分子结构-性质 AI 预测框架, 结合主动学习实现对萃取药剂的高通量筛选和迭代优化。最后通过少量实验对候选分子进行验证。 本中心通过 AI-Ready 数据集的构建和应用,实践了数据驱动的化学化工科研新范式,从而实现简化实验流程并缩短药剂研发周期。该方法已在酚油协同萃取、钒铬分离和镍钴分离等环境分离体系得到应用,对分离药剂的加速开发起到重要指导作用。 # 三、未来展望 未来,随着人工智能技术的发展和我国“人工智能+”战略的实施,中国科学院化学化工科学数据中心将进一步加强与AI的融合。一方面,以应用为导向,重点关注专题AI-Ready数据资源及相关工具的建设,打造面向AI应用的高质量化学化工科学数据服务平台,为AI模型的开发和部署应用奠定数据基础;另一方面,将 AI技术充分融入化学化工科学数据加工处理全流程,依托大模型及智能体等强大逻辑推理和生成能力,实现化学化工科学数据的智能化提取、清洗、整编以及分析建模,促进领域高质量数据建设及深度应用。 # 参考文献 [1] Boobier S, Hose D R J, Blacker A J, et al. Machine learning with physicochemical relationships: solubility prediction in organic solvents and water[J/OL]. Nature Communications, 2020, 11 (1). [2] Li Y, Hsieh C Y, Lu R, et al. An adaptive graph learning method for automated molecular interactions and properties predictions[J/OL]. Nature Machine Intelligence, 2022, 4 (7): 645-651. [3] Zheng Z, Zhang O, Borgs C, et al. ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis[J]. Journal of the American Chemical Society, 2023, 145 (32): 18048-18062. [4] Kim S, Chen J, Cheng T, et al. PubChem 2025 Update[J]. Nucleic Acids Research, 2025, 53 (D1): D1516-D1525. [5] 胡英, 刘洪来, 叶汝强. 化学化工中结构的多层次和多尺度研究方法[J]. 大学化学, 2002 (01): 12-20. [6] 中国科学院过程工程研究所. 化学物质基础数据库[EB/OL]. http://www.chemdb.csdb.cn/chemdb, [2025]. [7] 中国科学院过程工程研究所. 专题数据开放平台[EB/OL]. http://159.226.63.11:9001/home, [2025]. [8] 中国科学院网络信息中心. PiFlow: 混合型科学大数据流水线系统[EB/OL]. https://gitee.com/opensci/piflow, [2025]. # 高质量科学数据的AI就绪度评价实践 秦川陈昕成一航周园春祝恒书 中国科学院计算机网络信息中心 高质量 AI 就绪 (AI-Ready) 的科学数据正成为推动学科发展与科学智能 (AI for Science) 创新变革的重要基础, 其可评价性是构建健康学科生态与智能科研体系的关键。为解决传统评估体系难以满足 AI 就绪度建模的问题, 科学地平线 (SciHorizon) 平台构建了国际首个面向 “数据+模型” 的综合评价框架, 从规范性、可用性、可解释性和合规性四个维度刻画高质量科学数据的 AI 就绪度, 形成多学科高质量 AI-Ready 数据推荐榜单, 助力学科生态健康与智能化发展。 # 一、科学数据评价是构建学科生态健康与智能化发展的核心基石 科学数据已成为推动学科发展的核心动力,逐渐成为现代科学研究的基础支撑。无论在基础科学还是应用科学领域,数据不仅支撑理论验证和实验研究,还为跨学科的协作与创新提供了至关重要的基础。数据质量直接决定了学科创新的速度与深度,因此,数据的优化与高效利用已成为推动学科发展的关键因素。 近年来,人工智能技术的飞速发展为不同领域重大科研问题提供了前所未有的机遇。例如,AlphaFold系列模型显著提高了蛋白质结构预测的精度,为生命科学领域的研究带来了革命性的影响[1]。此外,美国发布的“创世纪计划”[2]标志着国际社会对科学智能(AI for Science)领域的关注已上升为国家战略。尽管AI模型的成功依赖于算法的创新与优化,但更为关键的因素是高质量AI就绪(AI-Ready)数据的有效支撑。因此,科学数据的评价体系与方法尤为重要。一方面,通过高质量科学数据的人工智能就绪度(AI Readiness)评价,可以精准识别出高质量且适配AI技术的数据,避免宝贵资源的低效利用或浪费;另一方面,高质量AI就绪度评价也为科学数据的生产者提供了有效指引,推动科学资源的持续优化与开发。在AI技术不断进步的今天,如何建立高效的科学数据AI就绪度评价体系,将直接影响科研创新的速度与质量。这不仅是科学研究领域的迫切需求,也是国家在全球科技竞争中占据优势地位的关键战略举措。 # 二、科学地平线平台在高质量 AI-Ready 科学数据评价中的实践 目前科学数据管理的目标正逐步从“面向科研人员自身使用”和“第三方检索使用”转向“AI模型使用”。然而,传统的数据评测体系和工具多集中于基础质量、人类可读性与共享性等维度,缺乏对AI模型适用性等关键维度的评估,无法满足AI时代对科学数据提出的新要求。基于这一背景,中国科学院计算机网络信息中心牵头,联合多家优势科研机构共同建设了科学地平线(Sci-Horizon)平台[3]。该平台是国际上首个从“数据+模型”双重视角出发、面向AI4Science的综合评价平台,旨在为科学智能化研究提供系统性的评价支撑。在科学数据AI就绪度评估方面,平台构建了面向AI应用的数据评价体系与方法,助力促进AI在科学领域研究中的深入应用。 # 1. 高质量 AI-Ready 科学数据评价体系构建 针对科学数据评价,科学地平线平台在实践中从规范性、可用性、可解释性和合规性四个方面构建了科学数据评价体系。 # (1)规范性 评估科学数据内容是否准确、完整、及时。包括:完整性,判断数据记录及相关文档是否齐全;准确性,评估数据是否低噪声、低冗余;一致性,检查数据内部结构及与外部相关数据是否保持一致;及时性,关注数据的时效性及更新是否持续。 # (2)可用性 评估科学数据可共享水平,参考FAIR原则,包含可发现、可访问、可互操作、可重用。 # (3) 可解释性 评估科学数据多样性、丰富性以及AI模型适配水平。包括:多样性,衡量数据参量、知识要素规模;均衡性,数据在不同参量下的分布与代表性,是否存在偏差;领域适用性,在特定科研领域研究任务的可用性,是否支持专业工具或实地研究;任务适用性,数据是否适用于AI任务和模型。 图1 科学地平线平台 # (4) 合规性 评估科学数据是否可合规使用。包括:权属与溯源,确保数据来源透明、过程可追溯;伦理与安全,数据是否遵循科研伦理规范;自主与可信,数据是否符合国家法律法规,具备长期可持续的托管能力。 图2 高质量AI-Ready科学数据评价体系 # 2. 高质量 AI-Ready 科学数据推荐实践 基于上述评价体系,平台在实践中构建了一种“人机协同”的混合评价框架,将自动化评估与专家共识驱动的德尔菲方法相结合。针对近年来发布的地球科学、生命科学、材料科学领域的数据集进行评测,形成领域高质量数据推荐榜单。 地球科学领域的推荐数据集涵盖地表、遥感、固体地球、大气 等方向,围绕同一科学问题整合多源数据,形成具有长时间序列、广空间覆盖、多特征要素和丰富语义的信息集,主要以表格与影像模态为主,与AI模型具有良好适配性。 生命科学领域的数据集类型多样,既包括面向AI应用的语义与基准数据集,也有面向特定疾病或器官的综合数据集,以及集成分析工具的服务型数据库。其数据类型与格式复杂、专业性强,AI应用常需依赖专门工具或适配能力。 # 高质量科学数据推荐榜单 切换排行榜 动摇料 CSTR:31706.11.ScienceHorizon.SInderboard.20250 图3 科学地平线平台-地球科学领域科学数据推荐榜单 材料科学领域的数据涵盖材料结构性质、材料类型特征与合成路径等内容,一些数据集也聚焦材料词表等共性基础数据,以支持多源集成与智能分析。受研究条件限制,部分数据规模有限,但在对应领域已具较高覆盖度。 以上平台化实践有助于提升科学数据高质量供给的可识别性,为科学智能的数据选用、模型训练奠定了关键基础。该平台相关科研成果[4]也作为中国科研团队构建AI基准体系(AI Benchmarking)的唯一代表性案例,被《Nature》引用[5]。 # 三、高质量 AI-Ready 科学数据评价技术发展的展望 未来,高质量 AI-Ready 科学数据评价技术将向更完备的体系、更智能的方法和更广泛的服务演进。评价体系将进一步细化,在 AI 就绪度建模方面,会引入更精准的指标衡量数据对不同 AI 模型的适配性和可用性。针对多模态与异构数据,智能化评价工具会在算法和架构上持续优化,实现对表格、时序、图像、文本、图结构及实验流程等多类型数据的统一高效处理,并依托自动化与智能化技术提升大规模数据评价的效率和精度。同时,高质量数据评价将与数据治理深度融合,支撑数据流通、共享与合规使用,如基于评价结果构建可信数据资产目录、发展智能化数据推荐方法、强化跨机构数据流通机制等。通过这些进展,科学数据将实现“可评价、可治理、可调用”的一体化支撑,为 AI4Science 创新提供更加稳固和持续的动力。 # 参考文献 [1] Jumper, J., Evans, R., Pritzel, A. et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596: 583-589. https://do