> **来源:[研报客](https://pc.yanbaoke.cn)** # 总结:Missing Evidence: Tracking Academic Data Use around the World ## 核心内容 本文探讨了全球范围内学术研究中数据使用的现状,并分析了哪些国家在数据驱动研究方面存在不足。研究通过自然语言处理(NLP)技术,对100万篇英文学术论文进行分析,旨在识别数据使用情况与国家特征之间的关系,并提出提升国家证据基础的策略。 ## 主要观点 - **数据驱动研究的重要性**:数据驱动研究是制定基于证据的公共政策的关键,但目前对哪些国家缺乏此类研究了解甚少。 - **研究方法**:利用自然语言处理技术对学术论文进行分析,以识别数据使用情况和研究国家。 - **模型准确性**:通过机器学习模型对900篇论文进行训练,模型预测准确率达87%,且在国家层面的预测与人工分类的相关性高达0.99。 - **数据使用与国家特征的关系**:数据驱动研究的数量与人均GDP、人口规模和国家统计系统质量密切相关,这些因素解释了约75%的国家间差异。 - **国家分类**:根据数据供给和需求的差异,将国家分为四类:Deserts(低供给低需求)、Swamps(高供给低需求)、Oases(高需求低供给)、Lakes(高供给高需求)。 - **低收入国家与高收入国家的对比**:高收入国家占全球论文数量的近50%,尽管仅占全球人口的15%。低收入国家和撒哈拉以南非洲国家多为Oases,表明它们有较高的研究需求,但数据供给不足。 - **提升数据使用的方法**:提高国家统计系统的数据供给能力是增加数据驱动研究的关键,而提高数据可访问性和数据素养可以提升数据需求。 ## 关键信息 - **数据来源**:使用Semantic Scholar Open Research Corpus(S2ORC)数据库,包含超过13000万篇英文学术论文。 - **数据筛选**:仅分析2000-2020年间发表的论文,排除了生物学、化学、工程学等不涉及国家统计数据的领域。 - **样本规模**:最终分析样本为约100万篇论文,其中1037748篇用于模型训练和测试。 - **模型性能**:模型在预测论文是否使用数据方面的准确率为87%,在国家层面的预测与人工分类的相关性高达0.996。 - **研究发现**: - 人均GDP和人口规模是影响数据驱动研究数量的重要因素。 - 低收入国家和撒哈拉以南非洲国家多为Oases,即数据需求高但供给不足。 - 欧洲国家多为Swamps,即数据供给高但使用率低。 - 高级统计能力(如地理数据、人口普查、劳动力调查)显著影响数据使用率。 ## 方法论 - **数据处理**:通过正则表达式和命名实体识别(NER)技术识别论文中涉及的国家。 - **模型构建**:使用DistilBERT模型对论文进行分类,判断其是否使用数据。 - **分类标准**:数据使用包括调查数据、行政数据、地理数据等,若模型预测置信度达到90%以上,则标记为使用数据。 - **模型验证**:通过与人工分类结果对比,验证模型的可靠性,发现模型在多数情况下表现良好,但在某些情况下可能存在误判。 ## 结论与建议 - **政策建议**:低收入国家应优先提升数据供给能力,而高收入国家应加强数据使用和数据可访问性。 - **研究意义**:本文为理解全球学术研究中数据使用的不均衡性提供了新的视角,并为政策制定者提供了可操作的建议,以增强国家的证据基础。 ## 图表与数据示例 - **图1**:展示了NLP预测与人工分类在国家层面的数据使用数量之间的高度相关性(相关系数为0.996)。 - **图2**:展示了三个论文示例,分别代表无数据使用、有数据使用和模型不确定的情况,以说明模型的分类能力。 - **文献对比**:与Das et al. (2013)、Porteous (2020)等研究的对比显示,本文模型在不同数据集上表现良好,相关系数在0.62至0.9之间。 ## 参考文献 - World Bank (2021) - Jolliffe et al. (2023) - Hjort et al. (2021) - Robinson, Hartley, and Schneider (2006) - Das et al. (2013) - Porteous (2020) - Paszke et al. (2019) - Devlin et al. (2018) - Sanh, Debut, Chaumond, Wolf (2019) - Lundberg and Lee (2017) - National Science Board, National Science Foundation (2019)