缺失的证据_全球学术数据使用的追踪与分析_39页_3mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 总结：Missing Evidence: Tracking Academic Data Use around the World ## 核心内容 本文探讨了全球范围内学术研究中数据使用的现状，并分析了哪些国家在数据驱动研究方面存在不足。研究通过自然语言处理（NLP）技术，对100万篇英文学术论文进行分析，旨在识别数据使用情况与国家特征之间的关系，并提出提升国家证据基础的策略。 ## 主要观点 - **数据驱动研究的重要性**：数据驱动研究是制定基于证据的公共政策的关键，但目前对哪些国家缺乏此类研究了解甚少。 - **研究方法**：利用自然语言处理技术对学术论文进行分析，以识别数据使用情况和研究国家。 - **模型准确性**：通过机器学习模型对900篇论文进行训练，模型预测准确率达87%，且在国家层面的预测与人工分类的相关性高达0.99。 - **数据使用与国家特征的关系**：数据驱动研究的数量与人均GDP、人口规模和国家统计系统质量密切相关，这些因素解释了约75%的国家间差异。 - **国家分类**：根据数据供给和需求的差异，将国家分为四类：Deserts（低供给低需求）、Swamps（高供给低需求）、Oases（高需求低供给）、Lakes（高供给高需求）。 - **低收入国家与高收入国家的对比**：高收入国家占全球论文数量的近50%，尽管仅占全球人口的15%。低收入国家和撒哈拉以南非洲国家多为Oases，表明它们有较高的研究需求，但数据供给不足。 - **提升数据使用的方法**：提高国家统计系统的数据供给能力是增加数据驱动研究的关键，而提高数据可访问性和数据素养可以提升数据需求。 ## 关键信息 - **数据来源**：使用Semantic Scholar Open Research Corpus（S2ORC）数据库，包含超过13000万篇英文学术论文。 - **数据筛选**：仅分析2000-2020年间发表的论文，排除了生物学、化学、工程学等不涉及国家统计数据的领域。 - **样本规模**：最终分析样本为约100万篇论文，其中1037748篇用于模型训练和测试。 - **模型性能**：模型在预测论文是否使用数据方面的准确率为87%，在国家层面的预测与人工分类的相关性高达0.996。 - **研究发现**： - 人均GDP和人口规模是影响数据驱动研究数量的重要因素。 - 低收入国家和撒哈拉以南非洲国家多为Oases，即数据需求高但供给不足。 - 欧洲国家多为Swamps，即数据供给高但使用率低。 - 高级统计能力（如地理数据、人口普查、劳动力调查）显著影响数据使用率。 ## 方法论 - **数据处理**：通过正则表达式和命名实体识别（NER）技术识别论文中涉及的国家。 - **模型构建**：使用DistilBERT模型对论文进行分类，判断其是否使用数据。 - **分类标准**：数据使用包括调查数据、行政数据、地理数据等，若模型预测置信度达到90%以上，则标记为使用数据。 - **模型验证**：通过与人工分类结果对比，验证模型的可靠性，发现模型在多数情况下表现良好，但在某些情况下可能存在误判。 ## 结论与建议 - **政策建议**：低收入国家应优先提升数据供给能力，而高收入国家应加强数据使用和数据可访问性。 - **研究意义**：本文为理解全球学术研究中数据使用的不均衡性提供了新的视角，并为政策制定者提供了可操作的建议，以增强国家的证据基础。 ## 图表与数据示例 - **图1**：展示了NLP预测与人工分类在国家层面的数据使用数量之间的高度相关性（相关系数为0.996）。 - **图2**：展示了三个论文示例，分别代表无数据使用、有数据使用和模型不确定的情况，以说明模型的分类能力。 - **文献对比**：与Das et al. (2013)、Porteous (2020)等研究的对比显示，本文模型在不同数据集上表现良好，相关系数在0.62至0.9之间。 ## 参考文献 - World Bank (2021) - Jolliffe et al. (2023) - Hjort et al. (2021) - Robinson, Hartley, and Schneider (2006) - Das et al. (2013) - Porteous (2020) - Paszke et al. (2019) - Devlin et al. (2018) - Sanh, Debut, Chaumond, Wolf (2019) - Lundberg and Lee (2017) - National Science Board, National Science Foundation (2019)