2025中国人工智能学会系列白皮书-教育研究中的AI4S_284页_3mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 中国人工智能学会系列白皮书——教育研究中的AI4S 中国人工智能学会 二〇二五年十一月 # 中国人工智能学会系列白皮书 # ——教育研究中的AI4S 中国人工智能学会 二〇二五年十一月 # 《中国人工智能学会系列白皮书》编委会 主任：戴琼海 执行主任：马华东 副主任：赵春江 何友 王恩东 郑庆华 刘成林 周志华 孙富春 庄越挺 胡德文 杜军平 杨强 委員：陳松灿 董振江 付宜利 高新波 公茂果 古天龙 何清 胡清华 黄河燕 季向阳 蒋田仔 林浩哲 梁吉业 刘奕群 潘纲 石光明 孙茂松 孙长银 陶建华 王海峰 王熙照 王轩 王蕴红 吴飞 于剑 余有成 张化光 张学工 章毅 周鸿祎 周杰 祝烈煌 # 《中国人工智能学会系列白皮书——教育研究中的AI4S》编写组 主编：陈向东 副主任：武法提柯清超 金慧 编者：刘泽民 卢淑怡 褚乐阳 靳旭莹 刘城烨 潘香霖 等 # 目录 # 第1章引言 1 1.1 教育研究的独特性：范式之争与实践鸿沟 3 1.1.1 范式之争的历史遗产 3 1.1.2理论与实践的断裂 4 1.2技术对于教育研究的适应性 5 1.3定义教育研究中的AI4S 7 1.4报告的结构 11 # 第2章AI重塑教育研究范式 14 2.1 教育研究范式变革的理论基石 16 2.1.1科学研究的范式 16 2.1.2 教育研究范式演进 ..... 17 2.1.3 大语言模型时代的科学研究 18 2.2 研究视域的拓展 20 2.2.1 拓展问题视野 ..... 21 2.2.2 自动化假说生成 22 2.2.3 整合多元知识源 23 2.2.4 研究者角色的重塑 25 2.3研究过程的重构 26 2.3.1 AI角色演化 27 2.3.2 自主研究智能体的涌现 29 2.3.3 生成式智能体模拟 ..... 29 2.3.4 超越“人在回路” 33 2.3.5 人类研究者的转型 34 # 第3章AI辅助的教育质性研究 37 3.1基于AI的教育质性研究流程 37 3.1.1大语言模型对于教育质性研究的适用性 39 3.1.2大语言模型在教育质性研究中的应用 49 3.2典型应用场景 60 3.2.1 课堂互动与学习过程分析 61 3.2.2 制度评估与政策分析 62 3.2.3医学教育应用研究 65 3.3 质性研究的独特伦理风险 66 3.3.1 数据隐私保护风险 67 3.3.2结果准确性与可靠性问题 69 3.3.3 冲突和价值观影响 ..... 70 第4章AI驱动的教育量化研究 73 4.1面向人工智能的教育量化研究 73 4.1.1 AI对于教育量化研究的影响 74 4.1.2大语言模型的主要应用方式 80 4.2典型应用场景 88 4.2.1 教学能力评估与测量 ..... 88 4.2.2 多模态学习分析与评估 ..... 92 4.2.3 教育数据挖掘与学生表现预测 95 4.3 混合研究方法的应用 ..... 97 第5章研究质量与标准的重构 101 5.1学术作品中AIGC的兴起 101 5.1.1 人工智能辅助的学术写作 ..... 101 5.1.2 人工智能检测工具的伦理风险 ..... 106 5.2 AI辅助研究的质量标准 108 5.2.1 AI4S 中的透明度问题 ..... 108 5.2.2 AI 应用于研究引发的偏见 ..... 111 5.2.3 大语言模型的开源闭源之争 116 5.3学术评议与质量保障 120 5.3.1 AI辅助研究的规定 120 5.3.2 AI赋能同行评议 123 5.3.3 研究可信度建立的新方法 ..... 128 # 第6章AI促进教育知识转化 134 6.1 教育知识转化的现实困境 ..... 135 6.1.1 教育知识的核心特征 ..... 135 6.1.2知识转化的结构性障碍 138 6.2 AI 赋能知识转化的理论机制 ..... 139 6.2.1 世界知识与隐性知识外显化 ..... 141 6.2.2知识蒸馏与规模化扩散 142 6.2.3 生成式仿真与系统复杂性应对 ..... 142 6.2.4 泛化能力与跨学科整合 143 6.3知识转化的技术路径 144 6.3.1 证据的系统整合 ..... 144 6.3.2 策略的适应性转化 ..... 146 6.3.3 实施过程的保障 ..... 147 6.3.4创新扩散与规模化 148 6.3.5 伦理与公平保障 ..... 149 # 第7章 教育研究中新的伦理考量 ..... 152 7.1 数据安全与隐私治理 ..... 152 7.2算法公平与偏见管理 155 7.3 跨文化与弱势群体保护 ..... 156 7.4 伦理指南与治理框架 ..... 158 7.4.1 教育研究伦理指南 ..... 158 7.4.2 伦理审查清单与流程设计 162 7.4.3 自律机制与外部监管平衡 164 # 第8章元研究视角：AI如何改变知识生产 168 8.1 研究者的 AI 素养 ..... 168 8.1.1 AI工具的理解 169 8.1.2 AI工具的应用 171 8.2实践：人机协同 174 8.2.1 人机协同理论 ..... 174 8.2.2 人机协同决策 ..... 180 8.3知识生产生态系统的重构 184 8.3.1新型研究机构与平台涌现 184 8.3.2 开放科学与共享机制的推进 187 8.3.3科研评审 190 # 第9章大语言模型驱动的合成数据在教育研究中的应用 199 9.1大语言模型对合成数据的影响 200 9.1.1合成数据的早期应用 200 9.1.2大语言模型生成合成数据的特点 203 9.2合成数据的应用形式 212 9.2.1 模拟个体 ..... 212 9.2.2 模拟社会 ..... 217 9.2.3 模拟世界 220 9.3合成数据的应用争议 224 9.3.1 表征偏差的争议 ..... 224 9.3.2 认识论的争议 ..... 227 9.3.3 应用伦理的争议 ..... 231 9.3.4规范性的争议 235 9.4 应对策略 ..... 240 9.4.1 优化提示 ..... 241 9.4.2 标记采样 244 9.4.3 构建专业语料库 ..... 245 9.4.4 生成反事实场景 ..... 249 9.4.5 训练与微调 ..... 251 9.4.6 开发评估方法 ..... 253 9.4.7 指引向量 ..... 255 # 第10章大语言模型支持的教育理论构建 259 10.1 思想实验概述 ..... 260 10.1.1 科学思想实验 ..... 260 10.1.2 社会学思想实验 ..... 261 10.1.3 教育学思想实验 ..... 262 # 10.2大语言模型赋能下的思想实验 267 10.2.1大语言模型嵌入教育学思想实验 269 10.2.2 典型的应用场景 ..... 271 # 第1章引言 人类的知识生产体系正经历一场深刻的范式变革，我们正亲历一场足以载入史册的“哥白尼时刻”[1]。2024年诺贝尔奖的颁布，无疑是这一巨变强有力的印证。物理学奖授予Geoffrey Hinton和John Hopfield，不仅表彰了他们在人工神经网络领域的奠基性贡献，更昭示了硅基智能对我们理解世界方式的重塑。与此同时，化学奖颁给David Baker、Demis Hassabis和John Jumper，以表彰他们运用AI在蛋白质结构预测上实现的革命性突破，此举正开启生物学研究与药物发现的全新纪元。这一事件宣告，人工智能已然超越了单纯的辅助工具范畴，它正作为一种前所未有的力量，深度介入并驱动着基础科学前沿的探索与突破。 以深度学习为基础，并以大语言模型（Large Language Models, LLMs）为代表的生成式人工智能（Generative AI），正以前所未有的态势，深刻改变着科学研究的本质与范式。AlphaFold2 成功解决了困扰生物学界 50 年的蛋白质折叠难题[2]，DeepMind 的 FunSearch 系统在纯数学领域发现了上限集问题（Cap Set Problem）令人惊叹的全新解法[3]。这些突破性的成果，不仅昭示 AI 正在重塑科学研究的基础逻辑与实践形态[4]，更预示着它将从根本上颠覆我们定义问题、构建理论、收集证据乃至确立真理的传统方式[5]。 这场变革的深刻性足以并肩历史上任何一次重大的认知革命：印刷术改变了知识传播方式，显微镜开启了微观世界的探索，计算机实现了大规模数据处理，每一次技术革命都从根本上扩展了人类 [1] 亨利·基辛格, 埃里克·施密特, 丹尼尔·胡滕洛赫尔. 人工智能时代与人类未来[M]. 胡利平, 风君, 译. 中信出版社, 2023. [2] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596(7873): 583-589. [3] Romera-Paredes B, Barekatain M, Novikov A, et al. Mathematical discoveries from program search with large language models[J]. Nature, 2024, 625(7995): 468-475. [4] Agrawal A, Gans J, Goldfarb A. Power and prediction: the disruptive economics of artificial intelligence[M]. Boston, Massachusetts: Harvard Business Review Press, 2022. [5] Wang H, Fu T, Du Y, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972): 47-60. 的认知边界。而当前的 AI 革命，正以其前所未有的广度和深度，重塑着人类的认知图景。 科学发展的历史表明，知识体系的重大进步往往伴随着研究范式（Paradigm）的转换[1]。文明以降，以观察、记录与归纳为核心的经验主义构成了科学的第一范式。随后，以牛顿、爱因斯坦为代表的、通过公理化与逻辑演绎揭示宇宙底层规律的理论推演，塑造了科学的第二范式。随着计算机的诞生，通过数值计算模拟星系演化、气候变化等复杂现象的计算科学，崛起成为第三范式。而近几十年，互联网与传感器的普及催生了大数据时代，从海量数据中发现隐藏模式与相关性的数据密集型科学，则被公认为第四范式[2]。这四大范式构成了现代科学方法论的基础框架。 此刻，一个由人类智慧与机器智能深度耦合、共生演化的新的研究范式正在浮现。它超越了仅仅将计算机作为数据分析工具的第四范式边界，其核心特征在于将AI从一个被动的分析工具，提升为知识创造过程的积极参与者[3]。在这个新范式中，AI不仅能够高效处理数据，更能够提出科学假说、设计实验方案，在广阔的可能性空间中探索人类研究者未曾设想的解决路径。这种人机协同的生产模式正在各个学科领域展现其颠覆性潜力，尤其是在那些传统方法难以企及的复杂领域。教育研究，作为一个涉及人类认知、情感、社会互动等多重复杂因素，具有多维度、高动态、弱规律性特征的复杂领域，正是检验这一新范式独特优势的重要场域。因此，人工智能驱动的科学研究（AI for Science，AI4S)在教育研究中的应用，不仅是技术迁移的尝试，更是对新型知识生产模式及其深层运作机制的前瞻性探索。 # 1.1 教育研究的独特性：范式之争与实践鸿沟 人工智能驱动的科学研究（AI4S），这个脱胎于自然科学的强大新范式，当其试图跨越学科界限，向教育研究领域迁移时，正遭遇着一系列深刻而根本的挑战。其核心症结在于自然科学与教育科学在哲学基础上存在深刻差异，这种差异体现在世界观、知识观和方法论等多个层面。理解这种差异对于探讨 AI4S 在教育研究中的应用至关重要。 正是在这种哲学分野的土壤上，教育研究领域长期存在两个显著特征：一是持续不休的“范式之争”，其内部共识难以达成；二是研究成果与教育实践之间难以逾越的“实践鸿沟”。这些固有特征不仅深刻影响着该领域的自身发展，也构成了AI技术应用在此落地时必须面对、且亟待解决的复杂现实语境。 # 1.1.1 范式之争的历史遗产 教育研究领域的第一个显著特征是内部存在深刻的哲学分野与方法论张力，这种现象被学界称为“范式战争”（Paradigm Wars）[1]。与自然科学领域相对统一的实证主义传统形成鲜明对比，教育研究的发展历程始终伴随着关于其科学性质的激烈论辩。 早在20世纪上中叶，教育研究在追求科学合法性的驱动下，借鉴自然科学，特别是物理学的方法论，形成了以量化、实验和因果规律探寻为特征的实证主义传统。实证主义基于实在论的本体论立场，认为存在独立于人类意识之外的客观现实世界。其认识论则坚持客观主义，主张研究者应当保持价值中立，通过科学方法发现客观真理。这一时期的代表性研究者如约翰·B·卡罗尔（John B. Carroll），致力于将学习过程分解为可量化的变量体系，构建具有普遍适用性的学校学习模式[2]。李·克隆巴赫（Lee Cronbach）在 1957年的经典论述中，进一步阐明了实证主义对控制变量和寻求普遍规律的追求（尽管他本人后来也有所反思）[1]。 然而，随着研究者日益认识到人类行为的复杂性、情境性和价值负载性，诠释主义范式应运而生[2]。诠释主义持相对主义的本体论立场，主张现实是多元的，由社会和个人主观建构。在认识论上坚持主观主义，强调知识是研究者与研究参与者互动中共同建构的产物。诠释主义研究者将研究重点从发现客观规律转向理解行动者赋予其行为和经历的主观意义，由此推动了民族志、案例研究等质性研究方法的发展。 随后，批判理论范式的出现进一步丰富了教育研究的理论图景。批判理论将研究目标指向揭示和改变社会权力结构与不平等现象，强调研究的解放性价值[3]。这些不同范式在基础假设上的根本分歧，引发了20世纪70年代至90年代的激烈争论。虽然当前教育研究领域已进入多元范式并存的阶段[4]，但这种哲学多元性对任何试图引入的新方法或技术都提出了严峻挑战。任何单一的、技术驱动的研究模式（如AI4S内含的实证主义倾向）都必然会与教育研究的复杂传统产生摩擦与碰撞。 # 1.1.2 理论与实践的断裂 第二个核心特征是理论与实践之间存在的巨大鸿沟，即“研究-实践鸿沟”（Research-Practice Gap）[5]。这一问题比范式之争更为根本和持久，直接影响着教育研究的社会价值实现。学术界产生的理论、模型和实证发现，往往难以被一线教育工作者有效理解、采纳和应用到真实的课堂环境中，一项新的循证实践平均需要长达17年 [1] Cronbach L J. The two disciplines of scientific psychology[J]. American Psychologist, 1957, 12(11): 671-684. [2] Nickerson C. Interpretivism paradigm & research philosophy[EB/OL]. (2024-02-13)[2025-09-14]. https://www.simplypsychology.org/interpretivism-paradigm.html. [3] Denzin N K, Lincoln Y S. The SAGE handbook of qualitative research[M]. Fifth edition. Los Angeles London New Delhi Singapore Washington DC Melbourne: SAGE, 2018. [4] Taylor P C, Medina M. Educational research paradigms: from positivism to pluralism[J]. College Research Journal, 2011, 1(1): 1-16. [5] Rycroft-Smith L. Knowledge brokering to bridge the research-practice gap in education: where are we now?[J]. Review of Education, 2022, 10(1): e3341. 才能得到广泛应用[1]。 这并非简单的信息传递问题，其症结在于研究者与实践者两个社群在文化、语言、激励机制和知识观上的深层断裂。研究者追求理论的普适性和学术的严谨性，以发表高质量论文为主要目标，使用专业化的学术语言；实践者则更关注具体情境下的实际问题解决，需要易于理解和操作的方案，并且必须考虑现实中的各种约束条件。这种结构性的脱节，使得教育知识的转化异常困难，也是教育改革屡屡收效甚微的深层原因。 21世纪初兴起的循证教育（Evidence-Based Education）运动试图通过强调科学证据来弥合这一鸿沟。然而，这一运动过度强调随机对照试验等特定研究方法，被批评为推行狭隘的后实证主义世界观，忽视了质性研究和批判性研究的价值[2]。这一争议，在某种程度上，可被视为引发了教育研究领域的第二次范式战争。为应对这一挑战，教育研究界发展出了新的方法论路径，如设计型研究（Design-Based Research, DBR）强调在真实情境中进行迭代设计，知识转化（Knowledge Translation, KT）和实施科学（Implementation Science）则系统研究如何将研究成果有效应用于实践。 这两个核心特征共同构成了教育研究的独特生态。任何新技术或新方法要在这一领域产生实质性影响，都必须直面哲学多元性的挑战，并为弥合研究与实践的鸿沟提供切实可行的解决方案。这也是评价AI4S在教育研究中应用价值的基本标准。 # 1.2 技术对于教育研究的适应性 探讨AI4S在教育研究中的应用，不仅需要理解教育研究的独特性，还需要审视技术本身与教育研究的契合程度。传统AI技术在教育研究领域的应用相对有限，这一现象可以通过莫拉维克悖论 (Moravec's Paradox) 得到深刻解释。 莫拉维克悖论由机器人与人工智能专家汉斯·莫拉维克于1988年提出，其核心观察是：让计算机在智力测试或棋类游戏中达到成年人水平相对容易，而赋予它们一岁孩童的感知和行动能力却极其困难[1]。这一发现颠覆了早期计算机科学家的直觉认识。人类需要长期学习才能掌握的高级认知任务，如数学运算、逻辑推理和策略游戏，对计算机而言反而容易实现；而人类与生俱来的基础能力，如视觉感知、物体操控和自然语言理解，对计算机而言却构成了巨大挑战。 从进化论视角看，这一悖论有其深层原因。人类的基础感知和运动能力是数亿年进化的产物，这些能力已深深编码在大脑的感觉运动区域中。莫拉维克将人类有意识的推理过程形容为“人类思想最薄的一层表皮”，其之所以有效，完全依赖于更为古老、更为强大但通常是无意识的感觉运动知识的支撑。相比之下，抽象思维能力，如数学和逻辑，是演化史上非常晚近的“新技巧”，人类对其掌握程度有限，生物学实现也不够高效。因此，用AI来逆向工程一个演化了数亿年的技能，远比复制一个仅有近万年历史（甚至可能还要短得多）的技能要困难得多。 莫拉维克悖论为理解传统技术与教育研究的关系提供了重要视角。教育研究者的核心能力恰恰体现了莫拉维克悖论所描述的困难领域：理解学生话语的深层含义和情感色彩；将课堂观察置于学校文化、社区背景和政策环境的复杂语境中；把握学习过程、教学互动中的微妙动态；运用批判性思维解读教育现象的多重意义。这些能力都深度依赖于直觉判断和情境理解，而非简单的逻辑推理。 当教育研究者分析课堂对话记录时，其工作远不止于处理文字信息。研究者需要调动关于青少年心理、社会互动模式、文化规范、 权力关系等方面的内隐知识，才能准确把握言外之意、识别情感变化、理解互动的深层含义。这种理解能力，源于人类在漫长进化中，为适应复杂社会环境和进行有效协作所塑造的深层机制。 传统AI基于符号逻辑设计，擅长处理形式化、结构化的知识，但在面对自然语言的模糊性、多义性和情境依赖性时显得力不从心。这解释了为何传统AI在教育研究中的应用主要集中在莫拉维克悖论的“容易部分”。例如，智能辅导系统（ITS）将知识分解为原子化的知识点进行路径规划，教育数据挖掘（EDM）则从学生的点击流等行为数据中寻找可预测的模式。这些应用无疑具有价值，但在很大程度上回避了教育研究的核心挑战：理解和诠释充满意义的人类经验。 大语言模型的出现标志着 AI 在应对莫拉维克悖论方面取得了重大突破。通过在海量文本数据上的预训练，大语言模型获得了对人类语言、文化和社会常识的统计学理解能力。尽管这种理解并非真正的意识或情感，但它使 AI 首次能够有效处理承载复杂意义的自然语言。大语言模型能够识别访谈记录中的情感细微差别[1]，理解课堂对话中的隐含关系，生成符合特定教育情境的恰当反馈。 这种技术突破的意义在于，AI不再局限于处理结构化数据的工具角色，而是能够参与到教育研究的核心任务中，即理解和诠释人类的学习经验与教育互动。大语言模型使AI能够在保持分析规模优势的同时，深入到教育现象的意义层面，这正是传统技术长期无法企及的领域。正是这种“跨越悖论”的能力，使得生成式AI对教育研究的冲击是根本性的、范式级别的。这一根本性的技术突破，正是本文所探讨的新的范式的起点。 # 1.3 定义教育研究中的 AI4S 在理解了教育研究的独特性质以及技术适应性的挑战后，我们 可以更准确地界定“教育研究中的AI4S”这一新兴概念。本节将正式提出AI4S-Ed（AI for Science in Education Research）的定义，并通过与教育中的人工智能（AIED）和学习分析（LA）等相关概念的比较，明确其独特定位。这种概念辨析的重要性在于，它揭示了AI4S-Ed的本质特征：从运用AI改进教学实践转向运用AI变革教育研究过程本身。 教育研究中的 AI4S 可以界定为：一个新兴的研究范式，系统性地运用人工智能技术，特别是以大语言模型、生成式人工智能和自主智能体系统为代表的技术，来增强、自动化和加速关于学习、教学及教育系统的科学探究的整个过程。这一范式涵盖从海量非结构化数据中生成研究假设，设计复杂因果模型，自动化文献综述与理论构建，以及模拟教育政策干预效果等多个关键环节。 为准确把握AI4S-Ed的独特性，有必要将其与教育领域已有的相关概念进行系统比较： 教育中的人工智能（AIED）作为一个成熟的交叉学科领域，其核心目标是设计、开发和评估支持教学的 AI 驱动系统。AIED 的典型成果包括智能辅导系统、自适应学习平台、教育机器人和个性化推荐系统[1]。AIED 的根本目标是教育干预，它关心的问题是“如何利用 AI 让学生学得更好？”。而 AI4S-Ed 的目标是科学发现，它关心的问题是“关于学习和教学，我们能发现什么新的、可泛化的知识？”。 学习分析（LA）根据学习分析研究学会（SoLAR）的定义[2]，是“关于学习者及其学习过程的数据的收集、分析、解释和交流，旨在提供理论上相关且可操作的洞见，以增强学习与教学”。LA虽然运用数据科学和AI技术，但主要聚焦于优化特定教育系统内的学习 过程。其典型产出包括数据仪表盘、风险预警模型和个性化学习路径推荐。LA通常在具体情境中解决实践问题，而AI4S-Ed则致力于生成和检验具有普遍意义的教育理论。简言之，LA关注特定系统中的个体风险识别，AI4S-Ed则探究跨系统的普遍性因果机制。 从思想渊源看，AI4S-Ed与计算社会科学（CSS）有着密切联系[1]。CSS利用计算工具、大规模数据集和模拟方法研究复杂社会现象，为传统社会科学方法难以触及的问题提供新的研究路径。AI4S-Ed可视为CSS在人工智能时代的延伸和深化，不仅运用计算工具分析数据，更将AI作为知识发现的合作者，实现从数据分析到理论生成的跨越。 表 1-1 展示了这些相关概念在主要维度上的差异： 表 1-1 教育领域 AI4S 相关概念比较 特征 自然科学中的 AI4S 学习分析(LA) 教育中的人工智能(AIED) 教育研究中的科学智能(AI4S-Ed) 主要目标 发现基本规律，生成新颖的科学理论。 优化学习过程，为利益相关者提供可操作的反馈。 开发智能工具以支持和传递教学。 生成和检验关于学习与教育的新颖科学理论。 探究对象 自然现象、物理定律、化学反应、生物过程以及宇宙演化等自然界中的客观规律和机制。 特定数字学习环境（如LMS、MOOC平台）中学习者的行为数据、互动数据和表现数据。 人工智能技术在教育领域中的应用、设计与实施，包括智能教学系统、自适应学习系统、AI赋能的评估工具、教育机器人、AI辅助管理等。 教育领域中普遍性的学习规律、教学机制、教育政策的因果关系，以及教育系统的深层运行原理。 本体论立场 实在论：假设存在一个客观的、可被发现的实在。 实用主义/后实证主义：关注可测量的结果和概率性真理。 实用主义为主，但其底层理论基础广泛，关注AI工具和系统在教育实践中能否有效达成教育 认识论上备受争议：在AI的实证主义倾向与教育的建构主义传统之间的紧张地带运作。 [1] Lazer D, Pentland A, Adamic L, et al. Computational social science[J]. Science, 2009, 323(5915): 721-723. 特征 自然科学中的AI4S 学习分析(LA) 教育中的人工智能(AIED) 教育研究中的科学智能(AI4S-Ed) 目标。 核心产出 新知识、可证伪的假设、经同行评审的发现。 数据仪表盘、预测、干预措施、推荐。 各类AI赋能的教育技术产品与系统，例如智能辅导系统、自适应平台、教育机器人。 新研究问题、因果模型、理论洞见、经同行评审的发现。 典型问题 “这个蛋白质的三维结构是什么？” “哪些学生在这门课程中有不及格的风险？” “这个聊天机器人如何能最好地教授分数？” “教学策略X与不同学生群体元认知能力Y的发展之间存在怎样的因果关系？” 通过这一比较框架可以看出，AI4S-Ed代表着一种全新的研究议程。它试图将AI在自然科学中展现的知识发现能力，应用于充满复杂性、情境性和价值判断的教育研究领域。这种应用并非简单的技术迁移，而是需要在AI的实证主义倾向与教育研究的多元传统之间寻找平衡。 AI4S-Ed作为新的知识生产范式，其独特性体现在三个关键维度。在认识论层面，它实现了从寻找客观规律到理解主观意义的转向。生成式AI的意义理解能力使教育研究能够深入探究学习体验、意义建构和价值追求等核心问题。这种能力并非要取代人类理解，而是增强和扩展研究者的认知能力，使我们能够在更大规模上把握教育的复杂性。 在方法论层面，AI4S-Ed超越了单纯的预测和优化，发展出理解和生成并重的研究路径。通过生成式智能体、多模态分析等创新方法，AI成为研究过程的积极参与者。这种参与旨在激发和放大研究者的创造潜能，开拓以往难以触及的研究领域。 在价值层面，AI4S-Ed坚持教育的多元价值追求，强调价值敏感的技术应用。这要求在运用AI时保持批判性反思，确保技术服务于教育的根本目的，即促进人的全面发展和社会公平正义。 # 1.4报告的结构 基于前述分析，本报告将系统探究AI4S应用于教育研究的全面影响。报告的核心论点是：AI4S-Ed作为一场深刻变革，在重塑教育知识生产全流程的同时，也对教育研究的方法论基础、质量标准、伦理规范和研究者素养提出了根本性挑战。这场变革的发展方向，取决于我们能否在充分利用其潜力的同时，建立相应的批判性反思框架和审慎的实践规范。 为系统地展开这一核心论述，报告将围绕以下几个相互关联的核心议题，构建一个从宏观到微观、从理论到实践、从赋能到风险的完整分析框架。 第二章将探讨AI4S-Ed带来的范式变革。从科学哲学视角审视范式演进规律，分析大语言模型时代的独特性。重点论述AI4S-Ed如何通过拓展研究视域、创新研究方法和重构研究过程，从根本上改变教育研究的运作模式。 第三、四、九、十章聚焦方法论层面的变革。将分别探讨 AI 如何赋能质性研究和量化研究，分析其在课堂互动分析、政策评估、数据提取、合成数据生成等方面的应用，以及相应的风险挑战。特别关注 AI 合成数据这一颇具争议的新领域，深入讨论其应用价值和方法论争议。第十章将探讨 AI 在教育理论构建中的潜力，尤其是通过支持思想实验来拓展理论疆域的可能性。 第五、八章考察研究生态系统的重构。第五章探讨AI对研究质量标准的影响，包括如何建立新的可重复性、透明度标准，以及传统学术规范如何适应新环境。第八章从元研究视角分析AI如何改变知识生产体系，包括对研究者素养的新要求、人机协同模式的发展，以及新型研究组织形式的涌现。 第六章专门探讨AI在弥合研究与实践鸿沟方面的作用。将从理论层面分析AI如何促进知识转化的机制，探讨其如何实现从信息处 理到意义生成的跃升，并展望人机协同的知识转化新生态。 第七章系统审视AI带来的伦理挑战。除各章节中的具体讨论外，本章将从更宏观层面分析AI对研究议程的影响、研究伦理的新维度，以及构建实用伦理指南的必要性。 通过这一结构安排，本报告旨在为教育研究者、政策制定者和技术开发者提供一个全面的分析框架。需要明确的是，教育的核心问题，即人的全面发展、社会公平正义、知识与智慧的本质，具有深刻的哲学和伦理维度，并非纯粹的技术问题。AI可以为探究这些问题提供新的可能性，如通过大规模数据分析揭示教育不平等的系统性特征，或通过模拟实验探索学习机制。然而，迄今为止作者仍然坚信，技术本身无法回答“我们应该追求什么样的教育？”以及“为了什么目的而教育？”这类根本性的价值问题。 因此，AI4S-Ed的发展需要在技术创新与人文关怀之间保持平衡。这要求培养新一代研究者，他们既要掌握数据科学和AI技术，更要具备深厚的人文素养和批判性思维能力。他们需要理解研究范式的历史演进，认识知识的多样性本质；需要尊重实践的复杂性和教师的专业智慧；更需要对AI的能力边界和潜在偏见保持清醒认识。 正如前文所述，历史上的许多重大技术变革都曾深刻改变了人类的认知方式和社会结构。今天，大语言模型和生成式AI在教育研究中的应用，可能标志着另一次深刻转型。当AI开始参与意义理解和知识创造，我们正在见证的可能是人类认知方式和知识体系的一次根本性重构。 本研究报告将坚持一个基本立场：对教育研究 AI4S 的探讨保持开放性和反思性，避免陷入技术决定论或技术悲观主义的任何一端。我们既要认真对待 AI 带来的变革潜力，也要清醒认识其复杂性和不确定性。伦理考量应贯穿于所有讨论之中：在探讨方法创新时考虑公平性和包容性，在分析效率提升时反思价值预设，在展望未来时 评估社会影响。 本报告的目的不是提供确定的发展蓝图，而是全面呈现AI4S-Ed这一新兴范式的多个维度，识别机遇与风险，促进研究共同体的深入思考。在一个技术变革与全球地缘政治动荡交织、充满不确定性的时代，保持批判性的开放态度，在实践探索中不断反思和调整，可能是我们能够持守的最负责任的研究立场。只有通过持续的实践推进、理论探讨和伦理反思，教育研究共同体才能逐步形成对AI4S的成熟理解，并在技术可能性与教育价值之间寻找动态平衡。这将是一个需要不同背景研究者共同参与、在对话中推进集体理解的长期过程。 # 第2章AI重塑教育研究范式 人工智能（AI）正以一种颠覆性的力量重塑人类认知的疆域。以“人工智能驱动的科学研究”（AI4S）为标志，人工智能已经超越了智能工具的范畴，上升为一种全新的科学研究范式[1][2]。其核心理念是利用人工智能技术重塑科学研究的过程与方法，通过智能化手段拓展人类探索未知的边界[3]。这一范式已在多个领域取得突破，如蛋白质结构计算、分子动力学模拟、智能驱动材料设计等[4][5][6]，昭示着人工智能正在成为科学研究不可或缺的助推器。 教育研究领域同样面临 AI4S 浪潮的冲击。随着教育数字化转型的深入，教与学过程产生了海量的数字化痕迹，为深入理解复杂的教育现象提供了前所未有的数据基础[7]，但也对传统研究范式提出了严峻挑战。以大语言模型为代表的新一代人工智能技术的出现，为教育领域的 AI4S 开辟了关键路径。通过在海量数据上的预训练，这类 AI 技术习得了广泛、通用的世界知识表征，并展现出对复杂世界全面、深入的理解和建模能力[8][9]。 科学研究范式是研究共同体所认同的问题视域、方法规范、话语体系的有机统一[10]。以大语言模型为代表的AI技术的出现能否以及如何撼动传统范式结构，并最终引发教育研究的革命性变革，是一个亟待厘清的重大议题。近期研究明确指出，AI智能技术正在为 [1] 王飞跃, 缪青海. 人工智能驱动的科学研究新范式: 从 AI4S 到智能科学[J]. 中国科学院院刊, 2023, 38(4): 536-540. [2] 李国杰. 智能化科研（AI4R）：第五科研范式[J]. 中国科学院院刊, 2024, 39(1): 1-9. [3] Wang H, Fu T, Du Y, et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023, 620(7972): 47-60. [4] Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596(7873): 583-589. [5] Bryant P, Pozzati G, Elofsson A. Improved prediction of protein-protein interactions using AlphaFold2[J]. Nature Communications, 2022, 13(1): 1265. [6] Leng C, Tang Z, Zhou Y G, et al. Fifth Paradigm in Science: A Case Study of an Intelligence-Driven Material Design[J]. Engineering, 2023, 24: 126-137. [7] Hakimi L, Eynon R, Murphy V A. The Ethics of Using Digital Trace Data in Education: A Thematic Review of the Research Landscape[J]. Review of Educational Research, 2021, 91(5): 671-717. [8] Vaswani A, Shazeer N, Parmar N, et al. Attention is All you Need[C]//Guyon I, Luxburg U V, Bengio S, et al. Advances in Neural Information Processing Systems: Vol. 30. Curran Associates, Inc., 2017. [9] Bommasani R, Hudson D A, Adeli E, et al. On the Opportunities and Risks of Foundation Models[EB/OL]. (2022-07-12)[2024-04-14]. http://arxiv.org/abs/2108.07258. [10] 托马斯·库恩, 伊安·哈金. 科学革命的结构[M]. 金吾伦, 胡新和, 译. 北京大学出版社, 2012. 社会科学研究带来“范式层面的变革”[1]。作为社会科学的重要分支，教育研究因其独特的人文关怀内核而具有更加复杂的学理基础，AI4S对其影响也因此更加深远和复杂。 这种重塑远非简单的技术叠加，而是一场深刻的生态系统变革。它催生了一个以人类智慧为战略核心、以AI智能体为协作伙伴、以开放共享的社会-技术基础设施为支撑的全新研究范式。为了在开篇直观地呈现这一变革的全貌，我们构建了“人机协同研究生态系统”机制图（如图2-1所示）。 该图描绘了人类研究者如何扮演战略制定与价值引领的角色，AI智能体如何从工具演进为协作者乃至科学家，以及所有参与者如何通过一个共享的基础设施进行交互，从而实现网络化、累积性、并行化的知识生产。在接下来的内容中，我们将首先奠定分析的理论基石，随后遵循“问题-方法-过程”的整合性框架，系统剖析这张图景背后的具体变革。 图2-1 人机协同研究生态系统机制图 # 2.1 教育研究范式变革的理论基石 # 2.1.1科学研究的范式 托马斯·库恩（Thomas Kuhn）在《科学革命的结构》中，将“范式”定义为特定科学共同体在特定时期从事研究的理论基础和实践规范。一个范式不仅包含抽象的理论和法则，更具体地规定了哪些是值得研究的“谜题”，以及解决这些“谜题”的合法工具和方法[1]。在范式主导下的“常规科学”时期，研究者的主要工作是在范式框架内进行“解谜”，而非挑战范式本身。 然而，当“常规科学”不断遭遇既有范式无法解释的“异常现象”时，危机便会产生。持续的危机会动摇科学家对原有范式的信心，最终可能引发“科学革命”，即旧范式被一个全新的、更具解释力的范式所取代的非累积性发展过程[2]。 库恩的理论因其强调革命的“非理性”和“整体转换”而引发争议。作为回应和发展，伊姆雷·拉卡托斯（Imre Lakatos）提出了“研究纲领”的概念。他认为科学发展并非剧烈的断裂，而是一系列相互竞争的研究纲领的演替[3]。每个研究纲领都拥有一个不容置疑的“硬核”，以及一个由辅助假说构成的、可灵活修改的“保护带”。一个进步的纲领能够不断预测新事实，而一个退化的纲领则只能在事后勉强修补。 尽管视角不同，他们都为我们提供了审视科学发展的分析工具。库恩的“范式-异常-革命”模型为我们识别根本性变革提供了判据，而拉卡托斯的“研究纲领”则让我们关注变革过程中的延续与竞争。本节以“问题-方法-过程”为整合性框架，系统考察以大语言模型为代表的AI技术引发的教育研究范式之变。 # 2.1.2 教育研究范式演进 将科学哲学的理论应用于教育研究的历史，可以看到一条范式演进的脉络。吉姆·格雷[1]提出的科学研究范式四个阶段，即经验科学、理论科学、计算科学和数据密集科学的演进逻辑，也大致可以套用于教育研究：早期的经验科学范式通过访谈、观察等质性方法积累事实[2]；随后的理论科学范式致力于构建稳定的解释框架以回答“为何”[3]；20世纪90年代，计算科学范式借助建模与模拟推动了理论与实证的融合[4]；进入21世纪，数据密集科学范式（或称第四范式）则利用数据挖掘和学习分析等方法，从海量数据中发现隐藏的关联与模式[5]。数据驱动范式的代表性成果有基于学习痕迹数据对比不同学习风格下的认知建构差异[6]，依托学习管理系统日志动态监测学习参与度的演化模式[7]等。 第四范式极大地提升了教育研究的广度和效率，但随着教育数字化转型的深入，其局限性也日益凸显： (1) 海量非结构化数据带来的深度理解难题: 教育过程产生了海量、多模态、非结构化的数据（如课堂录像、讨论文本、操作日志等）[8]。第四范式擅长处理结构化数据和发现相关性, 但在深度理解这些富含情境意义的非结构化数据、揭示其背后的因果机制方面却存在不足。数据量的激增与教育意义挖掘深度的矛盾日益突出。 (2) 面对系统复杂性的方法论局限: 教育是一个典型的复杂自适应系统, 充满了动态交互、非线性效应和价值涉入。传统的统计 [1] Gray J, Szalay A. eScience-A transformed scientific method[J]. presentation to the Computer Science and Technology Board of the National Research Council, Mountain View, CA, 2007. [2]黄荣怀，王欢欢，张慕华，等.面向智能时代的教育社会实验研究[J].电化教育研究，2020,41(10):5-14. [3] Swaminathan V, Lamberton C, Sridhar S, et al. Paradigms for Progress: An Anomaly-First Framework for Paradigm Development[J]. Journal of Marketing, 2023, 87(6): 816-825. [4]郑永和,严晓梅,王晶莹,等.计算教育学论纲:立场、范式与体系[J].华东师范大学学报(教育科学版),2020,38(6):1-19. [5] 米加宁, 章昌平, 李大宇, 等. 第四研究范式: 大数据驱动的社会科学研究转型[J]. 学海, 2018(2): 11-27. [6] van den Beemt A, Buijs J, van der Aalst W. Analysing Structured Learning Behaviour in Massive Open Online Courses (MOOCs): An Approach Based on Process Mining and Clustering[J]. The International Review of Research in Open and Distributed Learning, 2018, 19(5). [7] Henri C R, Bodily R, Larsen R, et al. Exploring the potential of LMS log data as a proxy measure of student engagement[J]. Journal of Computing in Higher Education, 2018, 30(2): 344-362. [8] Hakimi L, Eynon R, Murphy V A. The Ethics of Using Digital Trace Data in Education: A Thematic Review of the Research Landscape[J]. Review of Educational Research, 2021, 91(5): 671-717. 模型和数据挖掘算法往往基于简化的假设，难以有效刻画和模拟这种系统层面的复杂性。例如，在评估一项教育政策的长期、间接和非预期的影响时，第四范式的方法工具便显现出局限性。 这些现象的不断累积，使得数据密集范式局限也日益凸显，并倒逼研究范式的革新突破。在此背景下，以大语言模型等新一代AI技术为核心驱动力的AI4S应运而生。 # 2.1.3 大语言模型时代的科学研究 如果仅仅将当前变革视为第四范式的简单延续，就会严重低估其革命性。以大语言模型为代表的AI技术引领的范式变革，在延续历史发展逻辑的同时，更在多个维度上实现了质的突破。 # 其一，研究主体性的拓展：从计算工具到智能协作者 从计算范式到数据密集范式，AI在研究中主要扮演的是一个高效的计算工具或分析助手。而新一代AI技术引领的范式，则标志着AI的角色正从一个被动的工具转变为一个主动的协作者，甚至是具备一定主体性的智能体。近期研究将这类AI技术在科学发现中的参与度划分为从工具、分析师到科学家的三个递进层次，清晰地展示了AI正沿着一条从辅助执行到主动探索的路径演化[1]。当一个智能体系统能够自主提出假说、规划和执行实验并得出结论时[2]，它已经不再是一个简单的工具，而是在一定程度上参与了研究的主体性建构。这意味着，教育研究的智力探索，正从传统的研究者单中心主导，走向“人-机双主体协同”的崭新图景，这是对研究主体边界的一次根本性拓展。 # 其二，知识来源的革命：从被动发现到主动生成 数据密集范式使我们能够从数据中“发现”前人未见的关联和模式。而大语言模型为代表的AI技术，其“生成式”的特质，则开 启了“生成”全新知识的可能性。这不仅体现在它可以生成新颖的科学假说、逼真的模拟情境[1]，甚至可以生成完整的科学论文[2]。这种生成能力，正在挑战传统的知识观。最新研究表明，大语言模型在假设生成方面展现出了前所未有的能力，能够通过迭代优化过程不断改进假设质量[3]。在医学研究中，GPT4已经成功地生成了经过实验室验证的新颖药物组合假设，展现了AI从被动工具向主动假设生成者的转变[4]。 最新的哲学探讨为此提供了一些更为深刻的理论视角。例如最近有研究者提出了“适应性认识论”（Adaptive Epistemology）这一观点，以应对生成式AI为社会科学研究带来的认识论变革[5]。该理论认为，在算法与平台深度嵌入研究过程的后数字时代，知识不再是一个从外部现实中被动提取的稳定产物，而是由人类研究者与非人类智能体（如AI）在持续的互动中动态地、共同建构和生成的。在此框架下，智能体的角色从现实的被动观察者，转变为能够主动建构本体论的参与者。这种转变标志着机器从规则跟随者转变为假设生成器和测试者，能够在没有人类干预的情况下进行自动化探索，从被动的知识库变成主动的假设探索者[6]。传统研究的重点是寻找答案，而适应性认识论则指出，在与生成式AI的互动中，最关键的研究活动转变为“建构问题”——即如何提出在计算上最优、在策略上有效且符合伦理反思的“提示”（prompts）。因此，AI驱动的范式变革远不止于方法论层面。它标志着教育知识的来源，正在从对外部教育现象的“二次提炼”，转变为人机系统内部知识的“共 同生产”, 这无疑是对学科认识论基础的一次深刻撼动。 # 其三，学科边界的消融：从交叉研究到整合创新 学科交叉一直是教育研究发展的内在要求，但传统的交叉研究常常受限于不同学科间的话语壁垒和方法论隔阂。AI4S所倡导的“AI+X”跨界整合范式，为突破这一困境提供了新的可能。AI擅长整合跨领域的数据和知识，打破学科壁垒，实现深度的跨学科整合，以应对基础性挑战。像大语言模型这类AI技术本身就是一个跨学科知识的巨大熔炉，其“世界知识”（World Knowledge）内在地包含了来自心理学、社会学、经济学、计算机科学等多个领域的概念和模式[1]。这使得它天然成为一个跨学科对话的“通用语”和“中介平台”。例如像AgentRxiv这样为自主研究智能体设计的协作生态系统，通过建立统一的、可共享的知识库，使得来自不同学科背景的研究者（或AI智能体）能够在一个共同的平台上，基于彼此的发现进行累积性创新[2]。这种模式不再是简单的学科并置，而是实现了深度的“知识整合”，正在催生一个更加开放、动态、无边界的科研新生态，推动教育研究从“多学科合作”迈向真正的“超学科融合”。 # 2.2 研究视域的拓展 科学研究的起点是提出有价值的问题。传统上，问题的发现高度依赖研究者的个人学识、理论敏感性与偶然的灵感迸发。然而，大语言模型等新一代AI技术的出现正在改变这一局面。其在海量数据预训练过程中形成的广博“世界知识”[3]，为系统性地发现与生成科学问题提供了前所未有的能力。这种转变使得问题发现的过程，从依赖个人灵感的非系统性活动，转变为一种可被系统化、规模化、协作化的科学流程。 # 2.2.1 拓展问题视野 大语言模型为代表的生成式AI技术凭借其跨领域、多层次、动态演化的世界知识体系，能够从广度、深度、关联性和颠覆性等多个维度拓展教育研究的问题视野。 广度上，AI能够横跨不同学科，从海量文献数据中自动捕捉研究前沿，识别出尚待探究的理论分歧和实证空白，提出具有前瞻性的研究问题，这大大拓宽了问题视野的广度。例如，最新研究显示，AI在教育领域的应用已经从简单的内容生成扩展到复杂的学习者建模和个性化教学设计，能够整合心理学、认知科学、教育技术等多个领域的知识，识别跨学科研究机会[1]。 深度上，借助多模态融合能力，AI技术可将课堂教学的文本、语音、视频等异构数据纳入统一的分析框架，深度挖掘影响教学效果的关键因素，提出更加立体和本质的问题。研究表明，AI在教育中的应用正朝着全学习者支持的方向发展，不仅关注学术能力，还包括社会、情感、动机、文化和语言特征等非认知技能[2]。 关联性上，基于其世界知识，AI技术能够发现不同学科概念和原理间隐藏的关联，实现跨学科知识的创造性融合，引领研究者提出具有开拓性的交叉问题。例如，在智能教育系统中，AI能够整合学习分析、认知心理学和计算机科学的知识，为个性化学习提供可重用和可扩展的技术架构[3]。 颠覆性上，AI技术所具有的类比推理、迁移泛化等能力，使其能跳出既有理论框架，在世界知识中发现隐藏的关联，提出颠覆性的理论假设，为教育理论创新提供新的生长点。“科学假说论证”（Scientific Hypothesis Evidencing, SHE）任务的提出，便利用大语 言模型根据科学文献摘要自动判断其是否支持或反驳给定的研究假说，实验表明这类 AI 技术已展现出一定的科学假说论证能力[1]。借助 AI 的强大认知能力，教育研究者能够跳出固有的知识结构和思维定势，发现传统路径难以触及的新问题域。 这些维度相互交织，共同勾勒出AI技术拓展教育研究问题视野的丰富图景。借助AI的强大认知能力，教育研究者能够跳出固有的知识结构和思维定势，发现传统路径难以触及的新问题域。 # 2.2.2 自动化假说生成 最新的研究进展不仅证实了上述判断，还进一步揭示了将这种潜力转化为现实的系统性方法。当前，研究界已不再满足于将AI作为简单的“灵感激发器”，而是致力于构建能够系统性地创造、筛选和验证科学假说的“认知引擎”[2][3][4]。 这一转变的核心在于将科学假说生成（Scientific Hypothesis Generation, SHG）明确地构建为一个自然语言生成（NLG）任务。为此，研究者开发了专门的结构化数据集，其中HypoGen数据集是一个具有代表性的例子[5]。该数据集包含了从顶级计算机科学会议中提取的约5500个结构化的问题-假说对，其核心是一个包含“Bit-Flip-Spark”与“推理链”（Chain-of-Reasoning）的格式，为AI4S创新学习科学的内在逻辑提供了清晰的蓝图： - Bit（常规假设）：明确陈述研究领域中一个普遍存在但有局限性的传统假设或方法。 - Flip（创新论点）：清晰阐述论文提出的、旨在推动领域进步的新方法或反驳性论点。 [1] Koneru S, Wu J, Rajtmajer S. Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences[EB/OL]. (2024-03-25)[2024-04-16]. http://arxiv.org/abs/2309.06578. [2] Alkan A K, Sourav S, Jablonska M, et al. A survey on hypothesis generation for scientific discovery in the era of large language models[EB/OL]. (2025-04-07)[2025-07-30]. http://arxiv.org/abs/2504.05496. [3] O'Neill C, Ghosal T, Raileanu R, et al. Sparks of science: hypothesis generation using structured paper data[EB/OL]. (2025-04-17)[2025-07-30]. http://arxiv.org/abs/2504.12976. [4] Xiong G, Xie E, Shariatmadari A H, et al. Improving scientific hypothesis generation with knowledge grounded large language models[EB/OL]. (2024-11-04)[2025-07-30]. http://arxiv.org/abs/2411.02382. [5] O'Neill C, Ghosal T, Raileanu R, et al. Sparks of science: hypothesis generation using structured paper data[EB/OL]. (2025-04-17)[2025-07-30]. http://arxiv.org/abs/2504.12976. - Spark（核心洞见）：用简短的词语捕捉从“Bit”到“Flip”的核心思想飞跃。 - Chain-of-Reasoning（推理链）：提供一个详尽的叙事，记录科学家从识别问题到形成解决方案的完整心路历程，包括提出探究性问题、进行方法论反思、报告实验观察与结果等。 通过在这种结构化数据上进行微调，像大语言模型这类生成式AI被训练为以一种“条件性语言建模”的方式来生成假说。在推理时，研究者仅需向模型提供“Bit”（即问题陈述），模型便能自动生成相应的“Spark”和详细的“Chain-of-Reasoning”，最终形成一个完整、新颖且可行的假说。这种方法将抽象的问题发现潜力，转化为一个具体的、可重复的生成过程，为教育研究者提供了一个强大的工具，能够系统性地审视本领域的“常识”，并从中发现可能被忽略的创新点。 在实际应用中，谷歌的 AI 共同科学家系统（AI Co-Scientist）已经展现了这种框架的强大潜力。该系统基于 Gemini 2.0 构建，作为虚拟科学合作者帮助科学家生成新颖假说和研究提案，在药物重新定位和靶点发现等领域取得了显著成果[1]。这种方法将抽象的问题发现潜力，转化为一个具体的、可重复的生成过程，为教育研究者提供了一个强大的工具，能够系统性地审视本领域的“常识”，并从中发现可能被忽略的创新点。 # 2.2.3 整合多元知识源 单纯依赖AI模型内部的“世界知识”进行假说生成存在局限，可能导致模型重复其训练数据中已有的观点，缺乏真正的创新性。因此，前沿研究强调，必须将AI模型嵌入一个更广阔的知识生态系统中，整合多元化的信息来源，以生成真正有价值的假说（Brand et al., 2024）。 知识图谱增强的假说生成是一种有效的方法。最新研究提出了KG-CoI（Knowledge Grounded Chain of Ideas）系统，通过将外部结构化知识图谱整合到大语言模型中，显著提高了科学假说生成的准确性，并减少了推理链中的幻觉现象[1]。该系统包含三个关键模块：知识图谱引导的上下文检索、知识图谱增强的思维链生成，以及知识图谱支持的幻觉检测。 多智能体协作框架提供了另一种整合路径。HILMA（Human-in-the-loop Multi-agent Framework）框架基于结构化智能理论中的发散思维和收敛思维原理，为可靠的科学假说生成提供了创新性的人机协作方案[2]。该框架融合了实时、系统的知识检索增强机制，动态整合最新研究进展构建引用网络子图，为AI模型提供全面且最新的科学知识调研。此外，该框架通过模拟科学同行评议过程的多智能体论证方法增强假说生成，同时利用人类专家的直觉和专业知识进一步完善和多样化生成的假说。 科学知识图谱驱动的假说生成是第三种重要方法。最新研究开发了基于科学知识图谱的研究假说生成系统，该系统能够创建精确、可验证且逻辑有效的陈述，为教育研究中的假说形成提供了强大工具[3]。 文献与数据双驱动整合是另一种被验证的有效路径。这种方法认为，高质量的科学假说应同时具备理论自洽性（植根于现有知识体系）和经验有效性（从经验数据中发现新模式）。其具体流程包括：首先，利用AI技术对海量学术文献进行分析和综述，提取关键概念、识别研究空白，从而生成一系列基于现有知识的文献驱动假说。其次，让AI模型直接从大规模观测数据中发现潜在的模式和关 联，生成数据驱动假说。最后，将两种假说进行整合与精炼，例如以文献假说为理论指导，对数据驱动发现的模式进行解释，反之亦然[1]。 对于教育研究而言，这意味着未来的问题发现过程将是一个动态的三角验证过程：研究者提出初步问题，AI从海量文献中寻找理论支撑和研究空白，同时从教育大数据（如学习管理系统日志、课堂互动数据）中挖掘经验证据，三者相互印证、相互启发，共同催生出既有理论深度又具现实关照的重大研究课题。 # 2.2.4 研究者角色的重塑 尽管自动化假说生成前景广阔，但它也带来了一个核心挑战，即如何平衡假说的新颖性（Novelty）与可行性（Feasibility）。研究发现，AI在科学假说生成中面临着准确性和创新性的权衡问题，需要通过微调和人类专家的深度参与来实现最佳效果[2]。 这一挑战重新定义了研究者在知识发现初始阶段的角色。研究者的核心任务不再仅仅是作为思想的唯一“源头”，而是转变为一个多重角色的扮演者： （1）议程设定者（Agenda Setter）：研究者负责定义研究的问题假设，即识别出领域内最值得被挑战的核心问题和传统假设。这是整个创新过程的起点，需要深厚的领域知识和批判性思维。 (2) 假说策展人（Hypothesis Curator）：面对 AI 生成的海量假说，研究者需要运用其专业判断力进行筛选和策展，评估哪些假说具有真正的理论价值和实践可行性。 (3) 创造性诠释者（Creative Interpreter）：一个看似“错误”或“幻觉”的输出，在富有经验的研究者眼中，可能蕴含着颠覆性 的洞见。最新研究表明，AI 的“幻觉”现象实际上是其创造力的体现，对科学发现具有重要价值[1]。 （4）协作伙伴（Collaborative Partner）：在人机协作的新模式下，研究者与 AI 系统形成真正的合作关系。MIT 的 FutureHouse 平台展示了这种协作的可能性，其 AI 代理能够自动化科学进步路径上的许多关键步骤，包括文献检索、数据分析和假说生成，研究者则专注于更高层次的创新思考和价值判断[2]。 从这个角度看，问题发现范式的真正变革，并非AI取代了人类的创造力，而是研究的起点从一种依赖个人、偶发的顿悟式创新，演变为一种人机协同的、系统化的协作式构想。我们正在构建的，是一种能够大规模探索假说空间的认知生态系统，而人类研究者则是这个生态系统的设计师、管理者和最终的价值判断者。 # 2.3 研究过程的重构 以大语言模型为代表的 AI 技术对教育研究范式的影响，不仅体现在问题发现和方法创新上，更深刻地体现于对整个研究过程的系统性重构。在这一重构过程中，“端到端”（End-to-End）和“人在回路”（Human-in-the-Loop）理念的融合，正在开启人机协同的新范式。 “端到端”概念常见于机器学习领域，旨在构建一个统一的模型架构，将原本流程中各个独立的步骤整合为一个完整的系统，以自动学习数据中的特征表示和映射关系[3]。而“人在回路”则强调将人的知识、经验和反馈引入到人工智能系统的训练迭代过程中，以动态调整和优化系统，形成人机协同[4]。尽管两者背景不同，但在AI4S的语境下却有着天然的融合点。AI4S的核心理念之一便是 [1] Cai W, Gao M. Beyond hallucination: generative AI as a catalyst for human creativity and cognitive evolution[J]. IECE Transactions on Emerging Topics in Artificial Intelligence, 2025, 2(1): 36-42. [2] Winn Z. Accelerating scientific discovery with AI[EB/OL]. (2025-06-30)[2025-08-04]. https://news.mit.edu/2025/futurehouse-accelerates-scientific-discovery-with-ai-0630. [3] Glasmachers T. Limits of End-to-End Learning[C]//Zhang M L, Noh Y K. Proceedings of the Ninth Asian Conference on Machine Learning: Vol. 77. Yonsei University, Seoul, Republic of Korea: PMLR, 2017: 17-32. [4] Wu X, Xiao L, Sun Y, et al. A survey of human-in-the-loop for machine learning[J]. Future Generation Computer Systems, 2022, 135: 364-381. 利用 AI 技术对科学研究的全流程进行“端到端”的赋能[1]。然而，教育研究涉及复杂的情境理解和价值判断，难以完全交由 AI 系统自动处理，因此必须嵌入人的参与，这使得“人在回路”理念的引入显得尤为必要。 新一代AI技术的出现，为这种理念的融合提供了理想的技术载体。一方面，这类AI技术能够全面参与并优化研究过程的始端（问题凝练）、中端（数据分析）、末端（理论构建）以及各环节之间的系统串联。另一方面，这类技术强大的自然语言处理能力，为“人在回路”的实施提供了基础。研究者可以通过自然语言交互，随时介入研究流程，输入指令引导AI模型执行任务，并基于反馈动态调整研究路径。值得注意的是，“人在回路”理念在新一代AI模型的训练范式中有着特殊的体现，即通过人类反馈实现大语言模型行为与人类意图和价值观的“对齐”（Alignment），其中最具代表性的是基于人类反馈的强化学习（RLHF）[2]。 # 2.3.1 AI角色演化 要理解研究过程的重构，首先需要清晰地认识到 AI 在其中的角色正在发生演变。近期的一系列综述研究为我们提供了一个极具洞察力的分类框架，将 AI 在科学发现中的参与度划分为三个递进的层次[3]，这个框架为“端到端”和“人在回路”的融合提供了更具体、更动态的演化路径。 表 2-1 人工智能在科学发现中参与度的三层次分类 层次 (Level) 角色定义（Role Definition） 任务范围（Task Scope） 自主性与工作流（Autonomy & Workflow） Level 1: AI作 AI作为在人类直 执行科学方法中单个 自主性有限，完全基于 [1] 李国杰. 智能化科研（AI4R）：第五科研范式[J]. 中国科学院院刊, 2024, 39(1): 1-9. [2] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[C]//Koyejo S, Mohamed S, Agarwal A, et al. Advances in Neural Information Processing Systems: Vol. 35. Curran Associates, Inc., 2022: 27730-27744. [3] Zheng T, Deng Z, Tsang H T, et al. From automation to autonomy: a survey on large language models in scientific discovery[EB/OL]. (2025-05-19)[2025-07-30]. http://arxiv.org/abs/2505.13259. 层次 (Level) 角色定义（Role Definition） 任务范围（Task Scope） 自主性与工作流（Autonomy & Workflow） 为工具（AI as Tool） 接监督下的专用工具，增强研究者的能力。 阶段的、明确定义的离散任务，如文献摘要、手稿初稿撰写、数据处理代码片段生成等。 人类的明确提示和指令操作。其输出通常需要人类验证，并由人类整合到更广泛的研究流程中。 Level 2: AI作为分析师（AI as Analyst） AI作为被动智能体，具备更复杂的信息处理、数据建模和分析推理能力。 能够独立管理一系列任务序列，如分析实验数据集以识别趋势、解释复杂模拟的输出、对模型进行迭代优化等。 自主性增强，在人类设定的总体目标框架内运作，减少了对中间步骤的人工干预。人类定义分析目标、提供数据并评估最终洞见。 Level 3: AI作为科学家（AI as Scientist） AI作为主动智能体，能够以相当高的独立性，策划和导航科学发现过程的多个阶段。 能够主动提出假说、规划和执行实验、分析结果数据、得出初步结论，甚至提出后续研究问题或探索途径。 自主性最高，能够以最少的人类干预驱动研究周期的主要部分，展现出战略性和迭代性的工作流程，迈向开放式的科学探索。 这个三层分类法清晰地揭示了 AI 在研究过程中的角色演进轨迹。它不再是一个静态的工具，而是一个动态的协作者，其自主性和责任边界正在不断拓展。在教育研究中，这意味着： - 在 Level 1, 研究者使用 AI 工具来润色论文、总结文献或生成课堂活动方案。 • 在 Level 2, 研究者将一个学期的学生学习数据交给一个 AI 分析师, 指令其 “识别出与学生辍学风险最相关的行为模式”, AI 自主完成数据清洗、特征提取、模型训练和结果可视化等一系列步骤, 并提交一份分析报告。 在 Level 3，研究者设定一个宏观目标，如“探索项目式学习对学生批判性思维的影响”，一个 AI 科学家智能体则可能自主完成文献综述、提出具体研究假说、设计线上实验方案、招募（模 拟的）被试、执行实验、分析数据，并撰写出一份包含初步结论的研究报告初稿。 # 2.3.2 自主研究智能体的涌现 “AI作为科学家”的图景并非遥远的科幻。在化学、生物学和材料科学等领域，能够自主执行复杂研究任务的智能体系统已经涌现，为教育研究的未来指明了方向。例如，ChemCrow系统通过集成18个专家设计的化学工具，能够自主完成有机合成、药物发现和材料设计等复杂任务[1]。ProtAgents则可以自主地生成、测试和优化蛋白质序列，以满足特定的生化属性要求[2]。这些系统展示了“端到端”研究过程的真正潜力：AI不仅能处理流程中的某个环节，而是有能力将从问题定义到解决方案生成的多个环节串联起来，形成一个闭环。 在教育领域，虽然尚未出现如此成熟的自主研究智能体，但其雏形已经显现。最新研究表明，AI模型在神经科学预测任务中已经超越了人类专家的表现[3]，这预示着AI在复杂认知任务上的巨大潜力。结合前述的自动化假说生成框架和生成式智能体模拟框架，可以预见未来的教育研究智能体，能够基于具体的研究场景首先通过分析文献和数据生成关于“最佳教学干预策略”的假说，然后在一个构建的虚拟课堂中设计并执行一项A/B测试来验证该假说，最后根据模拟实验的结果，自动撰写分析报告并提出对理论的修正建议。这种高度整合的自主研究流程，将极大地加速教育知识的生产和迭代速度。 # 2.3.3生成式智能体模拟 基于智能体的建模与仿真（Agent-based Modeling and Simulation, ABMS）是通过构建个体计算模型来研究其在环境中行为和交互，以及在复杂系统中涌现行为的仿真模拟技术，一直是理解复杂教育系统动态演化的重要工具[1]。然而，传统ABMS构建的教育智能体多为被动型，缺乏对环境的主动感知和复杂决策能力，难以准确模拟教与学过程中智能体的适应性行为，长期以来制约了其在教育研究中的应用深度。 # （1）生成式智能体的技术基石 新一代人工智能的出现，特别是生成式智能体（Generative Agents）的崛起，正引发ABMS领域的范式革命。生成式智能体的核心突破在于，它们不再依赖于预先编写的、僵化的行为规则，而是利用AI模型强大的语言理解、推理和生成能力，在复杂的社会环境中进行动态决策[2]。近期研究系统性地勾勒出了一个先进的AI智能体的标准架构，它通常由画像、感知、记忆、规划和行动等核心模块构成，这些模块的协同工作赋予了智能体前所未有的“类人性”特征[3][4]。表2-2对这一通用架构进行了梳理： 表 2-2 基于 AI 的生成式智能体核心模块架构 模块 (Module) 功能（Function） 在教育模拟中的应用价值 画像模块 (Profile Module) 为智能体设定并动态调整其身份，包括静态的人口统计学特征（如年龄、性格、知识背景）和动态的社会属性（如目标、情绪、价值观、人际关系）。 模拟具有不同学习风格、认知水平、动机和文化背景的学生或教师，使其行为更具多样性和真实性。例如，可以构建一个“好奇心强但基础薄弱”的学生智能体，观察其在不同教学策略下的反应[5]。 [1] Bonabeau E. Agent-based modeling: Methods and techniques for simulating human systems[J]. Proceedings of the National Academy of Sciences, 2002, 99(suppl 3): 7280-7287. [2] Park J S, O'Brien J, Cai C J, et al. Generative Agents: Interactive Simulacra of Human Behavior[C]//Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. San Francisco CA USA: ACM, 2023: 1-22. [3] Wang L, Ma C, Feng X, et al. A survey on large language model based autonomous agents[J]. Frontiers of Computer Science, 2024, 18(6): 186345. [4] Gao C, Lan X, Li N, et al. Large language models empowered agent-based modeling and simulation: a survey and perspectives[J]. Humanities and Social Sciences Communications, 2024, 11(1): 1259. [5] Wang L, Ma C, Feng X, et al. A survey on large language model based autonomous agents[J]. Frontiers of 模块 (Module) 功能（Function） 在教育模拟中的应用价值 感知模块 (Perception Module) 使智能体能够观察和理解不断变化的社会环境，包括物理环境（如教室布局、学习资源）、其他智能体的状态和行为，以及潜在的社会规范。 智能体能够“感知”到课堂氛围的变化、教师的指令、同学的讨论，并据此调整自身行为。例如，一个学生智能体可以感知到小组讨论陷入僵局，并主动提出新的观点来推动讨论[1]。 记忆模块 (Memory Module) 赋予智能体持续学习的能力，使其能够积累、总结和反思历史经验，以克服大语言模型固有的上下文窗口限制。这通常通过外部知识库和检索增强机制来实现[2]。 模拟学习的累积过程。学生智能体可以“记住”先前课程的内容，并在新学习中应用旧知识，这与教育中的知识追踪理念相契合。它还可以根据过去的成功或失败经验，反思并调整自己的学习策略。 规划模块 (Planning Module) 使智能体能够根据长期目标和当前情境制定并分解行为策略，动态调整计划，并在多智能体环境中进行协作或竞争[3]。 模拟学生的学习规划与自我调节能力。智能体可以为自己制定一个学习计划（例如，先复习前置知识，再学习新概念，最后做练习），并在遇到困难时动态调整计划[4]。 行动模块 (Action Module) 赋予智能体在环境中执行决策和采取行动的能力。行动可以是预定义的（从一个固定集合中选择），也可以是自由生成的，或是两者的混合。 将智能体的内部决策（如“我应该向老师提问”）转化为具体的、可观察的行为（如在聊天框中输入问题）。这使得研究者可以追踪和分析智能体的完整行为链条，进行精细的过程性分析[5]。 这个五模块架构清晰地表明，生成式智能体已远非简单的聊天机器人。它们是复杂的、具备一定自主性的计算实体，其设计初衷就是为了在模拟世界中再现人类复杂的社会行为和认知过程。 Computer Science, 2024, 18(6): 186345. [1] Gao C, Lan X, Li N, et al. Large language models empowered agent-based modeling and simulation: a survey and perspectives[J]. Humanities and Social Sciences Communications, 2024, 11(1): 1259. [2] Park J S, O'Brien J, Cai C J, et al. Generative Agents: Interactive Simulacra of Human Behavior[C]//Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. San Francisco CA USA: ACM, 2023: 1-22. [3] Park J S, O'Brien J, Cai C J, et al. Generative Agents: Interactive Simulacra of Human Behavior[C]//Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology. San Francisco CA USA: ACM, 2023: 1-22. [4] Gao C, Lan X, Li N, et al. Large language models empowered agent-based modeling and simulation: a survey and perspectives[J]. Humanities and Social Sciences Communications, 2024, 11(1): 1259. [5] Gao C, Lan X, Li N, et al. Large language models empowered agent-based modeling and simulation: a survey and perspectives[J]. Humanities and Social Sciences Communications, 2024, 11(1): 1259. # （2）生成式智能体在教育研究中的具体应用 基于这一强大的技术底座，生成式智能体正在个体、群体和系统三个层面，为教育模拟研究提供坚实的实证支持[1]： - 个体层面：模拟认知多样性。传统模拟难以展现不同认知水平学生的真实行为，包括常见的错误和认知偏差。最新研究提出了基于“课堂模拟”的创新方法，通过构建上下文化的学生生成式智能体来解决这一挑战[2]。这项研究通过6周的教育工作坊收集了60名学生的细粒度数据，开发了转移性迭代反思（TIR）模块，显著提升了AI模型在学习行为模拟方面的准确性。通过定制的在线教育系统，研究者记录了学生随时间与讲座材料交互的学习行为，实现了对个体学习差异的高保真模拟。 - 群体层面：模拟课堂互动生态。教育的本质是社会性的。例如，著名的“斯坦福小镇”利用大语言模型构建了一个交互式环境，其中的虚拟人物能够自主展现个体行为，也能彼此互动，形成复杂的社会行为[3]。在教育领域，SimClass 框架通过构建一个由多个 AI 智能体（扮演教师、助教以及具有不同性格的同学）组成的虚拟教室，生动地展示了模拟复杂课堂互动的巨大潜力[4]。该框架识别了代表性的课堂角色，并引入了新颖的课堂控制机制来实现自动化课堂教学。实验表明，由多智能体构成的丰富社交环境能够激发用户进行更深入的思考和更积极的互动，从而获得更好的学习效果。最新的 Agent4EDU 框架进一步推进了这一领域的发展，通过智能工作流将 AI 代理应用于教育，实现了更高效 的教学和学习过程[1]。 - 系统层面：模拟教育政策影响。生成式智能体的应用已超越微观课堂，开始涉足宏观的政策模拟领域。例如，VACSIM 框架利用 100 个基于人口普查数据初始化的生成式智能体，在一个模拟的社会网络中互动，以评估不同公共卫生干预措施（如疫苗推广策略）对群体态度和行为的影响 [2]。尽管该研究聚焦于健康领域，但其方法论对教育政策研究具有直接的借鉴意义。研究者可以构建一个由学生、家长、教师、校长等利益相关者组成的智能体社会，模拟他们对某项教育政策（如招生制度改革、课程标准变化）的反应和博弈过程，从而为基于仿真论证的政策评估和优化机制提供了强大的技术工具 [3]。 # 2.3.4 超越“人在回路” 然而，将研究过程的重构仅仅理解为“更强大的AI”和“更聪明的回路”是片面的。最具革命性的变化在于，这些自主的智能体和人类研究者正在被连接成一个前所未有的、分布式的协作研究生态系统。 例如 AgentRxiv 框架的提出，这是一个专为自主研究智能体设计的、模仿 arXiv 的开放式预印本服务器[4]。在这个平台上，任何一个“智能体实验室”完成的研究（例如，一篇由 AI 自主生成的论文），都可以被上传和归档。随后，其他正在进行研究的智能体实验室可以异步地检索和引用这些 AI 生成的文献，将其作为自己新研究的起点。该平台的实证研究显示，拥有协作研究访问权限的智能体在 MATH-500 基准测试中实现了 $13.7\%$ 的相对性能提升。 AgentRxiv将研究过程从传统的、孤立的、线性的模式，转变为一种网络化、累积性和并行化的全新模式。这种设想与更广泛的“开放科学”（Open Science）和“科学自动化”（Automation of Science）的理念不谋而合[1]。它所代表的不仅仅是一个技术平台，更是一种全新的科研组织范式，其核心特征包括： - 网络化（Networked）：研究不再局限于单个研究者或团队的内部循环，而是变成了一个由众多人类和 AI 节点组成的、相互连接的知识网络。 - 累积性（Cumulative）：知识的增长是累积性的。一个智能体的发现可以被另一个智能体继承和发展，实现了跨越时空的知识传递和叠加，这正是科学进步的本质。 - 并行化（Parallelized）：多个智能体实验室可以同时对同一个或不同的研究问题展开探索，极大地提升了研究的广度和效率，实现了真正意义上的大规模并行科研。 这个生态系统彻底超越了简单的“人在回路”模型。在“人在回路”中，人是操作者和监督者，与一个AI进行点对点的互动。而在AgentRxiv所代表的生态系统中，人是整个生态系统的架构师、管理者和价值引领者。 # 2.3.5 人类研究者的转型 在这个新兴的研究生态系统中，人类研究者的价值非但没有被削弱，其核心地位反而得到了重塑与凸显。繁琐的、劳动密集型的研究任务被大规模地自动化，使得研究者能够将精力聚焦于那些机器无法替代的核心智力活动上。最新的教育研究表明，人机协同的混合智能学习环境正在重新定义教师和学生的角色[2]，这种协同模式在研究领域同样适用。 学术洞见与创新能力根植于研究者深厚的理论根基和敏锐的问题意识，人工智能技术则作为一种认知增强工具，用以放大和拓展这种智慧的边界。在此人机交互过程中，研究者必须调用其学科专业知识与实践智慧，对AI生成的多元可能性进行批判性甄别与审思，并做出最终的研究抉择。具体而言，研究者的主体性和专业判断力将更加聚焦于以下几个方面： - 战略方向设定：确定研究的宏大愿景和关键问题，为整个AI研究生态系统设定探索的方向。 - 批判性验证与反馈：对 AI 生成的假说、实验设计、数据分析和结论进行严格的批判性审查，提供高质量的反馈，引导 AI 系统的迭代和优化。这正是早期研究中强调的“人在回路”的精髓所在，即通过人类反馈实现模型行为与人类意图和价值观的对齐。 - 跨领域知识整合：利用人类独特的创造性联想能力，将不同 AI 实验室在不同领域取得的突破进行整合，形成更宏大、更具原创性的理论框架。 - 伦理与价值守护：确保整个研究生态系统的运行符合学术伦理和人类社会的共同价值观，防止 AI 产生和放大偏见，并对其社会影响负责。 - 人文关怀与情境理解：在教育研究这一具有深厚人文内涵的领域，人类研究者的情感智能、伦理判断和价值关怀仍然是不可替代的[1]。 总而言之，研究过程的重构，其终极图景并非一个由AI主导的全自动“知识工厂”，而是一个充满活力的、人机共生的社会-技术基础设施。在这个基础设施中，AI的计算能力和人的批判性智慧深度融合，研究过程本身从一系列孤立的步骤，转变为一个持续演化、自我完善的生态系统。这或许是AI4S为教育研究带来的最深刻、最 激动人心的变革。 # 第3章AI辅助的教育质性研究 质性研究在揭示教育实践的复杂机制、理解学习者经验与教育情境中的意义建构方面具有不可替代的作用，然而，传统教育质性研究长期面临着效率低下、主观性强、一致性难以保证等挑战[1]，特别是在面对日益增长的教育大数据时，传统的手动编码和解释方法显得力不从心[2]。 长期以来，受限于早期AI技术在语言理解、情境感知和意义阐释等方面的能力不足，人工智能始终难以真正介入这一高度依赖人类认知的研究领域。然而，以GPT、Claude、Gemini等为代表的大语言模型在语言理解和生成能力上实现了质的飞跃[3][4]，使其具备了深度参与质性研究的技术条件[5]。大语言模型在自动编码、主题识别、多模态信息整合等方面的卓越表现，为提升研究效率、增强分析一致性、减少主观偏差提供了新的技术路径[6]。 本章旨在深入剖析大语言模型的技术特性及其在质性研究各流程中的适用性，结合课堂互动分析、学习体验评估、教育政策研究等典型应用场景的具体案例，力图为教育研究者提供关于大语言模型辅助质性研究的系统性理论框架和实践指导。 # 3.1 基于AI的教育质性研究流程 教育质性研究正面临着数据规模增长与分析复杂度提升的挑战。随着在线教育平台、数字化学习环境的普及，研究者需要处理的文本数据呈指数级增长，传统的人工编码分析方法已难以应对这一现 实。与此同时，教育场景中的多元化表达、隐性知识传递、情感互动等现象要求研究工具具备更强的语义理解和推理能力。 大语言模型的出现为解决这些挑战提供了新的可能性。相关研究表明，大语言模型在主题识别、情感分析、意图理解等方面展现出显著优势[1][2][3]，特别是在处理教育语境中的复杂表达和多层次意义方面表现突出。例如，GPT-4在分析日本医疗领域的半结构化访谈数据时，能够识别出与人类研究者相似的主题，并处理具有文化敏感性的概念[4]。这表明：研究者理论上可以应用模型的这种能力处理质性材料，在计算能力的加持下，快速、准确地分析材料中反映的价值取向、情感态度与意义建构倾向，从而减少研究者很多重复劳动的麻烦。 然而，大语言模型的技术特性与质性研究的认识论基础之间的契合程度仍需深入考察。正如Gillen[5]与Christou[6]所指出的，AI在质性研究中的应用应主要限定于前期的数据清洗、辅助编码和文献管理等技术性环节，其在理论阐释、意义建构以及伦理敏感型研究中的能力边界尚不明确。基本共识在于，质性研究强调的主观性、情境性和意义建构等核心理念，与AI模型基于概率计算的运作机制之间存在着本质差异。因此，尽管大语言模型为质性研究带来了方法论创新的机遇，也出现了关于研究有效性、可信度以及伦理规范的新争议。 基于上述考虑，本节将深入探讨大语言模型技术特性与教育质 [1] De Paoli S. Performing an inductive thematic analysis of semi-structured interviews with a large language model: An exploration and provocation on the limits of the approach[J]. Social Science Computer Review, 2024, 42(4): 997-1019. [2] Koch M A. Turning chaos into meaning: A chat GPT-Assisted exploration of COVID-19 narratives[D]. Enschede: University of Twente, 2023. [3] Törnberg P. ChatGPT-4 outperforms experts and crowd workers in annotating political Twitter messages with zero-shot learning[EB/OL]. (2023-04-12)[2025-10-21]. https://arxiv.org/abs/2304.06588 [4] Sakaguchi K, Sakama R, Watari T. Evaluating ChatGPT in Qualitative Thematic Analysis With Human Researchers in the Japanese Clinical Context and Its Cultural Interpretation Challenges: Comparative Qualitative Study[J]. Journal of Medical Internet Research, 2025, 27: e71521. [5] Gillen A L. Can we trust AI in qualitative research[EB/OL]. (2024-05-16)[2025-10-21]. https://www.insidehighered.com/opinion/viewes/2024/10/09/can-we-trust-ai-qualitative-research-opinion [6] Christou P A. Reliability and validity in qualitative research revisited and the role of AI[J]. The Qualitative Report, 2025, 30(3): 3306-3314. 性研究的理论兼容性，并系统阐述其在研究实践各环节中的应用机制，为构建科学合理的 AI 辅助质性研究方法论提供理论支撑。 # 3.1.1大语言模型对于教育质性研究的适用性 当前关于大语言模型在质性研究中应用的相关研究[1][2]，主要体现在利用世界知识理解复杂语境、借助心理理论深化材料理解、通过非结构化数据分析提供深层洞见、多模态数据融合分析、数据增强丰富研究视角等五个核心维度，如图3-1所示。 图3-1大语言模型对于教育质性研究的适用性 # （1）利用世界知识理解复杂语境 质性研究的核心在于深入理解参与者的主观经验和行为意义，而这种理解的有效性很大程度上建立在研究者对其所处社会文化语境的准确把握之上。然而在实践中，研究者主要依靠长期的田野工作来浸入、观察并逐步理解与推断这些复杂的语境信息，但这种传统方式往往面临困境：一方面，深度的田野调查耗时较长，数据积累效率有限；另一方面，语境的识别和诠释容易受到研究者个人知识结构、学科背景和经验视野的制约，难以实现对多元语境要素的全面捕捉。 大语言模型通过大规模预训练获得了丰富的世界知识（World Knowledge），可以将其作为辅助性的语境理解工具，提供了新的解 决路径。世界知识，是指关于客观世界中实体、事件、关系及其运作规律的结构化认知，涵盖社会常识、文化规范、专业领域知识、历史背景等多个维度。从理论上看，世界知识能够为语境理解提供多层次的参照框架：一方面，它包含了不同文化群体的符号系统和意义体系，有助于研究者识别特定话语背后的文化逻辑。质性研究强调文化敏感性和伦理考量，要求研究者充分尊重参与者的文化背景和价值观念[1]。当研究者分析访谈文本或观察记录时，模型可以识别其中的文化符号、专业术语和隐含概念，帮助研究者快速理解参与者话语的深层含义[2]。例如，在分析东亚文化背景下的课堂沉默现象时，模型能够提供关于集体主义文化、师生等级关系等相关知识，帮助研究者从文化内部视角理解这一行为的真实意义。 另一方面，它整合了跨学科的概念网络，能够弥补单一研究者知识结构的盲点。正如达令·哈蒙德（Darling-Hammond）等人[3]所指出，随着关于人类发展和学习方式的知识迅速增长，教育研究需要利用涵盖神经科学、心理学、社会学、学习科学等多领域的知识引入教育现象的分析中。大语言模型这种理论整合能力有助于研究者构建更丰富的分析框架，深化对复杂教育现象的理解，符合质性研究追求整体性和深度性的方法论要求[4]。 综上所述，大语言模型凭借其丰富的世界知识，帮助研究者突破个人知识与文化视角的局限，实现对教育现象更全面、深入的诠释。 # （2）借助心理理论深化材料理解 质性研究的本质在于探索个体的主观体验、感受和意义建构过程，这要求研究者能够深入参与者的内心世界，理解其行为背后的 [1]陈向东,卢淑怡,易乐湘.文化冲突:大语言模型教育应用中的张力与调适[J].远程教育杂志,2025,43(03):3-15+43. [2] Kalla D, Smith N, Kuraku S, et al. Study and analysis of Chat GPT and its impact on different fields of study[J]. International Journal of Innovative Science and Research Technology, 2023,(3):827-833. [3] Darling-Hammond L, Flock L, Cook-Harvey C, et al. Implications for educational practice of the science of learning and development[J]. Applied developmental science, 2020, 24(2): 97-140. [4] Rossman G B, Rallis S F. Learning in the field: An introduction to qualitative research(third edition)[M]. Thousand Oaks, CA: SAGE, 2012. 信念、动机和情感状态。心理理论（Theory of Mind, ToM）作为认知科学的重要概念，为研究者提供了理解他人心理状态的理论框架。在教育质性研究中，心理理论的应用帮助研究者超越表面行为，深入探究学习者、教师以及其他教育参与者的内在认知过程和情感体验。 大语言模型在心理理论测试中展现出的卓越表现为质性分析提供了技术支撑。例如，GPT-4在 $93\%$ 的心理理论任务中表现出色，能够有效推理他人在特定场景下的心理状态，包括错误信念推理和意图识别等复杂认知任务[1]。基于这种能力，大语言模型在处理教育质性材料时展现出独特的优势： 首先，推理话语中的隐含心理状态。例如，当一位教师说“我觉得学生们应该能理解这个概念”时，大语言模型不仅能识别出教师对学生能力的信念，还能推断其中可能包含的教学期待、对课程难度的评估，以及潜在的焦虑或自信情绪。已有研究借鉴这方面的技术优势，设计了群体感知工具，为支持协作学习（CSCL）环境下的情感识别与调节[2]。该类工具借助大语言模型分析学习者互动中的情绪变化，生成情感报告，以支持师生及时感知并调节群体情绪与协作状态。这种多层次的心理推理为研究者提供了更深入的理解视角，帮助其把握参与者真实的认知框架和情感状态。 其次，解析象征性语言的深层意义。在教育实践情境中，教师与学生在表达复杂的学习体验和教学感受时，常常借助隐喻、类比等象征性语言。这些修辞手段反映了不同的主体对教育现象的认知结构和意义赋予方式。Prystawski 等人的研究证实了 GPT-3 在隐喻理解方面的有效性，这意味着模型能够识别隐喻背后的概念映射关 系，解析其承载的情感色彩和价值判断[1]。当学生将学习比作“攀登高峰”“航海探险”时，模型能够理解这些隐喻所暗示的挑战感、成就动机或不确定性体验。这种解析能力帮助研究者捕捉到参与者难以用直白语言表达的微妙心理状态，丰富了对教育体验的理解维度。 第三，揭示互动关系中的心理动力机制。教育现象往往涉及多个参与者之间的复杂互动，每个人都基于自己对他人心理状态的理解来调整行为策略，形成动态的心理博弈过程。大语言模型能够模拟这种多层次的心理推理——不仅理解“A如何想”，还能分析“A认为B如何想”以及“A如何基于对B的理解来行动”。在实践层面，有研究者利用大语言模型模拟校长、家长、学生等不同角色，深入探讨各方对教育议题的不同观点和利益诉求[2]，这种模拟分析揭示了不同角色之间的权力关系、合作模式和心理互动机制。 实际上，质性研究中的意义建构过程本身就体现了心理理论的深度应用。参与者在叙述自己的经历时，不仅在描述事实，更在解释自己和他人的行为动机，表达对情境的理解和评价。这些叙述实质上是参与者运用心理理论对经验进行的意义编码。大语言模型能够识别这些叙述中的因果推理链条、归因模式以及隐含的价值判断，帮助研究者理解参与者如何构建自己对教育经历的意义理解。这种深度的心理分析为质性研究提供了更丰富的理论建构基础，使研究者能够更全面地把握教育现象的复杂性和深层机制。 # （3）通过非结构化数据分析提供深层洞见 教育领域产生的大量文本数据——访谈记录、学习日志、开放式问卷回答、课堂讨论记录等构成了丰富的非结构化质性材料。这些自由表达的数据承载着参与者的真实语言和观点，蕴含着复杂的认 知、情感和社会互动模式。传统的人工细读和编码方式虽然能够深入挖掘文本内涵，但面对海量数据时往往效率低下且难以维持编码一致性。 大语言模型为非结构化数据分析开辟了新路径。BERT、GPT等模型具备自动学习文本高维语义特征的能力，能够捕捉词语顺序关系和上下文语义，这种深度语义理解为识别歧义编码、进行主题挖掘和概念提取等分析任务提供了技术基础[1][2]。具体而言，大语言模型在处理教育质性数据时展现出三个层面的分析优势： 第一，高效处理海量文本并保持分析一致性。质性研究项目常常积累数十乃至上百份访谈记录、数千条学习日志，人工逐一细读和编码不仅耗时巨大，还面临“编码漂移”问题，即研究者在不同时间对相同内容的理解可能发生微妙变化，导致编码标准前后不一致。大语言模型能够同时处理大量文本，在统一的语义框架下进行分析，有效避免了人工编码中的时间效应和疲劳效应。更重要的是，模型的分析逻辑是可追溯和可复现的。研究者可以通过相同的提示词和参数设置对数据进行反复分析，确保分析标准的稳定性。例如，思维链提示能引导模型“逐步说明分析逻辑，先识别关键词，再生成编码理由，最后给出标签”这一结构，使分析过程透明且复现。与此同时，模型还能够发现人工编码可能遗漏的潜在模式——例如，某些词汇共现关系、跨文本的主题呼应、或是微妙的语气变化趋势。这种“弱信号分析”能力为研究者提供了全局性的数据图景，帮助其在深入细读前建立整体认知框架。 第二，消解语义模糊，准确把握复杂表达意图。教育情境中的参与者往往使用非正式语言、方言表达、口语化句式或隐喻性描述来表达复杂的学习体验，这些表达方式增加了理解难度。例如，一 位学生可能说“那个知识点就是不进脑子”，这种口语化表述包含了认知困难、挫败感和对学习过程的隐喻性理解。大语言模型能够基于广泛的语言知识和上下文信息，识别出这类表述背后的多重含义[1]。因此，大语言模型尤为擅长处理表述不完整、逻辑跳跃或前后矛盾的文本片段。在口语化的访谈记录中，参与者常常出现话语中断、重新组织语言或补充说明的情况，这些不流畅的表达蕴含着丰富的心理活动信息。模型通过上下文推理能够重构完整的语义，减少因表述欠清晰而产生的理解偏差，帮助研究者更准确地把握参与者的真实意图和感受，避免因字面理解造成的意义遗失。 第三，挖掘深层模式，揭示隐含意义结构。超越表层语义的分析是质性研究达到理论深度的关键。大语言模型在识别文本中隐含模式和深层主题方面的能力为教育研究提供了新的分析维度。以文学分析领域为例，RoBERTa 模型能够分析诗歌中的象征性手法，如隐喻和暗喻，其分析结果与专业文学评论家相近[2]。这种能力在教育文本分析中同样适用：模型能够识别学习者表达中的隐喻（如“学习是一场战斗”）、象征（如“黑暗隧道”代表困难时期）和情感色彩（挫败、兴奋、焦虑等），揭示其深层的学习体验和认知状态。 通过将模型的计算效率与研究者的情境判断相结合，非结构化数据的分析能够在保持传统质性研究深度解释的优势之上，获得了应对大规模非结构化材料的处理能力。随着大语言模型在对话交互和语用知识学习方面的持续改进，其理解复杂文本语义的能力将不断提升，为深入探索教育现象的多层次含义提供更强大的技术支撑。 # （4）多模态数据融合分析 传统的质性研究方法对多模态的质性材料通常采用分离处理的 思路：视频记录交给行为分析、话语转录交给话语分析、教学材料交给内容分析，这些工作在早期的分析阶段通常是独立进行的。这种分析方式相对割裂，难以整体上捕捉不同模态之间的动态关联和相互影响，可能遗失掉发生在模态交汇处的关键意义。 多模态大模型的跨模态理解能力为解决这一挑战提供了技术基础[1]。模型能够同时处理文本、图像、音频等不同类型的数据，并建立它们之间的语义关联。因此，在教育质性研究中，多模态大模型的分析优势并非局限于信息处理效率，而体现在语义、结构与模式三个层面的融合性理解上。 在语义层面，模型能够建立跨模态的语义关联，揭示语言、手势、表情等多种符号系统的协同机制。教育情境中的意义传达往往不是单一模态的产物，而是多种模态协同作用的结果。当教师在课堂上使用手势配合语言说明时，手势不仅是语言的“装饰”，而是承载着独立或互补的语义信息[2]。例如，教师在讲解“函数”时，可能用上扬的手势配合“上升”这一词语，也可能在说“保持不变”时用水平手势强化语义。多模态大模型能够分析手势动作与语言内容之间的语义一致性、互补性或矛盾性，理解这种多模态表达如何共同构建教学意义。除此之外，模型能够识别跨模态的语义错配现象。当教师的语言表达与面部表情、语调或肢体语言出现不一致时（如口头鼓励但面露失望），这种错配往往传递着复杂的社会性信息或情感状态。模型对这类跨模态关系的敏感性帮助研究者捕捉到单一模态分析中容易忽视的微妙互动，为理解师生交往的真实性和复杂性提供了更立体的分析视角。 在结构层面，模型能整合分散的信息片段，构建反映参与者认知与情感投入的整体图景。基于跨模态关联能力，模型进一步展现 出数据整合处理的优势。原本分散的信息片段能够被融合为统一的语义表示，使研究者能够从整体角度理解参与者的表达和行为。以小组协作学习场景为例，学生在讨论中的言语表达、肢体动作、面部表情和使用的学习材料不再是孤立的数据点，而是形成了反映其完整参与模式和认知投入程度的有机整体。这种整合能力使研究者能够重构参与者的学习过程。例如，当学生用手比划一个圆形的同时说“这个概念很完整”，模型能够识别出手势与语言共同指向“完整性”这一抽象概念的具体表达。通过追踪这些多模态表达在时间序列上的演变，可为理解学习的发生机制提供过程性证据。 在模式层面，模型可识别跨模态表达的深层规律，揭示学习与互动的隐含机制。在语义理解的深层层面，模型能够把握视觉元素、听觉信息和文本内容在特定语境中的综合含义，识别它们之间的隐含关系和深层结构。这种理解能够深入到意义的建构过程中，帮助研究者理解参与者如何通过多种渠道同时传达复杂的想法和感受。例如，Whitehead等人[1]利用多模态大语言模型对课堂视频进行姿态与行为分析，发现模型能够在统一语义框架下识别教师与学习者的非言语即时性模式，从而揭示协作学习过程中的潜在互动规律。总体而言，这些跨模态模式的识别可以为教育理论的构建提供实证基础，也为教学实践提供可观察的行为指标。 通过这些技术能力的综合运用，研究者不再需要将复杂的教育现象人为分解为单一模态的数据片段，而是可以保持其整体性和动态性。这种转变使质性研究能够更真实地反映教育现象的复杂性，呼应了具身认知理论和情境学习理论对学习整体性的强调。 # （5）数据增强丰富研究视角 教育质性研究经常面临数据获取的现实限制。某些敏感话题（如学业压力、师生冲突等）的研究受到严格的伦理审查限制，研 究者难以获得充足的第一手资料。这些限制不仅影响研究的代表性，也可能导致理论建构过程中出现视角限制，某些边缘化群体的声音、非主流的教育体验、或隐蔽的教育机制可能因数据缺失而无法进入分析视野。目前，一些质性研究通常通过多样化现有数据来扩展研究视野，其在质性研究中展现出三个层面的增强优势： 首先，语义保持下的表达多样化，发现隐含概念结构。在文本数据处理中，大语言模型能够通过同义词替换、句子重构、语言风格调整等方式，生成语义相近但表达形式不同的文本变体。这种技术手段的价值不仅在于创造出更多数据，更在于帮助研究者发现隐藏在不同表达方式背后的共同主题和概念，减少因表达习惯差异而产生的理解偏差。具体而言，研究者可以使用少量高质量的访谈记录或观察笔记作为种子数据，引导模型学习其中的表达模式和语义特征，进而生成语义一致但形式略有差异的新文本[1]。例如，当一位学生说“老师讲得太快，我跟不上”，模型可能生成变体如“授课节奏超出了我的理解速度”“感觉课堂进度和我的接受能力不匹配”等。这些变体虽然表述不同，但都指向同一个核心概念——学习节奏失配。通过分析这些变体，研究者能够识别出概念的核心语义结构（教学节奏与学习能力的关系），而不被特定的表达方式所局限。更重要的是，这种生成过程不是简单的复制或模仿，而是在保持原始语义内核的基础上，探索不同的表达可能性。当研究者的种子数据主要来自某一特定群体（如城市学生）时，模型生成的变体可能呈现出不同社会阶层、年龄段或表达习惯的话语特征，提醒研究者注意到原始数据中可能存在的表达单一性，从而在后续数据收集中有意识地补充多元视角。 第二，跨语言跨文化视角扩展，揭示意义的文化境遇性。基于DeBERTa等模型的增强方法进一步展现了跨语言和跨文化的应用潜 力。通过回译技术（将文本翻译成另一种语言再翻译回来）和重述增强，模型能够生成多语言版本的研究材料，帮助研究者理解同一教育现象在不同文化背景下的表达差异[1]。这种跨语言的数据增强为比较教育研究和多元文化教育研究提供了新的分析工具。研究者可以将中国学生关于“学习压力”的访谈文本进行多语言增强，对比其在英语、日语、芬兰语等文化语境中的表达变化，从而识别出哪些压力来源是跨文化普遍的（如考试焦虑），哪些是文化特定的（如对家庭期待的回应）。这种分析使研究者能够超越单一语言和文化的局限性，构建更具跨文化适用性的理论框架。 第三，基于多任务学习的质量深化，提升理论建构能力。多任务学习框架的引入使数据增强具备了更强的理论建构能力。通过将相关的分析任务整合到同一个模型中进行联合训练——例如同时进行情感分析、主题提取、因果关系识别和修辞策略识别——模型能够从不同任务中学习更广泛和深入的特征表示[2]。这种学习方式的优势在于，增强后的数据不仅在数量上得到扩充，在质量和理论深度上也得到提升。传统的单任务增强可能只是生成更多“相似”的文本，而多任务学习框架下的增强能够生成多维度丰富的文本。更深层次地，这种多任务增强帮助研究者发现变量之间的潜在关联。当模型在生成过程中自然地将“高学业压力”与“低自我效能感”“回避型应对策略”关联在一起时，这种关联模式本身就构成了值得深入探究的理论假设。研究者可以基于这些生成文本中的关联模式，返回原始数据进行验证性编码，或在后续研究中有针对性地收集数据，形成“增强—发现—验证”的迭代研究循环。这为质性研究的理论发现提供了更坚实的数据基础和更清晰的概念网络。 数据增强技术的应用改变了质性研究中数据稀缺问题的传统解决思路。研究者不再完全依赖于扩大样本规模或延长研究周期，而是可以通过技术手段深度挖掘现有数据的潜在价值。这种方法论转变使质性研究能够更灵活地应对各种实际约束，同时保持研究的深度和理论价值，为处理复杂教育现象提供了更强的分析能力。 综合以上分析，大语言模型对教育质性研究的适用性主要体现在以上五个维度。这些维度从理解、分析到建构，为质性研究提供了系统性的技术支撑，既保持了质性研究对语境敏感性、意义建构和深度理解的传统优势，又为应对当代教育现象的复杂性和研究方法的创新需求提供了新的可能性，推动教育质性研究朝着更加精细化和理论化的方向发展。 # 3.1.2 大语言模型在教育质性研究中的应用 教育质性研究强调情境理解、意义建构和理论生成，其过程具有迭代性、涌现性和非线性特征。通过梳理扎根理论、现象学研究、叙事研究等主流质性研究方法论，可将大语言模型辅助的教育质性研究过程概括为四个相互关联、循环递进的核心环节：研究设计与理论准备、数据收集与参与者交互、深度数据分析与模式识别，以及研究成果的展示、验证与交互。已有研究表明，大语言模型凭借其强大的语言理解、知识整合和模式识别能力，能够在各环节提供智能化支持，在保持质性研究开放性和灵活性的前提下，实现研究效率与深度的双重提升，并可能催生新的方法论创新（见图3-2）[1]。 图3-2大语言模型在质性研究不同阶段的应用 同时，大语言模型在教育研究中可承担多重角色：既可作为研究辅助工具协助文献分析与问题生成，也可作为研究对象或数据来源参与理论建构过程。这种多元化的角色定位为教育研究提供了灵活的技术选择与应用策略。以下将详细阐述大语言模型在这四个关键环节中的作用机制与应用策略。 # （1）研究设计与理论准备 研究设计与理论准备构成质性教育研究的前置阶段，其质量直接影响后续数据收集、分析与阐释的科学性与有效性。在传统质性研究中，研究者需要通过大量文献阅读来构建理论框架、识别研究空白、明确研究问题，这一过程不仅耗时费力，而且容易受到研究者知识结构与认知偏见的局限。特别是在教育领域，跨学科文献的复杂性与研究主题的多元化，使得全面、客观的文献综述与精准的问题定位成为重大挑战。大语言模型在文本挖掘、语义分析与知识整合方面的技术优势，为质性研究的前期准备提供了有力支撑。通过智能化的文献检索与主题归纳，大语言模型能够协助研究者快速识别相关理论脉络、梳理研究进展，并在此基础上生成具有针对性的研究问题与理论假设。这种技术辅助不仅提升了理论准备的系统 性与全面性，也为研究者提供了多元化的理论视角与创新性的问题思路，进一步增强了对教育现象的理论敏感性与概念抽象能力。以下将从文献回顾与主题归纳、研究问题与假设生成两个维度，具体探讨大语言模型在质性研究设计阶段的应用策略与方法路径。 # 1）文献回顾与主题归纳 传统文献回顾通常依赖关键词搜索与引用追踪等方法，通过知网、Google Scholar、Web of Science等数据库进行文献检索。然而，这种基于关键词匹配的检索方式存在明显局限性，检索精度与准确度高度依赖特定关键词的存在与否，使得文献回顾过程如同“大海捞针”，难以全面覆盖语义相关但表述不同的文献资源。此外，面对海量文献数据的快速增长，研究者在信息筛选、主题归纳与趋势识别方面面临前所未有的挑战。 近期的研究探索了多种运用大语言模型来解决传统文献回顾的局限性，分别从语义检索系统构建、自动化综述流程设计以及全文分析技术优化等方面进行研究。首先，在语义检索系统构建方面，An等人[1]开发的vitaLITy2系统代表了这一技术路径的典型应用。该系统构建了包含66,692篇论文(1970-2023)的大规模语料库，通过三种语言模型创建文本嵌入，实现了在文本嵌入空间中识别语义相关文献的功能。vitaLITy2的技术架构包含一个新颖的检索增强生成(RAG)框架，支持通过增强提示与大语言模型进行交互，能够对论文集合进行自动化总结。系统提供的聊天界面允许用户执行复杂查询而无需学习新的编程语言，充分利用了大语言模型在大规模训练语料库中获得的知识。该系统的创新在于将传统的基于关键词的检索转换为基于语义理解的智能检索，显著提升了文献发现的准确性与全面性。 其次，在自动化综述流程设计方面，Han等人[2]从系统文献综述 自动化的宏观框架角度出发，深入分析了检索增强生成技术的三个关键过程，即检索、增强和生成，并提出了一个涵盖文献搜索、文献筛选、数据提取和信息综合四个阶段的完整自动化框架。该研究强调RAG技术通过整合大语言模型的生成能力与实时信息检索的精确性，能够有效缓解大语言模型对静态预训练知识依赖所导致的不准确性和幻觉问题。而Agarwal等人[1]则从具体实施策略的角度，通过零样本能力评估探索了任务分解与优化方法。他们将文献综述任务分解为检索和生成两个核心组件，针对检索环节引入了两步搜索策略和基于提示的重新排序机制，使标准化召回率提升至朴素搜索方法的两倍。在生成阶段，研究提出的基于规划的两步方法能够将生成综述中的虚假引用减少 $18 - 26\%$ ，实现更高质量的综述生成。 最后，在全文分析技术优化方面，Brett等人[2]的研究针对科学文献中关键信息往往蕴含在全文内容而非仅限于摘要的特点，构建了专门用于全文检索与信息提取的大语言模型系统。该系统通过生物学相关问题的基准测试，验证了稀疏检索方法能够在无需密集检索及其相关基础设施和复杂性开销的情况下，展现出接近最先进水平的结果。研究强调文档内语句往往需要更广泛的文章上下文才能被完全理解，因此系统设计注重处理完整文档的上下文信息，并演示了如何提高文献综述生成的相关文档覆盖率。 上述研究从不同层面解决了传统文献回顾面临的效率、准确性和全面性挑战。通过语义理解、智能归纳和上下文分析，这些技术为研究者提供了更系统、更客观的文献分析支持，从而为后续的研究问题生成奠定坚实的理论基础。 # 2）假设生成能力与质量评估 研究问题生成的系统性与创新性直接决定质性教育研究的学术 comprehensive overview[J]. Applied Sciences, 2024, 14(19): 9103. [1] Agarwal S, Sahu G, Puri A, et al. LitLLMs, LLMs for literature review: Are we there yet?[EB/OL]. (2024-12-22)[2025-10-21]. https://arxiv.org/abs/2412.15249 [2] Brett D, Myatt A. Patience is all you need! An agentic system for performing scientific literature review[EB/OL]. (2025-04-18)[2025-10-21]. https://arxiv.org/abs/2504.08752 贡献。传统假设生成高度依赖研究者的知识储备与理论敏感性，但面临知识整合能力有限、认知偏见影响、创新思路受限等挑战。随着文献的指数增长，研究者难以全面掌握相关领域最新进展，可能导致重要研究关联的遗漏。大语言模型在假设生成领域的应用研究呈现三个递进层次：能力验证、预测效果和局限反思。 针对假设生成的能力验证，Banker和Chatterjee等人[1]的研究采用了两种方法论路径来评估大语言模型的假设生成质量。第一种方法通过在过去55年超过50个社会心理学期刊发表的数千篇摘要以及预印本存储库(PsyArXiv)上对GPT-3进行微调，社会心理学专家对模型生成和人类生成的假设在清晰度、原创性和影响力维度上给出了相似的评价。第二种方法在未经微调的情况下使用GPT-4生成假设，结果显示社会心理学专家认为这些生成的假设在清晰度、原创性、影响力、合理性和相关性等维度上的质量均高于人类生成的假设。Yang等人[2]进一步推进了这一研究领域，提出了首个用于社会科学学术假设发现的NLP数据集，包含50篇近期顶级社会科学出版物以及包含足够信息的原始网络语料库。该研究开发了一个多模块框架，并设计了三种不同的反馈机制，实证结果显示该框架在GPT-4评估和专家评估中均表现出优越性能，表明大语言模型能够生成文献中不存在的新颖且反映现实的有效科学假设的研究。Park等人[3]的探索性研究同样证实了ChatGPT等大语言模型具备生成科学假设的能力，尽管存在较高的错误率，但生成式AI似乎能够有效结构化大量科学知识并提供有趣且可测试的假设。 在预测准确性方面，研究结果显示了大语言模型在预测研究结果方面的显著潜力。Rosenbusch等人[4]通过测试GPT-3预测社会科 [1] Banker S, Chatterjee P, Mishra H, et al. Machine-assisted social psychology hypothesis generation[J]. American Psychologist, 2024, 79(6): 789. [2] Yang Z, Du X, Li J, et al. Large language models for automated open-domain scientific hypotheses discovery[EB/OL]. (2023-09-05)[2025-10-21]. https://arxiv.org/abs/2309.02726 [3] Park Y J, Kaplan D, Ren Z, et al. Can ChatGPT be used to generate scientific hypotheses?[J]. Journal of Materiom