20260615-东吴证券-金工专题报告_深度学习系列之三_AI因子挖掘的双路径实践与Skill沉淀——从表达式搜索到Agent化研究流程_41页_2mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 金工专题报告总结：AI因子挖掘的双路径实践与Skill沉淀 ## 核心内容概述 本报告围绕AI因子研究中的“搜索能力”与“沉淀能力”展开，提出两条路径：**LLM增强遗传编程**与**函数式因子挖掘**。其核心目标是构建一个可迭代、可复用、可共享的AI因子研究流程，使AI不仅能够生成因子，还能参与因子研究的完整链条，包括提出假设、生成信号、接受评测、吸收反馈和沉淀工具。通过这两条路径，AI因子研究实现了从“AI写因子”到“AI挖因子”的转变，并进一步封装为【东吴金工】选股因子迭代Skill，为量化研究提供了一种系统化的研究框架。 ## 主要观点 ### 1. **LLM增强遗传编程** - **优势**：结合了LLM的金融逻辑推理能力和遗传算法的高效搜索能力，解决了传统遗传编程因子解释性差、LLM因子批量生成能力弱的问题。 - **方法**：LLM从已有因子中提取子表达式基因，用于构建表达式树搜索空间。遗传编程在该空间中进行分岛进化、周期性注入和低相关筛选。 - **结果**： - 全区间|RankIC|均值约为6.98%，测试集|RankIC|均值约为6.93%。 - 全区间|ICIR|均值约为0.79，测试集|ICIR|均值约为0.66。 - 81.6%的因子对内部相关性低于0.70，91.2%低于0.75。 - 相对Alpha158MLP的平均增量IC约为2.53%，说明其在传统因子之外仍具有解释力。 ### 2. **函数式因子挖掘** - **优势**：允许LLM以完整Python函数形式生成因子，能够更精细地刻画交易行为机制。 - **方法**：通过分步骤描述金融假设，生成函数式因子并进行自动评测与反馈，沉淀工具函数。 - **结果**： - 全区间|RankIC|均值约为4.90%，|ICIR|均值约为0.66。 - 内部相关性均值约为0.32，中位数约为0.30。 - 与传统因子的相关性均值约为0.32，中位数约为0.28。 - 相对Alpha158MLP的平均增量IC约为1.67%，说明其提供了更丰富的信息。 ## 关键信息 ### 1. **因子表现** - **LLM增强遗传编程**生成87个因子，表现稳定，且具备一定的解释性。 - **函数式因子**生成80个因子，具备较强的差异化和复杂交易行为刻画能力。 ### 2. **代表因子分析** - **LOWPOS\_SHARPE\_COV**：衡量平滑趋势中的质量动量，IC表现稳定，具有一定的预测能力。 - **CANDLE\_SHADOW\_P3**：捕捉短期情绪过热后的反转信号，IC为负，说明其在情绪释放后可能产生回撤。 - **RECHG\_MINUS\_GAP**：刻画剔除跳空后的量价共振，具有一定的金融逻辑解释，且在样本外表现稳定。 ### 3. **因子研究流程封装** - 【东吴金工】选股因子迭代Skill实现了因子研究流程的自动化，具备可复盘、可继承、可共享的特性。 - Skill以用户提供的数据、字段语义、预测目标和评测口径为核心输入，支持多源数据扩展，包括基本面、分析师预期、事件文本和高频交易行为。 ## 风险提示 1. **模型失效风险**：因子在历史数据中表现良好，但市场环境变化可能导致因子失效。 2. **过拟合风险**：自动化生成因子可能在历史样本中偶然有效，需关注泛化能力。 3. **极端行情风险**：在流动性危机或政策冲击等极端环境下，因子可能无法及时识别风险。 4. **数据质量与评测口径风险**：数据缺失、异常或评测方式设定差异可能影响因子表现。 5. **LLM生成风险**：因子逻辑、代码和工具函数可能存在偏差，需人工复核。 6. **交易成本与流动性风险**：实际交易中可能因成本和流动性问题导致收益衰减。 ## 结构与流程 ### 1. **LLM增强遗传编程流程** - **输入**：初始高质量因子和基础算子。 - **过程**： - LLM提取子表达式基因。 - 分岛遗传编程进行搜索和进化。 - 周期性注入新因子，提升搜索多样性。 - 通过测试集表现和相关性筛选因子。 - **输出**：87个候选因子，具备一定的金融逻辑和稳定性。 ### 2. **函数式因子挖掘流程** - **输入**：用户提供的数据和评测目标。 - **过程**： - LLM直接生成可运行的Pandas/Numpy因子函数。 - 自动执行评测，记录反馈。 - 沉淀工具函数，形成可复用研究组件。 - **输出**：80个函数式因子，具备较强的解释性和灵活性。 ## 实证表现 - **LLM增强遗传编程**：因子表现稳定，具备一定的预测能力，且在样本外衰减较小。 - **函数式因子**：IC表现中等，但具备较强的差异化，且在传统因子之外提供额外信息。 ## 总结与展望 ### 1. **两条路线的共同结论** - 两者均有效提升因子挖掘的广度和深度，避免了传统方法的局限性。 - LLM增强遗传编程注重表达式的可解释性，而函数式因子挖掘注重代码的可复用性和灵活性。 ### 2. **未来方向** - 将因子研究流程进一步产品化，形成可共享、可继承、可复用的Skill。 - 未来可扩展至基本面、分析师预期、事件文本、高频数据或多源融合数据，构建更全面的因子研究系统。 ### 3. **研究意义** - 本文实现了从“AI写因子”到“AI挖因子”的转变，推动因子研究进入自动化、系统化阶段。 - 为量化投资提供了一种新的范式，即通过AI构建一个能够记忆历史、复用工具、吸收反馈并持续改进的研究系统。