> **来源:[研报客](https://pc.yanbaoke.cn)** # 金工专题报告总结:AI因子挖掘的双路径实践与Skill沉淀 ## 核心内容概述 本报告围绕AI因子研究中的“搜索能力”与“沉淀能力”展开,提出两条路径:**LLM增强遗传编程**与**函数式因子挖掘**。其核心目标是构建一个可迭代、可复用、可共享的AI因子研究流程,使AI不仅能够生成因子,还能参与因子研究的完整链条,包括提出假设、生成信号、接受评测、吸收反馈和沉淀工具。通过这两条路径,AI因子研究实现了从“AI写因子”到“AI挖因子”的转变,并进一步封装为【东吴金工】选股因子迭代Skill,为量化研究提供了一种系统化的研究框架。 ## 主要观点 ### 1. **LLM增强遗传编程** - **优势**:结合了LLM的金融逻辑推理能力和遗传算法的高效搜索能力,解决了传统遗传编程因子解释性差、LLM因子批量生成能力弱的问题。 - **方法**:LLM从已有因子中提取子表达式基因,用于构建表达式树搜索空间。遗传编程在该空间中进行分岛进化、周期性注入和低相关筛选。 - **结果**: - 全区间|RankIC|均值约为6.98%,测试集|RankIC|均值约为6.93%。 - 全区间|ICIR|均值约为0.79,测试集|ICIR|均值约为0.66。 - 81.6%的因子对内部相关性低于0.70,91.2%低于0.75。 - 相对Alpha158MLP的平均增量IC约为2.53%,说明其在传统因子之外仍具有解释力。 ### 2. **函数式因子挖掘** - **优势**:允许LLM以完整Python函数形式生成因子,能够更精细地刻画交易行为机制。 - **方法**:通过分步骤描述金融假设,生成函数式因子并进行自动评测与反馈,沉淀工具函数。 - **结果**: - 全区间|RankIC|均值约为4.90%,|ICIR|均值约为0.66。 - 内部相关性均值约为0.32,中位数约为0.30。 - 与传统因子的相关性均值约为0.32,中位数约为0.28。 - 相对Alpha158MLP的平均增量IC约为1.67%,说明其提供了更丰富的信息。 ## 关键信息 ### 1. **因子表现** - **LLM增强遗传编程**生成87个因子,表现稳定,且具备一定的解释性。 - **函数式因子**生成80个因子,具备较强的差异化和复杂交易行为刻画能力。 ### 2. **代表因子分析** - **LOWPOS\_SHARPE\_COV**:衡量平滑趋势中的质量动量,IC表现稳定,具有一定的预测能力。 - **CANDLE\_SHADOW\_P3**:捕捉短期情绪过热后的反转信号,IC为负,说明其在情绪释放后可能产生回撤。 - **RECHG\_MINUS\_GAP**:刻画剔除跳空后的量价共振,具有一定的金融逻辑解释,且在样本外表现稳定。 ### 3. **因子研究流程封装** - 【东吴金工】选股因子迭代Skill实现了因子研究流程的自动化,具备可复盘、可继承、可共享的特性。 - Skill以用户提供的数据、字段语义、预测目标和评测口径为核心输入,支持多源数据扩展,包括基本面、分析师预期、事件文本和高频交易行为。 ## 风险提示 1. **模型失效风险**:因子在历史数据中表现良好,但市场环境变化可能导致因子失效。 2. **过拟合风险**:自动化生成因子可能在历史样本中偶然有效,需关注泛化能力。 3. **极端行情风险**:在流动性危机或政策冲击等极端环境下,因子可能无法及时识别风险。 4. **数据质量与评测口径风险**:数据缺失、异常或评测方式设定差异可能影响因子表现。 5. **LLM生成风险**:因子逻辑、代码和工具函数可能存在偏差,需人工复核。 6. **交易成本与流动性风险**:实际交易中可能因成本和流动性问题导致收益衰减。 ## 结构与流程 ### 1. **LLM增强遗传编程流程** - **输入**:初始高质量因子和基础算子。 - **过程**: - LLM提取子表达式基因。 - 分岛遗传编程进行搜索和进化。 - 周期性注入新因子,提升搜索多样性。 - 通过测试集表现和相关性筛选因子。 - **输出**:87个候选因子,具备一定的金融逻辑和稳定性。 ### 2. **函数式因子挖掘流程** - **输入**:用户提供的数据和评测目标。 - **过程**: - LLM直接生成可运行的Pandas/Numpy因子函数。 - 自动执行评测,记录反馈。 - 沉淀工具函数,形成可复用研究组件。 - **输出**:80个函数式因子,具备较强的解释性和灵活性。 ## 实证表现 - **LLM增强遗传编程**:因子表现稳定,具备一定的预测能力,且在样本外衰减较小。 - **函数式因子**:IC表现中等,但具备较强的差异化,且在传统因子之外提供额外信息。 ## 总结与展望 ### 1. **两条路线的共同结论** - 两者均有效提升因子挖掘的广度和深度,避免了传统方法的局限性。 - LLM增强遗传编程注重表达式的可解释性,而函数式因子挖掘注重代码的可复用性和灵活性。 ### 2. **未来方向** - 将因子研究流程进一步产品化,形成可共享、可继承、可复用的Skill。 - 未来可扩展至基本面、分析师预期、事件文本、高频数据或多源融合数据,构建更全面的因子研究系统。 ### 3. **研究意义** - 本文实现了从“AI写因子”到“AI挖因子”的转变,推动因子研究进入自动化、系统化阶段。 - 为量化投资提供了一种新的范式,即通过AI构建一个能够记忆历史、复用工具、吸收反馈并持续改进的研究系统。