> **来源:[研报客](https://pc.yanbaoke.cn)** # 金工专题报告总结:AI因子挖掘的双路径实践与Skill沉淀 ## 核心内容 本报告围绕AI因子研究中的“搜索能力”与“沉淀能力”展开,提出了一种结合大语言模型(LLM)与遗传算法(GA)的双路径因子挖掘方法。该方法旨在构建一个可迭代的AI因子研究流程,使AI不仅能够生成因子,还能参与因子研究的完整链条,包括提出假设、生成信号、接受评测、吸收反馈并沉淀工具函数。 ## 主要观点 - **LLM写因子的能力与瓶颈**:LLM具备较强的金融逻辑推理能力,能够对已有因子进行改写、增强和构造。然而,其推理速度较慢,且依赖提示词设计,难以形成稳定、可复用、可持续扩展的因子研究流程。 - **两条路线**: 1. **表达式空间**:通过LLM增强遗传编程,引入金融逻辑和子表达式基因,构建具有解释性的因子搜索空间。 2. **代码空间**:让LLM直接生成可运行的Pandas/Numpy因子函数,并通过历史反馈和工具函数库实现因子的迭代与沉淀。 - **研究目标**:构建可复盘、可继承、可共享的AI因子研究流程,推动因子研究从“AI写因子”走向“AI挖因子”。 ## 关键信息 ### 表达式空间:LLM增强遗传编程 - 通过LLM提取金融逻辑和子表达式基因,构建表达式树搜索空间,结合遗传算法进行分岛进化和低相关筛选。 - 实验结果:87个候选因子,全区间|RankIC|均值为6.98%,测试集|RankIC|均值为6.93%;全区间|ICIR|均值为0.79,测试集|ICIR|均值为0.66。 - 与传统因子的相关性较低,约81.6%的因子对内部相关性低于0.70,约91.2%低于0.75。 - 相对Alpha158MLP的平均增量IC为2.53%,说明该框架挖掘到了传统因子之外的结构信息。 ### 代表因子分析 - **LOWPOS_SHARPE_COV**:衡量日内最低价与收盘价的位置关系及动量强度,捕捉质量动量信号,IC表现稳定。 - **CANDLE_SHADOW_P3**:刻画短期情绪过热后的反转信号,通过EMA强化K线形态,IC表现负,但具有较强增量信息。 - **RETCNG_MINUS_GAP**:剔除跳空影响后的量价拥挤信号,捕捉盘中量价共振,表现稳健,且在2026年仍有效。 ### 函数式因子挖掘 - 生成80个函数式因子,RankIC均值为4.90%,ICIR均值为0.66,因子间相关性较低,约85.5%的因子对相关性低于0.50。 - 相对Alpha158MLP的平均增量IC为1.67%,说明其在基础数据之上加入了路径、状态和条件判断。 - 代表因子包括: - 隔夜-日内修正因子:刻画资金对隔夜情绪的再定价。 - 极值形成过程因子:区分放量追高与恐慌出清的非对称信号。 - 量能体制切换因子:识别同一跳空在不同环境下含义差异。 ### 东吴金工Skill - 将因子挖掘流程封装为【东吴金工】选股因子迭代Skill,实现因子研究的自动化与可复用性。 - Skill支持低频量价数据、基本面数据、分析师预期、事件文本、高频交易行为或多源融合数据。 - 每轮迭代输出分年度和全区间IC/ICIR、IC走势图、因子历史Excel摘要,并沉淀有效逻辑和失败经验。 ## 风险提示 1. **模型失效风险**:历史表现不代表未来收益,市场环境变化可能导致因子失效。 2. **过拟合风险**:自动化生成方法可能挖掘偶然有效的历史模式,泛化能力可能下降。 3. **极端行情风险**:在流动性危机、政策冲击等极端环境下,因子信号可能失效或反向。 4. **数据质量与评测口径风险**:原始数据缺失、异常或收益标签偏差可能影响因子表现。 5. **LLM生成风险**:因子逻辑、代码和工具函数可能存在理解偏差或实现错误。 6. **交易成本与流动性风险**:实际交易中可能面临冲击成本、滑点等问题,侵蚀回测收益。 ## 总结与展望 - 两条路线均表明,LLM与GA的结合提升了因子的可解释性与有效性。 - 表达式路线强调在可控空间中引入金融逻辑,函数式路线则突破固定算子限制,表达复杂交易行为。 - 从报告到Skill的转化,使AI因子研究流程产品化,为团队提供可共享的研究能力。 - 未来可扩展至基本面、分析师预期、事件文本、高频交易行为或多源融合数据。