> **来源:[研报客](https://pc.yanbaoke.cn)** # 【广发金工】构建全自动的因子挖掘AI智能体总结 ## 核心内容 本文由广发证券金工团队安宁宁、陈原文及林涛共同撰写,探讨了一种结合大语言模型(LLM)与智能体的全自动因子挖掘框架——CogAlpha。该框架旨在通过智能体与LLM的协同,实现可解释、稳健且多样化的Alpha因子挖掘,解决传统因子挖掘方法在效率、逻辑性与多样性方面的不足。 ## 主要观点 - **因子挖掘的挑战**:传统因子挖掘方法存在效率低、缺乏金融逻辑引导以及因子同质化等问题,而机器学习和深度学习方法虽具备强大的拟合能力,但其黑箱属性限制了可解释性。 - **CogAlpha框架**:基于LLM驱动的因子代码生成与进化,引入七级智能体架构,实现因子生成、评估、进化全过程自动化,无需人工干预。 - **智能体设计**:每个智能体专注于特定的金融分析视角,从宏观到微观、从抽象到具体,确保因子搜索空间的广泛性和逻辑多样性。 - **多样化提示词**:通过五种改写模式,提高LLM生成因子的多样性与表达方式的丰富性,防止陷入固定的表达套路。 - **质量检查机制**:由四个智能体组成的质量检查器,对因子代码进行语法、逻辑、经济可解释性等多维度评估,确保因子质量。 - **思维进化策略**:通过突变和交叉操作,结合LLM的自然语言提示,实现因子的自然演化,增强模型的灵活性和复杂性。 - **未来信息泄漏检测**:通过时序截断与重算对比,确保因子不使用未来信息,提高因子的可靠性。 ## 关键信息 ### 七级智能体架构 CogAlpha框架的核心是一个七级智能体架构,共包含21个专用智能体,分别专注于不同的金融分析方向,如下: | Level | Category | Sub-category | |-------|----------|--------------| | Level I | Market Structure & Cycle | AgentMarketCycle, AgentVolatilityRegime | | Level II | Extreme Risk & Fragility | AgentTailRisk, AgentCrashPredictor | | Level III | Price–Volume Dynamics | AgentLiquidity, AgentOrderImbalance, AgentPriceVolumeCoherence, AgentVolumeStructure | | Level IV | Price–Volatility Behavior | AgentDailyTrend, AgentReversal, AgentRangeVol, AgentLagResponse, AgentVolAsymmetry | | Level V | Multi-Scale Complexity | AgentDrawdown, AgentFractal | | Level VI | Stability & Regime-Gating | AgentRegimeGating, AgentStability | | Level VII | Geometric & Fusion | AgentBarShape, AgentCreative, AgentComposite, AgentHerding | ### 多样化生成提示词 为了提高因子生成的多样性,设计了五种改写模式,分别对应不同的模型温度参数范围: - **轻度模式**:最小词句调整,作为基线对比。 - **中度模式**:自然措辞重新组织,保持逻辑一致。 - **创意模式**:增加研究性深度描述,激发不同推理路径。 - **发散模式**:转向相近但不同的分析视角,拓宽搜索范围。 - **具象模式**:将抽象逻辑转化为具体可执行的Python代码。 ### 多智能体质量检查器 由四个智能体组成的质量检查器,负责因子代码的多维度审核: 1. **代码质量检测智能体**:静态扫描,检查语法错误与未来信息。 2. **代码修复智能体**:根据报错信息自动修复错误代码。 3. **评估智能体**:语义评估,确保逻辑与代码一致、技术正确、经济可解释。 4. **逻辑提升智能体**:对逻辑薄弱因子进行简化或重构,提升可读性与可解释性。 ### 评估指标 采用以下四个指标综合评估因子质量: - **IC**:因子与未来收益的线性相关性。 - **RankIC**:因子与未来收益的排序相关性。 - **ICIR**:因子的稳定性。 - **RankICIR**:因子的排序稳定性。 根据综合得分,因子被分为**无效、合格、精英**三类,合格因子进入父代池,精英因子被永久保存。 ### 思维进化 - **突变**:通过LLM对因子代码进行改进,如调整窗口大小、添加非线性变换等。 - **交叉**:融合两个因子的核心逻辑,生成新的因子。 - **交叉后突变**:先交叉再突变,以增加因子多样性。 ### 实证分析 - **模型使用**:DeepSeek-v4-pro 和 Qwen3-VL-235B。 - **因子表现**: - DeepSeek-v4-pro生成因子IC均值为2.15%,Rank IC均值为2.15%。 - Qwen3-VL-235B生成因子IC均值为2.95%,Rank IC均值为2.95%。 - **因子数量**: - DeepSeek-v4-pro生成136个因子。 - Qwen3-VL-235B生成66个因子。 - **因子相关性**: - DeepSeek-v4-pro与Qwen3-VL-235B之间因子相关性平均为0.80。 - 部分因子在两个模型间解释度低于0.1,具有较高的独立性。 ### 因子历史表现 - **DeepSeek-v4-pro**:其最优因子的Rank IC在2024年2月达到0.7,但在其他时间段波动较大。 - **Qwen3-VL-235B**:其最优因子的Rank IC在2024年5月达到0.4,表现较为稳定。 ## 风险提示 1. **历史数据依赖**:模型基于历史数据统计、建模和测算,可能在市场政策或环境变化时失效。 2. **市场结构变化**:模型在市场结构及交易行为改变时可能失效。 3. **模型差异**:不同量化模型可能得出不同结论,需谨慎对待。 ## 实现流程 1. **初始化与生成**:每个智能体根据专属提示词生成初始因子代码。 2. **评估与筛选**:通过质量检查器与适应度评估,将因子分为无效、合格、精英。 3. **思维进化**:对父代池中的因子进行突变或交叉,生成子代因子。 4. **定期注入新因子**:每两代注入少量新因子以保持多样性。 5. **输出**:完成演化后,系统对收集到的精英因子进行去重,输出最终因子库。 ## 总结 CogAlpha框架通过智能体与大语言模型的协同,实现了因子挖掘的自动化与多样性,为量化投资提供了一种新的思路。尽管在实际应用中存在一定的风险与挑战,但其在因子生成、评估与进化方面的表现,展现了AI在金融领域的巨大潜力。