20260616-广发证券-_广发金工_构建全自动的因子挖掘AI智能体_17页_2mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 【广发金工】构建全自动的因子挖掘AI智能体总结 ## 核心内容 本文由广发证券金工团队安宁宁、陈原文及林涛共同撰写，探讨了一种结合大语言模型（LLM）与智能体的全自动因子挖掘框架——CogAlpha。该框架旨在通过智能体与LLM的协同，实现可解释、稳健且多样化的Alpha因子挖掘，解决传统因子挖掘方法在效率、逻辑性与多样性方面的不足。 ## 主要观点 - **因子挖掘的挑战**：传统因子挖掘方法存在效率低、缺乏金融逻辑引导以及因子同质化等问题，而机器学习和深度学习方法虽具备强大的拟合能力，但其黑箱属性限制了可解释性。 - **CogAlpha框架**：基于LLM驱动的因子代码生成与进化，引入七级智能体架构，实现因子生成、评估、进化全过程自动化，无需人工干预。 - **智能体设计**：每个智能体专注于特定的金融分析视角，从宏观到微观、从抽象到具体，确保因子搜索空间的广泛性和逻辑多样性。 - **多样化提示词**：通过五种改写模式，提高LLM生成因子的多样性与表达方式的丰富性，防止陷入固定的表达套路。 - **质量检查机制**：由四个智能体组成的质量检查器，对因子代码进行语法、逻辑、经济可解释性等多维度评估，确保因子质量。 - **思维进化策略**：通过突变和交叉操作，结合LLM的自然语言提示，实现因子的自然演化，增强模型的灵活性和复杂性。 - **未来信息泄漏检测**：通过时序截断与重算对比，确保因子不使用未来信息，提高因子的可靠性。 ## 关键信息 ### 七级智能体架构 CogAlpha框架的核心是一个七级智能体架构，共包含21个专用智能体，分别专注于不同的金融分析方向，如下： | Level | Category | Sub-category | |-------|----------|--------------| | Level I | Market Structure & Cycle | AgentMarketCycle, AgentVolatilityRegime | | Level II | Extreme Risk & Fragility | AgentTailRisk, AgentCrashPredictor | | Level III | Price–Volume Dynamics | AgentLiquidity, AgentOrderImbalance, AgentPriceVolumeCoherence, AgentVolumeStructure | | Level IV | Price–Volatility Behavior | AgentDailyTrend, AgentReversal, AgentRangeVol, AgentLagResponse, AgentVolAsymmetry | | Level V | Multi-Scale Complexity | AgentDrawdown, AgentFractal | | Level VI | Stability & Regime-Gating | AgentRegimeGating, AgentStability | | Level VII | Geometric & Fusion | AgentBarShape, AgentCreative, AgentComposite, AgentHerding | ### 多样化生成提示词 为了提高因子生成的多样性，设计了五种改写模式，分别对应不同的模型温度参数范围： - **轻度模式**：最小词句调整，作为基线对比。 - **中度模式**：自然措辞重新组织，保持逻辑一致。 - **创意模式**：增加研究性深度描述，激发不同推理路径。 - **发散模式**：转向相近但不同的分析视角，拓宽搜索范围。 - **具象模式**：将抽象逻辑转化为具体可执行的Python代码。 ### 多智能体质量检查器 由四个智能体组成的质量检查器，负责因子代码的多维度审核： 1. **代码质量检测智能体**：静态扫描，检查语法错误与未来信息。 2. **代码修复智能体**：根据报错信息自动修复错误代码。 3. **评估智能体**：语义评估，确保逻辑与代码一致、技术正确、经济可解释。 4. **逻辑提升智能体**：对逻辑薄弱因子进行简化或重构，提升可读性与可解释性。 ### 评估指标 采用以下四个指标综合评估因子质量： - **IC**：因子与未来收益的线性相关性。 - **RankIC**：因子与未来收益的排序相关性。 - **ICIR**：因子的稳定性。 - **RankICIR**：因子的排序稳定性。 根据综合得分，因子被分为**无效、合格、精英**三类，合格因子进入父代池，精英因子被永久保存。 ### 思维进化 - **突变**：通过LLM对因子代码进行改进，如调整窗口大小、添加非线性变换等。 - **交叉**：融合两个因子的核心逻辑，生成新的因子。 - **交叉后突变**：先交叉再突变，以增加因子多样性。 ### 实证分析 - **模型使用**：DeepSeek-v4-pro 和 Qwen3-VL-235B。 - **因子表现**： - DeepSeek-v4-pro生成因子IC均值为2.15%，Rank IC均值为2.15%。 - Qwen3-VL-235B生成因子IC均值为2.95%，Rank IC均值为2.95%。 - **因子数量**： - DeepSeek-v4-pro生成136个因子。 - Qwen3-VL-235B生成66个因子。 - **因子相关性**： - DeepSeek-v4-pro与Qwen3-VL-235B之间因子相关性平均为0.80。 - 部分因子在两个模型间解释度低于0.1，具有较高的独立性。 ### 因子历史表现 - **DeepSeek-v4-pro**：其最优因子的Rank IC在2024年2月达到0.7，但在其他时间段波动较大。 - **Qwen3-VL-235B**：其最优因子的Rank IC在2024年5月达到0.4，表现较为稳定。 ## 风险提示 1. **历史数据依赖**：模型基于历史数据统计、建模和测算，可能在市场政策或环境变化时失效。 2. **市场结构变化**：模型在市场结构及交易行为改变时可能失效。 3. **模型差异**：不同量化模型可能得出不同结论，需谨慎对待。 ## 实现流程 1. **初始化与生成**：每个智能体根据专属提示词生成初始因子代码。 2. **评估与筛选**：通过质量检查器与适应度评估，将因子分为无效、合格、精英。 3. **思维进化**：对父代池中的因子进行突变或交叉，生成子代因子。 4. **定期注入新因子**：每两代注入少量新因子以保持多样性。 5. **输出**：完成演化后，系统对收集到的精英因子进行去重，输出最终因子库。 ## 总结 CogAlpha框架通过智能体与大语言模型的协同，实现了因子挖掘的自动化与多样性，为量化投资提供了一种新的思路。尽管在实际应用中存在一定的风险与挑战，但其在因子生成、评估与进化方面的表现，展现了AI在金融领域的巨大潜力。