20260407-东方证券-量化研究参考系列之一_QuantaAlpha_用大模型做量化因子挖掘_14页_790kb

> **来源：[研报客](https://pc.yanbaoke.cn)** # QuantaAlpha: 用大模型做量化因子挖掘总结 ## 核心内容 QuantaAlpha 是一项将大语言模型（LLM）与进化算法深度融合的量化因子挖掘框架，由上海财经大学、QuantaAlpha团队、斯坦福大学、北京大学、中山大学、东南大学联合撰写，于2026年2月发表于arXiv预印本平台（编号：arXiv:2602.07085）。该框架旨在破解量化因子挖掘行业长期存在的效率低、逻辑脱节、因子同质化等问题，构建一套从假设生成到因子筛选的全流程自动化系统，实现因子挖掘的白盒化、可溯源化和高效率化。 ## 主要观点 ### 1. 框架设计 QuantaAlpha 模拟量化研究员完整研究流程，构建“提出假设 $\rightarrow$ 构建因子 $\rightarrow$ 回测检验 $\rightarrow$ 迭代优化 $\rightarrow$ 因子池维护”的一体化自动因子挖掘体系。通过多智能体协作机制，实现从投资假设到因子代码的结构化转化与逻辑一致性保障。 ### 2. 技术亮点 - **LLM驱动假设生成**：LLM基于价量背离、波动率、动量等经典维度，生成10个独立且互补的初始假设，避免局部最优与因子拥挤。 - **多智能体协同**：包括Idea Agent、Factor Agent和Evaluation Agent，分别负责假设细化、因子结构化实现与回测评估，确保因子逻辑与代码实现一致。 - **轨迹级进化优化**：LLM主导定向进化，通过精准定位失效环节与逻辑重组，提升因子质量与稳定性。 - **多层筛选机制**：设置RankIC、低冗余、容量三重门槛，确保因子池质量。 ### 3. 与DFQ系统的对比 QuantaAlpha 相较于团队自研的DFQ遗传规划系统，实现了五大核心升级： 1. **初始种群**：从随机生成转向LLM结合金融逻辑生成，提升因子质量与多样性。 2. **进化方式**：从随机试错转向轨迹级逻辑修复与重组，提升迭代效率与逻辑一致性。 3. **进化对象**：从因子公式转向整个研究轨迹，实现经验复用与逻辑继承。 4. **冗余管控**：从单一数值约束升级为结构化去重、复杂度限制与语义校验的多维管控。 5. **可解释性**：从“先公式后逻辑”转向“先逻辑后公式”，显著提升因子的经济含义与可靠性。 ## 关键信息 ### 实证结果 - 在沪深300样本内，QuantaAlpha的IC为15.01%，年化超额收益达27.75%，最大回撤仅7.98%，显著优于Alpha158、AlphaAgent与RD-Agent等基准方法。 - 在中证500与标普500市场中，四年累计超额收益达 $130\% - 160\%$，展现出强大的跨市场泛化能力。 - 复现过程中，使用通义千问 qwen3.5-plus-2026-02-15，挖掘出21个因子，但ICIR偏低、组合波动较大，说明因子挖掘规模尚不足，需进一步优化。 ### 优化方向 为贴合A股市场特性，提出以下优化建议： 1. **拓宽特征维度**：从6类价量数据扩展到融合日内高频数据与基本面数据，对接DFQ成熟70维日频特征体系。 2. **扩充算子库**：增加多参数截面交互、非线性激活、动态条件筛选类算子，适配A股交易规则与波动特征。 3. **补充中性化评估**：引入行业/市值中性化IC作为筛选指标，剥离系统性风格暴露，确保因子具备纯超额收益属性。 ## 风险提示 1. **模型失效风险**：量化模型基于历史数据，未来可能失效，建议投资者持续跟踪模型表现。 2. **极端市场冲击**：在极端市场环境下，模型效果可能受到显著影响，导致收益亏损。 ## 结构清晰总结 ### 1. 文献信息 - **作者**：上海财经大学、QuantaAlpha团队、斯坦福大学、北京大学、中山大学、东南大学 - **发布日期**：2026年2月 - **平台**：arXiv预印本平台 - **论文标题**：《QuantaAlpha: An Evolutionary Framework for LLM-Driven Alpha Mining》 ### 2. 推荐理由 - **创新点**：LLM与进化算法融合，实现因子挖掘全流程自动化与可解释。 - **优势**：破解传统因子挖掘效率低、逻辑脱节、因子拥挤等痛点，提升模型预测能力、收益水平与风险控制。 ### 3. 核心框架 - **流程**：假设生成 $\rightarrow$ 因子构建 $\rightarrow$ 回测检验 $\rightarrow$ 迭代优化 $\rightarrow$ 因子池维护 - **技术实现**：多智能体协作机制 + 符号化表达 + AST转化 + 三重约束机制 ### 4. 亮点分析 - **初始种群**：LLM结合金融逻辑生成，提升因子质量与多样性 - **进化方式**：轨迹级逻辑修复与重组，提升迭代效率 - **进化对象**：完整研究轨迹，实现经验复用与逻辑继承 - **冗余管控**：结构逻辑去重 + 多维度复杂度约束 + 语义一致性校验 - **可解释性**：先有金融逻辑再生成因子，提升因子可靠性与投研实用性 ### 5. 实证结果 - **沪深300表现**：IC达15.01%，年化超额收益27.75%，最大回撤7.98% - **跨市场表现**：中证500与标普500四年累计超额收益 $130\% - 160\%$ - **复现情况**：挖掘21个因子，但ICIR偏低、组合波动大，需扩大挖掘规模 ### 6. 优化方向 - **特征维度**：引入日内高频与基本面数据，对接70维日频特征体系 - **算子库**：补充多参数截面交互、非线性激活、动态条件筛选类算子 - **评估标准**：新增行业/市值中性化IC指标，过滤伪Alpha信号 ## 结论 QuantaAlpha 为量化因子挖掘提供了全新的技术路径，其在可解释性、效率与泛化能力方面具有显著优势。然而，在A股市场复现中仍存在挖掘规模不足、因子稳定性不强等问题，需进一步优化特征维度与算子体系，增强模型在实际交易中的适用性与可靠性。