> **来源:[研报客](https://pc.yanbaoke.cn)** # 基于 GFlowNet 的低相关性量价因子挖掘策略总结 ## 核心内容 本报告探讨了GFlowNet在自动化因子挖掘中的应用,特别是其在日频和分钟频量价数据上的表现,并将其与强化学习(RL)及遗传规划(GP)进行对比。GFlowNet是一种基于生成模型的新型方法,其核心是将生成过程建模为有向无环图(DAG)中的“水流”过程,通过训练目标实现流量守恒,从而生成与奖励成正比的多样化因子集合。相较于RL和GP,GFlowNet在多样性、搜索效率和稳定性方面表现更优。 ## 主要观点 1. **GFlowNet的优势**: - 相比RL,GFlowNet避免了模式崩溃,生成的因子具有低相关性,多样性显著。 - 相比GP,GFlowNet通过结构化学习实现了更高效的探索,避免了随机搜索的低效问题。 - 生成的因子具有良好的可解释性和应用价值,适合构建多因子组合(Alpha Pool)。 2. **因子挖掘方法**: - **日频数据**:输入两套特征(原始OHLCV和无量纲相对特征),奖励为市值中性化后的abs(IC)。 - **分钟频数据**:将40个日内指标降为日频特征,再进行因子挖掘,得到的因子表现优于日频挖掘。 3. **因子表现**: - 基于原始OHLCV挖掘的因子,IC均值中位数为 $4.54\%$,最大值为 $8.56\%$。 - 基于相对特征挖掘的因子表现更优,IC均值中位数为 $6.17\%$,最大值为 $9.40\%$。 - 基于分钟频构造特征的因子表现最好,IC均值中位数为 $5.83\%$,多头超额收益中位数为 $7.43\%$。 4. **因子合成效果**: - 等权合成因子表现出良好的收益,RankIC在11.64%至12.25%之间。 - 多头超额收益和信息比率均有所提升,且具有中小市值和价值风格的暴露。 5. **模型融合**: - 将GFlowNet挖掘的因子融入现有的Mamba2与GRU选股框架,提升了整体模型表现。 - 合并后的模型在多个指标上都有显著提升,包括RankIC、ICIR、多头超额收益率等。 ## 关键信息 - **训练目标**:采用Trajectory Balance(TB)目标,保证流量守恒,实现因子生成的概率与奖励成正比。 - **状态表示**:包括Transformer编码的动作历史序列和3个手工特征(当前深度、已用算子比例、已用节点比例)。 - **动作空间**:分为算子(51种)、窗口(5种)、特征(可变数量),并有语法合法性与复杂度限制。 - **表达式组织**:使用ExprNode树结构,通过简化方法减少重复表达式。 - **奖励设定**:采用市值中性化后的abs(IC)作为奖励,避免因子暴露于小市值风格。 - **因子评估周期**:10日,筛选时要求因子与已选因子的Spearman相关性低于0.4。 - **合成策略**:等权合成因子,提升整体收益表现,但存在风格暴露问题。 ## 结构清晰 ### 一、GFlowNet 原理介绍 - **GFlowNet定义**:一种将对象生成过程建模为DAG中“水流”过程的生成模型。 - **训练目标**:确保流量守恒,使得生成对象 $x$ 的概率 $P(x)$ 与奖励 $R(x)$ 成正比。 - **数学原理**:流匹配(Flow Matching)和Detailed Balance(DB)目标。 - **策略提取**:通过前向策略 $P_F$,生成因子的概率等于 $\frac{R(x)}{Z}$。 ### 二、基于日频数据的因子挖掘与RL比较 - **训练过程**:使用TB目标,通过采样轨迹、计算奖励与TB损失,反向传播更新模型。 - **因子表现**: - 原始OHLCV:IC均值中位数 $4.54\%$,多头超额收益中位数 $3.47\%$。 - 相对特征:IC均值中位数 $6.17\%$,多头超额收益中位数 $4.75\%$。 - **相关性与复杂度**:因子间相关性低,复杂度可控,具有良好的可解释性。 ### 三、基于分钟频数据的因子挖掘 - **处理方法**:将分钟数据降维为40个日内特征,再进行因子挖掘。 - **因子表现**: - IC均值中位数 $5.83\%$,多头超额收益中位数 $7.43\%$。 - 与日频因子相比,表现更优,且相关性和复杂度均较低。 - **风险暴露**:合成因子仍具有中小市值和价值风格暴露,但基于相对特征的因子小市值暴露较低。 ### 四、对现有AI模型的提升与指增策略 - **模型融合**:在GRU和Mamba基础上,添加GFlowNet挖掘的150个因子。 - **提升效果**:几乎所有指标均有提升,包括RankIC、ICIR、多头超额收益率等。 - **指增效果**: - 沪深300增强策略年化收益率 $11.39\%$,信息比率 $1.87$。 - 中证500增强策略年化收益率 $14.40\%$,信息比率 $2.07$。 - 中证1000增强策略年化收益率 $21.39\%$,信息比率 $2.99$。 ## 风险提示 1. 历史数据建模结果可能存在时效性风险,若市场环境或政策变化,模型效果可能下降。 2. 策略基于历史回测,若交易成本上升或其他条件变化,可能导致收益下降或亏损。 ## 附录 - **图表目录**:包含多组对比图表,展示GFlowNet与RL、GP的因子表现及合成效果。 - **特别声明**:本报告由国金证券发布,仅限中国境内使用,保留所有权利,使用需谨慎。