20260331-西南证券-机器学习应用系列_T2RL_端到端深度强化学习因子挖掘与组合优化框架_36页_4mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # T2RL：端到端深度强化学习因子挖掘与组合优化框架总结 ## 核心内容 本文提出了一种“预测与决策相耦合”的两阶段量化选股框架T2RL，旨在解决传统深度学习模型仅关注收益率预测而难以实现组合全局优化的问题。T2RL框架将Transformer模型与强化学习算法相结合，分为因子挖掘与组合优化两个阶段，形成从个股预测到投资组合构建的完整闭环。 ## 主要观点 - **阶段一：因子挖掘模型TFAC** - 采用Transformer与Actor-Critic机制结合的模型TFAC，通过自注意力机制提取量价时序数据的深度表征，同时引入方向准确奖励函数，使模型在预测收益方向上与投资目标对齐。 - 回测显示，TFAC因子RankIC为0.1119，显著优于传统Transformer模型（RankIC为0.0963），且多头组合年化收益率达33.61%。 - **阶段二：组合优化模型TFSAC** - 在TFAC筛选出的优质股票池基础上，采用基于Transformer的Soft Actor-Critic模型（TFSAC），在连续动作空间中学习权重分配策略。 - 以对数收益与方差构建奖励函数，实现收益与风险的平衡。在单日调仓下，T2RL组合在全A范围内相对万得全A等权年化超额收益率达50.36%，且在不同调仓频率下均能稳定跑赢基准和TFAC等权组合。 - **指数成分股测试** - 在沪深300成分股中，TFAC因子RankIC为6.35%，Top10%多头组合相对沪深300年化超额收益率为8.55%；T2RLHS300组合在单日调仓下年化收益率达42.64%，相对沪深300年化超额收益率为30.87%。 - 在中证1000成分股中，TFAC因子RankIC为9.17%，Top10%多头组合相对中证1000年化超额收益率为11.85%；T2RLZZ1000组合在单日调仓下年化超额收益率达48.19%，显著优于TFAC等权组合。 - **策略表现** - T2RL策略在多数年份均能跑赢基准，且在因子短期失效时仍具备稳健表现。 - 不同调仓频次下，T2RL策略表现稳定，超额收益随着调仓频率的增加而有所下降，但依然优于TFAC等权组合和基准指数。 ## 关键信息 - **模型结构** - **TFAC**：融合Transformer与Actor-Critic的因子挖掘模型，使用自注意力机制提取时序特征，结合方向奖励函数提升收益符号预测能力。 - **TFSAC**：基于Transformer的SAC组合优化模型，通过动态权重分配实现收益与风险的平衡。 - **数据与参数设置** - 时序特征包括开盘价、收盘价、成交量、技术指标及Barra风格因子等。 - 模型训练采用80%训练集与20%验证集比例，调仓频次为10日，权重分配为连续动作空间。 - **奖励函数设计** - 以对数收益和方差构建奖励函数，形式为： $$ R = \frac{1}{T} \sum_{t=1}^{T} \left[ r_t^{\prime} - \theta \sigma^2(r_t^{\prime}) \right] $$ 其中，$r_t^{\prime}$ 为对数收益，$\theta$ 为风险控制参数。 - **回测表现** - **全A指数**：单日调仓下，T2RL组合年化收益率达42.64%，相对万得全A等权超额收益率达50.36%；相对TFAC等权组合超额收益率达31.06%。 - **沪深300**：T2RLHS300组合在单日调仓下年化收益率达42.64%，相对沪深300年化超额收益率达30.87%。 - **中证1000**：T2RLZZ1000组合在单日调仓下年化超额收益率达48.19%，相对TFAC等权组合超额收益率达32.21%。 ## 回测结果对比 | 策略 | 年化收益率 | 相对基准超额收益率 | 相对TFAC等权组合超额收益率 | |------|-------------|---------------------|-----------------------------| | TFAC | 33.61% | - | - | | T2RL | 42.64% | 30.87% | 20.43% | | T2RLHS300 | 42.64% | 30.87% | - | | T2RLZZ1000 | 48.19% | 48.19% | 32.21% | ## 风险提示 - 回测结果基于历史数据，存在滞后性及数据不准确或缺失的风险。 - 策略效果仅针对回测区间，实际交易中可能因交易冲击导致表现差异。 - 回测结果不预示未来表现，不构成投资建议。 ## 相关研究 - 本文是以下相关研究的延续与拓展： 1. OpenCaw如何改变投资研究模式 2. BLACK-LITTERMAN模型融合资产择时与风格轮动 3. 多重周期嵌套下的多主线与风格轮动再平衡 4. ESG投资现状及量化多因子策略跟踪 5. 强化学习驱动下的解耦时序对比选股模型 6. DAFAT: 基于Transformer的自适应解决方案 7. 加权影线频率与K线形态因子 8. 可转债K线看跌信号与交易增强策略 9. 基于历史K线形态的因子选股研究 10. 科技成长产业变革趋势下的基金产品投资策略评价与优选 ## 总结 T2RL框架通过将深度学习与强化学习相结合，实现了从因子挖掘到组合优化的端到端流程，有效提升了策略的收益能力和风险控制水平。TFAC因子挖掘模型在收益方向预测上表现优异，TFSAC组合优化模型在不同调仓频次下均能稳定跑赢基准。整体来看，T2RL在量化投资领域展现出了较高的应用潜力与实践价值。