深度报告-2025-12-25-西南证券-机器学习应用系列_强化学习驱动下的解耦时序对比选股模型_35页_5mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 强化学习驱动下的解耦时序对比选股模型 # 摘要 本报告提出了一种基于强化学习的解耦时序对比模型（DTLC_RL），该模型通过特征空间解耦、对比学习表征增强以及正交约束保障独立性以及强化学习动态融合，构建了一个兼具深度学习非线性预测能力与良好可解释性的选股框架。在模型设计中，我们分别构建了面向市场系统风险（ $\beta$ 空间）、个股特异特征（ $\alpha$ 空间）和个股基本面信息（ $\theta$ 空间）的编码器，并通过对比学习与正交约束提升各空间表征的区分度与互补性。在此基础上，引入强化学习近端策略优化（PPO）算法以实现自适应调整各空间权重。 空间编码器构建：本文以时间卷积网络TCN作为beta空间特征的编码器，以多尺度Transformer模型作为Alpha空间编码器，以门控残差MLP作为Theta空间编码器。对各个空间分别进行收益预测训练，各空间编码器均能有效提取目标信息，且生成因子具备一定选股能力。自2019年1月至2025年11月，Beta_TC、Alpha_Transformer、Theta_ResMLP因子IC分别为0.0954、0.1128、0.0485，多头组合前 $10\%$ 年化收益率分别为 $27.73\%$ 、 $32.66\%$ 以及 $23.88\%$ 。除此之外，各空间训练得到的因子彼此间相关性较低且具备一定互补性，为后续多空间融合奠定一定基础。 融合模型对照组实验：本文分别测试了两类空间融合对照组实验：1）直接对三个空间训练出的因子进行等权求和；2）将三个空间的编码信息进行合并，并通过单层线性层进行处理并接入预测头进行收益率预测。自2019年1月至2025年11月，DTLC等权融合模型因子月平均IC为0.1202，多头组合（前 $10\%$ ）年化收益率 $32.46\%$ ；线性融合DTLC模型因子月平均IC为0.1239，多头组合年化收益率 $32.95\%$ 。 强化学习驱动空间融合：本文引入强化学习来实现空间的动态复权融合，即在DTLC模型的三个编码器后引入强化学习动态复权的空间融合机制。该部分将三个子空间编码与市场环境特征共同输入策略网络，通过近端策略优化（PPO）算法动态生成空间权重，实现自适应加权融合，最终通过预测头输出未来收益率预测。自2019年1月至2025年11月，DTLC_RL因子月平均IC为0.1250，多头组合年化收益率 $34.77\%$ ，显著优于DTLC_Line多头表现。可见强化学习空间融合机制的加入使得因子性能有所提升。 指数增强测试：自2019年1月至2025年11月，DTLC_RL因子沪深300指数增强相对指数年化超额收益率 $13.72\%$ ，近一个月、三个月、一年、三年超额收益率分别为 $-0.87\%$ 、 $1.53\%$ 、 $14.99\%$ 以及 $12.58\%$ ；DTLC_RL因子中证1000指数增强相对指数年化超额收益率 $20.37\%$ ，近一个月、三个月、一年、三年超额收益率分别为 $3.00\%$ 、 $4.52\%$ 、 $19.67\%$ 以及 $13.76\%$ 。 风险提示：报告对应的相关结论完全基于公开的历史数据进行算法构建、统计以及计算，文中部分数据有一定滞后性，同时也存在第三方数据提供不准确或者缺失等风险；策略效果结论仅针对于回测区间得出，并不预示其未来表现，也不能保证未来的可持续性，亦不构成投资收益的保证或投资建议。 # 西南证券研究院 分析师：郑琳琳 执业证号：S1250522110001 邮箱：zhengll@swsc.com.cn 分析师：祝晨宇 执业证号：S1250525100004 邮箱：zhcy@swsc.com.cn # 相关研究 1. DAFAT: 基于Transformer模型的自适应解决方案 (2025-08-29) 2. 加权影线频率与K线形态因子 (2025-08-28) 3. 可转债K线看跌信号与交易增强策略——量化方法在债券研究中的应用四(2025-06-09) 4. 基于历史K线形态的因子选股研究(2025-05-26) 5. 科技成长产业变革趋势下基金产品投资策略评价与优选 (2025-05-26) 6. PINN信息约束与时序截面双流网络选股模型 (2025-04-09) 7. 基于产业链和交易结构的豆粕期货择时框架 (2025-03-19) 8. 可转债K线技术分析与K线形态因子——量化方法在债券研究中的应用三(2025-03-14) 9. 识时通变：宏微同频成长价值风格轮动策略 (2025-01-10) 10. 超额收益如何回归？——2025年金融工程策略报告 (2025-01-06) # 目录 # 1 深度学习模型简介 1.1 TCN时间卷积网络模型 2 1.2 TransFormer 模型 ..... 4 1.3残差网络模型 6 1.4对比学习 8 1.5 强化学习近端策略优化（PPO） 9 # 2 空间编码器构建 ..... 10 2.1 市场维度特征提取：Beta 空间 ..... 11 2.2个股特异特征提取：alpha空间 12 2.3个股基本面特征提取：Theta空间 15 2.4空间融合初探 17 # 3 强化学习空间融合 20 # 4模型测试与指数增强策略 23 4.1沪深300指数增强 23 4.2中证1000指数增强 25 # 5总结与展望 27 # 6风险提示 28 # 图目录 图1：强化学习驱动下的解耦时序对比学习(DTLC_RL)网络结构图 图2：TCN整体架构 2 图3：TCN模块结构示意图 图4：Transformer网络结构. 4 图5：self-attention机制. 5 图6：Multi-Head Self-Attention结构 图7：门控残差网络层归一化结构 图8：对比学习结构. 8 图9：正负样本对构造过程 9 图10：强化学习机制 9 图11：PPO / Policy Gradient更新流程 10 图12：Beta空间编码器构建：TCN. 11 图13：Beta空间编码器构建：TCN. 12 图14：Alpha空间编码器构建：多尺度Transformer. 13 图15：Alpha空间信息与Barra因子相关性 14 图16：Alpha_Transformer多头超额走势 15 图17：Alpha_Transformer多头分年度超额走势 15 图18：Theta空间编码器构建：门控残差MLP 16 图19：Theta空间信息与Barra因子相关性 17 图20：DTLC_Line模型结构 18 图21：DTLC_Line分组测试 19 图22：DTLC_Equal分组测试 19 图23：DTLC对照组整体超额表现 19 图24：DTLC对照组分年度超额表现 图25：PPO强化学习空间融合示意图 20 图26：DTLC_RL因子IC表现 22 图27：DTLC_RL分组测试 22 图28：DTLC融合模型相对万得全A超额走势 22 图29：DTLC_RL多头分年度超额净值 23 图30：DTLC_RL沪深300指数增强表现 24 图31：DTLC_RL沪深300指数增强超额情况 24 图32：DTLC_RL沪深300指数增强表现（近一月） 25 图33：DTLC_RL沪深300指数增强表现（近三月） 25 图34：DTLC_RL沪深300指数增强表现（近一年） 25 图35：DTLC_RL沪深300指数增强表现（近三年） 25 图36：DTLC_RL中证1000指数增强表现 26 图37：DTLC_RL中证1000指数增强超额情况 26 图38：DAFAT中证1000指数增强表现（近一月） 27 图39：DAFAT中证1000指数增强表现（近三月） 27 图40：DAFAT中证1000指数增强表现（近一年） 27 图41：DAFAT中证1000指数增强表现（近三年） 27 # 表目录 表 1: Multi-Transformer 模型量价时序特征列表 表 2: Beta_TCN 回测结果. 12 表 3: Multi-Transformer 模型量价时序特征列表 表 4: Alpha_Transforme 回测结果. 14 表 5: Alpha_Transformer 因子 10 分组表现 表 6: Theta 空间编码特征列表 表 7: Theta-ResMLP 回测结果. 16 表 8: DTLC 非强化学习融合方式回测结果 表 9: DTLC 非强化学习融合方式分年度超额对比. 19 表 10: DTLC_RL 回测结果. 22 表 11: DTLC_RL 因子多头分年度表现 (超额) ..... 23 表 12: DTLC_RL 回测结果. 23 表 13：DTLC_RL 沪深 300 指数增强效果 ..... 24 表 14：DTLC_RL 沪深 300 指数增强策略分区间回测结果. 24 表 15: DTLC_RL 中证 1000 成分股回测结果. 25 表 16: DTLC_RL 中证 1000 指数增强效果. 26 表 17: DTLC_RL 中证 1000 指数增强策略分区间回测结果. 26 # 1 深度学习模型简介 在当前背景下，深度学习与机器学习技术在量化选股领域的主流做法主要沿着两条路径演进：一是对传统多因子模型进行非线性拓展，通过神经网络学习因子间的复杂交互关系，旨在构建对区别于传统多因子的非线性融合模型；二是构建端到端的深度时序模型，直接从量价序列中提取预测信号，端到端的预测未来一定时间长度的收益率，初始的量价时序信息中并不一定需要具备一定的选股能力。这些方法在一定程度上提升了模型的预测能力，但也具备一定的局限性：一方面，多数模型难以清晰分离市场系统性风险、行业联动、个股特质与财务安全等不同来源的收益贡献，导致模型在风格切换时表现不稳定；另一方面，特征表征与因子融合往往采用静态或简单动态权重，缺乏对市场状态的自适应能力，在极端行情下容易失效。 图1：强化学习驱动下的解耦时序对比学习(DTLC_RL)网络结构图 数据来源：西南证券整理 为了改善甚至解决上述深度学习机器学习选股中遇到的问题，本文提出一类对个股特征进行解耦分解，并进行动态加权求和的模型，即解耦时序对比学习强化学习模型（Decoupled Temporal Contrastive Learning with Reinforcement Learning, DTLC_RL)，模型的核心设计包含以下几个层面，旨在保持深度学习强大非线性拟合能力的同时，构建一个具备一定可解释性且具备一定环境适应性的选股模型： 第一部分，多层次因子解耦与表征学习：DTLC_RL模型构建了三个在数学上正交的潜在表征空间，分别专注于捕捉市场系统风险（ $\beta$ 空间）、个股特异信号（ $\alpha$ 空间）、与个股基本面信息（ $\theta$ 空间）。每个空间均配备经过专门设计的深度编码器（如TCN、Transformer、门控残差MLP），以确保从相应数据模态中提取出最有效的特征； 第二部分，对比学习增强表征稳健性：为避免模型过拟合于数据噪声，并为后续融合奠定良好基础，我们在每个子空间内部引入对比学习机制。通过构建基于收益率相似性的正负样本对，该机制驱使编码器学习到的表征能够拉近同类样本、推远异类样本，从而显著提升特征在截面上的区分能力与模型在面对未知样本时的泛化鲁棒性。 第三部分：正交约束保障因子独立性：DTLC_RL模型设置正交化损失函数，强制要求三个子空间输出的表征向量在统计上接近相互独立。致力于缓解了不同特征空间之间的多重共线性问题，确保了 $\beta$ 、 $\alpha$ 、 $\theta$ 所承载信息的纯粹性与互补性，极大增强了模型的经济含义可解释性，并为动态权重分配提供了清晰、互不干扰的决策基础。 第四部分，强化学习驱动空间融合：区别于传统固定权重合成或嵌入可学习线性层学习融合权重的方式，本文主要构建深度强化学习（DRL）智能体作为“融合控制器”。该智能体以三个子空间表征及当前市场环境状态为输入，通过持续与投资环境交互学习，输出一套随时间与市场状态自适应变化的空间融合权重。 # 1.1 TCN时间卷积网络模型 时间卷积网络（TCN）是一种基于卷积神经网络的时序模型。相较于传统的循环神经网络（RNN），TCN采用了一种新颖的卷积结构，通过扩张因果卷积和残差连接来捕捉时序依赖关系。TCN的卷积结构使得其具有并行计算的能力，从而在训练时更加高效。此外，TCN通过调整扩张因子和卷积核大小，可以灵活地控制感受野的大小，从而适应不同时间尺度的股票价格波动模式。 TCN的设计遵循两个基本原则：1）因果性：网络输出只依赖于当前及过去的输入，不依赖于未来；2)任意长度映射：网络能将任意长度的输入序列映射为相同长度的输出序列。 图2：TCN整体架构 数据来源：西南证券整理 为了实现上述原则，TCN主要依靠两种特殊的卷积操作： 1）因果卷积：在标准的卷积中，某一时刻的输出可能依赖于未来的输入（如果使用对称的填充）。因果卷积通过左侧填充确保卷积核只“看到”当前时刻及之前的历史信息。因果约束条件为： $$ y _ {t} = f \left(x _ {t}, x _ {t - 1}, \dots , x _ {t - k + 1}\right) $$ 其中 $y_{t}$ 为 $\mathfrak{t}$ 时刻输出， $x_{t - i}$ 为历史输入， $\mathsf{k}$ 为卷积核大小。输出序列 $Y\in R^{T\times d^{\prime}}$ 的每个元素为： $$ y _ {t} ^ {(i)} = \sum_ {j = 0} ^ {k - 1} W _ {j} ^ {(i)} \cdot x _ {t - j} + b ^ {(i)} $$ $W_{j}^{(i)}$ 为权重矩阵， $b^{(i)}$ 为偏置项。 2）扩张卷积：为了增加感受野而不显著增加参数量，引入扩张卷积，设扩张率为 $d$ ，卷积核大小为 $k$ ，则有效感受野 $R = 1 + (k - 1)d$ ，总感受野为： $$ R _ {\text {t o t a l}} = 1 + \sum_ {l = 1} ^ {L} (k - 1) \times d _ {l} $$ 扩张因果卷积为： $$ H _ {l} = \operatorname {R e L U} \left(\operatorname {B a t c h N o r m} \left(\operatorname {C a u s a l C o n v 1 d} \left(X _ {l}, k, d _ {l}\right)\right)\right) $$ 完整残差块为： $$ \operatorname {B l o c k} (X) = \operatorname {A c t i v a t i o n} (X + F (X)) $$ $$ F (X) = W _ {2} * \sigma \left(W _ {1} * X\right) $$ 图3：TCN模块结构示意图 数据来源：西南证券整理 # 1.2 TransFormer 模型 Transformer是一种基于自注意力机制（Self-Attention）的深度学习模型，最初被提出用于自然语言处理领域，但其在时序数据处理中同样展现出强大的能力。相较于LSTM（Long Short-Term Memory）、GRU（Gated Recurrent Unit）等循环神经网络，Transformer摒弃了递归结构，转而通过自注意力机制实现了全序列并行计算，这显著提升了训练速度。 此外，尽管LSTM和GRU通过门控机制缓解了梯度消失问题，但在超长序列中，这两个模型仍可能丢失早期信息；而Transformer的自注意力机制则直接建模模型中任意位置间的关联，无需依赖递归路径，因此相较于LSTM与GRU，更擅长捕捉跨周期的时序规律。 图4：TransFormer网络结构 数据来源：西南证券整理 Transformer的核心模块包括多头自注意力层（Multi-Head Attention）和前馈神经网络（Feed-Forward Network）。其输入序列首先通过嵌入层转换为向量表示，并加入位置编码（Positional Encoding）以保留时序信息。自注意力机制通过计算序列中每个元素与其他元素的相关性权重，动态调整信息聚合方式。具体计算过程如下： # （1）自注意力计算 给定输入矩阵 $X$ ，通过线性变换生成查询（Query）、键（Key）、值（Value）矩阵： $$ Q = X W _ {Q}, K = X W _ {K}, V = X W _ {V} $$ 其中 $W_{Q}, W_{K}, W_{V}$ 分别代表查询（Query）、键（Key）、值（Value）矩阵对应的线性变换矩阵。此外，通过点积 $Q, K$ 计算注意力得分，进而得到自注意力值 $Z$ ： $$ Z = A t t e n t i o n (Q, K, V) = s o f t m a x \left(\frac {Q K ^ {T}}{\sqrt {d _ {k}}}\right) V $$ 其中 $d_{k}$ 为键向量的维度，用于防止梯度消失，softmax函数将一组数值转换为概率分布（总和为1)，放大高分值的相对权重，从而实现注意力得分的归一化。 除了上述提及的简单的自注意力计算外，有时也会使用多头注意力机制，即在构建Transformer模型时也会将 $Q, K, V$ 分割为多个子空间并行计算，从而得到数个注意力头 $z_{i}$ 并拼接，最后通过线性变换矩阵，将拼接结果变换为一个融合了所有注意力头信息的矩阵 $z$ ： $$ z = \text {M u l t i h e a d} \left(Q, K, V\right) = \text {C o n c a t} \left(z _ {1}, \dots \dots , z _ {h}\right) W _ {O} $$ 其中，每个注意力头 $\mathbf{z}_i$ 独立学习不同子空间的特征表示， $W_{O}$ 表示融合后的线性变换矩阵。 # (2）多头注意力 将 $Q, K, V$ 分割为多个子空间并行计算，最后拼接结果并通过线性层融合： $$ M u l t i h e a d \left(Q, K, V\right) = C o n c a t \left(h e a d _ {1}, \dots ., h e a d _ {h}\right) W _ {O} $$ 每个注意力头独立学习不同子空间的特征表示。其中， $W_0$ 是融合后的线性变换矩阵。 图5：self-attention机制 数据来源：西南证券整理 # （3）前馈网络与残差连接 自注意力输出经过前馈网络（含ReLU激活）和层归一化（LayerNorm），并通过残差连接缓解梯度消失问题。算式如下，其中，Sublayer(x)指当前子层（自注意力层或前馈层）输出（如前述提及的z）： $$ O u t p u t = L a y e r N o r m (x + S u b l a y e r (x)) $$ 上述提及的ReLU函数可以通过将负输入置零并保留正输入，提升网格的稀疏性与泛化能力，并促进计算高效性，其算式如下： $$ R e L U (x) = \max (0, x) $$ 图6：Multi-Head Self-Attention结构 数据来源：西南证券整理 # 1.3 残差网络模型 门控残差网络（Gated Residual Network, GRN）是一类针对序列建模与高维特征交互任务的非线性特征变换模块，被广泛应用于深度时序模型（如Temporal Fusion Transformer, TFT）。与传统的全连接前馈网络不同，GRN在结构上引入了门控机制（gating mechanism）与残差连接（residual connection），从而能够根据输入数据的重要性自适应调节信息流动，使模型既保持足够的非线性表达能力，又能避免深层网络常见的梯度消失问题。 整体而言，GRN可以视为一个“可控的前馈网络”，网络内部通过门控结构决定多少输入信息保留、多少经过非线性变换后注入输出，能够有效处理金融时间序列中存在的特征异质性、噪声扰动及影响强度随时间变化的问题。 # （1）特征变换与前馈结构 给定输入特征向量 $\mathbf{x}$ , GRN 首先将其映射到一个更高维的表示空间, 以增强特征表达能力: $$ \tilde {x} = W _ {1} x + b _ {1} $$ 其中：W_1为线性变换矩阵，可实现维度提升或降维； $\tilde{\mathbf{x}}$ 为初步提取后的特征表示。随后， $\tilde{\mathbf{x}}$ 通过一个带有非线性激活函数（如ELU）的前馈网络。 $$ s = E L U \left(W _ {2} \tilde {x} + b _ {2}\right) $$ 这一步的主要功能是增强模型的非线性表达能力，使其能够捕捉特征间隐性的交互关系。 # （2）门控机制 门控机制的核心思想是让网络自适应地决定“当前特征需要修改到何种程度”。具体而言，GRN使用一个门控向量 $g$ 对非线性变换输出进行调节： $$ g = \sigma \left(W _ {g} x + b _ {g}\right) $$ 其中： $\sigma(\cdot)$ 为 sigmoid 函数，其输出范围在 $(0,1)$ ，可以看作保留比例； $g$ 的每个维度决定了对应特征最终输出中保留的权重。逻辑上，门控结构提供了类似 LSTM 中“输入门”的作用：当 $g$ 较大时，网络允许更多非线性变换后的内容进入下一层；当 $g$ 较小时，网络更倾向于保留原始输入，从而抑制噪声或过度拟合。 $$ \text {L e a k y R e L U} (x) = \left\{ \begin{array}{l l} x & \text {i f} x \geq 0 \\ \alpha x & \text {i f} x < 0 \end{array} \right. $$ # （3）残差连接 为了减少深度网络的梯度消失风险，GRN采用残差结构，将原始输入直接并入输出： $$ \tilde {x} = s \odot g + x $$ 其中： $\odot$ 表示逐元素相乘； $s \odot g$ 是经门控调节后的新特征；直接加上原始输入 $x$ ，能保证网络即使在门控关闭时也能稳定传递信息。残差路径提供了类似“捷径连接（shortcut connection）”的结构，使 GRN 可以堆叠更深而不影响训练稳定性。 # （4）层归一化 为了进一步提升训练稳定性，GRN最终对残差输出进行层归一化。 $$ G R N (x) = L a y e r N o r m (\tilde {x}) $$ 层归一化可避免特征尺度不一致导致的训练不稳定问题，尤其在高维金融时间序列中效果显著。 图7：门控残差网络层归一化结构 数据来源：西南证券整理 # 1.4对比学习 对比学习是一种基于自监督学习的表示学习方法。相较于传统的监督学习范式，对比学习通过构建正负样本对和设计对比损失函数，可以在无需人工标注的情况下学习到数据的内在结构和语义表示，从而捕捉样本间深层次的相似性与差异性关系。此外，数据增强策略的灵活应用及特征空间的对比优化使得对比学习模型能处理海量无标注数据，从而更好适应股票市场中高维度、低信噪比的数据特性，并挖掘出不同股票、不同市场周期间的隐藏关联模式。 图8：对比学习结构 数据来源：西南证券整理 近端策略优化（PPO）是一种基于策略梯度的深度强化学习算法。相较于传统的策略梯度方法，PPO引入了裁剪目标函数和重要性采样机制，可以在学习过程中稳定地更新策略，从而有效避免策略更新步长过大导致的性能崩溃。此外，广义优势估计（GAE）的设计及多轮次小批量更新方式使得PPO算法能处理高维状态动作空间和稀疏奖励问题，从而更好适应股票交易中非平稳的市场环境，并实现稳健的交易策略优化。 对比学习中最常用的损失函数是InfoNCE： $$ L _ {\mathrm {I n f o N C E}} = - E \left[ l o g \frac {e x p (f (x) ^ {T} f (x ^ {+}) / \tau)}{e x p (f (x) ^ {T} f (x ^ {+}) / \tau) + \sum_ {i = 1} ^ {N - 1} e x p (f (x) ^ {T} f (x _ {i} ^ {-}) / \tau)} \right] $$ 其中 $f(x)$ 是样本 $x$ 的特征表示， $x^{+}$ 是正样本（与 $x$ 语义相似）， $x_{i}^{-}$ 是负样本（与 $x$ 语义不同）， $\tau$ 是温度超参数。该损失通过 softmax 形式，最大化正样本对的相似度，同时最小化负样本对的相似度。正负样本对的相似度计算采用余弦相似度： $$ \operatorname {s i m} (\mathbf {u}, \mathbf {v}) = \frac {\mathbf {u} ^ {\mathrm {T}} \mathbf {v}}{| \mathbf {u} | | \mathbf {v} |} $$ 温度参数 $\mathsf{T}$ 控制着相似度分布的平滑程度。较小的 $\mathsf{T}$ 使分布更尖锐（关注困难负样本），较大的 $\mathsf{T}$ 使分布更平滑。通常设置为0.07或0.1，用于调整模型对困难样本的关注度。 $$ s (x, y) = \frac {e x p \left(\mathsf {s i m} \big (f (x) , f (y) \big) / \tau\right)}{\sum_ {z \in \mathcal {B}} e x p \big (\mathsf {s i m} \big (f (x) , f (z) \big) / \tau \big)} $$ 图9：正负样本对构造过程 数据来源：西南证券整理 # 1.5 强化学习近端策略优化（PPO） 近端策略优化（PPO）是一种基于策略梯度的深度强化学习算法。相较于传统的策略梯度方法，PPO引入了裁剪目标函数和重要性采样机制，可以在学习过程中稳定地更新策略，从而有效避免策略更新步长过大导致的性能崩溃。此外，广义优势估计（GAE）的设计及多轮次小批量更新方式使得PPO算法能处理高维状态动作空间和稀疏奖励问题，从而更好适应股票交易中非平稳的市场环境，并实现稳健的交易策略优化。 其期望累积回报最大化，目标函数为 $$ J (\theta) = E _ {\tau \sim \pi_ {\theta}} [ R (\tau) ] = E _ {\tau \sim \pi_ {\theta}} \left[ \sum_ {t = 0} ^ {T} \gamma^ {t} r _ {t} \right] $$ 其中： $\theta$ 是策略参数， $\tau$ 为轨迹 $(s_0, a_0, r_0, s_1, a_1, r_1, \ldots)$ ， $\gamma$ 为折扣因子， $r_t$ 为时刻 $t$ 的即时奖励。 图10：强化学习机制 数据来源：西南证券整理 策略梯度计算公式为： $$ \nabla_ {\theta} J (\theta) = E _ {\tau \sim \pi_ {\theta}} \left[ \sum_ {t = 0} ^ {T} \nabla_ {\theta} l o g \pi_ {\theta} (a _ {t} | s _ {t}) \cdot A ^ {\pi_ {\theta}} (s _ {t}, a _ {t}) \right] $$ $A^{\pi_{\theta}}(s_t, a_t)$ 为优势函数，衡量在状态 $s_t$ 下采取动作 $a_t$ 相对于平均情况的优势。PPO 核心创新在于引入新旧策略概率比及裁剪目标函数： $$ r _ {t} (\theta) = \frac {\pi_ {\theta} (a _ {t} | s _ {t})}{\pi_ {\theta_ {\mathrm {o l d}}} (a _ {t} | s _ {t})} $$ $$ L ^ {\sf C L I P} (\theta) = E _ {t} \left[ m i n (r _ {t} (\theta) \widehat {A _ {t}}, \sf c l i p (r _ {t} (\theta), 1 - \epsilon , 1 + \epsilon) \widehat {A _ {t}}) \right] $$ 其中 $\epsilon$ 为裁剪估计值。 $\mathsf{Clip}(x,a,b) = \max (mi n(x,b),a)$ 。 $\widehat{A_t}$ 为t时刻的优势估计值。广义优势估计(GAE)为（其中 $\delta_{t}$ 为TD残差）： $$ A _ {t} ^ {\widehat {\mathrm {G A E} (\gamma , \lambda)}} = \sum_ {l = 0} ^ {\infty} (\gamma \lambda) ^ {l} \delta_ {t + l} $$ $$ \delta_ {t} = r _ {t} + \gamma V (s _ {t + 1}) - V (s _ {t}) $$ $$ \widehat {A _ {t}} = \delta_ {t} + \gamma \lambda \widehat {A _ {t + 1}} $$ 图11：PPO/PolicyGradient更新流程 数据来源：西南证券整理 # 2 空间编码器构建 本节主要介绍三个不同空间的特征选取以及空间构造方式，并为后文引入强化学习算法融合三个空间铺垫。在空间融合之前，本文的所有空间均会单独训练以测算不同空间在当前特征及模型设置的条件下是否可以挖掘出与金融原理类似的信息。若无其他说明，本文所有模型（监督学习，非强化学习）训练方式等其他模型设定如下： 1）训练数据及数据处理：所有个股过去10年内的时序特征，做5天采样，预测标签为未来一个月(20个交易日)的累计收益； 2）训练集验证集比例： $80\%$ ： $20\%$ 3）时序尺度选择：时序特征长度60天，基本面特征仅包含截面特征； 4）数据处理：时序特征需时序标准化（与最后一个时间步比值）、截面标准化（均值标准差），基本面特征仅作截面去极值及zscore标准化； 5）模型训练及调仓频次：一年更新，月频调仓； 6）模型超参数：batch=截面个股数，lr=1e-4，损失函数1-IC。 # 2.1 市场维度特征提取：Beta空间 本节主要构造beta空间，该控件的构造围绕捕捉市场系统性风险展开，其中系统性风险是指那些影响所有股票的共性风险因素，如宏观经济波动、政策变动、市场情绪等。构造过程分为特征设计和模型构建两步，旨在量化个股对这些风险的不同敏感度。因此本文选取以下5个与市场相关的股票特征用以刻画个股与市场的关联程度。 表 1: Multi-Transformer 模型量价时序特征列表 序号 特征中文名称 特征助记符 特征计算方法 1 收益率暴露 beta_mkt 个股60日收益率与市场收益率（中证全指）相关系数 2 波动率敏感度 beta_vol 个股滚动20日波动率/市场滚动20日波动率（中证全指） 3 流动性 beta beta_liq 个股滚动60日换手率变化与市场滚动60日换手率的相关系数 4 大小盘暴露 beta_size 个股截面流通市值分位数 5 市场情绪敏感度 beta_sent 个股收益率与市场滚动20日波动率的相关系数，窗口计算长度60 数据来源：西南证券整理 本节主要采用时间卷积网络 TCN 作为 beta 空间特征的编码器。输入是上述六个特征构成的 60 个交易日时序数据，经过线性投影层映射到统一维度。随后，两个 TCN 块依次处理时序信息：第一个 TCN 块使用膨胀率为 1 的因果卷积，捕捉短期市场趋势；第二个 TCN 块使用膨胀率为 2 的因果卷积，捕捉中期市场趋势。每个 TCN 块包含两层卷积，配备批归一化和激活函数，并通过残差连接保持梯度稳定。最后，通过全局平均池化压缩时间维度，输出一个 32 维向量作为 beta 空间编码，代表个股的系统性风险特征。整个模型在训练中作为 DTCL 框架的一部分，通过端到端学习优化参数，同时受正交约束确保与其他子空间解耦。 图12：Beta空间编码器构建：TCN 数据来源：西南证券整理 在无其他空间及其他特征的配合下，本文仅测试beta空间特征及编码器因子信息挖掘情况（Beta_TCN)。整体而言，自2019年1月至2025年11月，Beta_TCN因子IC均值为 $9.54\%$ ，多头组合前 $10\%$ 年化收益率 $27.73\%$ ，相对中证全指年化超额仅 $14.82\%$ ，月均单边换手率 $0.79X_{\circ}$ 整体而言Beta_TCN因子具备一定的选股效果。（IC测试中“***”、“**”、“*”分别代表参数在 $1\%$ 、 $5\%$ 、 $10\%$ 的显著性水平下显著，下同，不再特殊强调。） 表 2: Beta_TCN 回测结果 IC ICIR Top10%组合年化收益率 年化波动率 信息比率 最大回撤率 单边月均换手率 Beta_TCN 0.0969*** 3.73 27.73% 27.19% 1.02 45.80% 0.79X 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 但本文构造beta空间的目的主要目的是挖掘个股与市场基准之间的关联性，换言之，本文训练出的beta空间编码器（beta_TCN因子），在具备一定选股能力的前提下，即使没有和后文alpha空间进行正交化操作，是否也可以在beta上有较多的暴露，因此本文测试了，beta_TCN因子与Barra因子的相关性。整体而言，beta_TCN主要与Barra因子中的beta、流动性以及残差波动率因子相关性（绝对值）较高，其中与beta因子相关性 $10.99\%$ ，与流动性以及残差波动率因子相关性分别为 $-9.86\%$ 与 $-13.80\%$ 。可见beta空间编码器可以挖掘出个股暴露在beta中的相关信息。 图13：Beta空间编码器构建：TCN 数据来源：西南证券整理，截至2025年11月28日 # 2.2 个股特异特征提取：alpha空间 参考西南金工2025年4月发布的报告《PINN信息约束与时序截面双流网络模型》中的时序模型，该节针对个股特异特征提取空间（alpha空间）将主要采取上述报告中使用的多尺度Transformer模型，其中alpha空间特征为根据个股日频量价数据构建出13个量价时序特征用以多尺度Transformer模型编码，具体特征计算方式及特征设定如下： 表 3: Multi-Transformer 模型量价时序特征列表 序号 特征中文名称 特征助记符 特征计算方法 1 量价背离度 pvo T收盘价减去收盘价的5日指数移动平均值后,除以成交量的20日移动平均值 2 压力支撑效率 sse 过去20日最高收盘价减去过去20日最低收盘价后,除以成交量的20日移动平均值 3 流动性冲击系数 liq T成交量与昨日成交量差值的绝对值,除以过去20日内成交量序列的标准差 4 波动率偏度 skew T日收益率过去20日内的三阶标准化矩 5 隔夜跳空强度 gap T开盘价减去昨日收盘价,再除以T-1收盘价 6 波动率期限结构 vts 过去10日内日收益率序列的标准差除以过去30日内日收益率序列的标准差 7 量能聚集度 vcll T成交量除以过去20日内成交量的移动平均值 8 收益率波动比 rvr T收益率除以过去20日序列日收益率标准差 9 筹码松动度 csl T收盘价减去过去60日收盘价的移动平均值后,除过去60日收盘价的移动平均值 10 反转效应强度 rev 过去20日序列中,当日收益率与昨日的日收益率的相关系数 11 波动率聚集度 vclb 过去5日内日收益率序列的标准差除以过去20日内日收益率序列的标准差 12 收益分布峰度 kurtosis 日收益率过去20日内的四阶标准化矩 13 流动性冲击持续性 lip 进三日流动性冲击系数加权求和 数据来源：西南证券整理 具体模型结构如下： 图14：Alpha空间编码器构建：多尺度Transformer 数据来源：西南证券整理 在多尺度Transformer模型构建中，本文主要区分为三个尺度：20日、40日以及60日，分别表征短、中、长三个不同跨度的时序信息，并分别使用transformer层进行编码处理，随后对transformer层输出的信息以60日长度为基准进行线性时间序列上采样，并引入可学习参数的门控融合层对三个不同时间尺度的信息进行加权求和，最终引入全连接层输出收益率预测。 根据alpha空间的定义，该空间致力于挖掘个股alpha信息，若在无其他空间配合的情况下单独使用该空间进行个股收益率预测任务，也可得到选股效果不错的因子（Alpha_Transformer）。自2019年1月至2025年11月，全A范围内Alpha_Transformer因子月均IC（以RankIC表征）为0.1137，多头组合（前 $10\%$ ）年化收益率为 $32.66\%$ ，月均单边换手率 $0.83X$ 。整体来看，alpha空间单独具备不俗的收益预测能力，且因子表现具备一定的选股效果。 表 4: Alpha_Transforme 回测结果 IC ICIR Top10%组合年化收益率 年化波动率 信息比率 最大回撤率 单边月均换手率 Alpha_Transformer 0.1137*** 4.19 32.66% 23.04% 1.42 27.59% 0.83X 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 有关Alpha_Transformer的其余因子测试细节可参考西南金工于2025年4月发布的报告《PINN信息约束与时序截面双流网络模型》中多尺度Transformer因子的相关测试细节。本文构造alpha空间的目的是为了挖掘个股特异性信息，换言之，则观察Alpha_Transformer因子是否能产生相对市场基准较为稳定的超额，且与市场基准相关性尽可能的低。 经相关性测试，Alpha_Transformer因子与流动性及残差波动率相关性(绝对值)较高，相关性分别为 $-22.78\%$ 以及 $-19.01\%$ ；此外Alpha_Transformer因子与beta因子相关性为 $-7.49\%$ ，与beta_TCN相关性为 $50.56\%$ 。整体而言，独立Alpha空间编码器可以学习到一定程度的个股特异性信息，且与beta空间编码器学习的信息重合度相对适中，这为后续空间正交融合提供了一定的可解释性基础。 图15：Alpha空间信息与Barra因子相关性 数据来源：西南证券整理，截至2025年11月28日 从超额表现来看，自2019年1月至2025年11月，Alpha_Transformer因子相对中证全指数年化超额收益率 $18.30\%$ ，超额收益率年化波动率 $10.71\%$ ；分年度来看，自2019年至2025年11月末，因子多头组合相对中证全指超额收益率平均年化波动率 $10.21\%$ ，平均超额回撤率 $8.18\%$ ，平均年化超额收益率 $18.28\%$ 。综合超额收益及超额波动率来看，超额稳定年份主要为2021、2022、2023、2025年，而2024年因子整体表现波动较大。 图16：Alpha_Transformer多头超额走势 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图17：Alpha_Transformer多头分年度超额走势 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 表 5: Alpha_Transformer 因子 10 分组表现 年份 年化收益率 年化波动率 信息比率 最大回撤率 2019 4.60% 7.58% 0.61 6.20% 2020 9.00% 9.74% 0.92 9.12% 2021 35.39% 15.29% 2.31 12.95% 2022 16.79% 10.17% 1.65 5.90% 2023 24.86% 6.65% 3.74 3.90% 2024 22.13% 12.58% 1.76 10.78% 2025 15.21% 9.43% 1.61 8.39% 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 # 2.3 个股基本面特征提取：Theta空间 本节主要构造基于个股基本面指标的theta空间，该空间以价值投资理论中安全边际为原则进行构建，旨在为深度学习选股模型提供一个相对稳健基本面系统。在特征工程层面，我们精选了八个核心财务指标作为输入特征。这些指标覆盖了估值、成长、盈利、质量等多个基本面维度，具体特征列表如下： 表 6: Theta 空间编码特征列表 序号 特征中文名称 特征助记符 特征计算方法 1 市盈率 pe 个股滚动一年市盈率 2 市净率 pb 个股滚动一年市净率 3 ROE均值比标准差 roemeantostd 个股过去三年单季度roe均值比标准差 4 股息率 dividend yield 个股滚动一年股息率 5 ROE环比 roemom 个股单季度roe环比变化 6 EPS同比 epsyoy 个股单季度eps同比变化 7 营业利润率 operatingprofit 个股单季度营业利润率 8 ROIC roic 个股单季度资本回报率 数据来源：西南证券整理 在theta空间的编码器结构方面，我们设计了门控多层感知机作为核心编码器。该架构包含四个关键组件：输入投影层将八维基本面特征映射到统一隐藏空间；门控残差块通过主路径学习特征变换、门控路径动态调制特征重要性，并结合残差连接确保训练稳定性，输出层最终生成theta空间编码向量。 图18：Theta空间编码器构建：门控残差MLP 数据来源：西南证券整理 根据theta空间的定义，该空间致力于挖掘个股基本面信息，若在无其他空间配合的情况下本文单独训练theta空间编码器以实现收益预测任务。自2019年1月至2025年11月，全A范围内门控残差MLP因子（Theta-ResMLP）月平均IC为0.0485，多头组合（前 $10\%$ ）年化收益率 $23.88\%$ ，整体来看theta空间因子具备一定选股能力，但相较于beta和alpha以高频量价时序信息训练出的因子多头组合表现及因子IC表现较弱，但Theta因子多头组合最大回撤 $37.41\%$ ，表现优于beta空间因子，且月均换手率单边仅0.41X，换手率远远低于beta空间因子与alpha空间因子。 表 7: Theta-ResMLP 回测结果 IC ICIR Top10%组合年化收益率 年化波动率 信息比率 最大回撤率 单边月均换手率 Theta-ResMLP 0.0485*** 1.87 23.88% 23.96% 0.99 37.41% 0.41X 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 本文构造 $\theta$ 空间的核心目的是系统性地挖掘个股的财务安全边际与抗风险能力。换言之，本文训练出的 $\theta$ 空间编码器，在没有和后文其他空间进行正交化操作的前提下，在具备一定选股能力的同时，理论上应在基本面相关因子上有显著暴露，且与beta空间、alpha空间因子具备较低的相关性。 经相关性测试，Theta-ResMLP因子与BTOP、成长因子、杠杆因子、流动性因子、beta因子相关性（绝对值）较高，相关性分别为 $32.42\%$ 、 $-14.45\%$ 、 $14.95\%$ 、 $-14.53\%$ 以及 $-14.94\%$ ；与市值因子、动量因子相关性较低。可见Theta-ResMLP因子主要暴露于Barra因子中的基本面因子。此外Theta-ResMLP因子与beta_TCN因子相关性仅为 $5.37\%$ ，与Alpha_Transformer因子相关性仅为 $7.73\%$ 。整体而言，独立theta空间编码器可以学习到一定程度的个股基本面信息，且与beta空间编码器、alpha空间编码器学习的信息重合度较低，边际信息提供量较大，这也为后续空间正交融合提供了一定的可解释性基础。 图19：Theta空间信息与Barra因子相关性 数据来源：西南证券整理，截至2025年11月28日 # 2.4 空间融合初探 本节主要考虑两类空间对照组融合方式：1）直接对三个空间训练出的因子进行等权求和；2）将三个空间的编码信息进行合并，并通过单层线性层进行处理并接入预测头进行收益率预测。根据前文对三个空间训练得到的因子信息测试可以看出，三个深度学习编码器学习到的信息相关性较低，且具备一定的互补性。其中方法一直接对因子等权求和方法操作简单本文不再赘述，下面主要介绍方法二：空间线性融合的方法（DTLC_Line）。 空间线性融合DTLC模型的构造基于前述的三个空间的高维表征，同时每个空间均经过对比学习优化以增强特征区分度。在融合阶段，模型将三个空间的编码直接进行编码信息拼接，输入一个包含线性层和Softmax激活的轻量网络，并动态生成空间权重，进而对编码进行加权融合，最终通过预测头输出收益率预测。训练过程采用多任务损失函数，以信息系数（IC）最大化为核心目标，同时辅以对比学习损失增强特征鲁棒性，并引入正交约束损失确保三个空间表征的独立性，构建端到端的监督学习框架。该模型的主要目的是为强化学习融合版本建立可对比的基准模型，为后文科学评估强化学习融合机制的实际贡献进行铺垫。 图20：DTLC_Line模型结构 数据来源：西南证券整理，截至2025年11月28日 其中对比学习与正交约束损失设置如下： 1）对比学习正负样本构建方：正样本：未来20日收益率相关系数大于 $80\%$ 设为正样本；负样本：未来20日收益率相关系数小于 $0\%$ 设为负样本； 2）对比学习损失函数：InfoNCE 3）正交约束损失：三空间输出编码信息的协方差矩阵非对角线元素平方和。 对比学习的主要目的为通过将对比学习损失纳入监督学习整体损失函数的方式，使得三个空间编码器可以更好的区分各自空间的内部样本，而正交约束的主要目的为通过将正交约束纳入监督学习整体损失函数的方式，使得三个空间编码器之间的输出信息尽可能地趋于正交，即相关性趋低。但纳入对比学习约束与正交损失可能会对模型最终表现带来两点影响：1）模型为针对整体损失函数做梯度下降，可能对三空间编码器收益预测能力带来一定负面影响；2）因损失函数中两者的加入会带来空间之间相关性及不同空间内部相关性降低，理论上会提升模型最终表现。 为了探究对比学习与正交约束加入对模型整体表现的真实影响，本文分别对上述等权融合（DTLC_Equal）以及线性融合（DTLC_Line）模型进行回测。自2019年1月至2025年11月，DTLC等权融合模型因子月平均IC为0.1202，多空组合年化收益率 $34.35\%$ ，多头组合（前 $10\%$ ）年化收益率 $32.46\%$ ，最大回撤率 $40.65\%$ ，月均单边换手率0.71X；线性融合DTLC模型因子月平均IC为0.1239，多空组合年化收益 $34.44\%$ ，多头组合年化收益率 $32.95\%$ ，最大回撤率 $35.94\%$ ，月平均单边换手率 $0.76\%$ 。整体来看，线性融合DTLC相对于等权求和DTLC因子IC略有提升，但两模型多头组合表现基本相当。 表 8：DTLC 非强化学习融合方式回测结果 IC ICIR Top10%组合年化收益率 年化波动率 信息比率 最大回撤率 单边月均换手率 DTLC_Linear 0.1239*** 4.25 32.95% 24.39% 1.35 35.94% 0.76 DTLCequal 0.1202*** 4.06 32.46% 25.29% 1.28 40.65% 0.71 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 图21：DTLC_Line分组测试 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图22：DTLC_Equal分组测试 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图23：DTLC对照组整体超额表现 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图24：DTLC对照组分年度超额表现 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 根据多头组合超额表现来看（对比万得全A），自2019年至2025年11月的7年内，线性融合DTLC分别于2019、2020、2023以及2024年跑赢等权融合DTLC，其中线性融合DTLC模型年平均超额收益率 $19.02\%$ ，略跑赢等权融合DTLC的 $18.84\%$ 。 表 9：DTLC 非强化学习融合方式分年度超额对比 时间 因子名称 年化收益率 年化波动率 信息比率 最大回撤率 2019 DTLC_Equal 4.97% 8.37% 0.59 8.47% DTLC_Linear 6.68% 8.26% 0.81 7.24% 2020 DTLC_Equal 11.67% 10.42% 1.12 8.44% DTLC_Linear 12.57% 10.49% 1.20 8.72% 2021 DTLC_Equal 38.28% 14.68% 2.61 10.91% DTLC_Linear 33.66% 14.26% 2.36 11.14% 2022 DTLC_Equal 27.57% 12.50% 2.21 8.98% DTLC_Linear 24.82% 11.85% 2.10 7.10% 2023 DTLC_Equal 23.80% 8.33% 2.86 6.27% DTLC_Linear 27.51% 7.88% 3.49 4.99% 2024 DTLC_Equal 1.95% 23.55% 0.08 29.24% DTLC_Linear 5.46% 19.17% 0.29 24.17% 202511 DTLC_Equal 23.64% 12.23% 1.93 9.94% DTLC_Linear 22.87% 12.58% 1.82 10.55% 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 # 3 强化学习空间融合 本节将探讨强化学习在空间融合中的效果，即在本文的DTLC模型的三个编码器后引入强化学习动态复权的空间融合机制，而非简单的线性层生成融合权重。该部分的核心创新点为将三个子空间编码与市场环境特征共同输入策略网络，通过近端策略优化（PPO）算法动态生成空间权重，实现自适应加权融合，最终通过预测头输出未来收益率预测，其中强化学习生成动态权重的示意如下： 图25：PPO强化学习空间融合示意图 数据来源：西南证券整理 其中，强化学习PPO决策流程如下： Step1 空间编码生成及权重生成：将三个解耦子空间（ $\beta / \alpha / \theta$ ）的编码向量与当前市场环境特征进行拼接，形成综合状态表征 $s_t$ ，并状态表征 $s_t$ 输入策略网络（Actor），经过三层全连接网络非线性变换，并通过 Softmax 归一化生成三维空间权重 $a_t$ 。 Step2 价值网络评估状态：同步将状态 $s_t$ 输入价值网络（Critic），评估当前状态的价值 $V(s_t)$ ，用于后续优势函数计算，衡量当前状态对长期累积奖励的贡献度。 Step3 加权融合与收益预测：3个子空间原始编码按策略网络输出权重进行加权求和得到融合特征。融合特征通过预测头网络输出个股未来收益率预测 $\widehat{y_t}$ 。 Step4 奖励函数计算：其中 $R_{t}^{IC}$ 表示预测收益与实际收益相关系数， $R_{t}^{stable}$ 用以惩罚权重突变， $R_{t}^{div}$ 用以鼓励权重尽可能分散： $$ r _ {t} = R _ {t} ^ {I C} \big (\widehat {y _ {t}}, y _ {y} \big) + \lambda_ {s} R _ {t} ^ {s t a b l e} + \lambda_ {d} R _ {t} ^ {d i v} $$ Step5 经验存储：将本次交互的元组 $(s_t, a_t, r_t, s_{t+1}, \log \pi(a_t | s_t), \mathrm{V}(s_t))$ 存入经验回放缓冲区，为后续策略更新提供数据样本。其中 $\log \pi(a_t | s_t)$ 表示策略函数在状态 $s_t$ 下做出动作（生成权重） $a_t$ 的概率。 Step6 定期PPO策略优化：当经验缓冲区积累足够样本后，随机采样批次数据，执行PPO更新： 1）计算GAE优势估计 $\widehat{A_t}$ 2）计算新旧策略概率比 $\mathrm{r}(\theta) = \pi_{\theta}(a_t|s_t)\Bigg{/}\pi_{\theta_{old}}(a_t|s_t);$ 3）计算裁剪策略损失： $$ L ^ {C L I P} = E \left[ \min \left(r \hat {A}, c l i p (r, 1 - \varepsilon , 1 + \varepsilon) \hat {A}\right) \right] $$ 4）计算价值损失： $$ L ^ {V F} = M S E \left(V \left(s _ {t}\right), V ^ {t a r g e t}\right) $$ 5）反向传播更新策略网络及价值网络参数。 本节对强化学习融合下的DTLC模型（DTLC_RL）进行回测，自2019年1月至2025年11月，DTLC_RL因子月平均IC为0.1250，多头组合年化收益率 $34.77\%$ ，月均单边换手率 $0.71X_{\circ}$ 整体来看，强化学习融合下的DTLC_RL因子与线性融合下的DTLC_Line在IC方便表现基本类似，但DTLC_RL多头组合表现显著优于DTLC_Line多头表现，换手率略低于DTLC_Line因子的 $0.76X,$ 略高于DTLC_Equal因子的 $0.71X_{\circ}$ 可见强化学习空间融合机制的加入虽然在IC方便并没有带来较为明显的增益，但却可以较为显著的提升因子多头组合表现。 表 10:DTLC_RL 回测结果 IC ICIR Top10%组合年化收益率 年化波动率 信息比率 最大回撤率 单边月均换手率 DTLC_RL 0.1250*** 4.38 34.77% 25.41% 1.37 40.65% 0.71X 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 图26：DTLC_RL因子IC表现 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图27：DTLC_RL分组测试 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 从因子分组的相对净值表现来看，对比三类不同的DTLC融合模型。可以看出三类模型在2024年1月至2月均出现一定幅度的超额回撤，且2025年8月同样出现一定幅度的超额回撤。横向对比来看，DTLC_RL因子多头组合超额表现最为突出。 图28：DTLC融合模型相对万得全A超额走势 数据来源：西南证券整理 根据因子多头组合分年度相对万得全A的超额表现来看，自2019年1月至2025年11月的近7年时间内，DTLC_RL因子多头组合均实现正超额，其中2021、2022、2023年超额表现相对较好，相对万得全A超额分别为 $40.85\%$ 、 $31.04\%$ 以及 $23.80\%$ 。截至2025年11月底，今年以来相对万得全A超额 $23.64\%$ ，超额最大回撤 $9.94\%$ ，该最大回撤主要发生在2025年8月。此外由于2024年1月末及“0924”行情，DTLC_RL因子多头组合在2024年全年超额表现较差，仅实现 $3.23\%$ 超额。 表 11：DTLC_RL 因子多头分年度表现 (超额) 年化收益率 年化波动率 信息比率 最大回撤率 2019 6.29% 8.45% 0.74 7.31% 2020 17.32% 10.85% 1.60 8.44% 2021 40.85% 14.95% 2.73 10.91% 2022 31.04% 12.98% 2.39 8.98% 2023 23.80% 8.33% 2.86 6.27% 2024 3.23% 23.55% 0.14 29.24% 2025 23.64% 12.23% 1.93 9.94% 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图29：DTLC_RL多头分年度超额净值 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 # 4 模型测试与指数增强策略 # 4.1沪深300指数增强 在本节中，本文基于DTLC_RL模型构建沪深300指数增强策略。在构建指数增强策略之前，本文分别测试了前文中DTLC融合模型及其子模型分别在沪深300指数成分股内表现。经过回测，在沪深300成分股内，DTLC_RL因子多头组合年化收益率 $14.73\%$ ，最大回撤 $24.79\%$ ，表现优于DTLC_Equal以及DTLC_Linear。 表 12：DTLC_RL 回测结果 IC ICIR 年化收益率 年化波动率 信息比率 最大回撤率 年化超额收益率 换手率 DTLC_Equal 0.0549*** 1.22 12.49% 21.80% 0.57 31.49% 0.27% 0.73 DTLC_Linear 0.0590*** 1.37 13.82% 21.13% 0.65 27.26% 1.33% 0.78 DTLC_RL 0.0583*** 1.30 14.73% 21.66% 0.68 24.79% 2.21% 0.74 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 # 其中，本文沪深300指数增强策略回测设定如下： 1）个股权重偏离：个股权重偏离不超过 $1\%$ 2）行业权重偏离：申万一级行业偏离不超过 $3\%$ 3）成分股权重限制：沪深300成分股权重不少于 $80\%$ 4）交易费率：单边千分之二； 5）回测时间2019年1月至今，月频调仓，调仓当日以wap价格成交。 表 13：DTLC_RL 沪深 300 指数增强效果 年化收益率 年化波动率 信息比率 最大回撤率 年化超额收益率 DTLC_RL 19.26% 20.23% 0.95 26.33% 13.72% 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 以上述条件测试DTLC_RL因子沪深300指数增强策略。自2019年1月至2025年11月，DTLC_RL因子沪深300指数增强相对指数年化超额收益率 $13.72\%$ 图30：DTLC_RL沪深300指数增强表现 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图31：DTLC_RL沪深300指数增强超额情况 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 分区间来看，截至2025年11月28日，DTLC_RL模型沪深300指数增强近一个月、三个月、一年、三年超额收益率分别为 $-0.87\%$ 、 $1.53\%$ 、 $14.99\%$ 以及 $12.58\%$ （超过一年计算年化收益率，不足一年计算累计收益率）。 表 14：DTLC_RL 沪深 300 指数增强策略分区间回测结果 年化收益率 年化波动率 信息比率 最大回撤率 年化超额收益率 近一个月 -0.87% 12.34% -0.07 4.89% 3.26% 近三个月 1.53% 13.24% 0.12 4.89% 1.12% 近一年 14.99% 16.90% 0.89 12.58% -0.30% 近三年 12.58% 19.70% 0.64 24.47% 6.92% 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年7月31日 图32：DTLC_RL沪深300指数增强表现（近一月） 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图33：DTLC_RL沪深300指数增强表现（近三月） 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图34：DTLC_RL沪深300指数增强表现（近一年） 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图35：DTLC_RL沪深300指数增强表现（近三年） 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 # 4.2中证1000指数增强 在本节中，本文基于DTLC_RL模型构建中证1000指数增强策略。在构建指数增强策略之前，本文分别测试了前文中DTLC融合模型及其子模型分别在中证1000指数成分股内表现。经过回测，在中证1000成分股内，DTLC_RL因子多头组合年化收益率 $28.97\%$ ，相对中证1000指数年化超额收益率 $14.84\%$ ，最大回撤 $39.70\%$ ，表现优于DTLC_Equal以及DTLC_Linear。 表 15: DTLC_RL 中证 1000 成分股回测结果 IC ICIR 年化收益率 年化波动率 信息比率 最大回撤率 年化超额收益率 换手率 DTLC_Equal 0.1088*** 3.20 27.11% 25.11% 1.08 39.70% 13.20% 0.72 DTLC_Linear 0.1119*** 3.25 27.24% 24.36% 1.12 37.40% 13.19% 0.77 DTLC_RL 0.1122*** 3.27 28.97% 25.09% 1.15 39.70% 14.84% 0.73 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 # 其中，本文中证1000指数增强策略回测设定如下： 1）个股权重偏离：个股权重偏离不超过 $1\%$ 2）行业权重偏离：申万一级行业偏离不超过 $4\%$ 3）成分股权重限制：中证1000成分股权重不少于 $80\%$ 4）交易费率：单边千分之二； 5）回测时间2019年1月至今，月频调仓，调仓当日以wap价格成交。 表 16：DTLC_RL 中证 1000 指数增强效果 年化收益率 年化波动率 信息比率 最大回撤率 年化超额收益率 DTLC_RL 28.20% 25.73% 1.10 -35.18% 20.37% 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年11月28日 以上述条件测试DTLC_RL因子中证1000指数增强策略。自2019年1月至2025年11月，DTLC_RL因子中证1000指数增强相对指数年化超额收益率 $20.37\%$ 图36：DTLC_RL中证1000指数增强表现 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图37：DTLC_RL中证1000指数增强超额情况 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 分区间来看，截至2025年11月28日，DTLC_RL模型中证1000指数增强近一个月、三个月、一年、三年超额收益率分别为 $3.00\%$ 、 $4.52\%$ 、 $19.67\%$ 以及 $13.76\%$ （超过一年计算年化收益率，不足一年计算累计收益率）。 表 17：DTLC_RL 中证 1000 指数增强策略分区间回测结果 年化收益率 年化波动率 信息比率 最大回撤率 年化超额收益率 指数增强(近一月) -0.04% 17.77% -0.00 6.33% 3.00% 指数增强(近三月) 2.08% 16.20% 0.13 6.33% 4.52% 指数增强(近一年) 36.93% 22.36% 1.65 15.46% 19.67% 指数增强(近三年) 17.16% 27.48% 0.62 35.18% 13.76% 数据来源：wind、恒生聚源、ifind、西南证券整理，截至2025年7月31日 图38：DAFAT中证1000指数增强表现（近一月） 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图39：DAFAT中证1000指数增强表现（近三月） 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图40：DAFAT中证1000指数增强表现（近一年） 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 图41：DAFAT中证1000指数增强表现（近三年） 数据来源：wind、ifind、西南证券整理，截至2025年11月28日 # 5 总结与展望 本报告提出并验证了一种基于强化学习的解耦时序对比选股模型（DTLC_RL），该模型通过多层次因子解耦、对比学习增强表征、正交约束保障独立性以及强化学习动态融合，构建了一个兼具强预测能力与良好可解释性的选股框架。在模型设计中，我们分别构建了面向市场系统风险（ $\beta$ 空间）、个股特异特征（ $\alpha$ 空间）和个股基本面信息（ $\theta$ 空间）的专用编码器，并通过对比学习与正交约束提升各空间表征的区分度与互补性。在此基础上，引入近端策略优化（PPO）算法作为“融合控制器”，根据市场状态自适应调整各空间权重，实现了动态、稳健的多源信息融合。回测结果表明，DTLC_RL在全A范围内IC为0.1250，多头组合年化收益率 $34.77\%$ ，月均单边换手率 $0.71X$ 。总体而言，DTLC_RL为深度学习在量化选股中的应用提供了一条兼具“非线性能力”与“可解释性”的路径，为传统多因子模型的升级与端到端深度学习模型的完善提供了有价值的思路。 展望未来，本研究仍存在若干可深化与拓展的方向。其一，可进一步引入更多模态的市场信息（如另类数据、新闻舆情等），构建更丰富的解耦空间，提升模型的信息覆盖广度。其二，强化学习部分的奖励函数设计可进一步优化，例如引入风险调整后的收益指标或引入行业轮动信号等多种因素，以增强模型在组合管理层面的实用性。其三，强化学习的作用主 要体现在对三个空间的高维编码进行信息融合，而三个空间的高维信息编码本质上并非直接的收益预测，需要后续预测头的进一步处理才可具备收益预测效果，因此该处仍具备一些不可解释性。 # 6 风险提示 报告对应的相关结论完全基于公开的历史数据进行算法构建、统计以及计算，文中部分数据有一定滞后性，同时也存在第三方数据提供不准确或者缺失等风险；策略效果结论仅针对于回测区间得出，并不预示其未来表现，也不能保证未来的可持续性，亦不构成投资收益的保证或投资建议。 # 分析师承诺 本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师，报告所采用的数据均来自合法合规渠道，分析逻辑基于分析师的职业理解，通过合理判断得出结论，独立、客观地出具本报告。分析师承诺不曾因，不因，也将不会因本报告中的具体推荐意见或观点而直接或间接获取任何形式的补偿。 # 投资评级说明 报告中投资建议所涉及的评级分为公司评级和行业评级（另有说明的除外）。评级标准为报告发布日后6个月内的相对市场表现，即：以报告发布日后6个月内公司股价（或行业指数）相对同期相关证券市场代表性指数的涨跌幅作为基准。其中：A股市场以沪深300指数为基准，新三板市场以三板成指（针对协议转让标的）或三板做市指数（针对做市转让标的）为基准；香港市场以恒生指数为基准；美国市场以纳斯达克综合指数或标普500指数为基准。 公司评级 买入：未来6个月内，个股相对同期相关证券市场代表性指数涨幅在20%以上 持有：未来6个月内，个股相对同期相关证券市场代表性指数涨幅介于10%与20%之间 中性：未来6个月内，个股相对同期相关证券市场代表性指数涨幅介于-10%与10%之间 回避：未来6个月内，个股相对同期相关证券市场代表性指数涨幅介于-20%与-10%之间 卖出：未来6个月内，个股相对同期相关证券市场代表性指数涨幅在-20%以下 行业评级 强于大市：未来6个月内，行业整体回报高于同期相关证券市场代表性指数5%以上 跟随大市：未来6个月内，行业整体回报介于同期相关证券市场代表性指数-5%与5%之间 弱于大市：未来6个月内，行业整体回报低于同期相关证券市场代表性指数-5%以下 # 重要声明 西南证券股份有限公司（以下简称“本公司”）具有中国证券监督管理委员会核准的证券投资咨询业务资格。 本公司与作者在自身所知情范围内，与本报告中所评价或推荐的证券不存在法律法规要求披露或采取限制、静默措施的利益冲突。 《证券期货投资者适当性管理办法》于2017年7月1日起正式实施，本报告仅供本公司签约客户使用，若您并非本公司签约客户，为控制投资风险，请取消接收、订阅或使用本报告中的任何信息。本公司也不会因接收人收到、阅读或关注自媒体推送本报告中的内容而视其为客户。本公司或关联机构可能会持有报告中提到的公司所发行的证券并进行交易，还可能为这些公司提供或争取提供投资银行或财务顾问服务。 本报告中的信息均来源于公开资料，本公司对这些信息的准确性、完整性或可靠性不作任何保证。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断，本报告所指的证券或投资标的价格、价值及投资收入可升可跌，过往表现不应作为日后的表现依据。在不同时期，本公司可发出与本报告所载资料、意见及推测不一致的报告，本公司不保证本报告所含信息保持在最新状态。同时，本公司对本报告所含信息可在不发出通知的情形下做出修改，投资者应当自行关注相应的更新或修改。 本报告仅供参考之用，不构成出售或购买证券或其他投资标的要约或邀请。在任何情况下，本报告中的信息和意见均不构成对任何个人的投资建议。投资者应结合自己的投资目标和财务状况自行判断是否采用本报告所载内容和信息并自行承担风险，本公司及雇员对投资者使用本报告及其内容而造成的一切后果不承担任何法律责任。 本报告 须注明出处为“西南证券”，且不得对本报告及附录进行有悖原意的引用、删节和修改。未经授权刊载或者转发本报告及附录的，本公司将保留向其追究法律责任的权利。 # 西南证券研究院 # 上海 地址：上海市浦东新区陆家嘴21世纪大厦10楼 邮编：200120 # 北京 地址：北京市西城区金融大街35号国际企业大厦A座8楼 邮编：100033 # 深圳 地址：深圳市福田区益田路6001号太平金融大厦22楼 邮编：518038 # 重庆 地址：重庆市江北区金沙门路32号西南证券总部大楼21楼 邮编：400025 西南证券机构销售团队 区域 姓名 职务 座机 手机 邮箱 上海 蒋诗烽 院长助理、研究销售部经理、上海销售主管 021-68415309 18621310081 jsf@swsc.com.cn 崔露文 销售岗 15642960315 15642960315 clw@swsc.com.cn 李煜 销售岗 18801732511 18801732511 yfliyu@swsc.com.cn 汪艺 销售岗 13127920536 13127920536 wyyf@swsc.com.cn 戴剑箫 销售岗 13524484975 13524484975 daijx@swsc.com.cn 李嘉隆 销售岗 15800507223 15800507223 ljlong@swsc.com.cn 欧若诗 销售岗 18223769969 18223769969 ors@swsc.com.cn 蒋宇洁 销售岗 15905851569 15905851569 jyj@swsc.com.c 贾文婷 销售岗 13621609568 13621609568 jiawent@swsc.com.cn 张嘉诚 销售岗 18656199319 18656199319 zhangjc@swsc.com.cn 毛玮琳 销售岗 18721786793 18721786793 mwl@swsc.com.cn 北京 李杨 北京销售主管 18601139362 18601139362 yfly@swsc.com.cn 张岚 销售岗 18601241803 18601241803 zhanglan@swsc.com.cn 姚航 销售岗 15652026677 15652026677 yhang@swsc.com.cn 杨薇 销售岗 15652285702 15652285702 yangwei@swsc.com.cn 王宇飞 销售岗 18500981866 18500981866 wangyuf@swsc.com 王一菲 销售岗 18040060359 18040060359 wyf@swsc.com.cn 张鑫 销售岗 15981953220 15981953220 zhxin@swsc.com.cn 马冰竹 销售岗 13126590325 13126590325 mbz@swsc.com.cn 广深 龚之涵 销售岗 15808001926 15808001926 gongzh@swsc.com.cn 唐茜露 销售岗 18680348593 18680348593 txl@swsc.com.cn 文柳茜 销售岗 13750028702 13750028702 wlq@swsc.com.cn 林哲睿 销售岗 15602268757 15602268757 Izr@swsc.com.cn