20260615-东方证券-量化研究参考系列之八_DiffsFormer_用扩散模型扩充股票特征样本_18页_810kb

> **来源：[研报客](https://pc.yanbaoke.cn)** # DiffsFormer：用扩散模型扩充股票特征样本 ## 核心内容 DiffsFormer 是一项基于扩散模型与 Transformer 架构的股票特征增强技术，旨在解决金融数据稀缺与过拟合问题。该方法通过在更大源域（如全 A 股）上训练扩散模型，再对目标域（如 CSI300、CSI800）样本进行可控编辑，从而在保留原始特征分布的同时引入更多样化的样本，为下游预测模型提供更丰富的训练数据。 ## 主要观点 - **数据稀缺与过拟合问题**：股票预测面临特征与收益率相关性弱（信噪比低）与行业同质化（同一行业个股走势趋同）两大挑战，导致模型样本外泛化能力下降。 - **编辑式增强**：DiffsFormer 不从纯噪声生成样本，而是对目标域样本进行有限加噪与去噪操作，实现“编辑”现有样本，提升样本保真度。 - **迁移学习**：在全 A 股等更大源域上训练扩散模型，再对目标域样本进行编辑，引入更广泛的信息，缓解行业同质化问题。 - **条件扩散**：以收益率标签与行业作为条件，约束生成方向，避免生成样本与标签不匹配，提升监督信号质量。 - **即插即用设计**：DiffsFormer 可作为上游模块对接多种下游模型（如 MLP、LSTM、Transformer），无需改动模型结构。 - **实证效果显著**：在 A 股 CSI300 和 CSI800 上，DiffsFormer 使年化收益率分别提升 7.2% 和 27.8%，且在信息比率（IR）上表现更优。 - **增强机制的权衡**：编辑步 T' 的选择需在样本保真度与多样性之间权衡，T'=300 在 CSI300 上表现最优。 - **数据泄漏与实盘约束**：合成数据训练存在数据泄漏风险，需严格控制时间切分；实盘落地还需考虑交易成本、容量及流动性影响。 ## 关键信息 - **论文信息**：由 USTC 与阿里达摩院联合发表于 arXiv（编号 2402.06656），标题为《DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation》。 - **数据增强方式**：通过扩散模型对特征进行加噪与去噪，生成增强样本，保留标签不变。 - **特征来源**：使用 Qlib 的 Alpha158 因子集，每个样本回看 8 日，共 158 维。 - **评估指标**：以年化收益率（RR）为主，辅以 IC、RankIC 和加权 IC 衡量预测有效性。 - **交易规则**：采用 top30drop30 策略，只做多头，模拟交易收益率为关键评价指标。 - **改进方向**：适配本土因子池、扩展条件维度、嵌入投研流程、加强实盘约束。 - **风险提示**：生成样本依赖历史分布，对新市场环境外推有限；编辑步需调参；条件设置不当可能影响监督信号质量；合成数据训练存在数据泄漏风险；实盘需考虑交易成本与容量。 ## 核心框架 1. **扩散增强原理**：通过前向加噪与反向去噪学习特征分布。 2. **编辑式增强与迁移学习**：从目标域样本出发进行可控扰动，引入更大源域信息。 3. **条件扩散**：以收益率标签与行业信息作为条件，约束生成方向。 4. **即插即用设计**：可对接多种下游模型，不绑定特定预测结构。 5. **评估指标**：以年化收益率为主，结合 IC、RankIC 和加权 IC。 ## 亮点分析 - **编辑式增强提升样本保真度**：生成样本贴近真实分布，避免偏离，提升训练有效性。 - **迁移学习引入更大源域信息**：缓解样本同质化，提升数据异质性。 - **条件机制解决标签适配问题**：避免生成标签导致的错配，提升监督信号质量。 - **即插即用，适配多类模型**：支持 MLP、LSTM、Transformer 等八类模型，提升通用性。 - **对比金融风洞（FWT）**：DiffsFormer 侧重增强样本对真实分布的贴近，而 FWT 更关注情景空间覆盖。 ## 实证结果 - **主结果**：DiffsFormer 增强后，CSI300 和 CSI800 的年化收益率分别提升 7.2% 和 27.8%。 - **编辑步 T' 的影响**：T'=300 在 CSI300 上表现最优，FID 指标也最低。 - **条件机制的贡献**：联合条件（标签+行业）效果最好，提升年化收益率至 0.3127。 - **源域选择的重要性**：全 A 股作为源域效果最佳，单纯扩大源域未必有效。 - **与其他增强方法对比**：DiffsFormer 明显优于随机噪声、Shake-shake 等方法。 - **损失引导加噪**：在 CSI300 和 CSI800 上提升 IR，降低波动。 ## 改进方向 1. **适配本土因子池**：替换 Alpha158 为自有因子集，保持预处理一致性。 2. **扩展条件维度**：纳入市值、风格、行业与宏观状态，提升生成样本的针对性。 3. **嵌入投研流程**：可用于因子挖掘、模型训练、压力测试与组合风控。 4. **加强实盘约束**：需评估数据泄漏、交易成本与容量，确保净收益。 ## 风险提示 1. **历史分布依赖**：对新市场环境外推能力有限，需持续跟踪模型表现。 2. **编辑步 T' 调参**：过大偏离目标域，过小则信息有限。 3. **条件信息设置**：不当可能导致生成特征与标签不匹配，削弱监督信号。 4. **数据泄漏风险**：合成数据需严格时间切分，避免隐含未来信息。 5. **实盘落地需验证**：需扣除交易成本、滑点与容量限制，评估净收益。 ## 附录：相关报告 | 报告名称 | 发布日期 | |----------|----------| | 用日频 K 线重建累计 Delta 订单流指标 | 2026-06-09 | | 高频订单失衡波动如何影响市场流动性 | 2026-05-23 | | Kronos:基于 K 线预训练的金融基础模型 | 2026-05-18 | | 金融风洞:用相似历史行情合成个股收益序列 | 2026-05-12 | | 高维环境下的最优因子择时 | 2026-04-21 | | SSPT:股票时序定制化预训练选股框架 | 2026-04-13 | | QuantaAlpha:用大模型做量化因子挖掘 | 2026-04-07 |