> **来源:[研报客](https://pc.yanbaoke.cn)** # DiffsFormer:用扩散模型扩充股票特征样本 ## 核心内容 DiffsFormer 是一项基于扩散模型与 Transformer 架构的股票特征增强技术,旨在解决金融数据稀缺与过拟合问题。该方法通过在更大源域(如全 A 股)上训练扩散模型,再对目标域(如 CSI300、CSI800)样本进行可控编辑,从而在保留原始特征分布的同时引入更多样化的样本,为下游预测模型提供更丰富的训练数据。 ## 主要观点 - **数据稀缺与过拟合问题**:股票预测面临特征与收益率相关性弱(信噪比低)与行业同质化(同一行业个股走势趋同)两大挑战,导致模型样本外泛化能力下降。 - **编辑式增强**:DiffsFormer 不从纯噪声生成样本,而是对目标域样本进行有限加噪与去噪操作,实现“编辑”现有样本,提升样本保真度。 - **迁移学习**:在全 A 股等更大源域上训练扩散模型,再对目标域样本进行编辑,引入更广泛的信息,缓解行业同质化问题。 - **条件扩散**:以收益率标签与行业作为条件,约束生成方向,避免生成样本与标签不匹配,提升监督信号质量。 - **即插即用设计**:DiffsFormer 可作为上游模块对接多种下游模型(如 MLP、LSTM、Transformer),无需改动模型结构。 - **实证效果显著**:在 A 股 CSI300 和 CSI800 上,DiffsFormer 使年化收益率分别提升 7.2% 和 27.8%,且在信息比率(IR)上表现更优。 - **增强机制的权衡**:编辑步 T' 的选择需在样本保真度与多样性之间权衡,T'=300 在 CSI300 上表现最优。 - **数据泄漏与实盘约束**:合成数据训练存在数据泄漏风险,需严格控制时间切分;实盘落地还需考虑交易成本、容量及流动性影响。 ## 关键信息 - **论文信息**:由 USTC 与阿里达摩院联合发表于 arXiv(编号 2402.06656),标题为《DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation》。 - **数据增强方式**:通过扩散模型对特征进行加噪与去噪,生成增强样本,保留标签不变。 - **特征来源**:使用 Qlib 的 Alpha158 因子集,每个样本回看 8 日,共 158 维。 - **评估指标**:以年化收益率(RR)为主,辅以 IC、RankIC 和加权 IC 衡量预测有效性。 - **交易规则**:采用 top30drop30 策略,只做多头,模拟交易收益率为关键评价指标。 - **改进方向**:适配本土因子池、扩展条件维度、嵌入投研流程、加强实盘约束。 - **风险提示**:生成样本依赖历史分布,对新市场环境外推有限;编辑步需调参;条件设置不当可能影响监督信号质量;合成数据训练存在数据泄漏风险;实盘需考虑交易成本与容量。 ## 核心框架 1. **扩散增强原理**:通过前向加噪与反向去噪学习特征分布。 2. **编辑式增强与迁移学习**:从目标域样本出发进行可控扰动,引入更大源域信息。 3. **条件扩散**:以收益率标签与行业信息作为条件,约束生成方向。 4. **即插即用设计**:可对接多种下游模型,不绑定特定预测结构。 5. **评估指标**:以年化收益率为主,结合 IC、RankIC 和加权 IC。 ## 亮点分析 - **编辑式增强提升样本保真度**:生成样本贴近真实分布,避免偏离,提升训练有效性。 - **迁移学习引入更大源域信息**:缓解样本同质化,提升数据异质性。 - **条件机制解决标签适配问题**:避免生成标签导致的错配,提升监督信号质量。 - **即插即用,适配多类模型**:支持 MLP、LSTM、Transformer 等八类模型,提升通用性。 - **对比金融风洞(FWT)**:DiffsFormer 侧重增强样本对真实分布的贴近,而 FWT 更关注情景空间覆盖。 ## 实证结果 - **主结果**:DiffsFormer 增强后,CSI300 和 CSI800 的年化收益率分别提升 7.2% 和 27.8%。 - **编辑步 T' 的影响**:T'=300 在 CSI300 上表现最优,FID 指标也最低。 - **条件机制的贡献**:联合条件(标签+行业)效果最好,提升年化收益率至 0.3127。 - **源域选择的重要性**:全 A 股作为源域效果最佳,单纯扩大源域未必有效。 - **与其他增强方法对比**:DiffsFormer 明显优于随机噪声、Shake-shake 等方法。 - **损失引导加噪**:在 CSI300 和 CSI800 上提升 IR,降低波动。 ## 改进方向 1. **适配本土因子池**:替换 Alpha158 为自有因子集,保持预处理一致性。 2. **扩展条件维度**:纳入市值、风格、行业与宏观状态,提升生成样本的针对性。 3. **嵌入投研流程**:可用于因子挖掘、模型训练、压力测试与组合风控。 4. **加强实盘约束**:需评估数据泄漏、交易成本与容量,确保净收益。 ## 风险提示 1. **历史分布依赖**:对新市场环境外推能力有限,需持续跟踪模型表现。 2. **编辑步 T' 调参**:过大偏离目标域,过小则信息有限。 3. **条件信息设置**:不当可能导致生成特征与标签不匹配,削弱监督信号。 4. **数据泄漏风险**:合成数据需严格时间切分,避免隐含未来信息。 5. **实盘落地需验证**:需扣除交易成本、滑点与容量限制,评估净收益。 ## 附录:相关报告 | 报告名称 | 发布日期 | |----------|----------| | 用日频 K 线重建累计 Delta 订单流指标 | 2026-06-09 | | 高频订单失衡波动如何影响市场流动性 | 2026-05-23 | | Kronos:基于 K 线预训练的金融基础模型 | 2026-05-18 | | 金融风洞:用相似历史行情合成个股收益序列 | 2026-05-12 | | 高维环境下的最优因子择时 | 2026-04-21 | | SSPT:股票时序定制化预训练选股框架 | 2026-04-13 | | QuantaAlpha:用大模型做量化因子挖掘 | 2026-04-07 |