> **来源:[研报客](https://pc.yanbaoke.cn)** # 华泰 | 金工:高频特征参数化 - 分钟级可解释因子挖掘框架总结 ## 核心内容 本研究提出了一套**分钟级可解释因子挖掘框架**,将因子挖掘从基本面维度拓展至**高频量价维度**,旨在挖掘分钟级交易数据中蕴含的微观结构信息。该框架通过**四步流程**(输入与切片、时序掩码、算子降维、因子后处理)构建了**可解释性强、逻辑清晰的分钟级因子万能公式**,并引入**NSGA-III多目标遗传算法**和**动态短板惩罚机制**,有效解决了高维目标空间中的“维数灾难”问题。 ## 主要观点 - **因子模块化与可解释性**:因子表达式统一为一行包含10个参数的固定格式,每个参数均有明确的经济学含义和取值范围,提升因子的可解释性和一致性。 - **多目标因子评价体系**:构建了五目标评价体系(|IC|、IC胜率、多头绝对收益、多头夏普比率、多头胜率),全面评估因子的预测能力与实盘表现。 - **NSGA-III算法改进**:通过超平面参考点与关联操作引导种群在多维空间中均匀分布,提升因子多样性与优化效率。 - **动态短板惩罚机制**:清除“畸形”因子,确保因子在各维度上表现均衡,避免因子同质化和单一指标主导的问题。 - **有效因子类型**:发现**成交笔数自相关特征**、**单笔成交回归截距**和**量价空间欧氏距离**三类因子表现突出,具备稳健的收益特征。 - **深度学习模型融合**:将分钟级信号作为新特征输入**PortfolioNet**模型,显著提升宽基指数增强效果,尤其在中小市值策略中表现更优。 ## 关键信息 ### 四步因子计算流程 1. **输入与切片**:锁定目标时间段,明确计算所需的数据范围。 2. **时序掩码**:通过指定字段与分位数规则筛选有效样本。 3. **算子降维**:使用单变量或双变量算子将分钟级数据降频为日频因子。 4. **因子后处理**:进行中位数去极值、行业市值中性化与截面Z-Score标准化。 ### 因子通用公式 $$ N [ f (A, B, \text{window}, \text{slice}, \text{mask}_\text{field}, \text{mask}_\text{rule}, \text{mode}, \text{mode1}, \text{mode2}, B_{\text{shift}} \text{lag}) ] $$ - **A、B**:分钟级量价指标,如成交量、成交金额、成交笔数等。 - **window**:时间窗口长度,取值范围:30, 60, 120, 238, 'All'。 - **slice**:时间窗口中心位置,取值范围:0.0, 0.1, 0.2, 0.5, 0.8, 0.9, 1.0。 - **mask_rule**:筛选规则,如high_0.7、high_0.5、low_0.3等。 - **mode**:因子计算模式,1为单变量,2为双变量。 - **mode1, mode2**:算子类型,如Mean、Intercept、Euc_Dist等。 - **B_shift_lag**:辅助指标的时间错位参数,取值范围:0, 1, -1, 2, -2。 ### 实验结果 - **实验一(gp_lgb)**:仅使用分钟因子简单合成,RankIC均值为10.46%,但换手率较高,效果有限。 - **实验二(PortfolioNet)**:纯日频深度学习模型,表现良好但未引入分钟级信号。 - **实验三(PortfolioNet_gp)**:推荐方案,将分钟信号纳入PortfolioNet模型,显著提升绩效。 | 指数增强 | 年化超额收益率 | 信息比率 | Calmar比率 | 换手率 | |----------|----------------|----------|------------|--------| | 沪深300 | 9.0% | 1.57 | 1.28 | 20.48% | | 中证500 | 8.0% | 1.35 | 1.25 | 20.58% | | 中证1000 | 14.8% | 2.23 | 2.06 | 20.63% | | 中证2000 | 16.70% | 2.52 | 3.43 | 20.68% | ### 因子提升效果 - 在**1000增强**场景下,PortfolioNet_gp年化超额收益提升**2.9pct**,Calmar比率提升**0.66**。 - 在**2000增强**场景下,Calmar比率提升**1.5**。 - **信息比率**同步提升,表明因子在风险调整后收益更优。 ## 结论 本研究提出的**分钟级可解释因子挖掘框架**,为AI量价模型注入了新的特征活力,显著提升了宽基指数增强效果。尤其在**中小市值策略**中表现突出,最大回撤明显改善,信息比率和Calmar比率显著提升。未来可进一步结合**强化学习**、**图神经网络**等技术,提升因子挖掘的深度与广度。 ## 风险提示 - 遗传规划与神经网络均基于历史数据挖掘规律,未来市场可能失效。 - 模型存在过拟合风险,需谨慎回测与实盘应用。 - 回测假设以vwap价格成交,未考虑涨跌停、交易成本等实际交易因素。 ## 未来展望 本研究为AI量价模型提供了新的特征来源,未来可进一步结合**强化学习**与**图神经网络**,以更全面刻画微观结构关系,提升因子挖掘效果。