> **来源:[研报客](https://pc.yanbaoke.cn)** # 量化专题报告 # “机器学习”选股模型系列研究(一) # 量价指纹模型的构建与应用初探 前言:本篇报告借鉴大语言模型的语义理解思想,提出“量价指纹”的概念,将市场交易数据视为一种特殊“语言”,通过自监督学习,理解、提取日内量价行为中蕴含的特征,并在端到端深度学习模型中做了初步应用。 量价指纹模型的构建:“量价指纹”模型的构建流程遵循了从原始数据处理到深度语义表征的路径,具体而言,我们围绕分钟特征处理、双任务自监督学习、防坍缩正则化这3个关键环节展开指纹的具体构建: (1) 分钟特征预处理:选取 32 维分钟级特征,包括价格特征(如高、低、收、价格位置等)与交易特征(如成交额、挂撤单、资金流等),并分别进行标准化处理,以消除量纲与历史波动的影响; (2) 双任务学习框架:通过前向因果预测任务(价格特征预测)与后向特征重建任务(交易特征重建),迫使模型学习市场量价关系的动态语义与因果结构,生成128维日度指纹向量; (3) 防坍缩设计: 引入多样性、正交性与均匀性正则项, 确保指纹向量具备高区分度、低冗余与信息丰富的特性, 避免表征坍塌。 量价指纹模型的端到端应用初探:我们将“量价指纹”作为输入特征,结合GRU模型,对股票的未来收益进行预测。测试结果表明: (1)仅使用量价指纹进行模型训练得到的因子,具备一定的预测能力,2017/01/01-2025/12/31,因子的周度RankIC均值为0.106,全市场10分组多空对冲的年化收益为 $83.88\%$ ,信息比率为5.41,最大回撤为 $11.65\%$ (2)量价指纹可在用常规量价因子构建模型的基础上,提供增量信息;将量价指纹与量价因子融合训练的双流GRU模型,进一步提升了预测能力,融合因子的周度RankIC均值为0.109,全市场10分组多空对冲的年化收益为 $90.89\%$ ,信息比率5.95,最大回撤为 $11.54\%$ (3) 基于融合因子构建的指数增强组合,在较为严格的风险约束条件下,仍能取得稳定、可观的超额收益,如沪深 300 指数增强组合的超额年化收益为 $7.12\%$ ,跟踪误差为 $1.74\%$ ,信息比率为 4.10,月度胜率为 $86.11\%$ ,最大回撤为 $1.85\%$ 。 未来研究展望:量价指纹模型提供了从“特征工程”到“语义理解”的新思路,本篇报告初步验证了其在市场预测中的有效性。未来将尝试如何深化指纹语义解析、探索 $\alpha / \beta$ 分离建模、推动指纹与传统因子的协同应用,进一步挖掘指纹中蕴含的丰富信息。 风险提示:以上结论均基于历史数据和模型的测算,如果市场环境和结构发生剧烈改变,不排除模型失效的可能性;单模型的收益可能存在较大波动,实际应用需结合资金管理、风险控制等方法;模型测算可能存在相对误差,不构成实际投资建议。 # 作者 分析师 沈芷琦 执业证书编号:S0680521120005 邮箱:shenzhiqi@gszq.com 分析师 刘富兵 执业证书编号:S0680518030007 邮箱:liufubing@gszq.com 研究助理 诸格慧明 执业证书编号:S0680125100009 邮箱:zhugehuiming@gszq.com # 相关研究 1、《量化点评报告:行业ETF配置模型2025年超额 $21.4\%$ 》2026-01-12 2、《量化周报:科创50迎来日线级别上涨》2026-01-11 3、《量化分析报告:择时雷达六面图:本周市场较为拥挤》2026-01-10 4、《"量价淘金"选股因子系列研究(十):订单薄资金流因子簇的构建与生产加速》2025-02-11 5、《"量价淘金"选股因子系列研究(九):MemoryMap在因子生产加速上的应用——以构建羊群效应因子簇为例》2024-11-20 # 内容目录 # 一、前言 4 # 二、量价指纹概念简介 5 # 三、量价指纹的构建 7 # 3.1 分钟特征预处理 ..... 7 3.1.1 价格特征标准化 3.1.2 交易特征标准化 # 3.2量价指纹的生成原理 7 3.2.1 前向因果预测任务 ..... 8 3.2.2后向特征重建任务 8 # 3.3量价指纹生成模型的架构 9 3.3.1 固定正交投影层 9 3.3.2 因果Transformer编码器 9 3.3.3 双分支输出结构 ..... 10 # 3.4 损失函数设计 ..... 11 3.4.1 双任务损失 11 3.4.2 防坍缩正则化 ..... 11 3.4.3 总损失函数 ..... 12 # 3.5 模型训练细节 13 # 四、量价指纹的端到端应用初探 14 4.1 单一数据集测试 ..... 14 4.2 量价因子和量价指纹融合测试 ..... 17 4.3指数增强组合的表现 18 # 五、总结 21 # 风险提示 23 # 图表目录 图表1:从特征工程到表示学习 5 图表2:2025年12月29日某股票的量价指纹示例 图表3:量价指纹生成的前向和后向任务. 8 图表4:量价指纹生成模型的基础参数 10 图表5:量价指纹生成模型的整体架构 11 图表6:量价指纹生成模型的训练细节 13 图表7:GRU模型结构和细节 14 图表8:模型1因子与Barra风格因子相关性 15 图表9:模型2因子与Barra风格因子相关性 15 图表10:模型1因子10分组净值走势 16 图表11:模型2因子10分组净值走势 16 图表12:模型1因子10分组超额净值走势 16 图表13:模型2因子10分组超额净值走势 16 图表14:模型1与模型2因子绩效指标对比 16 图表15:单流GRU(左)与双流GRU(右)模型结构对比 图表16:模型3因子10分组净值走势 18 图表17:模型3因子10分组超额净值走势 18 图表18:模型3因子分年度表现 图表 19: 沪深 300 指数增强组合净值 图表20:中证500指数增强组合净值 19 图表21:中证1000指数增强组合净值 20 # 一、前言 当前,以大语言模型为代表的人工智能技术,正在深刻影响着人们获取与处理信息的方式。ChatGPT、DeepSeek等模型的突破性进展揭示了一个根本性转变:人工智能正从模式识别与统计预测的浅层任务,进化到语义理解与逻辑推理的深层认知阶段。 在自然语言处理领域,模型不再仅仅通过统计共现关系来预测下一个词语,而是通过海量文本预训练,真正“理解”语言:每个词、句子乃至整个篇章都被映射为一个独特的语义嵌入向量,这个向量并非简单的数值堆砌,而是模型对输入信息进行深度“思考”后的整体性表征——它编码了文本的语法结构、情感和逻辑关系。这一技术革命的核心价值在于:从“知道是什么”到“理解为什么”的认知跃迁。模型能够理解文本背后的意义图、情感、逻辑关系,甚至进行创造性思考。这种能力的实现,得益于两个关键技术的突破:一是Transformer架构强大的序列建模能力,能够捕捉长距离依赖关系;二是自监督预训练范式,使模型能够从海量无标注数据中自主发现规律。 大模型的思考方式也为我们研究金融市场提供了全新的方法论视角。大多数量化选股研究主要依赖“因子”这一范式:通过人工设计或算法挖掘,从市场变化量等原始 数据中提取具有统计显著性的数值特征,建立与未来收益率的预测关系。每个因子本质上是一个独立的市场“描述”片段,但因子数目众多,往往存在信息冗余与多重共线性的问题,即使进行了复杂的降维处理,也难以从根本上形成对市场动态的统一、内聚的语义表征。而大模型通过端到端的深度表示学习,能直接从原始序列中提取高信息密度、低维度相关的语义压缩向量,从而在一定程度上缓解传统“因子”范式的上述问题。 本文为国盛金工“机器学习”选股模型系列研究的首篇报告,受到大模型技术范式的启发,我们尝试提出“量价指纹”这一概念,旨在探索如何将大模型的语义理解能力与结构化表征能力引入到金融量化领域中。具体地,我们将借助股票的分钟量价数据,将其视为特殊“语言”,通过自监督学习,理解、提取日内量价行为中蕴含的特征,生成日度的“量价指纹”,并将其在端到端深度学习选股模型中进行初步应用。 # 二、量价指纹概念简介 如前文所述,本文提出“量价指纹”这一概念,目的是探索如何将大模型的语义理解能力、结构化表征能力,在金融量化领域中进行应用。“量价指纹”概念的提出,建立在3个基本观察之上: # (1)市场的“语言”属性 金融市场交易数据本质上是一种特殊的“语言”——一种由买卖双方通过价格、成交量、订单等信号进行交流的复杂系统。如果将连续不断的市场交易视为一种由“资金语言”写就的浩瀚文本,那么每一分钟的价量关系就是一个“词汇”,每一日的交易序列则构成了一段蕴含丰富“语义”的段落。正如ChatGPT等模型并非通过死记硬背来预测下一个词语、而是通过深度学习语言的底层语法与语义逻辑来“理解”文本一样,我们的目标不再是进行简单的数值预测,而是理解市场这段“文本”所表达的真正内涵,从海量交易数据中学习市场的“语法”与“语义”。 # (2)从特征工程到表示学习 传统因子方法本质上是特征工程:研究者基于先验知识或统计方法,设计特定的特征提取函数。而量价指纹范式则属于表示学习:模型自主地从原始数据中发现数据的内部结构,学习一种能够捕获数据本质特征的表示方式。这种表示不是针对某个特定预测任务而设计的,而是面向整个领域的通用表示。 # (3)从数值预测到语义理解 我们认为量价指纹模型最重要的进步,是从数值预测到语义理解的跨越。我们不再仅仅关心“明天股票会涨多少”,而是试图理解“今天的交易模式反映了什么样的市场逻辑”——比如是机构投资者的系统性布局,还是个人投资者的跟风炒作?是流动性驱动的技术性反弹,还是基本面改善的价值回归?量价指纹模型就是在这些深入理解的基础上,提取日内量价行为中蕴含的特征。 图表1:从特征工程到表示学习 资料来源:《Attention is all you need》Vaswani A,Shazeer N,Parmar N,et al.,国盛证券研究所绘制 “量价指纹”这一命名源于指纹的双重隐喻。指纹既是唯一标识——每个人的指纹图案都独一无二,如同每个交易日的量价模式都蕴含其特定的市场故事;也是结构表征——指纹由嵴线、纹型、三角点等要素构成系统性图案,如同市场数据中隐藏着日内节奏、价量配合、订单流等深层结构规律。我们将这一理念技术化:通过因果Transformer架构与双任务自监督学习(收益率预测与量价重建),迫使模型不仅学习统计规律,更要求它必须理解市场动态背后的因果机制与结构关系。最终,模型将全天的复杂交互压缩为一个独特的、低维的语义嵌入向量,即“量价指纹”。 图表2为量价指纹的一个简单示例。与因子群中每个因子仅提供单一维度的描述不同,量价指纹是一个整合的、内聚的语义表征:它将传统数百个因子试图捕捉的所有市场信息——趋势、波动、流动性、资金流向、订单不平衡等——通过深度学习的非线性变换,融合成一个协调一致的低维语义空间。它并非是针对单一预测任务设计的特征集合,而是对市场微观状态结构化的通用表示。 图表2:2025年12月29日某股票的量价指纹示例 <table><tr><td>tensor([ 1.7934e+00, 6.0003e-02, -3.8787e-02, -6.6582e-02, 3.3112e-01, -3.1955e-02, -9.9486e-03, -1.2608e+00, -1.5178e+00, -6.3400e-01, 8.3888e-02, -8.2575e-03, -5.2049e-02, -1.4903e-01, -5.3183e-01, 1.4193e+00, -1.0493e+00, 3.2319e-02, 2.2569e-01, 5.7180e-02, -5.9958e-02, 1.0479e-01, -8.2497e-03, 1.1352e-02, -1.5244e+00, -1.2920e-01, 8.6201e-02, -1.8810e-02, 7.3678e-01, -7.7195e-03, -1.6485e+00, 3.3231e-02, -1.1902e-01, 1.0585e-02, -3.1340e-02, -6.8913e-03, 5.5387e-02, -1.5737e+00, -6.9909e-03, 7.6776e-02, -4.3775e-02, 1.9640e-03, -1.1025e-01, 6.0124e+00, -7.0653e-02, 7.8991e-02, -3.3075e-02, -9.1554e-02, -4.4262e-02, -1.5036e-01, 1.3201e-01, 2.3646e-02, 2.0095e+00, -1.3739e-02, -1.1093e+00, -1.2080e-02, -5.2656e-01, 4.7865e-02, -2.3692e-02, 3.6379e-01, -4.2106e-02, -5.2582e-01, 1.3987e-01, 1.7059e+00, 1.2426e-02, -2.6881e-02, -1.5745e-01, 9.8202e-02, -3.0453e-01, 9.0092e+00, 6.2135e-02, 7.7265e-01, -1.9219e-02, -4.0254e-02, -2.1086e+00, -3.8148e-02, -3.0177e-02, -1.9975e-02, 2.3444e+00, 2.1132e+00, 8.5506e-02, 6.1780e-02, -2.7125e-02, -1.5338e+00, 1.3563e+00, -2.6899e-01, -8.2841e-03, 5.1813e-02, -5.9831e-01, 8.8290e-02, 6.8585e-01, -8.2661e-02, -4.9993e-03, -1.2410e-01, 4.1974e-01, -1.7545e-01, -2.3227e-02, -7.9208e-02, 2.6763e-02, -4.5298e-02, -4.2201e-02, 1.9611e+00, -1.7019e-02, 2.4204e-03, -6.6822e-02, -1.2750e-02, 5.0788e-01, -4.7289e-01, 2.3579e-02, -5.4861e-03, 3.6090e-01, -8.0928e+00, -1.9296e-02, -1.8414e-01, 2.8449e-03, -7.0501e+00, -2.4081e-02, -3.7527e-02, 1.7986e-02, 6.3488e-02, 2.3653e-01, 1.4824e-02, -3.5159e-01, -1.0072e-01, 1.0422e+00, -8.8321e-02, -1.4768e-01, 1.2269e-02])</td></tr></table> 资料来源:Wind,通联数据,国盛证券研究所 这种通用表示并非简单地将数百个因子压缩在一起,而是通过深度学习重建了一个新的、自洽的语义坐标系。在这个坐标系中,指纹向量的每个维度都代表了模型从数据中自主发现的一个潜在“市场语义概念”,这些概念相互关联、共同作用,以更紧凑、更内在一致的方式,“讲述”着当日市场从开盘到收盘的完整故事。例如,某个维度可能专门编码 “早盘大单流入与价格趋势的共振强度”,另一个维度则可能捕捉“午后流动性萎缩与波动率放大的耦合关系”。这些多维度的语义信息交织融合,共同构成了对当日市场行为的深刻洞察。 量价指纹还具有动态性的特征,它不是静态快照,而是记录了全天交易过程的视频,它不仅捕捉最终状态,更重要的是记录了市场状态的演化轨迹——例如早盘的试探性放量、午后的缩量盘整、尾盘的突然异动,这些动态过程都被编码在指纹向量中。这种动态性使得量价指纹能够区分表面上相似但过程完全不同的市场模式:比如同样上涨 $3\%$ 的两个交易日,一个可能是平稳推进,另一个可能是剧烈震荡后的尾盘拉升,这两种截然不同的动态过程对应着完全不同的市场逻辑和投资者行为模式。量价指纹通过对全天交易序列的深度编码,不仅理解“市场当前是什么状态”,更重要的是理解“市场如何演变到这个状态”,这为判断市场未来的可能路径提供了更深层的语义依据。 # 三、量价指纹的构建 量价指纹的构建过程建立在一个自监督学习框架之上,其核心是通过双任务学习迫使模型理解价量关系的深层语义结构。我们将每天每只股票的分钟级特征作为一个样本,记为 $x \in \mathbb{R}^{T \times D}$ ,其中, $T = 237$ 是交易分钟数(9:30-11:30,13:00-14:57), $D = 32$ 是特征维度(4维价格特征 + 28维交易特征)。我们的目标是学习一个映射函数 $f: \mathbb{R}^{T \times D} \to \mathbb{R}^d$ ,将高维的时间序列数据压缩为低维的日度指纹向量 $e \in \mathbb{R}^d$ ,其中 $d = 128$ 为嵌入维度、也就是我们设定的量价指纹的维度。该指纹向量应满足以下性质: (1)信息丰富性:保留原始数据中的关键模式信息; (2)区分性:不同模式的时间序列对应不同的指纹; (3) 稳定性: 相似模式的时间序列产生相近的指纹; (4) 因果性: 指纹仅依赖于当日信息, 不包含未来信息。 # 3.1 分钟特征预处理 我们采用每只股票每日以下的32个分钟特征构建量价指纹: - 价格特征:high、low、close、价格位置((该分钟close-当日跌停价)/(当日涨停价-当日跌停价),用于指示当前价格相对于涨跌停的位置); 不需要复权处理的交易特征:成交额、成交笔数、每笔成交额、主买成交额、主买成交笔数、主卖成交额、主卖成交笔数、浮动金额主买超大单/大单/中单成交笔数、浮动金额主卖超大单/大单/中单成交笔数、挂单额、挂单笔数、撤单额、撤单笔数; - 需要复权处理的交易特征:成交量、主买成交量、主卖成交量、浮动金额主买超大单/大单/中单成交量,浮动金额主卖超大单/大单/中单成交量、撤单量、挂单量。 # 3.1.1 价格特征标准化 除价格位置不需要标准化之外,其余价格特征均用当日开盘价进行标准化。假设某股票第 $d$ 个价格特征在第 $t$ 分钟的值为 $p_{t,d}$ ,当日开盘价为 $p_{\mathrm{open}}$ ,则标准化后的分钟价格特征为: $$ \tilde {p} _ {t, d} = \frac {p _ {t , d}}{p _ {\mathrm {o p e n}}} - 1 $$ # 3.1.2 交易特征标准化 交易特征采用日总量均值进行标准化处理,即将某特征某分钟的数值,除以该特征每日所有分钟数值之和的过去20日均值。假设某股票第d个交易特征在第t分钟的值为 $f_{t,d}$ ,历史 $N_{\mathrm{hist}} = 20$ 天的数据为 $\{f_{t,d}^{(i)}\}_{i=1}^{N_{\mathrm{hist}}}$ ,则标准化后的分钟交易特征为: $$ \tilde {f} _ {t, d} = \frac {f _ {t , d}}{S _ {d}}, \quad S _ {d} = \frac {1}{N _ {\mathrm {h i s t}}} \sum_ {i = 1} ^ {N _ {\mathrm {h i s t}}} \sum_ {t ^ {'} = 1} ^ {T} f _ {t ^ {'}, d} ^ {(i)} $$ # 3.2 量价指纹的生成原理 传统的监督学习范式(如收益率预测)致力于最小化模型预测值与外部标签(如未来涨跌幅)之间的误差。与之不同,我们构建的量价指纹生成模型采用一种双任务自监督学习框架,其中核心机制是因果掩码。该框架旨在从日度量价序列中挖掘通用且稳健的时序表征,其关注的核心是“理解”而非“预测”。 在这一范式下,指纹生成模型通过双任务协同学习,被强制捕捉序列中稳定的统计规律与动态模式:前向任务专注于价格特征(也是一种收益率特征)的因果预测,后向任务则负责交易特征重建(可参考图表3)。指纹向量作为模型对输入序列深度理解的中间产物,其质量不再通过外部“标准答案”来衡量,而是通过其在促进下游任务表现上的能力来间接体现。因此,模型的训练过程自然无需依赖外部标注的验证集。 # 3.2.1 前向因果预测任务 前向因果预测任务是整个框架的灵魂,致力于学习从交易特征到价格特征的因果映射。在这一任务中,模型严格遵循时间先后顺序:预测第t分钟的价格特征时,只能利用第t分钟及之前的交易信息、以及第t-1分钟及之前的所有价格信息,对第t分钟及之后的任何信息则完全不可见。这种严格的因果性通过因果注意力掩码机制予以保障,具体而言,我们构造一个上三角注意力掩码矩阵,令其对角线以上元素为负无穷,从而在softmax归一化后使模型无法关注未来位置,确保每个时间步仅能基于自身及过去的的信息进行预测。 # 3.2.2 后向特征重建任务 后向特征重建任务作为前向任务的补充,聚焦于学习交易特征的高效表示。该任务采用随机掩码策略,但仅在交易特征维度上进行遮掩:随机选取一定比例的时间步,将其交易特征置为零,并让模型重建这些被掩码的部分。与前向任务不同,后向任务允许模型在重建时访问序列的全局信息(包括未来时间步),以捕捉交易特征间可能存在的复杂、非严格因果的依赖关系与整体结构。 图表3:量价指纹生成的前向和后向任务 资料来源:国盛证券研究所绘制 features to be predicted visible flow features visible price features invisible features 前向与后向任务并非相互割裂,而是通过共享模型参数与联合优化形成紧密的协同效应,使模型既能把握价格演化的因果脉络,也能深入理解交易特征的分布模式,从而习得具有强表征力与泛化性的日度量价指纹。 # 3.3 量价指纹生成模型的架构 量价指纹的生成模型,采用编码器-双分支解码器架构。输入数据首先通过固定的正交投影层映射到隐藏维度,然后经过多层因果Transformer编码器处理,最后通过两个独立的分支分别生成日度指纹向量和重建序列。 # 3.3.1 固定正交投影层 投影层权重 $W_{p}\in \mathbb{R}^{D\times d_{\mathrm{model}}}$ 使用正交初始化并永久冻结: $$ W _ {p} ^ {T} W _ {p} = I, \quad \frac {\partial \mathcal {L}}{\partial W _ {p}} = 0 \quad \forall \mathcal {L} $$ 其中 $d_{\mathrm{model}} = 128$ 是模型隐藏维度。输入投影计算为: $$ H ^ {(0)} = X W _ {p}, H ^ {(0)} \in \mathbb {R} ^ {B \times T \times d _ {\mathrm {m o d e l}}} $$ 冻结投影层确保了不同训练周期下输入空间的一致性,使得不同时期训练的模型具有可比性,这对于滚动训练策略至关重要。 # 3.3.2 因果Transformer编码器 第 $l$ 层编码器( $l = 1,2,\ldots,L$ ,其中 $L = 4$ )的计算过程为: # (1)多头自注意力层 设第 $l - 1$ 层的输出为 $H^{(l - 1)} \in \mathbb{R}^{B \times T \times d_{\mathrm{model}}}$ , 首先计算查询(Query)、键(Key)、值(Value)矩阵: $$ \begin{array}{l} Q ^ {(l)} = H ^ {(l - 1)} W _ {Q} ^ {(l)}, \quad Q ^ {(l)} \in \mathbb {R} ^ {B \times T \times d _ {k}} \\ K ^ {(l)} = H ^ {(l - 1)} W _ {K} ^ {(l)}, \quad K ^ {(l)} \in \mathbb {R} ^ {B \times T \times d _ {k}} \\ V ^ {(l)} = H ^ {(l - 1)} W _ {V} ^ {(l)}, \quad V ^ {(l)} \in \mathbb {R} ^ {B \times T \times d _ {v}} \\ \end{array} $$ 其中 $d_{k} = d_{v} = d_{\mathrm{model}} / h = 128 / 4 = 32$ , $h = 4$ 是注意力头数。 # (2) 缩放点积注意力(带因果掩码) 对于每个注意力头 $i(i = 1,2,\dots,h)$ $$ \operatorname {A t t e n t i o n} _ {i} \left(Q _ {i}, K _ {i}, V _ {i}\right) = \operatorname {s o f t m a x} \left(\frac {Q _ {i} K _ {i} ^ {T}}{\sqrt {d _ {k}}} + M\right) V _ {i} $$ 其中在因果预测的前向任务中, $M\in \mathbb{R}^{T\times T}$ 是因果掩码矩阵: $$ M _ {i j} = \left\{ \begin{array}{l l} 0 & \text {i f} i \geq j \quad (\text {允 许 关 注 当 前 及 过 去 时 间 步}) \\ - \infty & \text {i f} i < j \quad (\text {阻 止 关 注 未 来 时 间 步}) \end{array} \right. $$ # (3) 多头注意力合并 将所有头的输出拼接后线性投影: $$ \begin{array}{c} \text {M u l t i H e a d} (Q, K, V) = \text {C o n c a t} (\text {h e a d} _ {1}, \text {h e a d} _ {2}, \ldots , \text {h e a d} _ {h}) W _ {O} \\ \text {h e a d} _ {i} = \text {A t t e n t i o n} _ {i} (Q _ {i}, K _ {i}, V _ {i}) \end{array} $$ (4) 残差连接与层归一化 $$ H ^ {' (l)} = \operatorname {L a y e r N o r m} \left(H ^ {(l - 1)} + \operatorname {D r o p o u t} (\operatorname {M u l t i H e a d} (Q, K, V))\right) $$ # (5)前馈网络 前馈网络由两个线性变换和GELU激活函数组成: $$ \operatorname {F F N} (x) = \operatorname {G E L U} \left(x W _ {1} + b _ {1}\right) W _ {2} + b _ {2} $$ 其中 $W_{1}\in \mathbb{R}^{d_{\mathrm{model}}\times d_{\mathrm{ff}}},$ (20 $W_{2}\in \mathbb{R}^{d_{\mathrm{ff}}\times d_{\mathrm{model}}}.$ $$ d _ {\mathrm {f f}} = 4 \times d _ {\mathrm {m o d e l}} = 5 1 2 $$ (6) 第二层残差连接与层归一化 $$ H ^ {(l)} = \operatorname {L a y e r N o r m} \left(H ^ {\prime (l)} + \operatorname {D r o p o u t} \left(\operatorname {F F N} \left(H ^ {\prime (l)}\right)\right)\right) $$ 图表4:量价指纹生成模型的基础参数 <table><tr><td>参数</td><td>数值</td></tr><tr><td>输入特征维度</td><td>32</td></tr><tr><td>嵌入维度</td><td>128</td></tr><tr><td>注意力头数</td><td>4</td></tr><tr><td>Transformer层数</td><td>4</td></tr><tr><td>激活函数</td><td>gelu</td></tr><tr><td>前馈网络维度</td><td>512</td></tr></table> 资料来源:国盛证券研究所 # 3.3.3 双分支输出结构 # (1) 分支一: 日度指纹生成 最后一个时间步提取特征,代表全天信息的累积: $$ e = H _ {., T.;} ^ {(L)} \in \mathbb {R} ^ {B \times d _ {\mathrm {m o d e l}}} $$ 其中 $H_{;T,:}^{(L)}$ 是第 $L$ 层编码器在最后一个时间步 $T$ 的输出。 # (2) 分支二: 序列重建 所有时间步的特征经过LayerNorm后通过线性层重建原始序列: $$ \begin{array}{l} H _ {\text {n o r m}} = \operatorname {L a y e r N o r m} \left(H ^ {(L)}\right) \in \mathbb {R} ^ {B \times T \times d _ {\text {m o d e l}}} \\ \widehat {X} = H _ {\mathrm {n o r m}} W _ {r} + b _ {r} \in \mathbb {R} ^ {B \times T \times D} \\ \end{array} $$ 其中 $W_{r}$ , $b_{r}$ 是可学习参数。 图表5:量价指纹生成模型的整体架构 资料来源:国盛证券研究所绘制 # 3.4 损失函数设计 # 3.4.1 双任务损失 # (1) 前向损失(收益率预测) 价格(收益率)特征维度为 $D_r = 4$ ,前向掩码矩阵为 $M_f \in \{1\}^{B \times T \times D_r}$ (对于前向任务,我们需要因果预测某个时刻的收益率)。损失函数仅在需要预测的收益率特征上建立: $$ \mathcal {L} _ {\mathrm {f o r w a r d}} = \frac {1}{N _ {f o r w a r d}} \sum_ {b = 1} ^ {B} \sum_ {t = 1} ^ {T} \sum_ {k = 1} ^ {D _ {r}} M _ {f} [ b, t, k ] \cdot \frac {(r _ {b , t , k} - \hat {r} _ {b , t , k}) ^ {2}}{\sigma_ {k} ^ {2}} $$ 其中 $N_{forward}$ 是有效预测点数, $\sigma_k^2$ 是第 $k$ 个收益率特征的方差。 # (2) 反向损失(交易特征重建) 交易特征维度为 $D_{f} = 28$ ,反向掩码矩阵为 $M_{b}\in \{0,1\}^{B\times T\times D_{f}}$ (对于反向任务,我们需要随机掩码其中 $15\%$ 的交易特征进行重建)。损失函数仅在需要预测的交易特征上建立: $$ \mathcal {L} _ {\mathrm {b a c k w a r d}} = \frac {1}{N _ {b a c k w a r d}} \sum_ {b = 1} ^ {B} \sum_ {t = 1} ^ {T} \sum_ {k = 1} ^ {D _ {f}} M _ {b} [ b, t, k ] \cdot \frac {(x _ {b , t , k} - \hat {x} _ {b , t , k}) ^ {2}}{\sigma_ {k} ^ {2}} $$ 其中 $N_{\text{backward}}$ 是有效预测点数, $\sigma_k^2$ 是第 $\mathsf{k}$ 个交易特征的方差。 # 3.4.2 防坍缩正则化 在自监督学习、特别是表征学习范式中,表征坍塌(Collapse)是一个普遍存在的核心挑战。表征坍塌指的是模型将所有输入都映射到相同或高度相似的输出向量上,例如无论输入的是什么数据,模型都输出几乎一样的128维向量。虽然这种情况能使自监督的重 建损失保持较低(因为模型学会了“安全”的平均输出),但完全失去了表征的区分度和信息量,对下游任务毫无价值。因此我们引入了三种互补的正则化项,从不同角度防止坍塌: # (1)多样性损失 鼓励嵌入向量在特征空间中分散分布,防止坍缩到同一区域: $$ \begin{array}{l} \mathcal {L} _ {\text {d i v e r s i t y}} = \lambda_ {d} \cdot \mathbb {I} (\sigma_ {e} < 0. 1) \cdot (- \log (\sigma_ {e} + \epsilon)) \\ \sigma_ {e} = \frac {1}{d} \sum_ {j = 1} ^ {d} \sqrt {\frac {1}{B} \sum_ {i = 1} ^ {B} (e _ {i , j} - \bar {e} _ {j}) ^ {2}} \\ \bar {e} _ {j} = \frac {1}{B} \sum_ {i = 1} ^ {B} e _ {i, j} \\ \end{array} $$ 其中 $\mathbb{I}(\cdot)$ 是指示函数, $\lambda_d$ 是多样性损失权重。 # (2)正交性约束 防止特征维度间的冗余,鼓励不同维度编码不同信息: $$ \begin{array}{l} \mathcal {L} _ {\mathrm {o r t h o g o n a l i t y}} = \lambda_ {o} \cdot \| C - I \| _ {F} \\ C = \frac {\widetilde {E} ^ {T} \widetilde {E}}{B} \quad (\text {归 一 化 协 方 差 矩 阵}) \\ \widetilde {E} _ {:, j} = \frac {E _ {: , j}}{\| E _ {: , j} \| _ {2}} \quad (\text {第} j \text {列 特 征 维 度 归 一 化}) \\ E = [ e _ {1}, e _ {2}, \dots , e _ {B} ] ^ {T} \in \mathbb {R} ^ {B \times d} \\ \end{array} $$ 其中 $\lambda_0$ 是正交性损失权重, $I\in \mathbb{R}^{d\times d}$ 是单位矩阵。 # (3)均匀性损失 避免嵌入向量过度相似,保持批次内多样性: $$ \begin{array}{l} \mathcal {L} _ {\text {u n i f o r m i t y}} = \lambda_ {u} \cdot \mathbb {I} (\bar {s} > \tau) \cdot \bar {s} \\ \bar {s} = \frac {1}{B (B - 1)} \sum_ {i = 1} ^ {B} \sum_ {j \neq i} s _ {i j} \quad (\text {平 均 余 弦 相 似 度}) \\ s _ {i j} = \frac {\hat {e} _ {i} \cdot \hat {e} _ {j}}{\| \hat {e} _ {i} \| _ {2} \| \hat {e} _ {j} \| _ {2}} = \frac {e _ {i} \cdot e _ {j}}{\| e _ {i} \| _ {2} \| e _ {j} \| _ {2}} \\ \hat {e} _ {i} = \frac {e _ {i}}{\| e _ {i} \| _ {2}} \quad (\mathrm {样 本 向 量 归 一 化}) \\ \tau = 0. 5 \\ \end{array} $$ 其中 $\lambda_{u}$ 是均匀性损失权重。 # 3.4.3 总损失函数 总损失函数为各项损失的加权和,其中 $\lambda_{f}$ , $\lambda_{b}$ 是主任务损失权重: $$ \mathcal {L} _ {\mathrm {t o t a l}} = \lambda_ {f} \mathcal {L} _ {\mathrm {f o r w a r d}} + \lambda_ {b} \mathcal {L} _ {\mathrm {b a c k w a r d}} + \mathcal {L} _ {\mathrm {d i v e r s i t y}} + \mathcal {L} _ {\mathrm {o r t h o g o n a l i t y}} + \mathcal {L} _ {\mathrm {u n i f o r m i t y}} $$ # 3.5 模型训练细节 在滚动训练框架下,我们每年年初对指纹生成模型执行一次基于历史数据的参数微调,而非从头开始重新训练。具体而言,我们冻结模型的底层部分层,仅使用过去三年的全量日度分钟级数据进行微调。这一策略的核心目的在于,维护跨时间维度的嵌入空间连续性,确保不同年份生成的指纹向量在语义空间中的相对位置关系与度量结构保持稳定。这种连续性对于下游基于向量相似性的任务至关重要,避免了因模型完全重启而导致的“表征漂移”问题。模型训练的其他细节详见图表6。 图表6:量价指纹生成模型的训练细节 <table><tr><td>配置</td><td>说明</td></tr><tr><td>batch_size</td><td>512</td></tr><tr><td>学习率</td><td>1e-4,训练前5轮学习率由1e-8开始线性warmup</td></tr><tr><td>学习率调度</td><td>warmup结束后使用ReduceLROOnPlateau,耐心值3,减少因子0.5</td></tr><tr><td>早停机制</td><td>最多训练100轮,若连续5轮损失无改进则早停</td></tr><tr><td>梯度裁剪阈值</td><td>5</td></tr><tr><td>优化器</td><td>Adam</td></tr></table> 资料来源:国盛证券研究所 # 四、量价指纹的端到端应用初探 基于上述指纹生成模型和防坍塌设计,我们确保了模型生成的日度指纹向量具有高区分度、低冗余、信息丰富的特性,为下游应用提供了结构化的输入特征。为验证量价指纹在时序预测任务中的有效性,我们分别使用量价因子、量价指纹,结合GRU模型进行端到端的信号生成测试。以下章节将详细介绍GRU模型的具体结构、训练策略、评估方法以及对比实验结果。 # 4.1 单一数据集测试 首先,我们构建两个独立的数据集:其一为量价因子数据集,主要为国盛金工“量价淘金”选股因子系列研究的专题报告《订单薄资金流因子簇的构建与生产加速——基于Memory Map的分段读取性能优势》和《Memory Map在因子生产加速上的应用——以构建羊群效应因子簇为例》中构建的两个因子簇中的部分因子,共计137个;其二为量价指纹数据集,即本文上一节内容中,由指纹生成模型提取的128维日度嵌入向量。其次,我们分别将两个数据集与每日高开低收、成交量、成交额共6个基础特征结合,输入到相同的单流GRU模型结构中(模型结构可参考图表15左图),预测股票的未来收益率,对比它们生成的因子效果。 模型1:使用过去20个交易日的每日高开低收、成交量、成交额、以及137个量价因子,预测隔日的未来5日收益率。对于高开低收这些价格类特征,我们采用对数变化率的时序标准化方法,样本内每个价格除以最新的价格并取对数,将价格转化为相对变化,消除绝对数值的影响;对于成交量、成交额,用每日值除以20日均值;对于量价因子,先进行时序标准化、MAD去极值,再进行截面zscore标准化。 模型2:使用过去20个交易日的每日高开低收、成交量、成交额、以及128维量价指纹。高开低收、成交量、成交额的预处理方式与模型1相同。量价指纹是从预训练的神经网络模型提取的128维向量,由于其本身不是因子,是一天之内所有分钟量价结构的语义表征,因此无需进行标准化处理。 图表7:GRU模型结构和细节 <table><tr><td>配置</td><td>说明</td></tr><tr><td>日频特征</td><td>个股过去20个交易日每日高开低收、成交量额,以及量价因子或指纹</td></tr><tr><td>标签</td><td>个股T+1收盘~T+6收盘的累计收益率</td></tr><tr><td>验证集比例</td><td>20%</td></tr><tr><td>GRU结构</td><td>双层GRU+全连接层+LayerNorm+Relu+dropout+全连接层</td></tr><tr><td>batch_size</td><td>每个交易日所有个股</td></tr><tr><td>损失函数</td><td>可微分RankIC</td></tr><tr><td>优化器</td><td>Adam</td></tr><tr><td>学习率</td><td>1e-4,前10轮由1e-6开始warmup</td></tr><tr><td>早停机制</td><td>最多训练100轮,连续10轮验证集损失无改善则早停</td></tr></table> 资料来源:国盛证券研究所 由于量价指纹生成模型是基于过去的模型微调而来,相当于已经见过历史若干年的数据,并且指纹随着时间不可避免会有坐标系的逐渐移动,因此我们每年年初仅使用过去三年的数据进行重新训练。每年训练时,我们平行训练3个具有差异化随机种子的独立GRU模型,最终合并结果得到更为稳健的集成预测,以降低单一模型的过拟合风险并提升整 体预测性能。训练好模型后,我们每天将过去20个交易日的日度数据输入最新的模型并生成预测信号。 我们对两个模型生成的因子与Barra风格因子的相关性进行分析,详见图表8、图表9。可以发现,两个模型生成的因子,在某些风格因子的暴露上存在明显差异,最为典型的是:模型1因子与市值因子呈现较高的相关性,反映出其收益中蕴含了显著的小市值风格带来的收益;而模型2使用量价指纹生成的因子,与市值因子的相关性几乎微不足道,这表明该因子捕捉的市场语义信息与传统的市值维度存在差异。 我们认为可能有如下几个原因:(1)量价因子不可避免会与波动率、换手率、动量反转等极易于市值相关联的特征有关,而指纹模型被迫学习的是从交易特征到价格特征的跨期映射关系,而非与市值直接相关的任何标签;(2)指纹嵌入向量在特征空间中均匀、分散、低冗余地分布,信息打散并结构化地存储在各个独立的维度中,其结果就是市值信息即使被部分编码,也会被稀释并与众多其他语义概念交织;(3)量价因子作为静态的日频截面指标,天然容易与同为截面静态属性的市值产生相关性;而量价指纹是对全天237分钟交易过程动态演化的一个连续性、结构化的编码,可能更多与日内资金节奏、多空博弈等动态特征相关,这些特征的共性和差异性并不能简单地由市值大小决定。 图表8:模型1因子与Barra风格因子相关性 资料来源:Wind,通联数据,国盛证券研究所 图表9:模型2因子与Barra风格因子相关性 资料来源:Wind,通联数据,国盛证券研究所 除去常见的流动性、波动率、动量、BETA暴露外,两个因子在NLSIZE上都有一定程度的暴露。理论上来说,对NLSIZE的暴露容易对指纹训练得到的因子产生一些影响,因为我们的指纹生成模型原理是交易行为到价格的传导,每一笔中等规模交易对小盘股的冲击可能比较剧烈,在大盘股中又比较微弱,而对于中市值股票、信息扩散速度适中,在交易特征和价格特征上都留下了完整且“规范”的痕迹,因此指纹生成模型在这一区间更容易学习到最丰富、最稳定、但也最容易过拟合到市场风格的语义模式。所以在后续的因子绩效测试中,我们选择将模型生成的因子对非线性市值(NLSIZE)进行中性化处理,而非对传统的线性市值(SIZE)做中性化。 回测时间段2017/01/01-2025/12/31内,以全体A股为样本,周度换仓,暂时不考虑交易费用,以vwap买入和卖出,测试因子的选股效果。图表10-图表13展示了两个模型因子的10分组净值走势、10分组超额净值走势,图表14则对比了两个模型因子的绩效指标。可以发现,基于指纹特征的模型2因子,周度RankIC均值、年化RankICIR与模型1因子相当,但多头超额、多空收益的表现均优于模型1,证明其提取的股票隐性模式具备有效的预测能力。另外,量价因子与量价指纹两个模型训练出的因子相关性约为0.52,说明两个数据集既有部分重叠信息,也有各自的独特信息。 图表10:模型 1 因子 10 分组净值走势 资料来源:Wind,通联数据,国盛证券研究所 图表11:模型2因子10分组净值走势 资料来源:Wind,通联数据,国盛证券研究所 图表12:模型1因子10分组超额净值走势 资料来源:Wind,通联数据,国盛证券研究所 图表13:模型2因子10分组超额净值走势 资料来源:Wind,通联数据,国盛证券研究所 图表14:模型 1 与模型 2 因子绩效指标对比 <table><tr><td></td><td></td><td>模型1 基础特征+量价因子</td><td>模型2 基础特征+量价指纹</td></tr><tr><td rowspan="2">IC信息</td><td>周度RankIC均值</td><td>0.106</td><td>0.106</td></tr><tr><td>年化RankICIR</td><td>6.64</td><td>6.62</td></tr><tr><td rowspan="5">多空对冲 绩效指标</td><td>年化收益率</td><td>81.23%</td><td>83.88%</td></tr><tr><td>年化波动率</td><td>15.25%</td><td>15.50%</td></tr><tr><td>信息比率</td><td>5.33</td><td>5.41</td></tr><tr><td>周度胜率</td><td>74.95%</td><td>73.87%</td></tr><tr><td>最大回撤率</td><td>12.66%</td><td>11.65%</td></tr><tr><td rowspan="5">多头超额 绩效指标</td><td>年化收益率</td><td>19.00%</td><td>21.35%</td></tr><tr><td>年化波动率</td><td>8.46%</td><td>7.45%</td></tr><tr><td>信息比率</td><td>2.24</td><td>2.87</td></tr><tr><td>周度胜率</td><td>65.01%</td><td>69.76%</td></tr><tr><td>最大回撤率</td><td>15.09%</td><td>12.09%</td></tr></table> 资料来源:Wind,通联数据,国盛证券研究所 # 4.2量价因子和量价指纹融合测试 更进一步,我们将两个数据集进行融合训练,充分利用两者信息上的互补性。订单簿资金流和羊群效应因子是量价因子;而指纹特征是神经网络嵌入向量,抽象度高、捕捉的是股票个体的隐性行为模式。若将这两类特征简单拼接并输入单流GRU,会产生数值尺度差异大、特征间相互干扰的问题。因此我们采用双流设计,让两个GRU各自专注于擅长处理的领域,最后通过可配置的权重将两个GRU流的最终隐藏状态进行融合,将这个融合特征输入后续的全连接预测层,进行最终的收益率预测(如图表15右图所示),以实现在保留各自特征流时序学习能力基础上的深度信息整合。模型其他细节不变,我们同样每年用不同的随机数种子平行训练3次并集成结果,提升模型的鲁棒性。 图表15:单流 GRU(左)与双流 GRU(右)模型结构对比 资料来源:国盛证券研究所绘制 我们对模型3——使用双流GRU结合两个数据集最终生成的融合因子,进行有效性检验。回测时间段仍为2017/01/01-2025/12/31,以全体A股为样本,周度换仓,暂不考虑交易费用。图表16、图表17分别展示了因子的10分组净值走势、10分组超额净值走势,图表18则汇报了其分年度的表现情况。 回测结果显示,模型3因子的周度RankIC均值为0.109,年化RankICIR为6.85;10分组多空对冲的年化收益为 $90.89\%$ ,年化波动为 $15.27\%$ ,信息比率为5.95,周度胜率为 $76.46\%$ ,最大回撤为 $11.54\%$ 。综合来看,将量价指纹与其他量价因子融合不仅能够提升模型的预测能力,也能增加稳定性,降低模型对单一数据源的过拟合风险。 图表16:模型3因子10分组净值走势 资料来源:Wind,通联数据,国盛证券研究所 图表17:模型3因子10分组超额净值走势 资料来源:Wind,通联数据,国盛证券研究所 图表18:模型3因子分年度表现 <table><tr><td></td><td colspan="3">年化收益率</td><td colspan="4">分组1对冲分组10绩效指标</td></tr><tr><td>年份</td><td>分组1</td><td>分组10</td><td>分组1对冲分组10</td><td>年化波动率</td><td>信息比率</td><td>周度胜率</td><td>最大回撤率</td></tr><tr><td>2017</td><td>-10.46%</td><td>-42.34%</td><td>54.69%</td><td>8.87%</td><td>6.16</td><td>80.39%</td><td>3.13%</td></tr><tr><td>2018</td><td>3.19%</td><td>-58.07%</td><td>141.94%</td><td>11.57%</td><td>12.26</td><td>86.27%</td><td>1.70%</td></tr><tr><td>2019</td><td>57.42%</td><td>-9.75%</td><td>74.25%</td><td>7.37%</td><td>10.07</td><td>82.69%</td><td>0.74%</td></tr><tr><td>2020</td><td>35.20%</td><td>-20.20%</td><td>63.28%</td><td>18.60%</td><td>3.40</td><td>73.08%</td><td>9.20%</td></tr><tr><td>2021</td><td>39.02%</td><td>-18.30%</td><td>66.88%</td><td>11.09%</td><td>6.03</td><td>69.23%</td><td>3.29%</td></tr><tr><td>2022</td><td>20.53%</td><td>-52.04%</td><td>145.46%</td><td>14.78%</td><td>9.84</td><td>84.00%</td><td>0.98%</td></tr><tr><td>2023</td><td>32.89%</td><td>-25.40%</td><td>73.91%</td><td>16.73%</td><td>4.42</td><td>72.00%</td><td>7.30%</td></tr><tr><td>2024</td><td>19.08%</td><td>-42.24%</td><td>101.15%</td><td>22.07%</td><td>4.58</td><td>69.23%</td><td>11.54%</td></tr><tr><td>2025</td><td>64.28%</td><td>-11.61%</td><td>78.74%</td><td>18.91%</td><td>4.16</td><td>71.70%</td><td>9.73%</td></tr><tr><td>全时段</td><td>28.09%</td><td>-34.35%</td><td>90.89%</td><td>15.27%</td><td>5.95</td><td>76.46%</td><td>11.54%</td></tr></table> 资料来源:Wind,通联数据,国盛证券研究所 # 4.3 指数增强组合的表现 基于上一节我们使用量价因子和量价指纹双数据集融合训练得到的模型3因子,以最大化预期收益为优化目标,构建沪深300、中证500、中证1000指数增强组合,组合的调仓频率为周度。为了更好地检验因子获取超额收益的能力,我们设置了较为严格的约束条件。 沪深300指数增强组合的约束条件为:(1)指数成分股权重不低于 $85\%$ ;(2)中信一级行业权重偏离不超过 $1\%$ ;(3)个股权重偏离不超过 $0.3\%$ ;(4)Barra风格无偏(实际操作中,设定风格偏离小于一个极小的数值),以实现严格的风险控制。 2017/01/01-2025/12/31,沪深300指数增强组合的年化收益为 $11.00\%$ ,相对沪深300指数的超额年化收益为 $7.12\%$ ,跟踪误差为 $1.74\%$ ,信息比率为4.10,月度胜率为 $86.11\%$ ,最大回撤为 $1.85\%$ 。 图表19:沪深300指数增强组合净值 资料来源:Wind,通联数据,国盛证券研究所 中证500指数增强组合的约束条件为:(1)指数成分股权重不低于 $85\%$ ;(2)中信一级行业权重偏离不超过 $1\%$ ;(3)个股权重偏离不超过 $0.3\%$ ;(4)Barra风格无偏(实际操作中,设定风格偏离小于一个极小的数值),以实现严格的风险控制。 2017/01/01-2025/12/31,中证500指数增强组合的年化收益为 $13.32\%$ ,相对中证500指数的超额年化收益为 $11.38\%$ ,跟踪误差为 $3.47\%$ ,信息比率为3.28,月度胜率为 $83.33\%$ ,最大回撤为 $4.76\%$ 。 图表20:中证500指数增强组合净值 资料来源:Wind,通联数据,国盛证券研究所 中证1000指数增强组合的约束条件为:(1)指数成分股权重不低于 $85\%$ ;(2)中信一级行业权重偏离不超过 $1\%$ ;(3)个股权重偏离不超过 $0.3\%$ ;(4)Barra风格无偏(实际操作中,设定风格偏离小于一个极小的数值),以实现严格的风险控制。 2017/01/01-2025/12/31,中证1000指数增强组合的年化收益为 $13.23\%$ ,相对中证1000指数的超额年化收益为 $14.84\%$ ,跟踪误差为 $3.45\%$ ,信息比率为4.30,月度胜率为 $83.33\%$ ,最大回撤为 $2.95\%$ 图表21:中证 1000 指数增强组合净值 资料来源:Wind,通联数据,国盛证券研究所 # 五、总结 当前,我们正身处大模型时代的技术革命浪潮之中。以Transformer为核心架构的大规模预训练模型,已在自然语言处理、计算机视觉、多模态理解等领域取得了突破性进展。在这一背景下,大模型所代表的“表示学习+自监督预训练”范式,为量化研究提供了重要的补充与拓展视角。 本报告提出的“量价指纹”框架,正是我们尝试将大模型所代表的“理解”而非“统计”思想引入量化研究的一次探索。通过将市场交易数据视为一种特殊的“语言”,借助深度神经网络学习其内在的语法结构与语义逻辑。我们的目的并不是用“指纹”替代因子,而是想探讨一种补充的可能:让模型不只看数字、做回归,而是像阅读文章一样,去“读”市场——从每分钟的价量变化中,理解情绪、结构、节奏,最终形成一段具有语义的“市场记忆”。这一尝试虽处于早期,但它呼应了大模型时代“从特征工程走向语义理解”的趋势。 “量价指纹”模型的构建流程遵循了从原始数据处理到深度语义表征的路径,具体而言,我们围绕分钟特征处理、双任务自监督学习、防坍缩正则化这3个关键环节展开指纹的具体构建: (1) 分钟特征预处理: 选取 32 维分钟级特征, 包括价格特征 (如高、低、收、价格位置等) 与交易特征 (如成交额、挂撤单、资金流等), 并分别进行标准化处理, 以消除量纲与历史波动的影响; (2)双任务学习框架: 通过前向因果预测任务 (价格特征预测) 与后向特征重建任务 (交易特征重建), 迫使模型学习市场量价关系的动态语义与因果结构, 生成 128 维日度指纹向量; (3) 防坍缩设计:引入多样性、正交性与均匀性正则项,确保指纹向量具备高区分度、低冗余与信息丰富的特性,避免表征坍塌。 在“量价指纹”的初步应用层面,我们将其作为输入特征,结合GRU模型,对股票的未来收益进行预测。测试结果表明: (1)仅使用量价指纹进行模型训练得到的因子,具备一定的预测能力,2017/01/01-2025/12/31,因子的周度RankIC均值为0.106,全市场10分组多空对冲的年化收益为 $83.88\%$ ,信息比率为5.41,周度胜率为 $73.87\%$ ,最大回撤为 $11.65\%$ ; (2)量价指纹可在用常规量价因子构建模型的基础上,提供增量信息;将量价指纹与量价因子融合训练的双流 GRU 模型,进一步提升了预测能力,融合因子的周度 RankIC 均值提升至 0.109,全市场 10 分组多空对冲的年化收益为 $90.89\%$ ,信息比率 5.95,周度胜率 $76.46\%$ ,最大回撤为 $11.54\%$ (3)基于融合因子构建的指数增强组合,在非常严格的风险约束条件下,仍能取得稳定、可观的超额收益,如沪深300指数增强组合的超额年化收益为 $7.12\%$ ,跟踪误差为 $1.74\%$ 信息比率为4.10,月度胜率为 $86.11\%$ ,最大回撤为 $1.85\%$ 。 当然,当前研究仍处于起步阶段,仅进行了基础框架的构建与应用层面的初步探索。目前,量价指纹中蕴含的丰富信息尚未被充分挖掘,它像一段被压缩的市场影像,如何从这段“影像”中提取稳健的信号、与股票未来收益建立可解释的映射,是我们下一步的研究重点。未来的研究内容包括但不限于: (1) 指纹语义深度解析:指纹作为高维连续表示,每个维度都是经过正交约束的独立连续特征,彼此间相关性较低,理论上能够编码极为丰富的市场语义信息。目前我们仅将其视为整体特征向量输入预测模型,还未进行系统性地发掘:例如指纹的各个维度组合、非线性变换、时序演化模式中,可能隐含尚未被发现的信息;个股指纹间的相似性与差 异性, 可能反映股票之间的联动等。未来我们将深化探索, 尝试如基于聚类的模式发现、基于神经网络的指纹分解、基于相似度网络的关联分析等, 提取指纹中尚未被利用的预测信号。 (2) $\alpha$ 与 $\beta$ 的分离建模: 在统一的指纹空间中, 可进一步设计结构化学习任务, 引导模型将 $\alpha$ 与 $\beta$ 在表示层面进行解耦, 形成更具解释性、更适应不同策略需求的指纹子空间。 (3) 作为传统因子模型的补充: 量价指纹与传统量价因子并不互斥, 而是具备天然的互补性。传统因子擅长捕捉经过历史验证的统计规律与清晰的微观结构特征, 而指纹则侧重于提取全局的、隐含的市场行为模式与语义结构。未来我们会通过多流建模、特征融合、集成学习等方法, 实现 “显式因子逻辑” 与 “隐式语义指纹” 的有机协同, 提升模型的综合预测能力与稳健性。 笔者相信,以“理解市场语言”为核心理念的量价指纹范式,不只是换个算法如此简单,指纹里藏着的“秘密”,本篇报告只窥探了冰山一角,我们的探索才刚刚拉开序幕。在后续的持续探索与反复验证下,我们期待深入挖掘指纹中蕴含的丰富信息,在算法与市场理解的双重驱动下,充分释放大模型的价值潜力。 # 风险提示 以上结论均基于历史数据和模型的测算,如果市场环境和结构发生剧烈改变,不排除模型失效的可能性; 单模型的收益可能存在较大波动,实际应用需结合资金管理、风险控制等方法; 模型测算可能存在相对误差,不构成实际投资建议。 # 免责声明 国盛证券股份有限公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。 本报告的信息均来源于本公司认为可信的公开资料,但本公司及其研究人员对该等信息的准确性及完整性不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,可能会随时调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。 本公司力求报告内容客观、公正,但本报告所载的资料意见、信息及推测只提供给客户作参考之用,不构成任何 投资、法律、会计或税务的最终操作建议,本公司不就报告中的内容对最终操作建议做出任何担保。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。投资者应当充分考虑自身特定状况,并完整理解和使用本报告内容,不应视本报告为做出投资决策的唯一因素。 投资者应注意,在法律许可的情况下,本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易,也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。 本报告版权归“国盛证券股份有限公司”所有。未经事先本公司书面授权,任何机构或个人不得对本报告进行任何形式的发布、复制。任何机构或个人如引用、刊发本报告,需注明出处为“国盛证券研究所”,且不得对本报告进行有悖原意的删节或修改。 # 分析师声明 本报告署名分析师在此声明:我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的任何观点均精准地反映了我们对标的证券和发行人的个人看法,结论不受任何第三方的授意或影响。我们所得报酬的任何部分无论是在过去、现在及将来均不会与本报告中的具体投资建议或观点有直接或间接联系。 投资评级说明 <table><tr><td>投资建议的评级标准</td><td></td><td>评级</td><td>说明</td></tr><tr><td rowspan="7">评级标准为报告发布日后的6个月内公司股价(或行业指数)相对同期基准指数的相对市场表现。其中A股市场以沪深300指数为基准;新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以摩根士丹利中国指数为基准,美股市场以标普500指数或纳斯达克综合指数为基准。</td><td rowspan="4">股票评级</td><td>买入</td><td>相对同期基准指数涨幅在15%以上</td></tr><tr><td>增持</td><td>相对同期基准指数涨幅在5%~15%之间</td></tr><tr><td>持有</td><td>相对同期基准指数涨幅在-5%~+5%之间</td></tr><tr><td>减持</td><td>相对同期基准指数跌幅在5%以上</td></tr><tr><td rowspan="3">行业评级</td><td>增持</td><td>相对同期基准指数涨幅在10%以上</td></tr><tr><td>中性</td><td>相对同期基准指数涨幅在-10%~+10% 之间</td></tr><tr><td>减持</td><td>相对同期基准指数跌幅在10%以上</td></tr></table> # 国盛证券研究所 # 北京 地址:北京市东城区永定门西滨河路8号院7楼中海地产广场东塔7层 邮编:100077 邮箱:gsresearch@gszq.com # 南昌 地址:南昌市红谷滩新区凤凰中大道1115号北京银行大厦 邮编:330038 传真:0791-86281485 邮箱:gsresearch@gszq.com # 上海 地址:上海市浦东新区南洋泾路555号陆家嘴金融街区22栋 邮编:200120 电话:021-38124100 邮箱:gsresearch@gszq.com # 深圳 地址:深圳市福田区福华三路100号鼎和大厦24楼 邮编:518033 邮箱:gsresearch@gszq.com