> **来源:[研报客](https://pc.yanbaoke.cn)** # 金融论坛文本分析与舆情选股策略总结 ## 核心内容 本报告探讨了金融论坛文本分析在舆情选股中的应用,提出了结合情感分类与主题分类的综合策略框架。针对金融论坛文本的特性(内容杂、质量低、文本短、数量大),传统情感分析方法存在信息损失和成本高昂的问题。因此,研究采用 FinBERT2 模型进行情感分类,并结合 BERTopic 与大语言模型(LLM)进行主题分类,从而构建更具信息价值的选股因子。 ## 主要观点 - **金融论坛文本分析的挑战**:文本内容混杂、质量不高、文本长度短、数量庞大,导致信息挖掘与观点提炼难度大。 - **情感分类的局限性**:传统情感分类仅关注情绪标签,忽略了文本中不同信息维度(如基本面、技术面)的差异性,且大模型情感分析成本高昂。 - **情感与主题分类的结合**:通过情感识别与主题分类相结合,可以更全面地挖掘文本信息,提高舆情选股因子的丰富性与有效性。 - **FinBERT2 模型**:专为金融文本优化,具有较高的情感分类精度(F1 分数达 92.95%),适用于情感分类任务。 - **BERTopic 模型**:基于预训练语言模型,通过“先聚类,后表征”的方法,能够有效处理短文本并生成高质量、可解释的主题分类。 - **因子有效性差异**:不同市值股票池中的情绪因子有效性存在差异,随着市值下降,因子表现有所改善,情绪反转效应更为明显。 - **主题分类因子表现**:在中证500与中证1000股票池中,部分主题分类因子(如情绪类与技术类)表现出一定有效性,而基本面类因子则表现不一。 - **合成因子策略**:情感分类因子与主题分类因子合成后,策略在沪深300、中证500、中证1000中的年化超额收益率分别为5.25%、6.79%、8.69%,信息比率分别为1.12、1.53、1.78。 - **噪音交易者主导的股票**:通过主题分类因子划分的热门股与冷门股中,噪音交易者主导的股票在不同池子中表现方向相反,可用于风险监控。 ## 关键信息 ### 数据特征 - 金融论坛文本来自沪深300、中证500、中证1000三个股票池,时间跨度为2019年5月至2025年9月。 - 平均字数在50-60字之间,50字以内的帖子占比均超过80%。 - 每周帖子数量中位数均超过10万条,且随股票池增大而增加。 ### 情感分类与因子挖掘 - 使用 FinBERT2 模型进行情感二分类(正面、负面)。 - 构建了多种基于情感分类的因子,包括周度帖子总数、正负面帖子数、占比、加速度、变动比例、动量等。 - 在沪深300股票池中,有效因子较少,主要为“pos_acceleration”与“pos_momentum_90”。 - 在中证500与中证1000股票池中,有效因子数量增加,且因子整体表现有所改善。 ### 主题分类与因子挖掘 - 采用 BERTopic 模型与 LLM 结合,将文本划分为基本面、技术面、情绪表达、行业政策、无关内容等类别。 - 构建了基于主题分类的因子,包括周度分类占比、加速度、变动比例、动量等。 - 在沪深300股票池中,主题分类因子整体无效;在中证500与中证1000股票池中,部分因子表现良好,尤其是情绪与技术类因子。 ### 多因子合成与策略构建 - 情感分类因子与主题分类因子相关性较低,但情感因子与风格因子(如技术类)相关性较高。 - 合成因子策略在沪深300、中证500、中证1000中分别获得年化超额收益率5.25%、6.79%、8.69%。 - 通过合成因子划分的热门股与冷门股中,噪音交易者主导的股票表现方向相反,可用于风险监控。 ## 风险提示 - 历史规律不代表未来,模型在市场环境变化时可能失效。 - 策略基于历史数据回测,当交易成本或其他条件变化时,可能导致策略收益下降甚至亏损。 - 基金相关信息及数据仅用于研究,不作为募集或宣传材料。 ## 结论与展望 - 重点结论:情绪因子在中小市值股票池中表现更优,主题分类因子在中证500与中证1000中具有一定有效性。 - 实践意义:情感与主题分类的结合能够提升舆情选股因子库的丰富性,为量化投资提供新思路。 - 未来展望:进一步优化因子合成与策略构建,探索更多金融文本分析的应用场景。 ## 图表目录 - 图表1:舆情选股策略的整体框架 - 图表2:金融论坛数据形式 - 图表3:各股票池帖子字数分布 - 图表4:不同股票池周度帖子数量变化及中位数统计 - 图表5:不同股票池样本覆盖度统计 - 图表6:FinBERT2整体工作流简介 - 图表7:情感分类任务中FinBERT2与其他模型及大模型的对比 - 图表8:情感分类后正面、负面帖子占比统计 - 图表9:基于情感分类的舆情因子清单 - 图表10:周频因子构建逻辑 - 图表11:效果欠佳的周度正面帖子数量因子分位数组合表现 - 图表12:基于情感分类的舆情因子清单 - 图表13:pos_momentum_90因子分位数组合表现及多空组合净值 - 图表14:pos_acceleration因子分位数组合表现及多空组合净值 - 图表15:中证500股票池情感分类因子测试结果(有效因子) - 图表16:周度正面帖子数量因子测试结果(升序) - 图表17:正面帖子占比180日动量因子测试(升序) - 图表18:正面帖子数180日动量因子测试结果(升序) - 图表19:周度正面帖子变动因子测试结果(升序) - 图表20:中证1000股票池情感分类因子测试结果(有效因子) - 图表21:周度正面帖子数量因子测试结果(升序) - 图表22:周度正面帖子变动因子测试结果(升序) - 图表23:正面帖子数180日动量因子测试结果(升序) - 图表24:正面帖子占比因子测试结果(升序) - 图表25:BERTopic模型与LDA模型的差异 - 图表26:BERTopic模型的工作流 - 图表27:金融论坛文本主题分类建模全流程 - 图表28:沪深300股票池中各主题占比 - 图表29:主题分类效果例子 - 图表30:主题分类因子清单 - 图表31:主题分类在沪深300股票池进行测试 - 图表32:主题分类因子在中证500股票池中进行测试 - 图表33:基本面占比因子IC测试结果 - 图表34:情绪发泄占比因子分位数组合表现及多空净值(升序) - 图表35:技术分析占比因子分位数组合表现及多空净值(升序) - 图表36:情绪发泄占比180日动量因子分位数组合表现及多空净值(升序) - 图表37:技术分析占比180日动量因子分位数组合表现及多空净值(升序) - 图表38:主题分类因子在中证1000股票池中进行测试 - 图表39:基本面占比因子IC测试结果 - 图表40:情绪发泄占比因子分位数组合表现及多空净值(升序) - 图表41:技术分析占比因子分位数组合表现及多空净值(升序) - 图表42:情绪发泄占比180日动量因子分位数组合表现及多空净值(升序) - 图表43:技术分析占比180日动量因子分位数组合表现及多空净值(升序) - 图表44:技术分析占比周变动因子分位数组合表现及多空净值(升序) - 图表45:推理观点方向的提示词设计 - 图表46:中证500股票池中观点方向因子无效 - 图表47:情感分类因子与主题分类因子因子相关性测试结果(中证1000股票池) - 图表48:因子合成架构 - 图表49:合成后因子与风格因子相关性测试(中证1000股票池) - 图表50:从多空净值走势看相关性(中证1000股票池) - 图表51:技术因子多空收益率与舆情因子相关性(中证1000股票池) - 图表52:情感分类合成因子在沪深300股票池中进行测试 - 图表53:情感分类合成因子分位数组合表现及多空组合净值(沪深300股票池) - 图表54:情感分类合成因子选股策略表现(沪深300股票池) - 图表55:情感分类合成因子选股策略表现(沪深300股票池) - 图表56:舆情选股策略分年度超额收益率(沪深300) - 图表57:合成因子在中证500股票池中进行测试 - 图表58:舆情综合因子分位数组合表现及多空组合净值(中证500股票池) - 图表59:基于情感分类合成因子的舆情选股策略表现(中证500) - 图表60:基于舆情综合合成因子的舆情选股策略表现(中证500股票池) - 图表61:舆情选股策略分年度超额收益率(中证500股票池) - 图表62:合成因子在中证1000股票池中进行测试 - 图表63:情感分类合成因子分位数组合表现及多空组合净值(中证1000股票池) - 图表64:情感分类合成因子选股策略表现(中证1000股票池) - 图表65:基于情感分类合成因子的舆情选股策略表现(中证1000) - 图表66:舆情选股策略分年度超额收益率(中证1000) - 图表67:不同热门程度股票池中,主题分类合成因子的IC表现(中证1000) - 图表68:情感分类合成因子与主题分类合成因子5*5组合(中证1000) - 图表69:噪声交易者主导的热门股vs冷门股组合表现对比(中证1000) - 图表70:噪声交易者主导的热门股vs冷门股组合分年度表现(中证1000) - 图表71:股票A与股票B的短期见顶信号