20260621-国金证券-Alpha掘金系列之二十三_论坛散户观点有价值吗_——散户舆情选股投资手册_34页_4mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 金融论坛文本分析与舆情选股策略总结 ## 核心内容 本报告探讨了金融论坛文本分析在舆情选股中的应用，提出了结合情感分类与主题分类的综合策略框架。针对金融论坛文本的特性（内容杂、质量低、文本短、数量大），传统情感分析方法存在信息损失和成本高昂的问题。因此，研究采用 FinBERT2 模型进行情感分类，并结合 BERTopic 与大语言模型（LLM）进行主题分类，从而构建更具信息价值的选股因子。 ## 主要观点 - **金融论坛文本分析的挑战**：文本内容混杂、质量不高、文本长度短、数量庞大，导致信息挖掘与观点提炼难度大。 - **情感分类的局限性**：传统情感分类仅关注情绪标签，忽略了文本中不同信息维度（如基本面、技术面）的差异性，且大模型情感分析成本高昂。 - **情感与主题分类的结合**：通过情感识别与主题分类相结合，可以更全面地挖掘文本信息，提高舆情选股因子的丰富性与有效性。 - **FinBERT2 模型**：专为金融文本优化，具有较高的情感分类精度（F1 分数达 92.95%），适用于情感分类任务。 - **BERTopic 模型**：基于预训练语言模型，通过“先聚类，后表征”的方法，能够有效处理短文本并生成高质量、可解释的主题分类。 - **因子有效性差异**：不同市值股票池中的情绪因子有效性存在差异，随着市值下降，因子表现有所改善，情绪反转效应更为明显。 - **主题分类因子表现**：在中证500与中证1000股票池中，部分主题分类因子（如情绪类与技术类）表现出一定有效性，而基本面类因子则表现不一。 - **合成因子策略**：情感分类因子与主题分类因子合成后，策略在沪深300、中证500、中证1000中的年化超额收益率分别为5.25%、6.79%、8.69%，信息比率分别为1.12、1.53、1.78。 - **噪音交易者主导的股票**：通过主题分类因子划分的热门股与冷门股中，噪音交易者主导的股票在不同池子中表现方向相反，可用于风险监控。 ## 关键信息 ### 数据特征 - 金融论坛文本来自沪深300、中证500、中证1000三个股票池，时间跨度为2019年5月至2025年9月。 - 平均字数在50-60字之间，50字以内的帖子占比均超过80%。 - 每周帖子数量中位数均超过10万条，且随股票池增大而增加。 ### 情感分类与因子挖掘 - 使用 FinBERT2 模型进行情感二分类（正面、负面）。 - 构建了多种基于情感分类的因子，包括周度帖子总数、正负面帖子数、占比、加速度、变动比例、动量等。 - 在沪深300股票池中，有效因子较少，主要为“pos_acceleration”与“pos_momentum_90”。 - 在中证500与中证1000股票池中，有效因子数量增加，且因子整体表现有所改善。 ### 主题分类与因子挖掘 - 采用 BERTopic 模型与 LLM 结合，将文本划分为基本面、技术面、情绪表达、行业政策、无关内容等类别。 - 构建了基于主题分类的因子，包括周度分类占比、加速度、变动比例、动量等。 - 在沪深300股票池中，主题分类因子整体无效；在中证500与中证1000股票池中，部分因子表现良好，尤其是情绪与技术类因子。 ### 多因子合成与策略构建 - 情感分类因子与主题分类因子相关性较低，但情感因子与风格因子（如技术类）相关性较高。 - 合成因子策略在沪深300、中证500、中证1000中分别获得年化超额收益率5.25%、6.79%、8.69%。 - 通过合成因子划分的热门股与冷门股中，噪音交易者主导的股票表现方向相反，可用于风险监控。 ## 风险提示 - 历史规律不代表未来，模型在市场环境变化时可能失效。 - 策略基于历史数据回测，当交易成本或其他条件变化时，可能导致策略收益下降甚至亏损。 - 基金相关信息及数据仅用于研究，不作为募集或宣传材料。 ## 结论与展望 - 重点结论：情绪因子在中小市值股票池中表现更优，主题分类因子在中证500与中证1000中具有一定有效性。 - 实践意义：情感与主题分类的结合能够提升舆情选股因子库的丰富性，为量化投资提供新思路。 - 未来展望：进一步优化因子合成与策略构建，探索更多金融文本分析的应用场景。 ## 图表目录 - 图表1：舆情选股策略的整体框架 - 图表2：金融论坛数据形式 - 图表3：各股票池帖子字数分布 - 图表4：不同股票池周度帖子数量变化及中位数统计 - 图表5：不同股票池样本覆盖度统计 - 图表6：FinBERT2整体工作流简介 - 图表7：情感分类任务中FinBERT2与其他模型及大模型的对比 - 图表8：情感分类后正面、负面帖子占比统计 - 图表9：基于情感分类的舆情因子清单 - 图表10：周频因子构建逻辑 - 图表11：效果欠佳的周度正面帖子数量因子分位数组合表现 - 图表12：基于情感分类的舆情因子清单 - 图表13：pos_momentum_90因子分位数组合表现及多空组合净值 - 图表14：pos_acceleration因子分位数组合表现及多空组合净值 - 图表15：中证500股票池情感分类因子测试结果（有效因子） - 图表16：周度正面帖子数量因子测试结果（升序） - 图表17：正面帖子占比180日动量因子测试（升序） - 图表18：正面帖子数180日动量因子测试结果（升序） - 图表19：周度正面帖子变动因子测试结果（升序） - 图表20：中证1000股票池情感分类因子测试结果（有效因子） - 图表21：周度正面帖子数量因子测试结果（升序） - 图表22：周度正面帖子变动因子测试结果（升序） - 图表23：正面帖子数180日动量因子测试结果（升序） - 图表24：正面帖子占比因子测试结果（升序） - 图表25：BERTopic模型与LDA模型的差异 - 图表26：BERTopic模型的工作流 - 图表27：金融论坛文本主题分类建模全流程 - 图表28：沪深300股票池中各主题占比 - 图表29：主题分类效果例子 - 图表30：主题分类因子清单 - 图表31：主题分类在沪深300股票池进行测试 - 图表32：主题分类因子在中证500股票池中进行测试 - 图表33：基本面占比因子IC测试结果 - 图表34：情绪发泄占比因子分位数组合表现及多空净值（升序） - 图表35：技术分析占比因子分位数组合表现及多空净值（升序） - 图表36：情绪发泄占比180日动量因子分位数组合表现及多空净值（升序） - 图表37：技术分析占比180日动量因子分位数组合表现及多空净值（升序） - 图表38：主题分类因子在中证1000股票池中进行测试 - 图表39：基本面占比因子IC测试结果 - 图表40：情绪发泄占比因子分位数组合表现及多空净值（升序） - 图表41：技术分析占比因子分位数组合表现及多空净值（升序） - 图表42：情绪发泄占比180日动量因子分位数组合表现及多空净值（升序） - 图表43：技术分析占比180日动量因子分位数组合表现及多空净值（升序） - 图表44：技术分析占比周变动因子分位数组合表现及多空净值（升序） - 图表45：推理观点方向的提示词设计 - 图表46：中证500股票池中观点方向因子无效 - 图表47：情感分类因子与主题分类因子因子相关性测试结果（中证1000股票池） - 图表48：因子合成架构 - 图表49：合成后因子与风格因子相关性测试（中证1000股票池） - 图表50：从多空净值走势看相关性（中证1000股票池） - 图表51：技术因子多空收益率与舆情因子相关性（中证1000股票池） - 图表52：情感分类合成因子在沪深300股票池中进行测试 - 图表53：情感分类合成因子分位数组合表现及多空组合净值（沪深300股票池） - 图表54：情感分类合成因子选股策略表现（沪深300股票池） - 图表55：情感分类合成因子选股策略表现（沪深300股票池） - 图表56：舆情选股策略分年度超额收益率（沪深300） - 图表57：合成因子在中证500股票池中进行测试 - 图表58：舆情综合因子分位数组合表现及多空组合净值（中证500股票池） - 图表59：基于情感分类合成因子的舆情选股策略表现（中证500） - 图表60：基于舆情综合合成因子的舆情选股策略表现（中证500股票池） - 图表61：舆情选股策略分年度超额收益率（中证500股票池） - 图表62：合成因子在中证1000股票池中进行测试 - 图表63：情感分类合成因子分位数组合表现及多空组合净值（中证1000股票池） - 图表64：情感分类合成因子选股策略表现（中证1000股票池） - 图表65：基于情感分类合成因子的舆情选股策略表现（中证1000） - 图表66：舆情选股策略分年度超额收益率（中证1000） - 图表67：不同热门程度股票池中，主题分类合成因子的IC表现（中证1000） - 图表68：情感分类合成因子与主题分类合成因子5*5组合（中证1000） - 图表69：噪声交易者主导的热门股vs冷门股组合表现对比（中证1000） - 图表70：噪声交易者主导的热门股vs冷门股组合分年度表现（中证1000） - 图表71：股票A与股票B的短期见顶信号