> **来源:[研报客](https://pc.yanbaoke.cn)** # 文档总结 ## 核心内容 本文主要分析了谷歌发表的《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》论文及其对存储行业的影响。尽管该论文在新闻报道中被夸大为“DeepSeek时刻”或“存储的重大变化”,但作者认为其本质上只是常规的学术进展,与之前其他类似算法(如RaBitQ、KIVI、PolarQuant)相比,其创新点并不突出。 ## 主要观点 1. **TurboQuant的理论基础** - 该算法基于信号理论、线性代数和数字通信理论,通过随机旋转和矩阵变换,优化矢量量化(VQ)过程,以达到最小化均方误差(MSE)或内积误差的目的。 - 两种优化方法:`TURBOQUANTmse` 和 `TURBOQUANTprod`,分别针对MSE和内积估计,具有互补性。 2. **与前置算法的对比** - TurboQuant的创新点来源于QJL、RaBitQ、KIVI和PolarQuant等算法,其核心思想(如随机旋转、残差量化)并非全新,而是对已有技术的继承和组合。 - 实验结果显示,TurboQuant在某些指标上表现良好,但其与KIVI、RaBitQ等算法的对比数据存在争议,实际效果并不明显。 3. **对存储行业的潜在影响** - TurboQuant仅针对KV Cache进行压缩,不涉及权重和激活值,因此对存储需求的影响有限。 - 该算法主要适用于高端GPU(如H100/A100),在中低端推理场景(如端侧芯片)中效果不佳。 - 精度回退问题显著,尤其在2.5bit量化下,性能可能不如预期。 4. **产业链利益分化** - 尽管KV Cache优化对存储行业有利,但不同环节(如SSD、HBM、AI SSD、CXL等)可能选择不同的技术路径,导致利益不统一。 - 存储行业整体涨幅较大,存在估值回归风险。 5. **AI与数字通信的关联** - 本文指出,AI的注意力机制等技术灵感来源于数字通信理论,如FIR滤波器、数字滤波器设计等。 - 该论文启发人们从数学和通信理论角度重新思考AI的优化路径,具有一定的理论价值。 ## 关键信息 - **TurboQuant的量化方式** - 采用两阶段量化:`TURBOQUANTmse`基于MSE优化,快速但有误差;`TURBOQUANTprod`基于内积优化,无偏且低失真。 - **实验结果** - 在Llama-3.1-8B-Instruct模型上,TurboQuant在2.5bit和3.5bit下的性能表现略低于Full Cache,且与KIVI、PolarQuant等算法的差距不明显。 - 与RaBitQ相比,TurboQuant的对照组缺乏工程支持,影响了其实际效果。 - **存储行业技术路线** - 存储行业存在多种技术路线,如高带宽闪存(HFP/HBF)、HBM升级、AI SSD直连、CXL池化、存算融合等,每种技术的适用场景和利益方不同。 - **风险提示** - 存储行业估值偏高,存在估值回归风险。 - 前沿技术研究可能带来较大波动,投资者需谨慎对待。 ## 技术路线对比 | 技术路线 | 核心逻辑 | 代表厂商/产品 | 关键指标 | |------------------------|--------------------------------------------------------------------------|---------------------------------------------|------------------------------------------| | 高带宽存储介质升级 | SSD内存化,承载KV Cache,替代部分HBM | SK海力士、闪迪、铠侠、三星 | 带宽64GB/s-3.2TB/s,容量5TB+ | | HBM4/HBM5升级 | 堆叠更多DRAM层,提升带宽与容量 | SK海力士、三星、美光 | HBM4带宽1.6PB/s,容量20TB+ | | AI SSD直连方案 | 提升SSD随机读写性能,降低GPU读取延迟 | 美光9650、铠侠CM9、闪迪UltraQLC | 单盘IOPS达1亿次,是普通SSD的10倍 | | GPU直连(SCADA方案) | GPU完全接管IO控制/数据路径,绕开CPU直连SSD集群 | 英伟达(H3 Platform)+美光/三星/铠侠/Marvell | 集群IOPS达230M,带宽600GB/s | | CXL内存池化 | CPU/GPU共享大容量DRAM池,动态调度资源 | 三星、美光、长鑫 | 单池容量TB级,延迟接近本地内存 | | 存算融合(以存代算) | 计算单元嵌入存储芯片,减少数据搬运损耗 | 美光、华为(存算一体芯片) | 能效提升10倍,延迟降低50%+ | | 向量数据库优化(RAG配套)| 适配GPU并行架构,优化向量检索与显存管理 | Milvus、Pinecone、Weaviate、MongoDB Atlas | 亿级数据毫秒级检索,支持GPU列式存储与并行索引 | | 存储控制器优化 | 定制化主控,适配AI读写特征(含PCIe 6.0/SCADA适配) | 英韧、慧荣、联芸(高端主控) | 支持PCIe 6.0,IOPS提升3倍+ | ## 行业投资提示 - **投资评级** - 存储行业:看好(Overweight) - AI相关技术:中性(Neutral)或看淡(Underweight) - 投资者应关注不同技术路线的适配性,以及估值合理性。 - **风险提示** - 存储行业P/E倍数偏高,存在估值回归风险。 - 技术变化可能带来较大波动,需关注技术落地与工程适配。 ## 附录 - **KIVI算法性能对比** - 在多种模型(如Llama-2-7B、Falcon-7B、Mistral-7B)上,KIVI算法在不同量化方式下表现各异,2bit量化下性能下降明显。 - **RaBitQ算法流程** - 索引阶段:归一化、构建码本、预计算距离和内积。 - 查询阶段:归一化查询向量、量化、计算估计距离。 - **TurboQuant算法实验** - 基于DBpedia Entities数据集,验证了两种量化方法(TurboQuantmse、TurboQuantprod)在不同比特宽度下的表现。 ## 估值表 | 代码 | 名称 | PB | PE25A/E | PE 26E | PE 27E | 市值(亿 元人民币) | 利润2025 (百万 元) | 利润2026 (百万 元) | 利润2027 (百万 元) | |--------|------------|-----|--------|--------|--------|-------------------|--------------------|--------------------|--------------------| | 001309 | 德明利 | 27.8| 132 | 93 | 70 | 908 | 688 | 981 | 1292 | | 301308 | 江波龙 | 17.8| 94 | 45 | 37 | 1320 | 1410 | 2909 | 3603 | | 603986 | 兆易创新 | 7.86| 113 | 75 | 59 | 1819 | 1610 | 2432 | 3078 | | 688449 | 联芸科技 | 10.7| 143 | 108 | 79 | 203 | 142 | 187 | 257 | | 688525 | 佰维存储 | 20.5| 127 | 31 | 29 | 1084 | 853 | 3449 | 3766 | | 300857 | 协创数据 | 16.8| 64 | 35 | 25 | 743 | 1164 | 2102 | 3005 | | 002049 | 紫光国微 | 4.4 | 34 | 27 | 21 | 575 | 1690 | 2107 | 2741 | ## 投资建议 - 本文认为TurboQuant并非存储的重大突破,其对存储需求的影响有限。 - 投资者应关注AI存储技术的工程适配性和实际效果,避免过度解读。 - 存储行业存在估值回归风险,需谨慎评估。 --- *注:本文总结基于申万宏源研究的分析,不构成投资建议。*