> **来源:[研报客](https://pc.yanbaoke.cn)** ```markdown # DeepSeek-V4 详细总结 ## 核心内容 DeepSeek-V4 是 DeepSeek-AI 推出的新一代语言模型系列,支持高达 100 万个 token 的上下文长度。该系列包含两个模型:DeepSeek-V4-Pro(1.6T 参数,49B 激活参数)和 DeepSeek-V4-Flash(284B 参数,13B 激活参数),均采用混合注意力机制和优化策略,显著提升了模型在长上下文场景下的计算效率。 ## 主要观点 - **高效长上下文支持**:DeepSeek-V4 在 1M token 上下文设置下,相比 DeepSeek-V3.2,单 token 推理 FLOPs 降低至 27%,KV 缓存大小减少至 10%。DeepSeek-V4-Flash 更进一步,仅需 10% 的 FLOPs 和 7% 的 KV 缓存。 - **架构创新**:DeepSeek-V4 引入了 Manifold-Constrained Hyper-Connections (mHC)、Compressed Sparse Attention (CSA) 和 Heavily Compressed Attention (HCA) 三种关键技术,以提升模型的效率和稳定性。 - **优化策略**:采用 Muon 优化器以提高训练收敛速度和稳定性,并引入 FP4 量化训练技术以降低内存和计算需求。 - **训练与推理框架**:开发了高效的基础设施,包括细粒度通信与计算重叠、TileLang DSL、批处理无关的内核库以及推理框架中的异构 KV 缓存结构。 ## 关键信息 ### 1. 模型参数与上下文长度 - DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数,支持 1M token 上下文。 - DeepSeek-V4-Flash:284B 总参数,13B 激活参数,支持 1M token 上下文。 ### 2. 混合注意力机制 - **CSA(Compressed Sparse Attention)**:每 $m$ 个 token 的 KV 缓存被压缩为一个条目,再结合 DeepSeek Sparse Attention (DSA) 进行稀疏注意力计算。 - **HCA(Heavily Compressed Attention)**:每 $m'$($m' \gg m$)个 token 的 KV 缓存被压缩为一个条目,实现更高效的压缩。 - **混合架构**:通过 CSA 和 HCA 的组合,DeepSeek-V4 实现了对长上下文的高效处理。 ### 3. mHC(Manifold-Constrained Hyper-Connections) - 通过约束残差映射矩阵 $B_l$ 为双随机矩阵,提升了信号传播的稳定性。 - 使用 Sinkhorn-Knopp 算法对 $B_l$ 进行投影,确保其在双随机流形上。 - 输入和输出映射通过 Sigmoid 函数约束为非负且有界。 ### 4. Muon 优化器 - 用于提升训练效率和稳定性。 - 与 mHC 结合使用,通过混合 ZeRO 策略和重新计算技术实现高效训练。 ### 5. 训练与推理优化 - **MoE 模块**:采用单融合内核,实现计算、通信与内存访问的重叠。 - **TileLang**:一种领域专用语言,平衡了开发效率和运行效率。 - **KV 缓存管理**:引入异构 KV 缓存结构和磁盘存储策略,提升推理效率。 - **FP4 量化训练**:应用于 MoE 专家权重和索引器路径,进一步降低内存和计算需求。 ### 6. 预训练与微调 - DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 分别在 33T 和 32T 多样且高质量的 token 上进行预训练。 - 采用监督微调 (SFT) 和基于奖励模型的强化学习 (RL) 进行微调,提升模型在特定领域的性能。 - 引入 On-Policy Distillation (OPD) 技术,实现专家模型的统一整合。 ### 7. 评估结果 - **知识任务**:DeepSeek-V4-Pro-Max 在 SimpleQA 和 Chinese-SimpleQA 上显著优于其他开源模型,接近 Gemini-3.1-Pro。 - **推理任务**:在标准推理基准上,DeepSeek-V4-Pro-Max 表现优于 GPT-5.2 和 Gemini-3.0-Pro,但仍略逊于 GPT-5.4 和 Gemini-3.1-Pro。 - **Agent 任务**:DeepSeek-V4-Pro-Max 在多个公开基准上表现良好,与 Kimi-K2.6 和 GLM-5.1 相当,但略低于闭源模型如 Claude Sonnet 4.5 和 Opus 4.5。 - **长上下文任务**:在 1M token 上下文设置下,DeepSeek-V4-Pro-Max 在合成和真实场景中表现优异,甚至超过 Gemini-3.1-Pro 在学术基准上的表现。 ### 8. 模型对比 - **DeepSeek-V4-Pro vs. DeepSeek-V4-Flash**:前者在知识任务上表现更强,但后者在推理任务中通过更大的思考预算实现相近性能。 - **复杂任务表现**:DeepSeek-V4-Flash 在高难度任务上仍略逊于 DeepSeek-V4-Pro。 ## 未来方向与局限性 - **局限性**:尽管 DeepSeek-V4 在长上下文效率方面取得突破,但在推理任务和复杂 Agent 任务上仍与最先进模型存在一定差距。 - **未来方向**:继续探索在线学习、更高效的量化技术以及进一步的模型扩展,以支持更复杂的任务和更大的上下文长度。 ## 附录信息 - **模型检查点**:可从 [HuggingFace](https://huggingface.cocollections/deepseek-ai/deepseek-v4) 获取。 - **开源实现**:提供了部分架构的开源代码实现,便于进一步研究和应用。 ```