> **来源:[研报客](https://pc.yanbaoke.cn)** # DeepSeek V4 深度总结 ## 核心内容 DeepSeek V4 是国产开源大模型在训练侧使用国产算力实现从 0 到 1 跃迁的里程碑,标志着国产算力在大模型训练领域的突破性进展。该模型不仅在性能上达到全球第一梯队,更在技术架构上实现了对 NVIDIA 生态的去绑定,推动国产算力生态的发展。 ## 主要观点 - **国产算力适配**:DeepSeek V4 首次实现使用国产算力进行大模型训练,打破了过去国产算力仅用于推理的局限,为国产算力生态构建提供了重要支撑。 - **技术突破**:通过三大核心技术设计(MXFP4 量化感知训练、TileLang 领域专用语言、自研 MegaMoE2 融合内核)实现了对 NVIDIA 生态的脱钩,提升了国产算力的适配性与效率。 - **性能表现**:DeepSeek V4 在知识储备、推理与代码能力、Agent 能力、长上下文支持、中文创作能力等方面表现优异,多项指标超越或接近国际顶级闭源模型。 - **技术架构创新**:引入 CSA+HCA 混合注意力架构与 mHC 流形约束超连接,解决了超长上下文与深层模型训练稳定性问题。 - **投资价值**:DeepSeek V4 的战略意义远大于性能表现,为国产算力产业创造了长期市场需求,推动行业向全链路国产化发展。 ## 关键信息 ### 技术适配 - **MXFP4 量化感知训练**:通过引入 MXFP4 格式,实现对 MoE 专家权重与 CSA 索引器 QK 路径的 FP4 量化,降低对 NVIDIA FP8 生态的依赖,提升国产算力适配性。 - **TileLang 领域专用语言**:实现跨平台编译优化,降低国产芯片迁移成本,提升开发效率与运行性能。 - **MegaMoE2 融合内核**:解决 MoE 模型在国产硬件上的通信瓶颈,实现专家并行的细粒度通信-计算重叠,提升训练效率。 ### 性能表现 - **知识储备**:DeepSeek-V4-Pro-Max 在 SimpleQA-Verified 得分 57.9,中文 SimpleQA 得分 84.4,接近 Gemini-3.1-Pro。 - **推理与代码能力**:Codeforces 评分达 3206,位列人类选手排行榜第 23 名;LiveCodeBench Pass@1 达 93.5,超越多个闭源模型。 - **Agent 能力**:SWE-bench Verified 任务解决分数达 80.6,与 Claude Opus 4.6 相当;Terminal Bench 2.0 得分 67.9,处于开源模型第一梯队。 - **长上下文能力**:支持 1M token 上下文,MRCR、CorpusQA 得分分别为 83.5、62.0,超越 Gemini-3.1-Pro。 - **中文创作能力**:功能性写作胜率 62.7%,创意写作质量胜率 77.5%,仅在高难度多轮约束场景略逊于 Claude Opus 4.5。 ### 技术架构 - **CSA+HCA 混合注意力架构**:通过分层 KV 缓存压缩与稀疏注意力结合,将单 token 推理 FLOPs 降至 V3.2 的 27%(Pro)或 10%(Flash),显著降低算力需求。 - **mHC 流形约束超连接**:解决万亿参数模型训练中的 Loss Spike 问题,提升模型稳定性与表达能力。 - **创新后训练范式**:采用领域专家独立训练与全词表在线蒸馏,实现多能力融合无性能退化。 ### 投资建议 - **国产算力相关标的**:包括禾盛新材、寒武纪-U、海光信息、中科曙光、摩尔线程-U、沐曦股份-U、华丰科技、航天电器等。 - **投资逻辑**:DeepSeek V4 的发布标志着国产算力在大模型训练领域的突破,对国产算力生态具有战略意义,推动行业向全链路国产化发展。 ### 风险提示 - **大模型迭代不及预期**:技术更新缓慢可能影响行业竞争与商业化落地。 - **国产算力适配进度不及预期**:生态成熟度不足可能限制模型的广泛应用。 - **行业竞争加剧**:国内外科技巨头与初创企业可能加剧市场竞争,影响盈利空间。 - **政策监管趋严**:数据安全、内容合规等要求可能增加企业合规成本,限制技术发展。 ## 总结 DeepSeek V4 是开源大模型在国产算力训练适配领域的重大突破,不仅在性能上达到全球领先水平,更在技术架构上实现对 NVIDIA 生态的脱钩,推动国产算力生态发展。其在知识、推理、Agent、长上下文、中文创作等多方面表现突出,为国产算力产业链带来新的发展机遇。尽管在多模态能力与部分复杂任务表现上仍有提升空间,但其战略意义远大于性能表现,值得长期关注。