20260426-国信证券-计算机_DeepSeek-V4点评-多层面技术提升训练规模_超长上下文进入普惠时代_13页_1mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # DeepSeek-V4 点评总结 ## $\spadesuit$ 核心内容 DeepSeek-V4 是 DeepSeek 推出的最新语言模型系列，包括两个 MoE 模型：DeepSeek-V4-Pro（总参数量1.6万亿，激活参数490亿）和 DeepSeek-V4-Flash（总参数量2840亿，激活参数130亿）。两者均支持长达一百万token的上下文长度，标志着长上下文处理技术进入普惠时代。 DeepSeek-V4 在架构与优化方面进行了多项关键升级，包括混合注意力架构、新型残差连接架构、Muon optimizer、FP4量化感知训练、后训练专家独立训练与统一蒸馏等。这些创新提升了模型的性能、效率和稳定性，同时显著降低了推理和训练成本，增强了模型在企业级AI Agent场景中的商业落地能力。 ## $\spadesuit$ 主要观点 - **混合注意力架构（CSA + HCA）**：通过 CSA（压缩稀疏注意力）和 HCA（重度压缩注意力）的结合，DeepSeek-V4 在长上下文任务中实现了计算成本和KV缓存的大幅降低，其中 V4-Pro 的单token推理FLOPs仅为 V3.2 的 27%，KV cache 仅为 10%。该架构在保持局部依赖和全局检索能力的同时，有效控制了成本。 - **mHC（流形约束的超连接）**：通过将残差连接约束到双随机矩阵上，mHC 保证了深层模型的数值稳定性，提升了模型训练的收敛速度和泛化能力，特别是在超大规模 MoE 模型中效果显著。 - **Muon optimizer**：Muon 是一种专为超大规模模型设计的优化器，通过正交化更新方向和混合 Newton-Schulz 迭代，提升了模型训练的稳定性和效率。在 V4 中，Muon 被广泛应用于大部分模块，而 embedding、norm、head 等部分仍采用 AdamW。 - **FP4 量化感知训练（QAT）**：DeepSeek-V4 在 MoE 专家权重和 CSA 的 QK 路径中引入 FP4，显著节省了显存和提升了推理速度。同时，通过将 index scores 从 FP32 压缩到 BF16，实现了推理速度的 $2 \times$ 提升，且保持了 $99.7\%$ 的 KV 召回率。 - **后训练专家独立训练 + on-policy distillation**：DeepSeek-V4 采用先训练领域专家模型，再通过 on-policy distillation 蒸馏回统一模型的方法，兼顾了模型的 specialization 和 consolidation，提升了在多个任务中的表现。 - **系统与基础设施创新**：DeepSeek-V4 在 MoE 模型中引入了 expertwave 调度方案，将通信、计算和访存融合，实现了推理负载下的 1.50-1.73 倍加速，在时延敏感型场景中甚至达到 1.96 倍加速。该方案已在 NVIDIA GPUs 和 HUAWEI Ascend NPUs 上验证。 ## $\spadesuit$ 关键信息 ### 模型性能 - DeepSeek-V4-Pro-Max 在 Codeforces 编程竞赛中以 3206 分的 Rating 首平 OpenAI 的 GPT-5.4。 - 在 MRCR（长上下文检索任务）中，DeepSeek-V4-Pro 表现优于 Gemini-3.1-Pro，但仍落后于 Claude Opus。 - 在 Artificial Analysis Intelligence Index 测评中，DeepSeek-V4 Pro Max 得分 52，处于全球最强模型阵营，但与 GPT-5.5 的 60 分仍有差距。 ### 模型成本与性价比 - DeepSeek-V4 Pro Max 和 Flash Max 在 API 输入/输出单价上分别为 0.14 美元和 0.28 美元，仅为 V3.2 的约 50%。 - 在推理成本方面，DeepSeek-V4 Pro Max 运行成本约为 1071 美元，显著低于 Claude Opus 4.7 Max（4811 美元）、GPT-5.5（3357 美元）和 GPT-5.4（2851 美元）。 ### 商业价值与算力适配 - DeepSeek-V4 通过高效架构和成本控制，打开了大规模企业级 AI Agent 落地的商业空间。 - 在推理侧，DeepSeek-V4 的高计算需求有望刺激国产算力用量，尤其是在高端模型部署场景中。 - DeepSeek 官方表示，随着下半年 950 超节点批量上市，Pro 价格将大幅下调，进一步提升市场竞争力。 ### 风险提示 - 下游需求不及预期 - AI 应用落地不及预期 - 硬件技术落地进程不及预期 - 宏观经济波动 ## $\spadesuit$ 评测表现 | 评测任务 | DeepSeek-V4-Flash | DeepSeek-V4-Pro | 闭源/开源模型 | |----------|-------------------|-----------------|----------------| | MMLU-Pro (EM) | 83.0 | 87.1 | 71.7 | | SimpleQA-Verified (Pass#1) | 23.1 | 36.9 | 24.0 | | Chinese-SimpleQA (Pass#1) | 71.5 | 75.8 | 24.0 | | GPQA Diamond (Pass#1) | 71.2 | 72.9 | 71.7 | | HLE (Pass#1) | 8.1 | 34.5 | 24.0 | | Long MRCR 1M (MMR) | 37.5 | 44.7 | 71.7 | | CorpusQA 1M (ACC) | 15.5 | 35.6 | 24.0 | | Terminal Bench 2.0 (Acc) | 49.1 | 59.1 | 69.4 | | SWE Verified (Resolved) | 73.7 | 73.6 | 24.0 | | SWE Pro (Resolved) | 49.1 | 52.1 | 52.1 | | SWE Multilingual (Resolved) | 69.7 | 69.8 | 69.8 | | BrowseComp (Pass#1) | - | 83.4 | 83.2 | | HLE w/ tools (Pass#1) | - | 48.2 | 50.0 | | GDPval-AA (Elo) | 73.8 | 74.2 | 73.8 | | Toolathlon (Pass#1) | 40.7 | 46.3 | 46.3 | ## $\spadesuit$ 模型适用场景 DeepSeek-V4 在编程、智能体任务等高复杂度任务中表现出色，尤其适合需要处理长上下文和多轮交互的场景。其在 Artificial Analysis Coding Index 和 Agentic Index 中分别取得 47 和 67 的高分，仅次于 Claude 和 GPT-5.5。 ## $\spadesuit$ 模型局限 - **幻觉问题**：DeepSeek-V4 在 AA-Omniscience 测评中非幻觉率较低，Pro Max 仅为 $6\%$，说明在知识边界外或高度不确定问题上可能生成错误答案。 - **成本与性能平衡**：尽管 DeepSeek-V4 表现优异，但在某些评测中仍与闭源模型存在差距，需结合其他技术（如检索增强）以提升准确性。 ## $\spadesuit$ 总结 DeepSeek-V4 通过多层面的技术提升，实现了在超大规模模型中的高效训练与推理，特别是在长上下文处理方面展现出显著优势。其混合注意力架构、mHC 残差连接、Muon 优化器和 FP4 量化感知训练等创新，使其在保持高性能的同时大幅降低成本，增强了商业落地的可能性。然而，模型仍面临幻觉、下游需求不确定等挑战，未来需进一步优化以提升在高准确性场景中的表现。