> **来源:[研报客](https://pc.yanbaoke.cn)** # DeepSeek-V4 点评总结 ## $\spadesuit$ 核心内容 DeepSeek-V4 是 DeepSeek 推出的最新语言模型系列,包括两个 MoE 模型:DeepSeek-V4-Pro(总参数量1.6万亿,激活参数490亿)和 DeepSeek-V4-Flash(总参数量2840亿,激活参数130亿)。两者均支持长达一百万token的上下文长度,标志着长上下文处理技术进入普惠时代。 DeepSeek-V4 在架构与优化方面进行了多项关键升级,包括混合注意力架构、新型残差连接架构、Muon optimizer、FP4量化感知训练、后训练专家独立训练与统一蒸馏等。这些创新提升了模型的性能、效率和稳定性,同时显著降低了推理和训练成本,增强了模型在企业级AI Agent场景中的商业落地能力。 ## $\spadesuit$ 主要观点 - **混合注意力架构(CSA + HCA)**:通过 CSA(压缩稀疏注意力)和 HCA(重度压缩注意力)的结合,DeepSeek-V4 在长上下文任务中实现了计算成本和KV缓存的大幅降低,其中 V4-Pro 的单token推理FLOPs仅为 V3.2 的 27%,KV cache 仅为 10%。该架构在保持局部依赖和全局检索能力的同时,有效控制了成本。 - **mHC(流形约束的超连接)**:通过将残差连接约束到双随机矩阵上,mHC 保证了深层模型的数值稳定性,提升了模型训练的收敛速度和泛化能力,特别是在超大规模 MoE 模型中效果显著。 - **Muon optimizer**:Muon 是一种专为超大规模模型设计的优化器,通过正交化更新方向和混合 Newton-Schulz 迭代,提升了模型训练的稳定性和效率。在 V4 中,Muon 被广泛应用于大部分模块,而 embedding、norm、head 等部分仍采用 AdamW。 - **FP4 量化感知训练(QAT)**:DeepSeek-V4 在 MoE 专家权重和 CSA 的 QK 路径中引入 FP4,显著节省了显存和提升了推理速度。同时,通过将 index scores 从 FP32 压缩到 BF16,实现了推理速度的 $2 \times$ 提升,且保持了 $99.7\%$ 的 KV 召回率。 - **后训练专家独立训练 + on-policy distillation**:DeepSeek-V4 采用先训练领域专家模型,再通过 on-policy distillation 蒸馏回统一模型的方法,兼顾了模型的 specialization 和 consolidation,提升了在多个任务中的表现。 - **系统与基础设施创新**:DeepSeek-V4 在 MoE 模型中引入了 expertwave 调度方案,将通信、计算和访存融合,实现了推理负载下的 1.50-1.73 倍加速,在时延敏感型场景中甚至达到 1.96 倍加速。该方案已在 NVIDIA GPUs 和 HUAWEI Ascend NPUs 上验证。 ## $\spadesuit$ 关键信息 ### 模型性能 - DeepSeek-V4-Pro-Max 在 Codeforces 编程竞赛中以 3206 分的 Rating 首平 OpenAI 的 GPT-5.4。 - 在 MRCR(长上下文检索任务)中,DeepSeek-V4-Pro 表现优于 Gemini-3.1-Pro,但仍落后于 Claude Opus。 - 在 Artificial Analysis Intelligence Index 测评中,DeepSeek-V4 Pro Max 得分 52,处于全球最强模型阵营,但与 GPT-5.5 的 60 分仍有差距。 ### 模型成本与性价比 - DeepSeek-V4 Pro Max 和 Flash Max 在 API 输入/输出单价上分别为 0.14 美元和 0.28 美元,仅为 V3.2 的约 50%。 - 在推理成本方面,DeepSeek-V4 Pro Max 运行成本约为 1071 美元,显著低于 Claude Opus 4.7 Max(4811 美元)、GPT-5.5(3357 美元)和 GPT-5.4(2851 美元)。 ### 商业价值与算力适配 - DeepSeek-V4 通过高效架构和成本控制,打开了大规模企业级 AI Agent 落地的商业空间。 - 在推理侧,DeepSeek-V4 的高计算需求有望刺激国产算力用量,尤其是在高端模型部署场景中。 - DeepSeek 官方表示,随着下半年 950 超节点批量上市,Pro 价格将大幅下调,进一步提升市场竞争力。 ### 风险提示 - 下游需求不及预期 - AI 应用落地不及预期 - 硬件技术落地进程不及预期 - 宏观经济波动 ## $\spadesuit$ 评测表现 | 评测任务 | DeepSeek-V4-Flash | DeepSeek-V4-Pro | 闭源/开源模型 | |----------|-------------------|-----------------|----------------| | MMLU-Pro (EM) | 83.0 | 87.1 | 71.7 | | SimpleQA-Verified (Pass#1) | 23.1 | 36.9 | 24.0 | | Chinese-SimpleQA (Pass#1) | 71.5 | 75.8 | 24.0 | | GPQA Diamond (Pass#1) | 71.2 | 72.9 | 71.7 | | HLE (Pass#1) | 8.1 | 34.5 | 24.0 | | Long MRCR 1M (MMR) | 37.5 | 44.7 | 71.7 | | CorpusQA 1M (ACC) | 15.5 | 35.6 | 24.0 | | Terminal Bench 2.0 (Acc) | 49.1 | 59.1 | 69.4 | | SWE Verified (Resolved) | 73.7 | 73.6 | 24.0 | | SWE Pro (Resolved) | 49.1 | 52.1 | 52.1 | | SWE Multilingual (Resolved) | 69.7 | 69.8 | 69.8 | | BrowseComp (Pass#1) | - | 83.4 | 83.2 | | HLE w/ tools (Pass#1) | - | 48.2 | 50.0 | | GDPval-AA (Elo) | 73.8 | 74.2 | 73.8 | | Toolathlon (Pass#1) | 40.7 | 46.3 | 46.3 | ## $\spadesuit$ 模型适用场景 DeepSeek-V4 在编程、智能体任务等高复杂度任务中表现出色,尤其适合需要处理长上下文和多轮交互的场景。其在 Artificial Analysis Coding Index 和 Agentic Index 中分别取得 47 和 67 的高分,仅次于 Claude 和 GPT-5.5。 ## $\spadesuit$ 模型局限 - **幻觉问题**:DeepSeek-V4 在 AA-Omniscience 测评中非幻觉率较低,Pro Max 仅为 $6\%$,说明在知识边界外或高度不确定问题上可能生成错误答案。 - **成本与性能平衡**:尽管 DeepSeek-V4 表现优异,但在某些评测中仍与闭源模型存在差距,需结合其他技术(如检索增强)以提升准确性。 ## $\spadesuit$ 总结 DeepSeek-V4 通过多层面的技术提升,实现了在超大规模模型中的高效训练与推理,特别是在长上下文处理方面展现出显著优势。其混合注意力架构、mHC 残差连接、Muon 优化器和 FP4 量化感知训练等创新,使其在保持高性能的同时大幅降低成本,增强了商业落地的可能性。然而,模型仍面临幻觉、下游需求不确定等挑战,未来需进一步优化以提升在高准确性场景中的表现。