DeepSeek-V4 是 DeepSeek 推出的新一代大语言模型系列预览版,拥有百万字超长上下文窗口,在 Agent 能力、世界知识与推理性能方面达到开源领域领先水平。模型包含 deepseek-v4-pro 和 deepseek-v4-flash 两个版本,分别定位高性能与经济高效,均已开源并提供 API 服务,支持非思考与思考双模式,为长文本处理与智能体应用提供普惠化基础设施。
DeepSeek-V4 的主要功能
- 百万上下文处理:原生支持 1M Token 超长文本理解与记忆,为官方服务标配。
- 混合注意力机制:CSA 与 HCA 架构大幅降低长上下文计算与显存开销。
- Agent 编码增强:针对 Claude Code、OpenClaw 等主流 Agent 框架深度优化。
- 双模式推理:支持非思考与思考模式,后者可通过 reasoning_effort 参数调节强度。
- 多领域专家融合:通过 OPD 蒸馏整合数学、代码、Agent 等领域专家能力。
- 经济高效选择:Flash 版本用更低参数实现接近 Pro 的推理性能,API 成本显著降低。
技术原理
- CSA 压缩稀疏注意力:将每 m 个 token 的 KV 压缩为 1 个条目,通过 Lightning Indexer 计算索引分数并执行 Top-k 稀疏选择,结合滑动窗口与 Attention Sink 机制保留局部依赖。
- HCA 重度压缩注意力:以更大压缩比将 KV 条目合并为单个条目,保持密集注意力而不采用稀疏选择,进一步降低计算量。
- mHC 流形约束超连接:将残差映射矩阵通过 Sinkhorn-Knopp 算法投影到双随机矩阵流形,约束谱范数不超过 1,增强深层信号传播稳定性。
- Muon 优化器:模型采用混合 Newton-Schulz 迭代对梯度矩阵进行正交化,分快速收敛与精确稳定两个阶段,支持大规模 MoE 高效训练。
- FP4 量化感知训练:对 MoE 专家权重和 CSA 索引器 QK 路径进行 FP4 量化,用 FP8 扩展动态范围实现无损反量化,降低内存与计算开销。
性能表现
知识能力
- 世界知识领先开源:SimpleQA-Verified 达 57.9%,超越所有已评测开源模型 20 个百分点。
- 中文知识突出:Chinese-SimpleQA 达 84.4%,大幅领先 K2.6(75.9%)与 GLM-5.1(75.0%)。
- 教育知识接近前沿:MMLU-Pro 87.5%、GPQA Diamond 90.1%,与 GPT-5.4 持平。
推理与代码能力
- 数学竞赛比肩闭源:HMMT 2026 Feb 达 95.2%,IMOAnswerBench 达 89.8%。
- 代码竞赛首次开源追平闭源:Codeforces Rating 达 3206,当前排名人类选手第 23 位。
- 高难度推理突破:Apex Shortlist 达 90.2%,LiveCodeBench 达 93.5%,领先所有对比模型。
Agent 能力
- 软件工程接近顶级闭源:SWE Verified 达 80.6%,与 Opus-4.6(80.8%)基本持平。
- 终端操作领先开源:Terminal Bench 2.0 达 67.9%。
- 工具调用泛化优秀:MCPAtlas Public 73.6%、Toolathlon 51.8%。
长上下文能力
- 百万上下文检索强劲:MRCR 1M 达 83.5%,超越 Gemini-3.1-Pro(76.3%)。
- 真实场景长文档理解:CorpusQA 1M 达 62.0%,优于 Gemini-3.1-Pro(53.8%)。
效率表现
- 1M 上下文下,V4-Pro 单 Token 推理 FLOPs 仅为 V3.2 的 27%,V4-Flash 仅为 10%。
- V4-Pro 累计 KV 缓存为 V3.2 的 10%,V4-Flash 仅为 7%。
如何使用 DeepSeek-V4
- 网页端/App:访问 DeepSeek 官网或官方 App,选择专家模式(Pro)或快速模式(Flash)。
- API 调用:修改 model 参数为 deepseek-v4-pro 或 deepseek-v4-flash,base_url 保持不变。
- 思考模式:复杂 Agent 场景建议启用思考模式并设置 reasoning_effort: max。
- 本地部署:通过 Hugging Face 或 ModelScope 下载开源权重自行部署。
关键信息
- 版本规格:Pro 版 1.6T 参数/49B 激活,Flash 版 284B 参数/13B 激活。
- 上下文长度:两个版本均支持 1M Token。
- API 定价(每百万 Token):Pro 输入缓存命中 1 元/未命中 12 元,输出 24 元;Flash 输入缓存命中 0.2 元/未命中 1 元,输出 2 元。
核心优势
- 百万上下文普惠化:1M Token 超长上下文成为官方服务标配,突破传统注意力机制的二次计算瓶颈。
- 极致长上下文效率:1M 上下文下 V4-Pro 的单 Token 推理 FLOPs 仅为 V3.2 的 27%,Flash 版低至 10%。
- 开源模型性能新标杆:在知识、推理、代码竞赛等评测中全面领先前代开源模型,Agent 能力接近 Opus 4.6。
- 双版本灵活覆盖:Pro 版定位顶级性能,Flash 版 API 价格低至 Pro 的 1/12。
- Agent 能力原生增强:针对主流 Agent 框架专项优化,在 SWE、Terminal Bench 等 Agent 评测中表现优异。
应用场景
- 长文档分析:支持百万字级论文、报告、法律合同的全文理解与跨章节推理。
- 智能体编码:在 Claude Code、OpenClaw 等框架中执行复杂代码生成、重构与调试任务。
- 多轮工具调用:在 Agent 工作流中保留完整推理历史,支持跨用户消息边界的连贯思考。
- 知识密集型问答:在世界知识评测中大幅领先开源模型,适用于教育、科研与专业咨询。
- 白领办公任务:在中文写作、信息分析、文档生成与编辑等场景表现优异。
项目地址:HuggingFace 模型库 | 技术论文
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...