DeepSeek-V4 – 新一代大语言模型,百万上下文开源领先

科技7小时前发布 edit
2 0 0

DeepSeek-V4 是 DeepSeek 推出的新一代大语言模型系列预览版,拥有百万字超长上下文窗口,在 Agent 能力、世界知识与推理性能方面达到开源领域领先水平。模型包含 deepseek-v4-pro 和 deepseek-v4-flash 两个版本,分别定位高性能与经济高效,均已开源并提供 API 服务,支持非思考与思考双模式,为长文本处理与智能体应用提供普惠化基础设施。

DeepSeek-V4 的主要功能

  • 百万上下文处理:原生支持 1M Token 超长文本理解与记忆,为官方服务标配。
  • 混合注意力机制:CSA 与 HCA 架构大幅降低长上下文计算与显存开销。
  • Agent 编码增强:针对 Claude Code、OpenClaw 等主流 Agent 框架深度优化。
  • 双模式推理:支持非思考与思考模式,后者可通过 reasoning_effort 参数调节强度。
  • 多领域专家融合:通过 OPD 蒸馏整合数学、代码、Agent 等领域专家能力。
  • 经济高效选择:Flash 版本用更低参数实现接近 Pro 的推理性能,API 成本显著降低。

技术原理

  • CSA 压缩稀疏注意力:将每 m 个 token 的 KV 压缩为 1 个条目,通过 Lightning Indexer 计算索引分数并执行 Top-k 稀疏选择,结合滑动窗口与 Attention Sink 机制保留局部依赖。
  • HCA 重度压缩注意力:以更大压缩比将 KV 条目合并为单个条目,保持密集注意力而不采用稀疏选择,进一步降低计算量。
  • mHC 流形约束超连接:将残差映射矩阵通过 Sinkhorn-Knopp 算法投影到双随机矩阵流形,约束谱范数不超过 1,增强深层信号传播稳定性。
  • Muon 优化器:模型采用混合 Newton-Schulz 迭代对梯度矩阵进行正交化,分快速收敛与精确稳定两个阶段,支持大规模 MoE 高效训练。
  • FP4 量化感知训练:对 MoE 专家权重和 CSA 索引器 QK 路径进行 FP4 量化,用 FP8 扩展动态范围实现无损反量化,降低内存与计算开销。

性能表现

知识能力

  • 世界知识领先开源:SimpleQA-Verified 达 57.9%,超越所有已评测开源模型 20 个百分点。
  • 中文知识突出:Chinese-SimpleQA 达 84.4%,大幅领先 K2.6(75.9%)与 GLM-5.1(75.0%)。
  • 教育知识接近前沿:MMLU-Pro 87.5%、GPQA Diamond 90.1%,与 GPT-5.4 持平。

推理与代码能力

  • 数学竞赛比肩闭源:HMMT 2026 Feb 达 95.2%,IMOAnswerBench 达 89.8%。
  • 代码竞赛首次开源追平闭源:Codeforces Rating 达 3206,当前排名人类选手第 23 位。
  • 高难度推理突破:Apex Shortlist 达 90.2%,LiveCodeBench 达 93.5%,领先所有对比模型。

Agent 能力

  • 软件工程接近顶级闭源:SWE Verified 达 80.6%,与 Opus-4.6(80.8%)基本持平。
  • 终端操作领先开源:Terminal Bench 2.0 达 67.9%。
  • 工具调用泛化优秀:MCPAtlas Public 73.6%、Toolathlon 51.8%。

长上下文能力

  • 百万上下文检索强劲:MRCR 1M 达 83.5%,超越 Gemini-3.1-Pro(76.3%)。
  • 真实场景长文档理解:CorpusQA 1M 达 62.0%,优于 Gemini-3.1-Pro(53.8%)。

效率表现

  • 1M 上下文下,V4-Pro 单 Token 推理 FLOPs 仅为 V3.2 的 27%,V4-Flash 仅为 10%。
  • V4-Pro 累计 KV 缓存为 V3.2 的 10%,V4-Flash 仅为 7%。

如何使用 DeepSeek-V4

  1. 网页端/App:访问 DeepSeek 官网或官方 App,选择专家模式(Pro)或快速模式(Flash)。
  2. API 调用:修改 model 参数为 deepseek-v4-pro 或 deepseek-v4-flash,base_url 保持不变。
  3. 思考模式:复杂 Agent 场景建议启用思考模式并设置 reasoning_effort: max。
  4. 本地部署:通过 Hugging Face 或 ModelScope 下载开源权重自行部署。

关键信息

  • 版本规格:Pro 版 1.6T 参数/49B 激活,Flash 版 284B 参数/13B 激活。
  • 上下文长度:两个版本均支持 1M Token。
  • API 定价(每百万 Token):Pro 输入缓存命中 1 元/未命中 12 元,输出 24 元;Flash 输入缓存命中 0.2 元/未命中 1 元,输出 2 元。

核心优势

  • 百万上下文普惠化:1M Token 超长上下文成为官方服务标配,突破传统注意力机制的二次计算瓶颈。
  • 极致长上下文效率:1M 上下文下 V4-Pro 的单 Token 推理 FLOPs 仅为 V3.2 的 27%,Flash 版低至 10%。
  • 开源模型性能新标杆:在知识、推理、代码竞赛等评测中全面领先前代开源模型,Agent 能力接近 Opus 4.6。
  • 双版本灵活覆盖:Pro 版定位顶级性能,Flash 版 API 价格低至 Pro 的 1/12。
  • Agent 能力原生增强:针对主流 Agent 框架专项优化,在 SWE、Terminal Bench 等 Agent 评测中表现优异。

应用场景

  • 长文档分析:支持百万字级论文、报告、法律合同的全文理解与跨章节推理。
  • 智能体编码:在 Claude Code、OpenClaw 等框架中执行复杂代码生成、重构与调试任务。
  • 多轮工具调用:在 Agent 工作流中保留完整推理历史,支持跨用户消息边界的连贯思考。
  • 知识密集型问答:在世界知识评测中大幅领先开源模型,适用于教育、科研与专业咨询。
  • 白领办公任务:在中文写作、信息分析、文档生成与编辑等场景表现优异。

项目地址:HuggingFace 模型库技术论文

© 版权声明

相关文章

暂无评论

none
暂无评论...