DeepSeek-V4 – 新一代大语言模型，百万上下文开源领先

科技7小时前发布 edit

DeepSeek-V4 是 DeepSeek 推出的新一代大语言模型系列预览版，拥有百万字超长上下文窗口，在 Agent 能力、世界知识与推理性能方面达到开源领域领先水平。模型包含 deepseek-v4-pro 和 deepseek-v4-flash 两个版本，分别定位高性能与经济高效，均已开源并提供 API 服务，支持非思考与思考双模式，为长文本处理与智能体应用提供普惠化基础设施。

DeepSeek-V4 的主要功能

百万上下文处理：原生支持 1M Token 超长文本理解与记忆，为官方服务标配。
混合注意力机制：CSA 与 HCA 架构大幅降低长上下文计算与显存开销。
Agent 编码增强：针对 Claude Code、OpenClaw 等主流 Agent 框架深度优化。
双模式推理：支持非思考与思考模式，后者可通过 reasoning_effort 参数调节强度。
多领域专家融合：通过 OPD 蒸馏整合数学、代码、Agent 等领域专家能力。
经济高效选择：Flash 版本用更低参数实现接近 Pro 的推理性能，API 成本显著降低。

技术原理

CSA 压缩稀疏注意力：将每 m 个 token 的 KV 压缩为 1 个条目，通过 Lightning Indexer 计算索引分数并执行 Top-k 稀疏选择，结合滑动窗口与 Attention Sink 机制保留局部依赖。
HCA 重度压缩注意力：以更大压缩比将 KV 条目合并为单个条目，保持密集注意力而不采用稀疏选择，进一步降低计算量。
mHC 流形约束超连接：将残差映射矩阵通过 Sinkhorn-Knopp 算法投影到双随机矩阵流形，约束谱范数不超过 1，增强深层信号传播稳定性。
Muon 优化器：模型采用混合 Newton-Schulz 迭代对梯度矩阵进行正交化，分快速收敛与精确稳定两个阶段，支持大规模 MoE 高效训练。
FP4 量化感知训练：对 MoE 专家权重和 CSA 索引器 QK 路径进行 FP4 量化，用 FP8 扩展动态范围实现无损反量化，降低内存与计算开销。

性能表现

知识能力

世界知识领先开源：SimpleQA-Verified 达 57.9%，超越所有已评测开源模型 20 个百分点。
中文知识突出：Chinese-SimpleQA 达 84.4%，大幅领先 K2.6（75.9%）与 GLM-5.1（75.0%）。
教育知识接近前沿：MMLU-Pro 87.5%、GPQA Diamond 90.1%，与 GPT-5.4 持平。

推理与代码能力

数学竞赛比肩闭源：HMMT 2026 Feb 达 95.2%，IMOAnswerBench 达 89.8%。
代码竞赛首次开源追平闭源：Codeforces Rating 达 3206，当前排名人类选手第 23 位。
高难度推理突破：Apex Shortlist 达 90.2%，LiveCodeBench 达 93.5%，领先所有对比模型。

Agent 能力

软件工程接近顶级闭源：SWE Verified 达 80.6%，与 Opus-4.6（80.8%）基本持平。
终端操作领先开源：Terminal Bench 2.0 达 67.9%。
工具调用泛化优秀：MCPAtlas Public 73.6%、Toolathlon 51.8%。

长上下文能力

百万上下文检索强劲：MRCR 1M 达 83.5%，超越 Gemini-3.1-Pro（76.3%）。
真实场景长文档理解：CorpusQA 1M 达 62.0%，优于 Gemini-3.1-Pro（53.8%）。

效率表现

1M 上下文下，V4-Pro 单 Token 推理 FLOPs 仅为 V3.2 的 27%，V4-Flash 仅为 10%。
V4-Pro 累计 KV 缓存为 V3.2 的 10%，V4-Flash 仅为 7%。

如何使用 DeepSeek-V4

网页端/App：访问 DeepSeek 官网或官方 App，选择专家模式（Pro）或快速模式（Flash）。
API 调用：修改 model 参数为 deepseek-v4-pro 或 deepseek-v4-flash，base_url 保持不变。
思考模式：复杂 Agent 场景建议启用思考模式并设置 reasoning_effort: max。
本地部署：通过 Hugging Face 或 ModelScope 下载开源权重自行部署。

关键信息

版本规格：Pro 版 1.6T 参数/49B 激活，Flash 版 284B 参数/13B 激活。
上下文长度：两个版本均支持 1M Token。
API 定价（每百万 Token）：Pro 输入缓存命中 1 元/未命中 12 元，输出 24 元；Flash 输入缓存命中 0.2 元/未命中 1 元，输出 2 元。

核心优势

百万上下文普惠化：1M Token 超长上下文成为官方服务标配，突破传统注意力机制的二次计算瓶颈。
极致长上下文效率：1M 上下文下 V4-Pro 的单 Token 推理 FLOPs 仅为 V3.2 的 27%，Flash 版低至 10%。
开源模型性能新标杆：在知识、推理、代码竞赛等评测中全面领先前代开源模型，Agent 能力接近 Opus 4.6。
双版本灵活覆盖：Pro 版定位顶级性能，Flash 版 API 价格低至 Pro 的 1/12。
Agent 能力原生增强：针对主流 Agent 框架专项优化，在 SWE、Terminal Bench 等 Agent 评测中表现优异。

应用场景

长文档分析：支持百万字级论文、报告、法律合同的全文理解与跨章节推理。
智能体编码：在 Claude Code、OpenClaw 等框架中执行复杂代码生成、重构与调试任务。
多轮工具调用：在 Agent 工作流中保留完整推理历史，支持跨用户消息边界的连贯思考。
知识密集型问答：在世界知识评测中大幅领先开源模型，适用于教育、科研与专业咨询。
白领办公任务：在中文写作、信息分析、文档生成与编辑等场景表现优异。

项目地址：HuggingFace 模型库｜技术论文

科技 # AI # DeepSeek # 大模型 # 开源模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

黑洞捕手计划上线！LAMOST发现迄今最大的恒星级黑洞

黑洞捕手计划上线！LAMOST发现迄今最大的恒星级黑洞

科技 # 宇宙 # 望远镜 # 黑洞

6年前

02,2160

核泄漏十年后的日本福岛：变成野生动物的天堂

核泄漏十年后的日本福岛：变成野生动物的天堂

科技 # 核泄漏

7年前

01,2600

詹姆斯·韦伯望远镜：触及宇宙中曾经遥不可及的角落

詹姆斯·韦伯望远镜：触及宇宙中曾经遥不可及的角落

科技 # 宇宙 # 望远镜

7年前

01,6110

GoSkill – 开源长任务推进工具，内置重试循环与状态追踪

GoSkill – 开源长任务推进工具，内置重试循环与状态追踪

科技 # Agent # AI # Python

9小时前

050

暂无评论

none

暂无评论...