DeepSeek-V4-Pro:100万上下文,LiveCodeBench榜首,开源前沿模型
如果你正在为生产级编程智能体评估开源模型,你需要一个能处理大型代码库——整个仓库而非单个文件——且不会幻觉生成工具调用、真正能解决GitHub问题的模型。你试过的所有模型要么在超过128K token后性能骤降,要么在真实工程任务相关的基准测试中落后于GPT-4o。DeepSeek-V4-Pro改变了这一局面。这是一款参数量达1.6万亿的MoE模型,拥有真正的100万token上下文窗口,在LiveCodeBench(93.5 Pass@1)和Codeforces评分(3206)上均取得已发布最高分,在所有参评模型(包括闭源前沿API模型)中均位列第一。简言之:它是目前可用于竞赛编程和大上下文智能体任务的最佳开源模型,采用MIT许可证发布。截至目前,已通过Novita AI上线。
什么是DeepSeek-V4-Pro?
DeepSeek-V4-Pro是DeepSeek V4系列的旗舰模型,于2026年4月24日发布。它定位高于轻量级的DeepSeek-V4-Flash(总参数量284B,激活参数量13B),是DeepSeek当前前沿能力的预览版——官方将其描述为目前可用于知识和编程任务的“最佳开源模型”。该模型在超过32万亿token的数据上训练,通过两阶段微调流程优化:领域专家监督微调(SFT)+ GRPO强化学习,随后进行策略蒸馏。完整技术细节可参阅DeepSeek的论文*DeepSeek-V4:迈向高效百万token上下文智能*。
核心规格一览:
- 架构: 混合注意力机制的混合专家模型(MoE)——包含压缩稀疏注意力(CSA)和重度压缩注意力(HCA)
- 参数量: 总参数量1.6万亿,每次前向传播激活490亿参数
- 上下文窗口: 1,048,576 token(100万)
- 精度: FP4(MoE专家层)+ FP8混合精度
- 推理模式: 无思考(快速)、思考(标准思维链)、最大推理(最高推理预算)
- 能力: 函数调用、结构化输出、推理、100万上下文检索
- 许可证: MIT
核心特性
混合注意力架构,高效支持100万token上下文
大多数宣称支持“长上下文”的模型要么会静默截断输入,要么在超过128K token后性能急剧下降。DeepSeek-V4-Pro的混合注意力架构——结合了压缩稀疏注意力(CSA)、重度压缩注意力(HCA)以及流形约束超连接(mHC)——从底层设计就针对百万级token的高效处理。实际表现上:MRCR 1M(100万上下文下的记忆召回)得分83.5,CorpusQA 1M得分62.0,且在完整上下文窗口内仍能保持连贯的推理能力。对于需要单次调用摄入整个代码库、一天量的日志或一本书长度的文档的智能体来说,这一架构无需特殊基础设施即可实现上述需求。
LiveCodeBench与Codeforces双料第一——真正具备竞争力的编程模型
DeepSeek-V4-Pro在LiveCodeBench(Pass@1)上获得93.5分,Codeforces评分为3206分,两项均为对比表中的已发布最高分,超过Claude Opus 4.6 Max(88.8分/无评分)、Gemini 3.1 Pro High(91.7分/3052分)和GPT-5.4 xHigh(无LCB得分/3168分)。在SWE-Verified(真实GitHub问题解决)测试中,它获得80.6分,与Claude Opus 4.6 Max(80.8分)和Gemini 3.1 Pro(80.6分)持平。对于构建编程智能体的团队来说,如果“能否真正修复bug”比理论上的MMLU得分更重要,V4-Pro是唯一能直接与闭源前沿API模型竞争的开源选项。
三种推理模式——按需匹配算力
DeepSeek-V4-Pro通过同一API端点提供三种推理模式:
- 无思考模式: 无思维链过程,速度快、延迟低,适用于分类、提取、结构化输出等推理开销冗余的任务。
- 思考模式: 标准思维链推理,是编程、数学和多步骤任务的默认模式。
- 最大推理模式(V4-Pro Max): 扩展推理预算,适用于精度比速度更重要的场景——复杂证明、高难度竞赛编程问题、深度调试会话等。
三种模式均可通过Novita AI提供的deepseek/deepseek-v4-pro模型ID访问。模式切换仅需在提示词中下达指令,无需更换端点——这意味着你可以在应用中实现自适应模式选择,无需修改API配置。
智能体与工具调用性能
除编程基准测试外,V4-Pro在智能体评估中表现同样出色:BrowseComp得分83.4(对比Claude Opus 83.7、Gemini 85.9,与前沿水平差距不足2.5分);MCPAtlas Public得分73.6,仅次于Claude Opus 4.6(73.8分);Toolathlon得分51.8,总排名第三。这些成绩虽不是全面领先所有模型,但足以证明V4-Pro是一款能力全面的通用智能体模型,而非仅针对基准测试优化的编程专用模型。结合原生函数调用支持,它是需要单会话内完成浏览、工具调用和推理的智能体的实用选择。
基准测试表现
下表涵盖了DeepSeek官方对比中的基准测试数据。“V4-Pro”指DeepSeek-V4-Pro Max(扩展推理)模式,与Novita AI上deepseek/deepseek-v4-pro API ID对应的模型为同一模型。

DeepSeek-V4-Pro在编程、推理和智能体基准测试中的表现。[来源:DeepSeek HuggingFace页面]]
| 基准测试 | DeepSeek-V4-Pro | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|
| LiveCodeBench(Pass@1) | 93.5 ✓ | 88.8 | 91.7 | — |
| Codeforces评分 | 3206 ✓ | — | 3052 | 3168 |
| SWE-Verified | 80.6 | 80.8 | 80.6 | — |
| SWE Pro | 55.4 | 57.3 | 54.2 | 57.7 |
| BrowseComp | 83.4 | 83.7 | 85.9 | 82.7 |
| MCPAtlas Public | 73.6 | 73.8 | 69.2 | 67.2 |
| GPQA Diamond | 90.1 | 91.3 | 94.3 | 93.0 |
| HLE(Pass@1) | 37.7 | 40.0 | 44.4 | 39.8 |
| IMOAnswerBench | 89.8 | 75.3 | 81.0 | 91.4 |
| 2026年2月HMMT | 95.2 | 96.2 | 94.7 | 97.7 |
| MRCR 1M(MMR) | 83.5 | 92.9 | 76.3 | — |
| CorpusQA 1M | 62.0 | 71.7 | 53.8 | — |
| Terminal Bench 2.0 | 67.9 | 65.4 | 68.5 | 75.1 |
✓ = 本对比中的已发布最高分。最后验证时间:2026年4月25日。适用情况下得分反映“最大推理”/扩展推理模式。来源:DeepSeek HuggingFace模型卡片。
客观评价: 在知识类基准测试(GPQA Diamond、HLE)中,Gemini 3.1 Pro和GPT-5.4明显领先。V4-Pro的优势在于编程——LiveCodeBench和Codeforces是毫无争议的第一名——以及在其他开源模型中领先的长上下文检索能力。数学推理方面的表现参差:V4-Pro在IMOAnswerBench上击败GPT-5.4(89.8分对91.4分,差距很小),但在2026年HMMT中落后(95.2分对97.7分)。
如何使用Novita AI提供的DeepSeek-V4-Pro
选项1:Playground(无需代码)
可直接在novita.ai/models/model-detail/deepseek-deepseek-v4-pro进行测试。无需API密钥即可体验,通过设置系统提示词即可激活思考或无思考模式。
选项2:API(Python)
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="YOUR_NOVITA_API_KEY",
)
# Standard (Think mode)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-pro",
messages=[
{"role": "user", "content": "Implement a Rust async runtime from scratch."}
],
)
print(response.choices[0].message.content)
你可以在novita.ai/settings获取API密钥。同一模型ID支持所有三种推理模式,只需在系统提示词中传入模式指令,或使用DeepSeek官方文档记载的模式切换语法即可。
选项3:第三方工具
由于Novita AI兼容OpenAI API,你可以将deepseek/deepseek-v4-pro作为模型ID直接用于Cursor(自定义OpenAI提供商)、Claude Code兼容配置、LangChain、LlamaIndex或任何基于OpenAI SDK的框架,只需将base_url指向https://api.novita.ai/v3/openai即可。
curl https://api.novita.ai/v3/openai/chat/completions \\
-H "Authorization: Bearer YOUR_NOVITA_API_KEY" \\
-H "Content-Type: application/json" \\
-d '{"model":"deepseek/deepseek-v4-pro","messages":[{"role":"user","content":"Implement a Rust async runtime."}]}'
适用场景
全代码库分析与重构: 凭借100万token的上下文能力,你可以在单次调用中传入整个中型仓库。要求V4-Pro查找架构问题、生成迁移指南,或同时重构50+个文件中的代码模式,无需分块或检索技巧。
竞赛编程与高难度算法问题: Codeforces 3206的评分使V4-Pro处于算法问题解决的第一梯队。你可以用它生成竞赛编程题的解决方案、验证复杂度证明,或对生产环境算法的边缘用例进行压力测试。
GitHub问题解决智能体: SWE-Verified 80.6的得分使V4-Pro在真实bug修复能力上与Claude Opus 4.6持平。结合函数调用和长上下文能力,它可以阅读问题描述、浏览代码历史,并在大型仓库中生成补丁而不会丢失上下文。
长文档推理: 法律合同、研究论文、技术规范、审计日志——V4-Pro的100万上下文意味着你无需在分析前进行摘要或分块。CorpusQA 1M(62.0分)和MRCR 1M(83.5分)的得分证实了其在完整上下文长度下的检索准确率依然稳定。
数学与科学辅导/题目生成: IMOAnswerBench 89.8的得分(仅次于GPT-5.4的91.4分,超过所有其他闭源模型)使V4-Pro成为生成竞赛级数学题、验证证明、或构建以数学推理为瓶颈的STEM教育工具的绝佳选择。
定价
| 模型 | 输入价格(美元/百万token) | 缓存读取价格(美元/百万token) | 输出价格(美元/百万token) |
|---|---|---|---|
| DeepSeek-V4-Pro(Novita) | 1.74美元 | 0.145美元 | 3.48美元 |
| DeepSeek-V4-Flash(Novita) | 0.10美元 | — | 0.50美元 |
| Claude Opus 4.6(Anthropic) | 15.00美元 | 1.50美元 | 75.00美元 |
| Gemini 3.1 Pro(Google) | 1.25美元 | 0.31美元 | 10.00美元 |
| GPT-5.4(OpenAI) | 10.00美元 | 2.50美元 | 40.00美元 |
最后验证时间:2026年4月25日。Novita定价来源:novita.ai/pricing。竞品定价:Claude来自anthropic.com(未验证)、Gemini来自ai.google.dev(未验证)、GPT-5.4来自platform.openai.com(未验证)。
通过Novita AI使用,V4-Pro的输入token价格约为Claude Opus 4.6的1/8,输出token价格约为1/21。与Gemini 3.1 Pro相比,输入价格相近,但输出价格便宜2.9倍。对于使用长上下文、多轮会话的编程智能体来说,输出token占成本大头,这一价格差距会快速放大。
从DeepSeek-V3或DeepSeek-R1迁移
如果你当前在Novita上运行DeepSeek-V3或R1,升级到V4-Pro仅需修改一行模型ID。API完全兼容OpenAI,端点和请求格式均保持一致。V4-Pro的三种推理模式让你可以灵活复现V3(无思考模式)和R1风格的深度推理(最大推理模式),无需维护多个独立部署。如果你正在从其他提供商的模型(如GPT-4o、Claude 3.5等)迁移,只需将现有OpenAI SDK客户端的base_url指向https://api.novita.ai/v3/openai,再替换模型ID即可。
总结
核心结论: DeepSeek-V4-Pro是目前可用于编程任务的最强开源模型,在LiveCodeBench和Codeforces上均获得明确的第一名,也是同梯队中唯一支持真实100万token上下文窗口的模型。它并非在所有基准测试中都领先——Gemini 3.1 Pro在知识召回上更优,Claude Opus在长上下文检索上领先——但对于构建编程智能体、大规模修复GitHub问题、或处理海量文档的团队来说,V4-Pro以远低于闭源模型API的成本提供了前沿级性能。现已通过Novita AI上线,提供200+模型API和OpenAI兼容的基础设施。
通过Novita AI试用DeepSeek-V4-Pro →
常见问题
DeepSeek-V4-Pro是什么?
DeepSeek-V4-Pro是DeepSeek AI于2026年4月发布的参数量达1.6万亿的混合专家(MoE)语言模型,每次前向传播激活490亿参数,支持1,048,576 token的上下文,目前在LiveCodeBench(93.5分)和Codeforces评分(3206分)上领先所有公开参评模型。它采用MIT许可证发布,现已通过Novita AI上线。
如何通过API访问DeepSeek-V4-Pro?
使用模型ID deepseek/deepseek-v4-pro,将base_url设置为https://api.novita.ai/v3/openai,并传入你在novita.ai/settings获取的Novita API密钥即可。该端点兼容OpenAI SDK,无需自定义SDK。
DeepSeek-V4-Pro与Claude Opus 4.6、Gemini 3.1 Pro相比如何?
V4-Pro在编程领域领先:LiveCodeBench得分93.5(对比Opus 4.6的88.8、Gemini的91.7),Codeforces评分3206(对比Gemini的3052)。在GPQA Diamond、HLE等知识类基准测试中,Gemini 3.1 Pro领先。在长上下文检索(MRCR 1M)方面,Claude Opus领先。V4-Pro是编程密集型、智能体类工作负载的最佳开源选择,闭源模型在原始事实召回上仍保持优势。
DeepSeek-V4-Pro的上下文窗口是多少?
1,048,576 token(100万)。该模型专门采用混合注意力(CSA + HCA)架构优化长上下文效率,MRCR 1M得分83.5,CorpusQA 1M得分62.0,证实了其在完整上下文长度下的可用检索准确率。
通过Novita AI使用DeepSeek-V4-Pro的定价是多少?
输入token每百万1.74美元,输出token每百万3.48美元,缓存读取每百万0.145美元。这使得其输入价格约为Claude Opus 4.6的1/8,输出价格约为1/21。最后验证时间:2026年4月25日。
