Novita AI上的DeepSeek-V4-Pro:100万上下文,LiveCodeBench得分第一

Novita AI上的DeepSeek-V4-Pro:100万上下文,LiveCodeBench得分第一

DeepSeek-V4-Pro:100万上下文,LiveCodeBench榜首,开源前沿模型

如果你正在为生产级编程智能体评估开源模型,你需要一个能处理大型代码库——整个仓库而非单个文件——且不会幻觉生成工具调用、真正能解决GitHub问题的模型。你试过的所有模型要么在超过128K token后性能骤降,要么在真实工程任务相关的基准测试中落后于GPT-4o。DeepSeek-V4-Pro改变了这一局面。这是一款参数量达1.6万亿的MoE模型,拥有真正的100万token上下文窗口,在LiveCodeBench(93.5 Pass@1)和Codeforces评分(3206)上均取得已发布最高分,在所有参评模型(包括闭源前沿API模型)中均位列第一。简言之:它是目前可用于竞赛编程和大上下文智能体任务的最佳开源模型,采用MIT许可证发布。截至目前,已通过Novita AI上线。

立即试用DeepSeek-V4-Pro →

什么是DeepSeek-V4-Pro?

DeepSeek-V4-Pro是DeepSeek V4系列的旗舰模型,于2026年4月24日发布。它定位高于轻量级的DeepSeek-V4-Flash(总参数量284B,激活参数量13B),是DeepSeek当前前沿能力的预览版——官方将其描述为目前可用于知识和编程任务的“最佳开源模型”。该模型在超过32万亿token的数据上训练,通过两阶段微调流程优化:领域专家监督微调(SFT)+ GRPO强化学习,随后进行策略蒸馏。完整技术细节可参阅DeepSeek的论文*DeepSeek-V4:迈向高效百万token上下文智能*。

核心规格一览:

  • 架构: 混合注意力机制的混合专家模型(MoE)——包含压缩稀疏注意力(CSA)和重度压缩注意力(HCA)
  • 参数量: 总参数量1.6万亿,每次前向传播激活490亿参数
  • 上下文窗口: 1,048,576 token(100万)
  • 精度: FP4(MoE专家层)+ FP8混合精度
  • 推理模式: 无思考(快速)、思考(标准思维链)、最大推理(最高推理预算)
  • 能力: 函数调用、结构化输出、推理、100万上下文检索
  • 许可证: MIT

核心特性

混合注意力架构,高效支持100万token上下文

大多数宣称支持“长上下文”的模型要么会静默截断输入,要么在超过128K token后性能急剧下降。DeepSeek-V4-Pro的混合注意力架构——结合了压缩稀疏注意力(CSA)、重度压缩注意力(HCA)以及流形约束超连接(mHC)——从底层设计就针对百万级token的高效处理。实际表现上:MRCR 1M(100万上下文下的记忆召回)得分83.5,CorpusQA 1M得分62.0,且在完整上下文窗口内仍能保持连贯的推理能力。对于需要单次调用摄入整个代码库、一天量的日志或一本书长度的文档的智能体来说,这一架构无需特殊基础设施即可实现上述需求。

LiveCodeBench与Codeforces双料第一——真正具备竞争力的编程模型

DeepSeek-V4-Pro在LiveCodeBench(Pass@1)上获得93.5分,Codeforces评分为3206分,两项均为对比表中的已发布最高分,超过Claude Opus 4.6 Max(88.8分/无评分)、Gemini 3.1 Pro High(91.7分/3052分)和GPT-5.4 xHigh(无LCB得分/3168分)。在SWE-Verified(真实GitHub问题解决)测试中,它获得80.6分,与Claude Opus 4.6 Max(80.8分)和Gemini 3.1 Pro(80.6分)持平。对于构建编程智能体的团队来说,如果“能否真正修复bug”比理论上的MMLU得分更重要,V4-Pro是唯一能直接与闭源前沿API模型竞争的开源选项。

三种推理模式——按需匹配算力

DeepSeek-V4-Pro通过同一API端点提供三种推理模式:

  • 无思考模式: 无思维链过程,速度快、延迟低,适用于分类、提取、结构化输出等推理开销冗余的任务。
  • 思考模式: 标准思维链推理,是编程、数学和多步骤任务的默认模式。
  • 最大推理模式(V4-Pro Max): 扩展推理预算,适用于精度比速度更重要的场景——复杂证明、高难度竞赛编程问题、深度调试会话等。

三种模式均可通过Novita AI提供的deepseek/deepseek-v4-pro模型ID访问。模式切换仅需在提示词中下达指令,无需更换端点——这意味着你可以在应用中实现自适应模式选择,无需修改API配置。

智能体与工具调用性能

除编程基准测试外,V4-Pro在智能体评估中表现同样出色:BrowseComp得分83.4(对比Claude Opus 83.7、Gemini 85.9,与前沿水平差距不足2.5分);MCPAtlas Public得分73.6,仅次于Claude Opus 4.6(73.8分);Toolathlon得分51.8,总排名第三。这些成绩虽不是全面领先所有模型,但足以证明V4-Pro是一款能力全面的通用智能体模型,而非仅针对基准测试优化的编程专用模型。结合原生函数调用支持,它是需要单会话内完成浏览、工具调用和推理的智能体的实用选择。

基准测试表现

下表涵盖了DeepSeek官方对比中的基准测试数据。“V4-Pro”指DeepSeek-V4-Pro Max(扩展推理)模式,与Novita AI上deepseek/deepseek-v4-pro API ID对应的模型为同一模型。

DeepSeek-V4-Pro基准测试表现对比图,展示了与Claude Opus、Gemini 3.1 Pro、GPT-5.4相比的LiveCodeBench、Codeforces、SWE-Verified、BrowseComp得分

DeepSeek-V4-Pro在编程、推理和智能体基准测试中的表现。[来源:DeepSeek HuggingFace页面]]

基准测试 DeepSeek-V4-Pro Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
LiveCodeBench(Pass@1) 93.5 ✓ 88.8 91.7
Codeforces评分 3206 ✓ 3052 3168
SWE-Verified 80.6 80.8 80.6
SWE Pro 55.4 57.3 54.2 57.7
BrowseComp 83.4 83.7 85.9 82.7
MCPAtlas Public 73.6 73.8 69.2 67.2
GPQA Diamond 90.1 91.3 94.3 93.0
HLE(Pass@1) 37.7 40.0 44.4 39.8
IMOAnswerBench 89.8 75.3 81.0 91.4
2026年2月HMMT 95.2 96.2 94.7 97.7
MRCR 1M(MMR) 83.5 92.9 76.3
CorpusQA 1M 62.0 71.7 53.8
Terminal Bench 2.0 67.9 65.4 68.5 75.1

✓ = 本对比中的已发布最高分。最后验证时间:2026年4月25日。适用情况下得分反映“最大推理”/扩展推理模式。来源:DeepSeek HuggingFace模型卡片

客观评价: 在知识类基准测试(GPQA Diamond、HLE)中,Gemini 3.1 Pro和GPT-5.4明显领先。V4-Pro的优势在于编程——LiveCodeBench和Codeforces是毫无争议的第一名——以及在其他开源模型中领先的长上下文检索能力。数学推理方面的表现参差:V4-Pro在IMOAnswerBench上击败GPT-5.4(89.8分对91.4分,差距很小),但在2026年HMMT中落后(95.2分对97.7分)。

如何使用Novita AI提供的DeepSeek-V4-Pro

选项1:Playground(无需代码)

可直接在novita.ai/models/model-detail/deepseek-deepseek-v4-pro进行测试。无需API密钥即可体验,通过设置系统提示词即可激活思考或无思考模式。

选项2:API(Python)

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# Standard (Think mode)
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-pro",
    messages=[
        {"role": "user", "content": "Implement a Rust async runtime from scratch."}
    ],
)
print(response.choices[0].message.content)

你可以在novita.ai/settings获取API密钥。同一模型ID支持所有三种推理模式,只需在系统提示词中传入模式指令,或使用DeepSeek官方文档记载的模式切换语法即可。

选项3:第三方工具

由于Novita AI兼容OpenAI API,你可以将deepseek/deepseek-v4-pro作为模型ID直接用于Cursor(自定义OpenAI提供商)、Claude Code兼容配置、LangChainLlamaIndex或任何基于OpenAI SDK的框架,只需将base_url指向https://api.novita.ai/v3/openai即可。

curl https://api.novita.ai/v3/openai/chat/completions \\
  -H "Authorization: Bearer YOUR_NOVITA_API_KEY" \\
  -H "Content-Type: application/json" \\
  -d '{"model":"deepseek/deepseek-v4-pro","messages":[{"role":"user","content":"Implement a Rust async runtime."}]}'

适用场景

全代码库分析与重构: 凭借100万token的上下文能力,你可以在单次调用中传入整个中型仓库。要求V4-Pro查找架构问题、生成迁移指南,或同时重构50+个文件中的代码模式,无需分块或检索技巧。

竞赛编程与高难度算法问题: Codeforces 3206的评分使V4-Pro处于算法问题解决的第一梯队。你可以用它生成竞赛编程题的解决方案、验证复杂度证明,或对生产环境算法的边缘用例进行压力测试。

GitHub问题解决智能体: SWE-Verified 80.6的得分使V4-Pro在真实bug修复能力上与Claude Opus 4.6持平。结合函数调用和长上下文能力,它可以阅读问题描述、浏览代码历史,并在大型仓库中生成补丁而不会丢失上下文。

长文档推理: 法律合同、研究论文、技术规范、审计日志——V4-Pro的100万上下文意味着你无需在分析前进行摘要或分块。CorpusQA 1M(62.0分)和MRCR 1M(83.5分)的得分证实了其在完整上下文长度下的检索准确率依然稳定。

数学与科学辅导/题目生成: IMOAnswerBench 89.8的得分(仅次于GPT-5.4的91.4分,超过所有其他闭源模型)使V4-Pro成为生成竞赛级数学题、验证证明、或构建以数学推理为瓶颈的STEM教育工具的绝佳选择。

定价

模型 输入价格(美元/百万token) 缓存读取价格(美元/百万token) 输出价格(美元/百万token)
DeepSeek-V4-Pro(Novita) 1.74美元 0.145美元 3.48美元
DeepSeek-V4-Flash(Novita) 0.10美元 0.50美元
Claude Opus 4.6(Anthropic) 15.00美元 1.50美元 75.00美元
Gemini 3.1 Pro(Google) 1.25美元 0.31美元 10.00美元
GPT-5.4(OpenAI) 10.00美元 2.50美元 40.00美元

最后验证时间:2026年4月25日。Novita定价来源:novita.ai/pricing。竞品定价:Claude来自anthropic.com(未验证)、Gemini来自ai.google.dev(未验证)、GPT-5.4来自platform.openai.com(未验证)。

通过Novita AI使用,V4-Pro的输入token价格约为Claude Opus 4.6的1/8,输出token价格约为1/21。与Gemini 3.1 Pro相比,输入价格相近,但输出价格便宜2.9倍。对于使用长上下文、多轮会话的编程智能体来说,输出token占成本大头,这一价格差距会快速放大。

从DeepSeek-V3或DeepSeek-R1迁移

如果你当前在Novita上运行DeepSeek-V3或R1,升级到V4-Pro仅需修改一行模型ID。API完全兼容OpenAI,端点和请求格式均保持一致。V4-Pro的三种推理模式让你可以灵活复现V3(无思考模式)和R1风格的深度推理(最大推理模式),无需维护多个独立部署。如果你正在从其他提供商的模型(如GPT-4o、Claude 3.5等)迁移,只需将现有OpenAI SDK客户端的base_url指向https://api.novita.ai/v3/openai,再替换模型ID即可。

总结

核心结论: DeepSeek-V4-Pro是目前可用于编程任务的最强开源模型,在LiveCodeBench和Codeforces上均获得明确的第一名,也是同梯队中唯一支持真实100万token上下文窗口的模型。它并非在所有基准测试中都领先——Gemini 3.1 Pro在知识召回上更优,Claude Opus在长上下文检索上领先——但对于构建编程智能体、大规模修复GitHub问题、或处理海量文档的团队来说,V4-Pro以远低于闭源模型API的成本提供了前沿级性能。现已通过Novita AI上线,提供200+模型API和OpenAI兼容的基础设施。

通过Novita AI试用DeepSeek-V4-Pro →

常见问题

DeepSeek-V4-Pro是什么?

DeepSeek-V4-Pro是DeepSeek AI于2026年4月发布的参数量达1.6万亿的混合专家(MoE)语言模型,每次前向传播激活490亿参数,支持1,048,576 token的上下文,目前在LiveCodeBench(93.5分)和Codeforces评分(3206分)上领先所有公开参评模型。它采用MIT许可证发布,现已通过Novita AI上线。

如何通过API访问DeepSeek-V4-Pro?

使用模型ID deepseek/deepseek-v4-pro,将base_url设置为https://api.novita.ai/v3/openai,并传入你在novita.ai/settings获取的Novita API密钥即可。该端点兼容OpenAI SDK,无需自定义SDK。

DeepSeek-V4-Pro与Claude Opus 4.6、Gemini 3.1 Pro相比如何?

V4-Pro在编程领域领先:LiveCodeBench得分93.5(对比Opus 4.6的88.8、Gemini的91.7),Codeforces评分3206(对比Gemini的3052)。在GPQA Diamond、HLE等知识类基准测试中,Gemini 3.1 Pro领先。在长上下文检索(MRCR 1M)方面,Claude Opus领先。V4-Pro是编程密集型、智能体类工作负载的最佳开源选择,闭源模型在原始事实召回上仍保持优势。

DeepSeek-V4-Pro的上下文窗口是多少?

1,048,576 token(100万)。该模型专门采用混合注意力(CSA + HCA)架构优化长上下文效率,MRCR 1M得分83.5,CorpusQA 1M得分62.0,证实了其在完整上下文长度下的可用检索准确率。

通过Novita AI使用DeepSeek-V4-Pro的定价是多少?

输入token每百万1.74美元,输出token每百万3.48美元,缓存读取每百万0.145美元。这使得其输入价格约为Claude Opus 4.6的1/8,输出价格约为1/21。最后验证时间:2026年4月25日。


推荐阅读