什么是DeepSeek-V4-Pro？
核心特性
基准测试表现
如何使用Novita AI提供的DeepSeek-V4-Pro
适用场景
定价
从DeepSeek-V3或DeepSeek-R1迁移
总结
常见问题
推荐阅读

DeepSeek-V4-Pro：100万上下文，LiveCodeBench榜首，开源前沿模型

如果你正在为生产级编程智能体评估开源模型，你需要一个能处理大型代码库——整个仓库而非单个文件——且不会幻觉生成工具调用、真正能解决GitHub问题的模型。你试过的所有模型要么在超过128K token后性能骤降，要么在真实工程任务相关的基准测试中落后于GPT-4o。DeepSeek-V4-Pro改变了这一局面。这是一款参数量达1.6万亿的MoE模型，拥有真正的100万token上下文窗口，在LiveCodeBench（93.5 Pass@1）和Codeforces评分（3206）上均取得已发布最高分，在所有参评模型（包括闭源前沿API模型）中均位列第一。简言之：它是目前可用于竞赛编程和大上下文智能体任务的最佳开源模型，采用MIT许可证发布。截至目前，已通过Novita AI上线。

立即试用DeepSeek-V4-Pro →

什么是DeepSeek-V4-Pro？

DeepSeek-V4-Pro是DeepSeek V4系列的旗舰模型，于2026年4月24日发布。它定位高于轻量级的DeepSeek-V4-Flash（总参数量284B，激活参数量13B），是DeepSeek当前前沿能力的预览版——官方将其描述为目前可用于知识和编程任务的“最佳开源模型”。该模型在超过32万亿token的数据上训练，通过两阶段微调流程优化：领域专家监督微调（SFT）+ GRPO强化学习，随后进行策略蒸馏。完整技术细节可参阅DeepSeek的论文*DeepSeek-V4：迈向高效百万token上下文智能*。

核心规格一览：

架构： 混合注意力机制的混合专家模型（MoE）——包含压缩稀疏注意力（CSA）和重度压缩注意力（HCA）
参数量： 总参数量1.6万亿，每次前向传播激活490亿参数
上下文窗口： 1,048,576 token（100万）
精度： FP4（MoE专家层）+ FP8混合精度
推理模式： 无思考（快速）、思考（标准思维链）、最大推理（最高推理预算）
能力： 函数调用、结构化输出、推理、100万上下文检索
许可证： MIT

核心特性

混合注意力架构，高效支持100万token上下文

大多数宣称支持“长上下文”的模型要么会静默截断输入，要么在超过128K token后性能急剧下降。DeepSeek-V4-Pro的混合注意力架构——结合了压缩稀疏注意力（CSA）、重度压缩注意力（HCA）以及流形约束超连接（mHC）——从底层设计就针对百万级token的高效处理。实际表现上：MRCR 1M（100万上下文下的记忆召回）得分83.5，CorpusQA 1M得分62.0，且在完整上下文窗口内仍能保持连贯的推理能力。对于需要单次调用摄入整个代码库、一天量的日志或一本书长度的文档的智能体来说，这一架构无需特殊基础设施即可实现上述需求。

LiveCodeBench与Codeforces双料第一——真正具备竞争力的编程模型

DeepSeek-V4-Pro在LiveCodeBench（Pass@1）上获得93.5分，Codeforces评分为3206分，两项均为对比表中的已发布最高分，超过Claude Opus 4.6 Max（88.8分/无评分）、Gemini 3.1 Pro High（91.7分/3052分）和GPT-5.4 xHigh（无LCB得分/3168分）。在SWE-Verified（真实GitHub问题解决）测试中，它获得80.6分，与Claude Opus 4.6 Max（80.8分）和Gemini 3.1 Pro（80.6分）持平。对于构建编程智能体的团队来说，如果“能否真正修复bug”比理论上的MMLU得分更重要，V4-Pro是唯一能直接与闭源前沿API模型竞争的开源选项。

三种推理模式——按需匹配算力

DeepSeek-V4-Pro通过同一API端点提供三种推理模式：

无思考模式： 无思维链过程，速度快、延迟低，适用于分类、提取、结构化输出等推理开销冗余的任务。
思考模式： 标准思维链推理，是编程、数学和多步骤任务的默认模式。
最大推理模式（V4-Pro Max）： 扩展推理预算，适用于精度比速度更重要的场景——复杂证明、高难度竞赛编程问题、深度调试会话等。

三种模式均可通过Novita AI提供的deepseek/deepseek-v4-pro模型ID访问。模式切换仅需在提示词中下达指令，无需更换端点——这意味着你可以在应用中实现自适应模式选择，无需修改API配置。

智能体与工具调用性能

除编程基准测试外，V4-Pro在智能体评估中表现同样出色：BrowseComp得分83.4（对比Claude Opus 83.7、Gemini 85.9，与前沿水平差距不足2.5分）；MCPAtlas Public得分73.6，仅次于Claude Opus 4.6（73.8分）；Toolathlon得分51.8，总排名第三。这些成绩虽不是全面领先所有模型，但足以证明V4-Pro是一款能力全面的通用智能体模型，而非仅针对基准测试优化的编程专用模型。结合原生函数调用支持，它是需要单会话内完成浏览、工具调用和推理的智能体的实用选择。

基准测试表现

下表涵盖了DeepSeek官方对比中的基准测试数据。“V4-Pro”指DeepSeek-V4-Pro Max（扩展推理）模式，与Novita AI上deepseek/deepseek-v4-pro API ID对应的模型为同一模型。

DeepSeek-V4-Pro在编程、推理和智能体基准测试中的表现。[来源：DeepSeek HuggingFace页面]]

基准测试	DeepSeek-V4-Pro	Claude Opus 4.6	Gemini 3.1 Pro	GPT-5.4
LiveCodeBench（Pass@1）	93.5 ✓	88.8	91.7	—
Codeforces评分	3206 ✓	—	3052	3168
SWE-Verified	80.6	80.8	80.6	—
SWE Pro	55.4	57.3	54.2	57.7
BrowseComp	83.4	83.7	85.9	82.7
MCPAtlas Public	73.6	73.8	69.2	67.2
GPQA Diamond	90.1	91.3	94.3	93.0
HLE（Pass@1）	37.7	40.0	44.4	39.8
IMOAnswerBench	89.8	75.3	81.0	91.4
2026年2月HMMT	95.2	96.2	94.7	97.7
MRCR 1M（MMR）	83.5	92.9	76.3	—
CorpusQA 1M	62.0	71.7	53.8	—
Terminal Bench 2.0	67.9	65.4	68.5	75.1

✓ = 本对比中的已发布最高分。最后验证时间：2026年4月25日。适用情况下得分反映“最大推理”/扩展推理模式。来源：DeepSeek HuggingFace模型卡片。

客观评价： 在知识类基准测试（GPQA Diamond、HLE）中，Gemini 3.1 Pro和GPT-5.4明显领先。V4-Pro的优势在于编程——LiveCodeBench和Codeforces是毫无争议的第一名——以及在其他开源模型中领先的长上下文检索能力。数学推理方面的表现参差：V4-Pro在IMOAnswerBench上击败GPT-5.4（89.8分对91.4分，差距很小），但在2026年HMMT中落后（95.2分对97.7分）。

如何使用Novita AI提供的DeepSeek-V4-Pro

选项1：Playground（无需代码）

可直接在novita.ai/models/model-detail/deepseek-deepseek-v4-pro进行测试。无需API密钥即可体验，通过设置系统提示词即可激活思考或无思考模式。

选项2：API（Python）

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# Standard (Think mode)
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-pro",
    messages=[
        {"role": "user", "content": "Implement a Rust async runtime from scratch."}
    ],
)
print(response.choices[0].message.content)

你可以在novita.ai/settings获取API密钥。同一模型ID支持所有三种推理模式，只需在系统提示词中传入模式指令，或使用DeepSeek官方文档记载的模式切换语法即可。

选项3：第三方工具

由于Novita AI兼容OpenAI API，你可以将deepseek/deepseek-v4-pro作为模型ID直接用于Cursor（自定义OpenAI提供商）、Claude Code兼容配置、LangChain、LlamaIndex或任何基于OpenAI SDK的框架，只需将base_url指向https://api.novita.ai/v3/openai即可。

curl https://api.novita.ai/v3/openai/chat/completions \\
  -H "Authorization: Bearer YOUR_NOVITA_API_KEY" \\
  -H "Content-Type: application/json" \\
  -d '{"model":"deepseek/deepseek-v4-pro","messages":[{"role":"user","content":"Implement a Rust async runtime."}]}'

适用场景

全代码库分析与重构： 凭借100万token的上下文能力，你可以在单次调用中传入整个中型仓库。要求V4-Pro查找架构问题、生成迁移指南，或同时重构50+个文件中的代码模式，无需分块或检索技巧。

竞赛编程与高难度算法问题： Codeforces 3206的评分使V4-Pro处于算法问题解决的第一梯队。你可以用它生成竞赛编程题的解决方案、验证复杂度证明，或对生产环境算法的边缘用例进行压力测试。

GitHub问题解决智能体： SWE-Verified 80.6的得分使V4-Pro在真实bug修复能力上与Claude Opus 4.6持平。结合函数调用和长上下文能力，它可以阅读问题描述、浏览代码历史，并在大型仓库中生成补丁而不会丢失上下文。

长文档推理： 法律合同、研究论文、技术规范、审计日志——V4-Pro的100万上下文意味着你无需在分析前进行摘要或分块。CorpusQA 1M（62.0分）和MRCR 1M（83.5分）的得分证实了其在完整上下文长度下的检索准确率依然稳定。

数学与科学辅导/题目生成： IMOAnswerBench 89.8的得分（仅次于GPT-5.4的91.4分，超过所有其他闭源模型）使V4-Pro成为生成竞赛级数学题、验证证明、或构建以数学推理为瓶颈的STEM教育工具的绝佳选择。

定价

模型	输入价格（美元/百万token）	缓存读取价格（美元/百万token）	输出价格（美元/百万token）
DeepSeek-V4-Pro（Novita）	1.74美元	0.145美元	3.48美元
DeepSeek-V4-Flash（Novita）	0.10美元	—	0.50美元
Claude Opus 4.6（Anthropic）	15.00美元	1.50美元	75.00美元
Gemini 3.1 Pro（Google）	1.25美元	0.31美元	10.00美元
GPT-5.4（OpenAI）	10.00美元	2.50美元	40.00美元

最后验证时间：2026年4月25日。Novita定价来源：novita.ai/pricing。竞品定价：Claude来自anthropic.com（未验证）、Gemini来自ai.google.dev（未验证）、GPT-5.4来自platform.openai.com（未验证）。

通过Novita AI使用，V4-Pro的输入token价格约为Claude Opus 4.6的1/8，输出token价格约为1/21。与Gemini 3.1 Pro相比，输入价格相近，但输出价格便宜2.9倍。对于使用长上下文、多轮会话的编程智能体来说，输出token占成本大头，这一价格差距会快速放大。

从DeepSeek-V3或DeepSeek-R1迁移

如果你当前在Novita上运行DeepSeek-V3或R1，升级到V4-Pro仅需修改一行模型ID。API完全兼容OpenAI，端点和请求格式均保持一致。V4-Pro的三种推理模式让你可以灵活复现V3（无思考模式）和R1风格的深度推理（最大推理模式），无需维护多个独立部署。如果你正在从其他提供商的模型（如GPT-4o、Claude 3.5等）迁移，只需将现有OpenAI SDK客户端的base_url指向https://api.novita.ai/v3/openai，再替换模型ID即可。

总结

核心结论： DeepSeek-V4-Pro是目前可用于编程任务的最强开源模型，在LiveCodeBench和Codeforces上均获得明确的第一名，也是同梯队中唯一支持真实100万token上下文窗口的模型。它并非在所有基准测试中都领先——Gemini 3.1 Pro在知识召回上更优，Claude Opus在长上下文检索上领先——但对于构建编程智能体、大规模修复GitHub问题、或处理海量文档的团队来说，V4-Pro以远低于闭源模型API的成本提供了前沿级性能。现已通过Novita AI上线，提供200+模型API和OpenAI兼容的基础设施。

通过Novita AI试用DeepSeek-V4-Pro →

常见问题

DeepSeek-V4-Pro是什么？

DeepSeek-V4-Pro是DeepSeek AI于2026年4月发布的参数量达1.6万亿的混合专家（MoE）语言模型，每次前向传播激活490亿参数，支持1,048,576 token的上下文，目前在LiveCodeBench（93.5分）和Codeforces评分（3206分）上领先所有公开参评模型。它采用MIT许可证发布，现已通过Novita AI上线。

如何通过API访问DeepSeek-V4-Pro？

使用模型ID deepseek/deepseek-v4-pro，将base_url设置为https://api.novita.ai/v3/openai，并传入你在novita.ai/settings获取的Novita API密钥即可。该端点兼容OpenAI SDK，无需自定义SDK。

DeepSeek-V4-Pro与Claude Opus 4.6、Gemini 3.1 Pro相比如何？

V4-Pro在编程领域领先：LiveCodeBench得分93.5（对比Opus 4.6的88.8、Gemini的91.7），Codeforces评分3206（对比Gemini的3052）。在GPQA Diamond、HLE等知识类基准测试中，Gemini 3.1 Pro领先。在长上下文检索（MRCR 1M）方面，Claude Opus领先。V4-Pro是编程密集型、智能体类工作负载的最佳开源选择，闭源模型在原始事实召回上仍保持优势。

DeepSeek-V4-Pro的上下文窗口是多少？

1,048,576 token（100万）。该模型专门采用混合注意力（CSA + HCA）架构优化长上下文效率，MRCR 1M得分83.5，CorpusQA 1M得分62.0，证实了其在完整上下文长度下的可用检索准确率。

通过Novita AI使用DeepSeek-V4-Pro的定价是多少？

输入token每百万1.74美元，输出token每百万3.48美元，缓存读取每百万0.145美元。这使得其输入价格约为Claude Opus 4.6的1/8，输出价格约为1/21。最后验证时间：2026年4月25日。

Novita AI上的DeepSeek-V4-Pro：100万上下文，LiveCodeBench得分第一

DeepSeek-V4-Pro：100万上下文，LiveCodeBench榜首，开源前沿模型

什么是DeepSeek-V4-Pro？