DeepSeek-V4-Pro on Novita AI: 1M 上下文、LiveCodeBench 評分第一

DeepSeek-V4-Pro on Novita AI: 1M 上下文、LiveCodeBench 評分第一

DeepSeek-V4-Pro:1M 上下文、LiveCodeBench 排名第一、開源前沿

您正在評估用於生產級編碼代理的開源模型。您需要一個能夠處理大型程式碼庫(不只是單一檔案,而是整個儲存庫)的模型,而且要能夠實際解決 GitHub 問題,而不會在工具呼叫時產生幻覺。您嘗試過的每個模型,不是超過 128K Token 就表現失常,就是在真實工程任務相關的基準測試上落後 GPT-4o。

DeepSeek-V4-Pro 改變了這個局面。它是一個 1.6 兆參數的 MoE 模型,擁有真正的 100 萬 Token 上下文視窗、LiveCodeBench 上最高的公開評分(93.5 Pass@1),以及 Codeforces 評級 3206——這兩項在所有受評估的模型(包括封閉前沿 API)中均排名第一。簡而言之:它是目前可用於競賽性編程和大上下文代理任務的最佳開源模型,採用 MIT 許可證發布。從今天起,可經由 Novita AI 取得。

立即試用 DeepSeek-V4-Pro →

什麼是 DeepSeek-V4-Pro?

DeepSeek-V4-Pro 是 DeepSeek V4 系列中的旗艦模型,於 2026 年 4 月 24 日發布。它位於輕量級 DeepSeek-V4-Flash(284B 總計 / 13B 活躍)之上,定位為 DeepSeek 當前前沿能力的預覽——他們稱之為「目前知識與編程領域中最好的開源模型」。該模型在超過 32 兆個 token 上進行訓練,並通過兩階段流程進行微調:領域專家 SFT + GRPO 強化學習,接著是基於策略的蒸餾。完整的技術細節請參閱 DeepSeek 的論文 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

重點規格一覽:

  • 架構: 混合專家模型(MoE)搭配混合注意力——壓縮稀疏注意力(Compressed Sparse Attention, CSA)+ 高度壓縮注意力(Heavily Compressed Attention, HCA)
  • 參數: 1.6T 總計 / 每次前向傳播激活 49B
  • 上下文視窗: 1,048,576 個 token(1M)
  • 精度: FP4(MoE 專家)+ FP8 混合
  • 推理模式: 非思考(Non-think,快速)、思考(Think,標準 CoT)、最大(Max,最大推理預算)
  • 能力: 函數呼叫、結構化輸出、推理、1M 上下文檢索
  • 許可證: MIT

主要特點

針對高效 1M Token 上下文的混合注意力

多數號稱「長上下文」的模型,不是默默截斷,就是在超過 128K token 後效能急遽下降。DeepSeek-V4-Pro 的混合注意力架構——結合壓縮稀疏注意力(CSA)和高度壓縮注意力(HCA),以及流形約束超連接(Manifold-Constrained Hyper-Connections, mHC)——從根本上是為了高效處理百萬級 token 而設計。在實際表現上:MRCR 1M 得分 83.5(在 1M 上下文中記憶回憶),CorpusQA 1M 達到 62.0,同時在整個視窗中保持連貫的推理。對於需要一次性讀取整個程式碼庫、一整天的日誌或一本書長度文件的代理來說,這個架構讓它在無需專門基礎設施的情況下變得可行。

LiveCodeBench 與 Codeforces 排名第一——真正能參與競賽的編碼模型

DeepSeek-V4-Pro 在 LiveCodeBench 上獲得 93.5(Pass@1),Codeforces 評級3206——這兩項都是比較表中公佈的最高分數,超越了 Claude Opus 4.6 Max(88.8 / 無評級)、Gemini 3.1 Pro High(91.7 / 3052)和 GPT-5.4 xHigh(無 LCB 分數 / 3168)。在 SWE-Verified(真實世界的 GitHub 問題解決)上,它達到 80.6,與 Claude Opus 4.6 Max(80.8)和 Gemini 3.1 Pro(80.6)相當。對於開發編碼代理的團隊來說,「它真的能修復 bug 嗎」比理論上的 MMLU 分數更重要,而 V4-Pro 正是能直接與封閉前沿 API 競爭的開源選項。

三種推理模式——為任務匹配計算資源

DeepSeek-V4-Pro 透過相同的 API 端點提供三種推理模式:

  • Non-think(非思考): 無思維鏈。快速、低延遲——適用於分類、提取、結構化輸出等推理開銷浪費的任務。
  • Think(思考): 標準 CoT 推理。編碼、數學和多步驟任務的預設模式。
  • Max(V4-Pro Max): 擴展推理預算。在準確性比速度更重要時使用——複雜證明、困難的競賽程式設計問題、深度除錯。

這三種模式都可透過由 Novita AI 支援的 deepseek/deepseek-v4-pro 模型 ID 存取。模式之間的切換是提示層級的指令,而不是不同的端點——這意味著您可以在應用程式中實現自適應模式選擇,而無需更改 API 配置。

代理與工具使用表現

除了編碼基準測驗之外,V4-Pro 在代理評估方面也表現不俗。BrowseComp:83.4(對比 Claude Opus 83.7、Gemini 85.9——與前沿差距在 2.5 分以內)。MCPAtlas Public:73.6,僅次於 Claude Opus 4.6(73.8)。Toolathlon:51.8,總排名第三。這些結果並非「領先所有模型」,但它們證明了 V4-Pro 是一個能力全面的通用代理模型,而不僅僅是針對基準測試優化的編碼專家。結合原生函數呼叫支援,它是需要瀏覽、呼叫工具並在單一會話中進行推理的代理的實用選擇。

基準測試表現

下表涵蓋了 DeepSeek 官方比較中的基準測試。「V4-Pro」指的是 DeepSeek-V4-Pro Max(擴展推理)模式——也就是透過 Novita 上 deepseek/deepseek-v4-pro API ID 存取的相同模型。

DeepSeek-V4-Pro 基準性能比較圖表,顯示 LiveCodeBench、Codeforces、SWE-Verified、BrowseComp 分數與 Claude Opus、Gemini 3.1 Pro、GPT-5.4 的對比

DeepSeek-V4-Pro 在編碼、推理和代理基準測試中的表現。[來源:DeepSeek HuggingFace]

基準 DeepSeek-V4-Pro Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
LiveCodeBench (Pass@1) 93.5 ✓ 88.8 91.7
Codeforces 評級 3206 ✓ 3052 3168
SWE-Verified 80.6 80.8 80.6
SWE Pro 55.4 57.3 54.2 57.7
BrowseComp 83.4 83.7 85.9 82.7
MCPAtlas Public 73.6 73.8 69.2 67.2
GPQA Diamond 90.1 91.3 94.3 93.0
HLE (Pass@1) 37.7 40.0 44.4 39.8
IMOAnswerBench 89.8 75.3 81.0 91.4
HMMT 2026 Feb 95.2 96.2 94.7 97.7
MRCR 1M (MMR) 83.5 92.9 76.3
CorpusQA 1M 62.0 71.7 53.8
Terminal Bench 2.0 67.9 65.4 68.5 75.1

✓ = 在此比較中公佈的最高分數。最後驗證:2026-04-25。分數反映「Max」/ 擴展推理模式(如適用)。來源:DeepSeek HuggingFace 模型卡

誠實點評: 在知識基準測試(GPQA Diamond、HLE)上,Gemini 3.1 Pro 和 GPT-5.4 明顯領先。V4-Pro 的優勢在於編碼——LiveCodeBench 和 Codeforces 是明確的第一名——以及在長上下文檢索上優於其他開源模型。在數學推理方面,差距並不一致:V4-Pro 在 IMOAnswerBench 上擊敗了 GPT-5.4(89.8 vs 91.4,接近),但在 HMMT 2026 上落後(95.2 vs 97.7)。

如何使用由 Novita AI 支援的 DeepSeek-V4-Pro

選項 1:Playground(無需程式碼)

直接在 novita.ai/models/model-detail/deepseek-deepseek-v4-pro 測試。無需 API 金鑰即可探索。設定系統提示以啟用 Think 或 Non-think 模式。

選項 2:API(Python)

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# 標準(Think 模式)
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-pro",
    messages=[
        {"role": "user", "content": "從頭實作一個 Rust 非同步執行環境。"}
    ],
)
print(response.choices[0].message.content)

novita.ai/settings 取得您的 API 金鑰。相同的模型 ID 適用於所有三種推理模式——在系統提示中傳遞模式指令,或使用 DeepSeek 記錄的模式切換語法。

選項 3:第三方工具

由於 Novita AI 與 OpenAI API 相容,您可以將 deepseek/deepseek-v4-pro 作為模型 ID 用於 Cursor(自訂 OpenAI 提供商)、Claude Code 相容設定、LangChainLlamaIndex 或任何基於 OpenAI SDK 的框架。只需將 base_url 指向 https://api.novita.ai/v3/openai

curl https://api.novita.ai/v3/openai/chat/completions \
  -H "Authorization: Bearer YOUR_NOVITA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"deepseek/deepseek-v4-pro","messages":[{"role":"user","content":"實作一個 Rust 非同步執行環境。"}]}'

使用案例

完整程式碼庫分析與重構: 憑藉 1M token 的上下文,您可以一次傳入整個中型儲存庫。要求 V4-Pro 找出架構問題、產生遷移指南,或同時重構 50 多個檔案的模式——無需分塊或檢索技巧。

競賽程式設計與困難演算法問題: Codeforces 評級 3206 使 V4-Pro 處於演算法問題解決的頂尖行列。用它來產生競賽程式設計挑戰問題的解決方案、驗證複雜性證明,或對生產演算法中的邊界案例進行壓力測試。

GitHub 問題解決代理: SWE-Verified 80.6 使 V4-Pro 在實際錯誤修復上與 Claude Opus 4.6 相當。結合函數呼叫和長上下文,它可以閱讀問題描述、瀏覽程式碼歷史,並在大型儲存庫中生成補丁而不會失去追蹤。

長文件推理: 法律合約、研究論文、技術規格、稽核日誌——V4-Pro 的 1M 上下文意味著您不必在分析前強制總結或分塊。CorpusQA 1M (62.0) 和 MRCR 1M (83.5) 證實在完整上下文長度下檢索準確性仍然有效。

數學與科學輔導/問題生成: IMOAnswerBench 89.8(擊敗除了 GPT-5.4 的 91.4 之外的所有封閉模型)使 V4-Pro 成為生成競賽級別數學問題、驗證證明或建立以數學推理為瓶頸的 STEM 教育工具的強大選擇。

定價

模型 輸入 ($/M tokens) 快取讀取 ($/M tokens) 輸出 ($/M tokens)
DeepSeek-V4-Pro (Novita) $1.74 $0.145 $3.48
DeepSeek-V4-Flash (Novita) $0.10 $0.50
Claude Opus 4.6 (Anthropic) $15.00 $1.50 $75.00
Gemini 3.1 Pro (Google) $1.25 $0.31 $10.00
GPT-5.4 (OpenAI) $10.00 $2.50 $40.00

最後驗證:2026-04-25。Novita 定價來自 novita.ai/pricing。競爭對手定價:Claude 來自 anthropic.com(未驗證),Gemini 來自 ai.google.dev(未驗證),GPT-5.4 來自 platform.openai.com(未驗證)。

透過 Novita AI,V4-Pro 在輸入 token 上大約比 Claude Opus 4.6 便宜 8 倍,在輸出上便宜 21 倍。與 Gemini 3.1 Pro 相比,輸入定價相似,但輸出便宜 2.9 倍。對於具有長上下文和多輪會話的編碼代理——輸出 token 佔據成本主導——差距會迅速放大。

從 DeepSeek-V3 或 DeepSeek-R1 遷移

如果您目前正在 Novita 上執行 DeepSeek-V3 或 R1,升級到 V4-Pro 只需更改一行模型 ID。API 與 OpenAI 相容,相同的端點,相同的請求格式。V4-Pro 的三種推理模式讓您只需一個模型即可複製 V3(非思考模式)和 R1 風格的深度推理(Max 模式),而無需維護單獨的部署。如果您要從其他提供商的模型(GPT-4o、Claude 3.5 等)遷移,只需將現有的 OpenAI SDK 客戶端指向 base_url="https://api.novita.ai/v3/openai" 並交換模型 ID。

結論

總結: DeepSeek-V4-Pro 是目前可用於編碼任務的最強開源模型,在 LiveCodeBench 和 Codeforces 上擁有明確的第一名分數,並且是同級別中唯一能處理真正 1M token 上下文視窗的模型。它並非在所有基準測試中領先——Gemini 3.1 Pro 在知識回憶方面佔優,Claude Opus 在長上下文檢索方面領先——但對於開發編碼代理、大規模修復 GitHub 問題或處理大量文件的團隊,V4-Pro 以封閉模型 API 成本的一小部分提供了前沿級性能。現已由 Novita AI 支援推出——提供 200 多個模型 API 和 OpenAI 相容基礎設施。

立即透過 Novita AI 試用 DeepSeek-V4-Pro →

常見問題

什麼是 DeepSeek-V4-Pro?

DeepSeek-V4-Pro 是 DeepSeek AI 於 2026 年 4 月發布的一個 1.6 兆參數的混合專家語言模型。每次前向傳播激活 49B 參數,支援 1,048,576 個 token 的上下文,目前在 LiveCodeBench(93.5)和 Codeforces 評級(3206)方面領先所有公開評估的模型。它採用 MIT 許可證發布,並可透過 Novita AI 取得。

如何透過 API 存取 DeepSeek-V4-Pro?

使用模型 ID deepseek/deepseek-v4-pro,搭配 base_url="https://api.novita.ai/v3/openai" 以及來自 novita.ai/settings 的 Novita API 金鑰。端點與 OpenAI SDK 相容——無需自訂 SDK。

DeepSeek-V4-Pro 與 Claude Opus 4.6 和 Gemini 3.1 Pro 相比如何?

V4-Pro 在編碼方面領先:LiveCodeBench 93.5(對比 Opus 4.6 的 88.8 和 Gemini 的 91.7)以及 Codeforces 3206(對比 Gemini 的 3052)。在 GPQA Diamond 和 HLE 等知識基準測試方面,Gemini 3.1 Pro 領先。在長上下文檢索(MRCR 1M)方面,Claude Opus 領先。V4-Pro 是編碼密集型和工作負載密集型任務的最佳開源選擇——封閉模型在原始事實回憶方面仍保持優勢。

DeepSeek-V4-Pro 的上下文視窗是多少?

1,048,576 個 token(1M)。該模型專門使用混合注意力(CSA + HCA)架構以實現長上下文效率。MRCR 1M 得分 83.5,CorpusQA 1M 達到 62.0,證實在完整上下文長度下具有可用的檢索準確性。

由 Novita AI 支援的 DeepSeek-V4-Pro 成本是多少?

輸入 $1.74/M tokens,輸出 $3.48/M tokens,快取讀取 $0.145/M tokens。這使其在輸入上大約比 Claude Opus 4.6 便宜 8 倍,在輸出上便宜 21 倍。最後驗證:2026-04-25。


推薦文章