什麼是 DeepSeek-V4-Pro？
主要特點
基準測試表現
如何使用由 Novita AI 支援的 DeepSeek-V4-Pro
使用案例
定價
從 DeepSeek-V3 或 DeepSeek-R1 遷移
結論
常見問題
推薦文章

DeepSeek-V4-Pro：1M 上下文、LiveCodeBench 排名第一、開源前沿

您正在評估用於生產級編碼代理的開源模型。您需要一個能夠處理大型程式碼庫（不只是單一檔案，而是整個儲存庫）的模型，而且要能夠實際解決 GitHub 問題，而不會在工具呼叫時產生幻覺。您嘗試過的每個模型，不是超過 128K Token 就表現失常，就是在真實工程任務相關的基準測試上落後 GPT-4o。

DeepSeek-V4-Pro 改變了這個局面。它是一個 1.6 兆參數的 MoE 模型，擁有真正的 100 萬 Token 上下文視窗、LiveCodeBench 上最高的公開評分（93.5 Pass@1），以及 Codeforces 評級 3206——這兩項在所有受評估的模型（包括封閉前沿 API）中均排名第一。簡而言之：它是目前可用於競賽性編程和大上下文代理任務的最佳開源模型，採用 MIT 許可證發布。從今天起，可經由 Novita AI 取得。

立即試用 DeepSeek-V4-Pro →

什麼是 DeepSeek-V4-Pro？

DeepSeek-V4-Pro 是 DeepSeek V4 系列中的旗艦模型，於 2026 年 4 月 24 日發布。它位於輕量級 DeepSeek-V4-Flash（284B 總計 / 13B 活躍）之上，定位為 DeepSeek 當前前沿能力的預覽——他們稱之為「目前知識與編程領域中最好的開源模型」。該模型在超過 32 兆個 token 上進行訓練，並通過兩階段流程進行微調：領域專家 SFT + GRPO 強化學習，接著是基於策略的蒸餾。完整的技術細節請參閱 DeepSeek 的論文 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence。

重點規格一覽：

架構： 混合專家模型（MoE）搭配混合注意力——壓縮稀疏注意力（Compressed Sparse Attention, CSA）+ 高度壓縮注意力（Heavily Compressed Attention, HCA）
參數： 1.6T 總計 / 每次前向傳播激活 49B
上下文視窗： 1,048,576 個 token（1M）
精度： FP4（MoE 專家）+ FP8 混合
推理模式： 非思考（Non-think，快速）、思考（Think，標準 CoT）、最大（Max，最大推理預算）
能力： 函數呼叫、結構化輸出、推理、1M 上下文檢索
許可證： MIT

主要特點

針對高效 1M Token 上下文的混合注意力

多數號稱「長上下文」的模型，不是默默截斷，就是在超過 128K token 後效能急遽下降。DeepSeek-V4-Pro 的混合注意力架構——結合壓縮稀疏注意力（CSA）和高度壓縮注意力（HCA），以及流形約束超連接（Manifold-Constrained Hyper-Connections, mHC）——從根本上是為了高效處理百萬級 token 而設計。在實際表現上：MRCR 1M 得分 83.5（在 1M 上下文中記憶回憶），CorpusQA 1M 達到 62.0，同時在整個視窗中保持連貫的推理。對於需要一次性讀取整個程式碼庫、一整天的日誌或一本書長度文件的代理來說，這個架構讓它在無需專門基礎設施的情況下變得可行。

LiveCodeBench 與 Codeforces 排名第一——真正能參與競賽的編碼模型

DeepSeek-V4-Pro 在 LiveCodeBench 上獲得 93.5（Pass@1），Codeforces 評級為 3206——這兩項都是比較表中公佈的最高分數，超越了 Claude Opus 4.6 Max（88.8 / 無評級）、Gemini 3.1 Pro High（91.7 / 3052）和 GPT-5.4 xHigh（無 LCB 分數 / 3168）。在 SWE-Verified（真實世界的 GitHub 問題解決）上，它達到 80.6，與 Claude Opus 4.6 Max（80.8）和 Gemini 3.1 Pro（80.6）相當。對於開發編碼代理的團隊來說，「它真的能修復 bug 嗎」比理論上的 MMLU 分數更重要，而 V4-Pro 正是能直接與封閉前沿 API 競爭的開源選項。

三種推理模式——為任務匹配計算資源

DeepSeek-V4-Pro 透過相同的 API 端點提供三種推理模式：

Non-think（非思考）： 無思維鏈。快速、低延遲——適用於分類、提取、結構化輸出等推理開銷浪費的任務。
Think（思考）： 標準 CoT 推理。編碼、數學和多步驟任務的預設模式。
Max（V4-Pro Max）： 擴展推理預算。在準確性比速度更重要時使用——複雜證明、困難的競賽程式設計問題、深度除錯。

這三種模式都可透過由 Novita AI 支援的 deepseek/deepseek-v4-pro 模型 ID 存取。模式之間的切換是提示層級的指令，而不是不同的端點——這意味著您可以在應用程式中實現自適應模式選擇，而無需更改 API 配置。

代理與工具使用表現

除了編碼基準測驗之外，V4-Pro 在代理評估方面也表現不俗。BrowseComp：83.4（對比 Claude Opus 83.7、Gemini 85.9——與前沿差距在 2.5 分以內）。MCPAtlas Public：73.6，僅次於 Claude Opus 4.6（73.8）。Toolathlon：51.8，總排名第三。這些結果並非「領先所有模型」，但它們證明了 V4-Pro 是一個能力全面的通用代理模型，而不僅僅是針對基準測試優化的編碼專家。結合原生函數呼叫支援，它是需要瀏覽、呼叫工具並在單一會話中進行推理的代理的實用選擇。

基準測試表現

下表涵蓋了 DeepSeek 官方比較中的基準測試。「V4-Pro」指的是 DeepSeek-V4-Pro Max（擴展推理）模式——也就是透過 Novita 上 deepseek/deepseek-v4-pro API ID 存取的相同模型。

DeepSeek-V4-Pro 在編碼、推理和代理基準測試中的表現。[來源：DeepSeek HuggingFace]

基準	DeepSeek-V4-Pro	Claude Opus 4.6	Gemini 3.1 Pro	GPT-5.4
LiveCodeBench (Pass@1)	93.5 ✓	88.8	91.7	—
Codeforces 評級	3206 ✓	—	3052	3168
SWE-Verified	80.6	80.8	80.6	—
SWE Pro	55.4	57.3	54.2	57.7
BrowseComp	83.4	83.7	85.9	82.7
MCPAtlas Public	73.6	73.8	69.2	67.2
GPQA Diamond	90.1	91.3	94.3	93.0
HLE (Pass@1)	37.7	40.0	44.4	39.8
IMOAnswerBench	89.8	75.3	81.0	91.4
HMMT 2026 Feb	95.2	96.2	94.7	97.7
MRCR 1M (MMR)	83.5	92.9	76.3	—
CorpusQA 1M	62.0	71.7	53.8	—
Terminal Bench 2.0	67.9	65.4	68.5	75.1

✓ = 在此比較中公佈的最高分數。最後驗證：2026-04-25。分數反映「Max」/ 擴展推理模式（如適用）。來源：DeepSeek HuggingFace 模型卡。

誠實點評： 在知識基準測試（GPQA Diamond、HLE）上，Gemini 3.1 Pro 和 GPT-5.4 明顯領先。V4-Pro 的優勢在於編碼——LiveCodeBench 和 Codeforces 是明確的第一名——以及在長上下文檢索上優於其他開源模型。在數學推理方面，差距並不一致：V4-Pro 在 IMOAnswerBench 上擊敗了 GPT-5.4（89.8 vs 91.4，接近），但在 HMMT 2026 上落後（95.2 vs 97.7）。

如何使用由 Novita AI 支援的 DeepSeek-V4-Pro

選項 1：Playground（無需程式碼）

直接在 novita.ai/models/model-detail/deepseek-deepseek-v4-pro 測試。無需 API 金鑰即可探索。設定系統提示以啟用 Think 或 Non-think 模式。

選項 2：API（Python）

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="YOUR_NOVITA_API_KEY",
)

# 標準（Think 模式）
response = client.chat.completions.create(
    model="deepseek/deepseek-v4-pro",
    messages=[
        {"role": "user", "content": "從頭實作一個 Rust 非同步執行環境。"}
    ],
)
print(response.choices[0].message.content)

在 novita.ai/settings 取得您的 API 金鑰。相同的模型 ID 適用於所有三種推理模式——在系統提示中傳遞模式指令，或使用 DeepSeek 記錄的模式切換語法。

選項 3：第三方工具

由於 Novita AI 與 OpenAI API 相容，您可以將 deepseek/deepseek-v4-pro 作為模型 ID 用於 Cursor（自訂 OpenAI 提供商）、Claude Code 相容設定、LangChain、LlamaIndex 或任何基於 OpenAI SDK 的框架。只需將 base_url 指向 https://api.novita.ai/v3/openai。

curl https://api.novita.ai/v3/openai/chat/completions \
  -H "Authorization: Bearer YOUR_NOVITA_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{"model":"deepseek/deepseek-v4-pro","messages":[{"role":"user","content":"實作一個 Rust 非同步執行環境。"}]}'

使用案例

完整程式碼庫分析與重構： 憑藉 1M token 的上下文，您可以一次傳入整個中型儲存庫。要求 V4-Pro 找出架構問題、產生遷移指南，或同時重構 50 多個檔案的模式——無需分塊或檢索技巧。

競賽程式設計與困難演算法問題： Codeforces 評級 3206 使 V4-Pro 處於演算法問題解決的頂尖行列。用它來產生競賽程式設計挑戰問題的解決方案、驗證複雜性證明，或對生產演算法中的邊界案例進行壓力測試。

GitHub 問題解決代理： SWE-Verified 80.6 使 V4-Pro 在實際錯誤修復上與 Claude Opus 4.6 相當。結合函數呼叫和長上下文，它可以閱讀問題描述、瀏覽程式碼歷史，並在大型儲存庫中生成補丁而不會失去追蹤。

長文件推理： 法律合約、研究論文、技術規格、稽核日誌——V4-Pro 的 1M 上下文意味著您不必在分析前強制總結或分塊。CorpusQA 1M (62.0) 和 MRCR 1M (83.5) 證實在完整上下文長度下檢索準確性仍然有效。

數學與科學輔導/問題生成： IMOAnswerBench 89.8（擊敗除了 GPT-5.4 的 91.4 之外的所有封閉模型）使 V4-Pro 成為生成競賽級別數學問題、驗證證明或建立以數學推理為瓶頸的 STEM 教育工具的強大選擇。

定價

模型	輸入 ($/M tokens)	快取讀取 ($/M tokens)	輸出 ($/M tokens)
DeepSeek-V4-Pro (Novita)	$1.74	$0.145	$3.48
DeepSeek-V4-Flash (Novita)	$0.10	—	$0.50
Claude Opus 4.6 (Anthropic)	$15.00	$1.50	$75.00
Gemini 3.1 Pro (Google)	$1.25	$0.31	$10.00
GPT-5.4 (OpenAI)	$10.00	$2.50	$40.00

最後驗證：2026-04-25。Novita 定價來自 novita.ai/pricing。競爭對手定價：Claude 來自 anthropic.com（未驗證），Gemini 來自 ai.google.dev（未驗證），GPT-5.4 來自 platform.openai.com（未驗證）。

透過 Novita AI，V4-Pro 在輸入 token 上大約比 Claude Opus 4.6 便宜 8 倍，在輸出上便宜 21 倍。與 Gemini 3.1 Pro 相比，輸入定價相似，但輸出便宜 2.9 倍。對於具有長上下文和多輪會話的編碼代理——輸出 token 佔據成本主導——差距會迅速放大。

從 DeepSeek-V3 或 DeepSeek-R1 遷移

如果您目前正在 Novita 上執行 DeepSeek-V3 或 R1，升級到 V4-Pro 只需更改一行模型 ID。API 與 OpenAI 相容，相同的端點，相同的請求格式。V4-Pro 的三種推理模式讓您只需一個模型即可複製 V3（非思考模式）和 R1 風格的深度推理（Max 模式），而無需維護單獨的部署。如果您要從其他提供商的模型（GPT-4o、Claude 3.5 等）遷移，只需將現有的 OpenAI SDK 客戶端指向 base_url="https://api.novita.ai/v3/openai" 並交換模型 ID。

結論

總結： DeepSeek-V4-Pro 是目前可用於編碼任務的最強開源模型，在 LiveCodeBench 和 Codeforces 上擁有明確的第一名分數，並且是同級別中唯一能處理真正 1M token 上下文視窗的模型。它並非在所有基準測試中領先——Gemini 3.1 Pro 在知識回憶方面佔優，Claude Opus 在長上下文檢索方面領先——但對於開發編碼代理、大規模修復 GitHub 問題或處理大量文件的團隊，V4-Pro 以封閉模型 API 成本的一小部分提供了前沿級性能。現已由 Novita AI 支援推出——提供 200 多個模型 API 和 OpenAI 相容基礎設施。

立即透過 Novita AI 試用 DeepSeek-V4-Pro →

常見問題

什麼是 DeepSeek-V4-Pro？

DeepSeek-V4-Pro 是 DeepSeek AI 於 2026 年 4 月發布的一個 1.6 兆參數的混合專家語言模型。每次前向傳播激活 49B 參數，支援 1,048,576 個 token 的上下文，目前在 LiveCodeBench（93.5）和 Codeforces 評級（3206）方面領先所有公開評估的模型。它採用 MIT 許可證發布，並可透過 Novita AI 取得。

如何透過 API 存取 DeepSeek-V4-Pro？

使用模型 ID deepseek/deepseek-v4-pro，搭配 base_url="https://api.novita.ai/v3/openai" 以及來自 novita.ai/settings 的 Novita API 金鑰。端點與 OpenAI SDK 相容——無需自訂 SDK。

DeepSeek-V4-Pro 與 Claude Opus 4.6 和 Gemini 3.1 Pro 相比如何？

V4-Pro 在編碼方面領先：LiveCodeBench 93.5（對比 Opus 4.6 的 88.8 和 Gemini 的 91.7）以及 Codeforces 3206（對比 Gemini 的 3052）。在 GPQA Diamond 和 HLE 等知識基準測試方面，Gemini 3.1 Pro 領先。在長上下文檢索（MRCR 1M）方面，Claude Opus 領先。V4-Pro 是編碼密集型和工作負載密集型任務的最佳開源選擇——封閉模型在原始事實回憶方面仍保持優勢。

DeepSeek-V4-Pro 的上下文視窗是多少？

1,048,576 個 token（1M）。該模型專門使用混合注意力（CSA + HCA）架構以實現長上下文效率。MRCR 1M 得分 83.5，CorpusQA 1M 達到 62.0，證實在完整上下文長度下具有可用的檢索準確性。

由 Novita AI 支援的 DeepSeek-V4-Pro 成本是多少？

輸入 $1.74/M tokens，輸出 $3.48/M tokens，快取讀取 $0.145/M tokens。這使其在輸入上大約比 Claude Opus 4.6 便宜 8 倍，在輸出上便宜 21 倍。最後驗證：2026-04-25。

DeepSeek-V4-Pro on Novita AI: 1M 上下文、LiveCodeBench 評分第一

DeepSeek-V4-Pro：1M 上下文、LiveCodeBench 排名第一、開源前沿

什麼是 DeepSeek-V4-Pro？