如何在 Claude Code 中使用 Novita AI 的 DeepSeek V4 Flash

如何在 Claude Code 中使用 Novita AI 的 DeepSeek V4 Flash

DeepSeek V4 Flash 是一個擁有 284B 參數的 MoE 模型,具備 100 萬 token 的上下文視窗,可透過 Novita AI 的 Anthropic 相容端點使用——這表示 Claude Code 只需修改三行環境變數就能直接使用它。輸入 token 價格為每百萬個 $0.14,而 Claude Sonnet 則為 $3,對於執行持續代理式編碼任務的團隊來說,成本差異相當可觀。

為什麼要在 Claude Code 中使用 DeepSeek V4 Flash

經濟效益是最直接的理由。Claude Code 預設使用 Claude Sonnet,輸入 token 為每百萬個 $3,輸出 token 為每百萬個 $15。Novita AI 上的 DeepSeek V4 Flash 輸入 token 為每百萬個 $0.14,輸出 token 為每百萬個 $0.28——輸入成本約為 1/20,輸出成本約為 1/50。對於一個在八小時工作天中持續執行 Claude Code 的團隊來說,這個差異很快就會累積。

除了成本之外,V4 Flash 還具備兩項對代理式編碼特別重要的能力:

  • 100 萬 token 的上下文視窗——Claude Code 可以將整個程式碼庫載入上下文中,無需分塊處理。多檔案重構、跨儲存庫除錯以及長時間對話歷史都能保持連貫性,無需手動管理上下文。
  • 可選擇的推理模式——非思考模式(Non-think)可快速應對樣板程式碼任務;思考模式(Think)和極致思考模式(Think Max)則能針對複雜的架構決策或困難的除錯過程進行逐步推理。您可以根據每次會話選擇模式,無需切換模型。

Novita AI 提供了一個相容 Anthropic 的端點(/anthropic),因此 Claude Code 將其視為可直接替代的方案。無需修改 SDK,也無需安裝外掛——只需設定環境變數。

什麼是 DeepSeek V4 Flash

DeepSeek V4 Flash 是 DeepSeek AI 推出的混合專家(MoE)模型。它擁有 284B 的總參數,但每次前向傳播僅啟用 13B,這使得延遲和每個 token 的成本接近 13B 的密集模型,同時保留了更大網路的知識容量。

主要規格一覽:

規格 數值
模型 ID deepseek/deepseek-v4-flash
總參數 284B(每次推論啟用 13B)
上下文視窗 1,048,576 tokens
最大輸出 token 393,216
輸入價格(Novita AI) 每百萬個 $0.14
輸出價格(Novita AI) 每百萬個 $0.28
快取讀取價格 每百萬個 $0.028
推理模式 非思考、思考、極致思考
函式呼叫 支援
結構化輸出 支援
授權條款 MIT

三種推理模式讓您可以根據每次會話在成本與品質之間取得平衡。非思考模式快速且便宜——適合重複性的架構生成或樣板程式碼。思考模式則加入逐步推理,適用於程式碼審查、架構設計和除錯。極致思考模式使用最大的推理預算,在多數程式碼基準測試中可與 V4 Pro 匹敵。

Novita AI 提供完整的 100 萬 token 上下文視窗和可靠的上線時間,使其成為生產環境代理式工作負載的實用選擇。

取得您的 Novita AI API 金鑰

註冊 Novita AI 帳戶即可獲得免費試用點數。登入後,前往金鑰管理頁面,點選 Create New Key

請立即複製金鑰——之後將不再顯示。將其存放在密碼管理員或密碼儲存庫中;您會在下個步驟用到它。

安裝 Claude Code

Claude Code 需要 Node.js 18 或更高版本。請先檢查您的版本:

node --version

如果 Node 版本低於 18,請先從 nodejs.org 更新後再繼續。

Windows

開啟命令提示字元並執行:

npm install -g @anthropic-ai/claude-code

Mac 和 Linux

開啟終端機並執行:

npm install -g @anthropic-ai/claude-code

全域安裝後,即可從任何目錄使用 claude 指令。

設定環境變數

以下四個變數會將 Claude Code 重新導向至 Novita AI 的 Anthropic 相容端點,並將 DeepSeek V4 Flash 設為使用中的模型。

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<您的 Novita API 金鑰>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

這些設定僅在目前命令提示字元工作階段中有效。若要永久生效,請透過 系統內容 → 環境變數 進行設定。

Mac 和 Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<您的 Novita API 金鑰>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

若要跨工作階段保留設定,請將這些行加入您的 ~/.bashrc~/.zshrc 或對應的 shell 設定檔。

ANTHROPIC_SMALL_FAST_MODEL 會控制 Claude Code 用於快速內部任務(如檔案查詢和摘要)的輕量模型。將其設定為相同的模型 ID,可以將所有流量集中在單一帳單項目上,並避免意外的 Anthropic API 呼叫。

啟動 Claude Code

導覽至您的專案目錄並啟動 Claude Code:

cd <您的專案目錄>
claude .

Claude Code 會在目前目錄中開啟一個互動式工作階段。一旦與 Novita AI 端點建立連線,您就會看到提示出現。從這裡開始,用自然語言描述您的任務——Claude Code 會讀取您的檔案、提出修改建議,並在您批准後套用變更。

處理大型程式碼庫

與較小上下文視窗的替代方案相比,100 萬 token 的上下文視窗是 V4 Flash 最實用的優勢。一個典型的中型生產程式碼庫在扁平化後約為 100K–300K token。V4 Flash 可以在無需任何分塊策略的情況下,將整個程式碼庫容納在上下文中。

以下幾個工作流程能直接受益:

跨檔案重構——要求 Claude Code 重新命名資料模型、變更 API 協定,或重構所有引用某個服務介面的檔案。有了完整的上下文視窗,它能同時看到所有依賴關係,而非逐個檔案處理。

長時間除錯工作階段——當除錯工作階段累積了大量工具呼叫、檔案讀取和推理軌跡時,較小的上下文視窗會截斷早期的歷史記錄。V4 Flash 能保留完整的工作階段,因此模型可以推理它在 200 次工具呼叫之前看到的模式。

儲存庫範圍審查——將整個程式碼庫餵給 V4 Flash 的思考或極致思考模式,並要求進行安全審查、架構評估或無效程式碼分析。這在 128K 模型中很快就會耗盡資源,但在 V4 Flash 的視窗中則綽綽有餘。

系統提示詞開銷——Claude Code 使用一個詳細的系統提示詞,可能耗費 10K–20K token。在 128K 模型中,這個開銷影響很大。在 100 萬 token 的視窗中則微不足道,幾乎所有上下文預算都可用於實際程式碼。

對於長時間工作階段的成本控制,非思考模式能以最低成本處理大部分例行檔案編輯。當任務需要設計推理時,切換到思考模式;遇到困難的演算法或除錯問題時,則使用極致思考模式。Novita 快取讀取價格(每百萬個 $0.028)意味著在大規模使用時,重複的系統提示詞注入成本非常低。

每次會話選擇推理模式

DeepSeek V4 Flash 支援三種推理模式,您可以針對每次會話進行控制。非思考模式會回傳快速、直接的回應——適合樣板程式碼生成、例行編輯和快速查詢。思考模式則啟用逐步推理,適用於程式碼審查、重構和架構決策。極致思考模式分配最大的推理預算,在多數程式碼基準測試中可與 V4 Pro 匹敵。

讓 Claude Code 傾向於更深層推理的最簡單方法是使用自訂系統提示詞:

claude --system "Use extended thinking for architecture decisions and complex debugging."

若要進行程式化控制,Novita AI 的端點接受 budget_tokens 參數。將其設為 0 可完全停用思考;任何正數值則啟用思考,並限制 token 預算。這在僅需特定步驟進行深度推理的代理式流程中特別有用:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<您的 Novita API 金鑰>",
)

# 極致思考模式——為困難問題分配最大推理預算
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Review this function for subtle concurrency bugs."}],
)

對於重視成本的工作階段,請從非思考模式開始,只在遇到需要深度推理的問題時才切換到思考模式。由於 Novita 快取讀取價格為每百萬個 $0.028,即使在長時間的多步驟工作階段中,重複的系統提示詞注入仍然非常便宜。

結論

Novita AI 上的 DeepSeek V4 Flash 為 Claude Code 提供了一個功能強大且成本高效的基礎——100 萬上下文、可選擇的推理模式、函式呼叫,價格僅為 Claude Sonnet 的一小部分。設定過程不到五分鐘。一旦環境變數設定完成,您現有的 Claude Code 工作流程即可維持不變。

在 Novita AI 上試用 DeepSeek V4 Flash,並參閱 Novita AI LLM API 文件以了解更多設定選項。

常見問題

Claude Code 是否需要任何外掛或擴充功能才能使用 Novita AI?

不需要。Claude Code 在啟動時會讀取 ANTHROPIC_BASE_URL 環境變數,並將所有 API 呼叫路由到該端點。無需外掛、擴充功能或程式碼變更——完全透過環境變數進行切換。

使用 Novita AI 時,Anthropic 會向我收費嗎?

不會。當 ANTHROPIC_BASE_URL 指向 Novita AI 時,所有流量和帳單都透過您的 Novita AI 帳戶處理。您的 Anthropic 帳戶不會被使用。

我可以在不安裝的情況下切換回 Claude Sonnet 嗎?

可以。取消設定 ANTHROPIC_BASE_URLANTHROPIC_MODEL——或者開啟一個沒有這些匯出設定的新 Shell——Claude Code 就會恢復為預設的 Anthropic 端點並使用 Claude Sonnet。

V4 Flash 適合自動化 CI 流程嗎?

V4 Flash 支援函式呼叫和結構化輸出,這兩項正是 Claude Code 最依賴的能力。它對於自動化編碼流程、CI 整合以及需要上下文連續性和成本可預測性的長時間代理式工作階段來說,是一個實用的選擇。

如果上下文視窗滿了會怎樣?

V4 Flash 的上下文視窗為 1,048,576 token,大到足以讓大多數工作階段不會用滿。如果您正在執行一個極長的工作階段——累積了數天的歷史記錄或非常大的儲存庫——Claude Code 會開始截斷最舊的訊息。實際上,為新任務啟動一個新的工作階段是保持在限制內最簡單的方法。

Novita AI 是一個 AI 雲端平台,為開發者提供使用簡單 API 部署 AI 模型的便利方式,同時也提供經濟實惠且可靠的高效能 GPU 雲端服務,用於建置和擴充。

推薦文章