Claude Code で DeepSeek V4 Flash を Novita AI 経由で使用する方法

Claude Code で DeepSeek V4 Flash を Novita AI 経由で使用する方法

DeepSeek V4 Flash は 284B の MoE モデルで、100 万トークンのコンテキストウィンドウを備え、Novita AI の Anthropic 互換エンドポイントから利用できます。つまり、Claude Code は 3 行の環境変数を変更するだけで直接使用できます。入力トークンあたり $0.14/M に対し、Claude Sonnet は $3/M であり、継続的なエージェントコーディングセッションを実行するチームにとって、コスト差は非常に大きいです。

Claude Code で DeepSeek V4 Flash を使用する理由

最も直接的な理由は経済性です。Claude Code のデフォルトは Claude Sonnet で、入力 $3/M、出力 $15/M です。Novita AI 上の DeepSeek V4 Flash は入力 $0.14/M、出力 $0.28/M であり、入力で約 20 分の 1、出力で約 50 分の 1 のコスト削減になります。8 時間の業務時間中に Claude Code を使用するチームにとって、その差はすぐに積み上がります。

コスト面だけでなく、V4 Flash にはエージェントコーディングに特化した 2 つの機能があります。

  • 100 万トークンのコンテキストウィンドウ — Claude Code はコードベース全体をチャンク分割せずにコンテキストに読み込めます。複数ファイルのリファクタリング、リポジトリ横断的なデバッグ、長い会話履歴も、手動でコンテキスト管理することなく一貫性を保てます。
  • 選択可能な推論モード — 定型タスクには高速応答の非思考モード、複雑なアーキテクチャ決定や難しいデバッグセッションには思考モードと思考最大モードを使い分けることで、モデルを切り替えることなくセッションごとに選択できます。

Novita AI は Anthropic 互換エンドポイント (/anthropic) を公開しているため、Claude Code はドロップイン代替として扱います。SDK の変更やプラグインは不要で、環境変数だけで動作します。

DeepSeek V4 Flash とは

DeepSeek V4 Flash は、DeepSeek AI による Mixture-of-Experts (MoE) モデルです。総パラメータ数は 284B ですが、1 回のフォワードパスでは 13B のみアクティブになるため、レイテンシとトークンあたりのコストは 13B の高密度モデルに近く、より大きなネットワークの知識容量を保持します。

主要スペックの概要:

仕様
モデル ID deepseek/deepseek-v4-flash
総パラメータ数 284B (推論ごとに 13B 活性化)
コンテキストウィンドウ 1,048,576 トークン
最大出力トークン数 393,216
入力価格 (Novita AI) $0.14/M トークン
出力価格 (Novita AI) $0.28/M トークン
キャッシュ読み取り価格 $0.028/M トークン
推論モード 非思考、思考、思考最大
関数呼び出し 対応
構造化出力 対応
ライセンス MIT

3 つの推論モードにより、セッションごとにコストと品質を調整できます。非思考モードは高速で低コスト — 反復的な足場や定型コードの生成に適しています。思考モードはコードレビュー、リファクタリング、アーキテクチャ作業に段階的な推論を追加します。思考最大モードは最大の推論予算を割り当て、ほとんどのコーディングベンチマークで V4 Pro に匹敵します。

Novita AI は完全な 100 万トークンのコンテキストウィンドウと信頼性の高い稼働時間を提供しており、プロダクションのエージェントワークロードに実用的な選択肢となります。

Novita AI API キーの取得

Novita AI アカウントにサインアップ して、無料トライアルクレジットを受け取ります。ログイン後、キー管理ページ に移動し、Create New Key をクリックします。

キーをすぐにコピーしてください — 再度表示されることはありません。パスワードマネージャーやシークレットストアに保管し、次のステップで必要になります。

Claude Code のインストール

Claude Code には Node.js 18 以上が必要です。最初にバージョンを確認します:

node --version

Node が 18 未満の場合は、先に nodejs.org から更新してください。

Windows

コマンドプロンプトを開き、以下を実行します:

npm install -g @anthropic-ai/claude-code

Mac および Linux

ターミナルを開き、以下を実行します:

npm install -g @anthropic-ai/claude-code

グローバルインストールにより、任意のディレクトリから claude が使用可能になります。

環境変数の設定

以下の 4 つの変数で、Claude Code を Novita AI の Anthropic 互換エンドポイントにリダイレクトし、アクティブモデルとして DeepSeek V4 Flash を指定します。

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Your Novita API Key>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

これらは現在のコマンドプロンプトセッションの間のみ有効です。永続化するには、システムプロパティ → 環境変数 で設定します。

Mac および Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Your Novita API Key>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

セッションをまたいで永続化するには、これらの行を ~/.bashrc~/.zshrc、または同等のシェルプロファイルに追加します。

ANTHROPIC_SMALL_FAST_MODEL は、ファイル検索やサマリーなど、Claude Code が高速内部タスクに使用する軽量モデルを制御します。これを同じモデル ID に設定することで、すべてのトラフィックを単一の課金ラインにまとめ、予期しない Anthropic API 呼び出しを防ぎます。

Claude Code の起動

プロジェクトディレクトリに移動し、Claude Code を起動します:

cd <your-project-directory>
claude .

Claude Code は現在のディレクトリでインタラクティブセッションを開きます。Novita AI のエンドポイントへの接続が確立されると、プロンプトが表示されます。ここからタスクを自然言語で説明すると、Claude Code がファイルを読み込み、変更を提案し、承認とともに適用します。

大規模コードベースでの作業

100 万トークンのコンテキストウィンドウは、V4 Flash が小さなコンテキストの代替手段よりも持つ最も実用的な利点です。一般的な中規模のプロダクションコードベースは、フラット化すると 100K~300K トークンになります。V4 Flash はチャンク分割戦略なしで全体をコンテキスト内に保持できます。

直接恩恵を受けるいくつかのワークフロー:

クロスファイルリファクタリング — Claude Code に、データモデルの名前変更、API コントラクトの変更、またはサービスインターフェースのリファクタリングを、それを参照するすべてのファイルにわたって依頼します。フルコンテキストウィンドウにより、ファイルごとではなく、すべての依存関係を同時に認識します。

長時間のデバッグセッション — デバッグセッションがツール呼び出し、ファイル読み取り、推論トレースを蓄積すると、小さなコンテキストウィンドウでは初期の履歴が切り詰められます。V4 Flash はセッション全体を保持するため、200 のツール呼び出し前に見たパターンについてモデルが推論できます。

リポジトリ全体のレビュー — コードベース全体を V4 Flash の思考モードまたは思考最大モードに渡し、セキュリティレビュー、アーキテクチャ評価、デッドコード分析を依頼します。128K モデルではすぐに枯渇しますが、V4 Flash のウィンドウには余裕で収まります。

システムプロンプトのオーバーヘッド — Claude Code は詳細なシステムプロンプトを使用し、10K~20K トークンになる可能性があります。128K モデルではこのオーバーヘッドが問題になりますが、100 万ウィンドウでは無視でき、コンテキスト予算のほぼすべてを実際のコードに使用できます。

長時間セッションのコスト管理には、非思考モードがルーチンファイル編集の大半を最低コストで処理します。設計上の推論が必要なタスクでは思考モードに切り替え、難しいアルゴリズムやデバッグ問題には思考最大モードを使用します。Novita のキャッシュ読み取り価格 ($0.028/M) により、システムプロンプトの繰り返し注入は大規模でもごくわずかなコストしかかかりません。

セッションごとの推論モード選択

DeepSeek V4 Flash は、セッションごとに制御可能な 3 つの推論モードをサポートします。非思考モードは高速で直接的な補完を返します — 定型コード生成、ルーチン編集、簡単な検索に最適です。思考モードはコードレビュー、リファクタリング、アーキテクチャ決定のための段階的推論を有効にします。思考最大モードは最大の推論予算を割り当て、ほとんどのコーディングベンチマークで V4 Pro に匹敵します。

Claude Code をより深い推論に向かわせる最も簡単な方法は、カスタムシステムプロンプトを使用することです:

claude --system "アーキテクチャの決定や複雑なデバッグには拡張思考を使用してください。"

プログラムで制御するには、Novita AI のエンドポイントが budget_tokens パラメータを受け入れます。これを 0 に設定すると思考が完全に無効になり、任意の正の値でそのトークン予算までの思考が有効になります。これは、特定のステップだけ深い推論が必要なエージェントパイプラインで便利です:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Your Novita API Key>",
)

# 思考最大 — 難しい問題には最大推論予算
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "微妙な並行性バグについてこの関数をレビューしてください。"}],
)

コスト重視のセッションでは、非思考モードで開始し、必要な問題に遭遇したときだけ思考モードに切り替えます。Novita のキャッシュ読み取り価格は $0.028/M トークンであるため、システムプロンプトの繰り返し注入は、長く複数ステップのセッションでも低コストを維持できます。

結論

Novita AI 上の DeepSeek V4 Flash は、Claude Code に高性能でコスト効率の良い基盤を提供します。100 万のコンテキスト、選択可能な推論、関数呼び出しを Claude Sonnet の料金のほんの一部で実現します。セットアップは 5 分もかかりません。環境変数を設定すれば、既存の Claude Code ワークフローはそのまま動作します。

Novita AI で DeepSeek V4 Flash を試す または Novita AI LLM API ドキュメント で詳細な設定オプションを確認してください。

よくある質問

Claude Code は Novita AI を使用するためにプラグインや拡張機能が必要ですか?

いいえ。Claude Code は起動時に ANTHROPIC_BASE_URL 環境変数を読み取り、すべての API 呼び出しをそこにルーティングします。プラグイン、拡張機能、コードの変更は不要です。環境変数だけで切り替わります。

Novita AI を使用している場合、Anthropic から請求されますか?

いいえ。ANTHROPIC_BASE_URL が Novita AI を指している場合、すべてのトラフィックと請求は Novita AI アカウントを通じて行われます。Anthropic アカウントは使用されません。

再インストールせずに Claude Sonnet に戻せますか?

はい。ANTHROPIC_BASE_URLANTHROPIC_MODEL を未設定にするか、それらのエクスポートがない新しいシェルを開くだけで、Claude Code はデフォルトの Anthropic エンドポイントと Claude Sonnet に戻ります。

V4 Flash は自動化 CI パイプラインに適していますか?

V4 Flash は関数呼び出しと構造化出力をサポートしており、これらは Claude Code が最も頻繁に依存する 2 つの機能です。自動化コーディングパイプライン、CI 統合、およびコンテキストの継続性とコスト予測可能性が重要な長期エージェントセッションに実用的な選択肢です。

コンテキストウィンドウがいっぱいになるとどうなりますか?

1,048,576 トークンにおいて、V4 Flash のコンテキストウィンドウはほとんどのセッションでいっぱいにならないほど大きいです。非常に長いセッション(数日分の履歴、非常に大きなリポジトリ)を実行している場合、Claude Code は最も古いメッセージの切り詰めを開始します。実際には、新しいタスクごとに新しいセッションを開始することが、制限内に収める最も簡単な方法です。

Novita AI は、開発者がシンプルな API を使用して AI モデルを簡単にデプロイできると同時に、構築とスケーリングのための手頃で信頼性の高い GPU クラウドを提供する AI クラウドプラットフォームです。

おすすめ記事