Comment utiliser DeepSeek V4 Flash dans Claude Code via Novita AI

Comment utiliser DeepSeek V4 Flash dans Claude Code via Novita AI

DeepSeek V4 Flash est un modèle MoE de 284B avec une fenêtre de contexte d’un million de tokens, disponible via le point de terminaison compatible Anthropic de Novita AI — ce qui signifie que Claude Code peut l’utiliser directement avec un changement de trois variables d’environnement. À 0,14 $/M tokens en entrée contre 3 $/M pour Claude Sonnet, la différence de coût est significative pour les équipes qui mènent des sessions de codage agentique continues.

Pourquoi utiliser DeepSeek V4 Flash dans Claude Code

La raison la plus immédiate est économique. Par défaut, Claude Code utilise Claude Sonnet, qui coûte 3 $/M tokens en entrée et 15 $/M tokens en sortie. DeepSeek V4 Flash sur Novita AI coûte 0,14 $/M en entrée et 0,28 $/M en sortie — soit environ une réduction de 20× sur l’entrée et de 50× sur la sortie. Pour une équipe qui utilise Claude Code pendant une journée de travail de huit heures, la différence s’accumule rapidement.

Au-delà du coût, V4 Flash apporte deux capacités particulièrement utiles pour le codage agentique :

  • Fenêtre de contexte de 1M tokens — Claude Code peut charger l’intégralité d’un codebase dans le contexte sans avoir à le découper. Les refontes multi-fichiers, le débogage cross-repo et les longues conversations restent cohérents sans gestion manuelle du contexte.
  • Modes de raisonnement sélectionnables — Le mode Non-think produit des réponses rapides pour les tâches de routine ; les modes Think et Think Max permettent un raisonnement pas à pas pour les décisions architecturales complexes ou les sessions de débogage difficiles. Vous choisissez par session sans changer de modèle.

Novita AI expose un point de terminaison compatible Anthropic (/anthropic), donc Claude Code le considère comme un remplacement direct. Pas de changement de SDK, pas de plugin nécessaire — seulement des variables d’environnement.

Qu’est-ce que DeepSeek V4 Flash

DeepSeek V4 Flash est un modèle Mixture-of-Experts (MoE) de DeepSeek AI. Il comporte 284B paramètres au total, mais n’en active que 13B par passage avant, ce qui maintient la latence et le coût par token proches d’un modèle dense de 13B tout en conservant la capacité de connaissance d’un réseau beaucoup plus grand.

Aperçu des caractéristiques clés :

Spécification Valeur
ID du modèle deepseek/deepseek-v4-flash
Paramètres totaux 284B (13B activés par inférence)
Fenêtre de contexte 1 048 576 tokens
Tokens max en sortie 393 216
Prix d’entrée (Novita AI) 0,14 $/M tokens
Prix de sortie (Novita AI) 0,28 $/M tokens
Prix de lecture cache 0,028 $/M tokens
Modes de raisonnement Non-think, Think, Think Max
Appel de fonctions Oui
Sorties structurées Oui
Licence MIT

Les trois modes de raisonnement vous permettent d’ajuster le coût par rapport à la qualité par session. Le mode Non-think est rapide et économique — idéal pour les échafaudages répétitifs ou la génération de code standard. Le mode Think ajoute un raisonnement pas à pas pour la revue de code, le travail d’architecture et le débogage. Think Max utilise le budget de raisonnement maximal et égalise V4 Pro sur la plupart des benchmarks de codage.

Novita AI fournit la fenêtre de contexte complète de 1M tokens et une disponibilité fiable, ce qui en fait un choix pratique pour les charges de travail agentiques en production.

Obtenir votre clé API Novita AI

Inscrivez-vous pour un compte Novita AI pour recevoir des crédits d’essai gratuits. Après vous être connecté, rendez-vous sur la page Key Management et cliquez sur Create New Key.

Copiez la clé immédiatement — elle ne sera plus affichée. Conservez-la dans un gestionnaire de mots de passe ou un coffre de secrets ; vous en aurez besoin à l’étape suivante.

Installation de Claude Code

Claude Code nécessite Node.js 18 ou supérieur. Vérifiez d’abord votre version :

node --version

Si Node est inférieur à 18, mettez-le à jour depuis nodejs.org avant de continuer.

Windows

Ouvrez l’invite de commande et exécutez :

npm install -g @anthropic-ai/claude-code

Mac et Linux

Ouvrez le terminal et exécutez :

npm install -g @anthropic-ai/claude-code

L’installation globale rend claude accessible depuis n’importe quel répertoire.

Configuration des variables d’environnement

Ces quatre variables redirigent Claude Code vers le point de terminaison compatible Anthropic de Novita AI avec DeepSeek V4 Flash comme modèle actif.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Votre clé API Novita>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

Ces variables persistent pour la session d’invite de commandes en cours. Pour les rendre permanentes, définissez-les via System Properties → Environment Variables.

Mac et Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Votre clé API Novita>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

Pour les rendre persistantes entre les sessions, ajoutez ces lignes à votre ~/.bashrc, ~/.zshrc, ou profil shell équivalent.

ANTHROPIC_SMALL_FAST_MODEL contrôle le modèle léger que Claude Code utilise pour les tâches internes rapides comme les recherches de fichiers et les résumés. Le définir sur le même ID de modèle maintient tout le trafic sur une seule ligne de facturation et évite les appels API inattendus vers Anthropic.

Démarrage de Claude Code

Naviguez vers votre répertoire de projet et lancez Claude Code :

cd <votre-répertoire-projet>
claude .

Claude Code ouvre une session interactive dans le répertoire actuel. L’invite apparaît une fois la connexion au point de terminaison Novita AI établie. À partir de là, décrivez votre tâche en langage naturel — Claude Code lira vos fichiers, proposera des modifications et les appliquera avec votre approbation.

Travailler avec de grands codebases

La fenêtre de contexte de 1M tokens est l’avantage le plus pratique de V4 Flash par rapport aux alternatives à contexte plus petit. Un codebase de production typique de taille moyenne utilise 100K à 300K tokens une fois aplati. V4 Flash peut contenir l’intégralité dans son contexte sans aucune stratégie de découpage.

Quelques flux de travail qui en bénéficient directement :

Refontes multi-fichiers — Demandez à Claude Code de renommer un modèle de données, de modifier un contrat d’API ou de refactoriser une interface de service dans tous les fichiers qui la référencent. Avec une fenêtre de contexte complète, il voit toutes les dépendances simultanément plutôt que fichier par fichier.

Longues sessions de débogage — À mesure qu’une session de débogage accumule les appels d’outils, les lectures de fichiers et les traces de raisonnement, les fenêtres de contexte plus petites tronquent l’historique ancien. V4 Flash conserve la session complète, permettant au modèle de raisonner sur des motifs observés il y a 200 appels d’outils.

Revues à l’échelle du dépôt — Fournissez l’intégralité du codebase au mode Think ou Think Max de V4 Flash et demandez une revue de sécurité, une évaluation architecturale ou une analyse de code mort. Cela épuiserait rapidement un modèle de 128K ; cela tient confortablement dans la fenêtre de V4 Flash.

Surcharge des prompts système — Claude Code utilise un prompt système détaillé qui peut atteindre 10K à 20K tokens. Sur un modèle de 128K, cette surcharge compte. Sur une fenêtre de 1M, elle est négligeable, laissant presque tout le budget de contexte pour le code réel.

Pour le contrôle des coûts lors de longues sessions, le mode Non-think gère la majorité des modifications de fichiers de routine au coût le plus bas. Passez en mode Think lorsque la tâche nécessite un raisonnement conceptuel, et Think Max pour les problèmes algorithmiques ou de débogage difficiles. Le prix de lecture du cache Novita (0,028 $/M) signifie que les injections répétées de prompts système coûtent très peu à grande échelle.

Sélectionner les modes de raisonnement par session

DeepSeek V4 Flash prend en charge trois modes de raisonnement que vous pouvez contrôler par session. Le mode Non-think renvoie des complétions rapides et directes — idéal pour la génération de code standard, les modifications de routine et les recherches rapides. Le mode Think active le raisonnement pas à pas pour la revue de code, les refontes et les décisions architecturales. Think Max alloue le budget de raisonnement maximal et égalise V4 Pro sur la plupart des benchmarks de codage.

La façon la plus simple d’orienter Claude Code vers un raisonnement plus profond est un prompt système personnalisé :

claude --system "Utilisez la réflexion approfondie pour les décisions architecturales et le débogage complexe."

Pour un contrôle programmatique, le point de terminaison Novita AI accepte le paramètre budget_tokens. Le définir à 0 désactive complètement la réflexion ; toute valeur positive active la réflexion jusqu’à ce budget de tokens. Ceci est utile dans les pipelines agentiques où seules des étapes spécifiques nécessitent un raisonnement approfondi :

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Votre clé API Novita>",
)

# Think Max — budget de raisonnement maximal pour les problèmes difficiles
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Passez en revue cette fonction pour détecter les bugs de concurrence subtils."}],
)

Pour les sessions soucieuses des coûts, commencez en mode Non-think et passez en mode Think uniquement lorsque vous rencontrez un problème qui l’exige. Étant donné que le prix de lecture du cache Novita est de 0,028 $/M tokens, les injections répétées de prompts système restent peu coûteuses même lors de longues sessions en plusieurs étapes.

Conclusion

DeepSeek V4 Flash sur Novita AI offre à Claude Code une base compétente et économique — 1M de contexte, raisonnement sélectionnable et appel de fonctions à une fraction du prix de Claude Sonnet. La configuration prend moins de cinq minutes. Une fois les variables d’environnement en place, votre flux de travail existant avec Claude Code fonctionne inchangé.

Essayez DeepSeek V4 Flash sur Novita AI et consultez la documentation de l’API LLM Novita AI pour d’autres options de configuration.

FAQ

Claude Code a-t-il besoin d’un plugin ou d’une extension pour utiliser Novita AI ?

Non. Claude Code lit la variable d’environnement ANTHROPIC_BASE_URL au démarrage et achemine tous les appels API vers ce point de terminaison. Aucun plugin, extension ou changement de code n’est nécessaire — le changement se fait entièrement via les variables d’environnement.

Serai-je facturé par Anthropic lorsque j’utilise Novita AI ?

Non. Lorsque ANTHROPIC_BASE_URL pointe vers Novita AI, tout le trafic et la facturation passent par votre compte Novita AI. Votre compte Anthropic n’est pas utilisé.

Puis-je revenir à Claude Sonnet sans réinstaller ?

Oui. Désactivez ANTHROPIC_BASE_URL et ANTHROPIC_MODEL — ou ouvrez un nouveau shell sans ces exports — et Claude Code revient au point de terminaison par défaut d’Anthropic avec Claude Sonnet.

V4 Flash est-il adapté aux pipelines CI automatisés ?

V4 Flash prend en charge l’appel de fonctions et les sorties structurées, les deux capacités dont Claude Code dépend le plus. C’est un choix pratique pour les pipelines de codage automatisés, les intégrations CI et les longues sessions agentiques où la continuité du contexte et la prévisibilité des coûts sont importantes.

Que se passe-t-il si la fenêtre de contexte se remplit ?

À 1 048 576 tokens, la fenêtre de contexte de V4 Flash est suffisamment grande pour que la plupart des sessions ne la remplissent pas. Si vous exécutez une session extrêmement longue — plusieurs jours d’historique accumulé, de très gros dépôts — Claude Code commencera à tronquer les messages les plus anciens. En pratique, démarrer une nouvelle session pour une nouvelle tâche est le moyen le plus simple de rester bien en dessous de la limite.

Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA grâce à notre API simple, tout en fournissant un cloud GPU abordable et fiable pour construire et passer à l’échelle.

Articles recommandés