Utiliser DeepSeek V4 Flash dans Claude Code : Guide de configuration via Novita AI

Table des matières

Pourquoi utiliser DeepSeek V4 Flash dans Claude Code
Qu’est-ce que DeepSeek V4 Flash ?
Obtention de votre clé API Novita AI
Installation de Claude Code
Configuration des variables d’environnement
Démarrage de Claude Code
Travailler avec de grandes bases de code
Sélectionner les modes de raisonnement par session
Conclusion
FAQ
Articles recommandés

DeepSeek V4 Flash est un modèle MoE de 284B paramètres avec une fenêtre de contexte d’un million de jetons, disponible via le point de terminaison compatible Anthropic de Novita AI — ce qui signifie que Claude Code peut l’utiliser directement avec un simple changement de trois variables d’environnement. À 0,14 $/M de jetons en entrée contre 3 $/M pour Claude Sonnet, la différence de coût est significative pour les équipes qui exécutent des sessions de codage agentiques continues.

Pourquoi utiliser DeepSeek V4 Flash dans Claude Code

L’aspect économique est la raison la plus immédiate. Claude Code utilise par défaut Claude Sonnet, à 3 $/M de jetons en entrée et 15 $/M en sortie. DeepSeek V4 Flash sur Novita AI coûte 0,14 $/M en entrée et 0,28 $/M en sortie — soit une réduction d’environ 20× sur l’entrée et 50× sur la sortie. Pour une équipe utilisant Claude Code pendant une journée de travail de huit heures, la différence s’accumule rapidement.

Au-delà du coût, V4 Flash apporte deux capacités importantes pour le codage agentique :

Fenêtre de contexte de 1 million de jetons — Claude Code peut charger l’intégralité d’une base de code dans le contexte sans segmentation. Les refontes multi-fichiers, le débogage inter-dépôts et les longues historiques de conversation restent cohérents sans gestion manuelle du contexte.
Modes de raisonnement sélectionnables — Le mode Non-think offre des réponses rapides pour les tâches standard ; les modes Think et Think Max permettent un raisonnement étape par étape pour les décisions d’architecture complexes ou les sessions de débogage difficiles. Vous choisissez par session sans changer de modèle.

Novita AI expose un point de terminaison compatible Anthropic (/anthropic), donc Claude Code le traite comme un remplacement direct. Aucun changement de SDK, aucun plugin requis — juste des variables d’environnement.

Qu’est-ce que DeepSeek V4 Flash ?

DeepSeek V4 Flash est un modèle Mixture-of-Experts (MoE) de DeepSeek AI. Il possède 284B paramètres au total mais n’en active que 13B par passage avant, ce qui maintient la latence et le coût par jeton proches de ceux d’un modèle dense de 13B tout en conservant la capacité de connaissance d’un réseau beaucoup plus vaste.

Spécifications clés en un coup d’œil :

Spécification	Valeur
ID du modèle	`deepseek/deepseek-v4-flash`
Paramètres totaux	284B (13B activés par inférence)
Fenêtre de contexte	1 048 576 jetons
Jetons de sortie max	393 216
Prix d’entrée (Novita AI)	0,14 $/M de jetons
Prix de sortie (Novita AI)	0,28 $/M de jetons
Prix de lecture du cache	0,028 $/M de jetons
Modes de raisonnement	Non-think, Think, Think Max
Appel de fonctions	Oui
Sorties structurées	Oui
Licence	MIT

Les trois modes de raisonnement vous permettent d’ajuster le coût par rapport à la qualité par session. Le mode Non-think est rapide et bon marché — idéal pour les échafaudages répétitifs ou la génération de code standard. Le mode Think ajoute un raisonnement étape par étape pour la revue de code, le travail d’architecture et le débogage. Think Max utilise le budget de raisonnement maximal et égale V4 Pro sur la plupart des benchmarks de codage.

Novita AI fournit la fenêtre de contexte complète de 1M de jetons et une disponibilité fiable, ce qui en fait un choix pratique pour les charges de travail agentiques en production.

Obtention de votre clé API Novita AI

Inscrivez-vous pour un compte Novita AI pour recevoir des crédits d’essai gratuits. Après vous être connecté, accédez à la page Key Management et cliquez sur Create New Key.

Copiez immédiatement la clé — elle ne sera plus affichée. Conservez-la dans un gestionnaire de mots de passe ou un coffre de secrets ; vous en aurez besoin à l’étape suivante.

Installation de Claude Code

Claude Code nécessite Node.js 18 ou supérieur. Vérifiez d’abord votre version :

node --version

Si Node est inférieur à 18, mettez-le à jour depuis nodejs.org avant de continuer.

Windows

Ouvrez l’invite de commandes et exécutez :

npm install -g @anthropic-ai/claude-code

Mac et Linux

Ouvrez le terminal et exécutez :

npm install -g @anthropic-ai/claude-code

L’installation globale rend claude disponible depuis n’importe quel répertoire.

Configuration des variables d’environnement

Ces quatre variables redirigent Claude Code vers le point de terminaison compatible Anthropic de Novita AI avec DeepSeek V4 Flash comme modèle actif.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Votre clé API Novita>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

Ces variables persistent pour la session actuelle de l’invite de commandes. Pour les rendre permanentes, définissez-les via Propriétés système → Variables d’environnement.

Mac et Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Votre clé API Novita>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

Pour qu’elles persistent entre les sessions, ajoutez ces lignes à votre ~/.bashrc, ~/.zshrc ou profil shell équivalent.

ANTHROPIC_SMALL_FAST_MODEL contrôle le modèle léger que Claude Code utilise pour les tâches internes rapides comme les recherches de fichiers et les résumés. Le définir sur le même ID de modèle maintient tout le trafic sur une seule ligne de facturation et évite les appels API imprévus vers Anthropic.

Démarrage de Claude Code

Naviguez jusqu’au répertoire de votre projet et lancez Claude Code :

cd <votre-répertoire-projet>
claude .

Claude Code ouvre une session interactive dans le répertoire actuel. L’invite apparaît une fois la connexion au point de terminaison Novita AI établie. Décrivez ensuite votre tâche en langage naturel — Claude Code lira vos fichiers, proposera des modifications et les appliquera avec votre approbation.

Travailler avec de grandes bases de code

La fenêtre de contexte de 1M de jetons est l’avantage le plus pratique de V4 Flash par rapport aux alternatives à contexte plus petit. Une base de code de production de taille moyenne typique représente entre 100K et 300K jetons une fois aplatie. V4 Flash peut contenir l’intégralité de celle-ci dans le contexte sans aucune stratégie de segmentation.

Quelques workflows qui en bénéficient directement :

Refontes multi-fichiers — Demandez à Claude Code de renommer un modèle de données, de modifier un contrat API ou de refondre une interface de service dans tous les fichiers qui y font référence. Avec une fenêtre de contexte complète, il voit toutes les dépendances simultanément plutôt que fichier par fichier.

Longues sessions de débogage — Lorsqu’une session de débogage accumule des appels d’outils, des lectures de fichiers et des traces de raisonnement, les fenêtres de contexte plus petites tronquent l’historique précoce. V4 Flash conserve la session complète, permettant au modèle de raisonner sur des motifs vus 200 appels d’outils plus tôt.

Revues à l’échelle du dépôt — Alimentez l’intégralité de la base de code dans le mode Think ou Think Max de V4 Flash et demandez une revue de sécurité, une évaluation d’architecture ou une analyse de code mort. Cela épuiserait rapidement un modèle 128K ; cela tient confortablement dans la fenêtre de V4 Flash.

Surcharge de l’invite système — Claude Code utilise une invite système détaillée qui peut prendre 10K–20K jetons. Sur un modèle 128K, cette surcharge est significative. Sur une fenêtre de 1M, elle est négligeable, laissant presque tout le budget de contexte pour le code réel.

Pour le contrôle des coûts lors de longues sessions, le mode Non-think gère le gros des modifications de fichiers de routine au coût le plus bas. Passez en mode Think lorsque la tâche nécessite un raisonnement de conception, et en Think Max pour les problèmes algorithmiques ou de débogage difficiles. Le prix de lecture du cache Novita (0,028 $/M) signifie que les injections répétées d’invite système coûtent très peu à grande échelle.

Sélectionner les modes de raisonnement par session

DeepSeek V4 Flash prend en charge trois modes de raisonnement que vous pouvez contrôler par session. Le mode Non-think renvoie des complétions rapides et directes — idéal pour la génération de code standard, les modifications de routine et les recherches rapides. Le mode Think permet un raisonnement étape par étape pour la revue de code, les refontes et les décisions d’architecture. Think Max alloue le budget de raisonnement maximal et égale V4 Pro sur la plupart des benchmarks de codage.

Le moyen le plus simple d’inciter Claude Code à adopter un raisonnement plus profond est une invite système personnalisée :

claude --system "Utilisez la réflexion étendue pour les décisions d’architecture et le débogage complexe."

Pour un contrôle programmatique, le point de terminaison Novita AI accepte le paramètre budget_tokens. Le définir sur 0 désactive complètement la réflexion ; toute valeur positive active la réflexion jusqu’à ce budget de jetons. Ceci est utile dans les pipelines agentiques où seules certaines étapes nécessitent un raisonnement approfondi :

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Votre clé API Novita>",
)

# Think Max — budget de raisonnement maximal pour les problèmes difficiles
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Revoyez cette fonction pour détecter des bugs de concurrence subtils."}],
)

Pour les sessions soucieuses des coûts, commencez en mode Non-think et passez en mode Think uniquement lorsque vous rencontrez un problème qui l’exige. Étant donné que le prix de lecture du cache Novita est de 0,028 $/M de jetons, les injections répétées d’invite système restent bon marché même lors de longues sessions multi-étapes.

Conclusion

DeepSeek V4 Flash sur Novita AI offre à Claude Code un backend performant et économique — 1M de contexte, raisonnement sélectionnable et appel de fonctions à une fraction du prix de Claude Sonnet. La configuration prend moins de cinq minutes. Une fois les variables d’environnement en place, votre flux de travail existant avec Claude Code reste inchangé.

Essayez DeepSeek V4 Flash sur Novita AI et consultez la documentation de l’API LLM Novita AI pour d’autres options de configuration.

FAQ

Claude Code a-t-il besoin d’un plugin ou d’une extension pour utiliser Novita AI ?

Non. Claude Code lit la variable d’environnement ANTHROPIC_BASE_URL au démarrage et y achemine tous les appels API. Aucun plugin, extension ou modification de code n’est nécessaire — le changement s’effectue entièrement via les variables d’environnement.

Serai-je facturé par Anthropic lorsque j’utilise Novita AI ?

Non. Lorsque ANTHROPIC_BASE_URL pointe vers Novita AI, tout le trafic et la facturation passent par votre compte Novita AI. Votre compte Anthropic n’est pas utilisé.

Puis-je revenir à Claude Sonnet sans réinstaller ?

Oui. Désactivez ANTHROPIC_BASE_URL et ANTHROPIC_MODEL — ou ouvrez un nouveau shell sans ces exports — et Claude Code revient au point de terminaison Anthropic par défaut avec Claude Sonnet.

V4 Flash est-il adapté aux pipelines CI automatisés ?

V4 Flash prend en charge l’appel de fonctions et les sorties structurées, les deux capacités dont Claude Code dépend le plus. C’est un choix pratique pour les pipelines de codage automatisés, les intégrations CI et les longues sessions agentiques où la continuité du contexte et la prévisibilité des coûts sont importantes.

Que se passe-t-il si la fenêtre de contexte se remplit ?

À 1 048 576 jetons, la fenêtre de contexte de V4 Flash est suffisamment grande pour que la plupart des sessions ne la remplissent pas. Si vous exécutez une session extrêmement longue — des jours d’historique accumulé, de très gros dépôts — Claude Code commencera à tronquer les messages les plus anciens. En pratique, démarrer une nouvelle session pour une nouvelle tâche est le moyen le plus simple de rester bien en deçà de la limite.

Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API simple, tout en fournissant des GPU cloud abordables et fiables pour construire et passer à l’échelle.

Utiliser DeepSeek V4 Flash dans Claude Code : Guide de configuration via Novita AI

Pourquoi utiliser DeepSeek V4 Flash dans Claude Code

Qu’est-ce que DeepSeek V4 Flash ?

Obtention de votre clé API Novita AI

Installation de Claude Code

Windows

Mac et Linux

Configuration des variables d’environnement

Windows

Mac et Linux

Démarrage de Claude Code

Travailler avec de grandes bases de code

Sélectionner les modes de raisonnement par session

Conclusion

FAQ

Articles recommandés

Product

RESOURCES

Partners

Company

Pourquoi utiliser DeepSeek V4 Flash dans Claude Code

Qu’est-ce que DeepSeek V4 Flash ?

Obtention de votre clé API Novita AI

Installation de Claude Code

Windows

Mac et Linux

Configuration des variables d’environnement

Windows

Mac et Linux

Démarrage de Claude Code

Travailler avec de grandes bases de code

Sélectionner les modes de raisonnement par session

Conclusion

FAQ

Articles recommandés

Articles associés

Product

RESOURCES

Partners

Company