- Ce que fait le raisonnement long‑contexte
- Quand utiliser DeepSeek V4 Pro
- Étape 1 : Confirmer la prise en charge des fonctionnalités sur Novita AI
- Étape 2 : Configurer la requête
- Étape 3 : Lire la réponse spécifique à la fonctionnalité
- Étape 4 : Tester les cas d’échec
- Champs de démarrage rapide de l’API
- Exemple Python
- Envoyer la requête avec cURL
- Bonnes pratiques
- Notes sur la tarification et les limites
- FAQ
DeepSeek V4 Pro est disponible sur Novita AI avec l’ID de modèle deepseek/deepseek-v4-pro, une fenêtre de contexte de 1 048 576 tokens, une sortie maximale de 393 216 tokens, et une tarification actuelle sur la page du modèle de 1,60 $ en entrée, 0,135 $ en lecture cache et 3,20 $ en sortie par million de tokens. Utilisez ces valeurs lorsque vous testez le raisonnement long‑contexte ou des tâches de codage, et non les anciens tarifs issus des annonces de lancement.
Ce que fait le raisonnement long‑contexte
Le raisonnement long‑contexte permet à une application d’envoyer davantage de travail en une seule requête : fichiers sources, journaux, documents récupérés, texte de politique, historique de conversation, échecs de tests, notes d’architecture, ou un mélange de documents connexes. Cela donne au modèle plus de contexte pour travailler qu’une invite courte ou un petit résultat de recherche.
Sur Novita AI, la page du modèle DeepSeek V4 Pro indique une fenêtre de contexte de 1 048 576 tokens et une prise en charge du raisonnement. Cela le rend adapté à l’analyse de code au niveau du dépôt, à la synthèse multi‑documents, à la planification d’agents et aux tâches de débogage qui nécessitent plus de contexte qu’une courte invite de chat ne peut en contenir.
La fenêtre de contexte n’est qu’une partie du travail. Vous devez encore organiser l’invite, plafonner la sortie, estimer le coût, valider les réponses et décider quoi faire en cas d’échec d’une requête.
Quand utiliser DeepSeek V4 Pro
Utilisez DeepSeek V4 Pro lorsque la réponse dépend d’une grande quantité de texte et que vous souhaitez conserver ce matériel dans une seule requête. Exemples :
- Examiner une modification de code multi‑fichiers avec le contexte d’implémentation environnant.
- Résumer un long document technique et en extraire les actions à mener.
- Comparer des journaux, des tickets et des extraits de code dans une tâche de débogage.
- Exécuter une étape d’agent qui nécessite un contexte de planification et les résultats d’outils.
- Produire une sortie structurée à partir d’un volumineux dossier de preuves.
Ne faites pas de chaque requête une requête de 1M de contexte par défaut. Si une courte invite ou un petit résultat de recherche peut répondre à la question, cette voie est plus facile à tester, moins coûteuse à exécuter et moins susceptible d’intégrer des éléments non pertinents.
DeepSeek V4 Pro est un modèle texte‑entrée et texte‑sortie sur la page actuelle de Novita. Pour les entrées image ou vidéo, choisissez un modèle prenant en charge les requêtes multimodales plutôt que de forcer du contenu multimodal dans ce chemin de requête.
Étape 1 : Confirmer la prise en charge des fonctionnalités sur Novita AI
L’ID de modèle vérifié de DeepSeek V4 Pro est :
deepseek/deepseek-v4-pro
Utilisez l’URL de base compatible OpenAI de Novita AI :
https://api.novita.ai/openai
Pour les complétions de chat, envoyez les requêtes à :
https://api.novita.ai/openai/v1/chat/completions
Utilisez ces détails API de DeepSeek V4 Pro pour la première requête :
| Champ | Valeur |
| ID du modèle | deepseek/deepseek-v4-pro |
| URL de base | https://api.novita.ai/openai |
| Fenêtre de contexte | 1 048 576 tokens |
| Sortie maximale | 393 216 tokens |
| Entrées | Texte |
| Sortie | Texte |
| Support serverless | Pris en charge |
| Appel de fonction | Pris en charge |
| Sortie structurée | Pris en charge |
| Raisonnement | Pris en charge |
| Compatibilité API Anthropic | Pris en charge |
| Quantification | FP8 |
Consultez la documentation du modèle DeepSeek V4 Pro avant de déployer, car la disponibilité, la tarification, le contexte et les champs de support peuvent changer.
Étape 2 : Configurer la requête
Commencez par une petite requête textuelle uniquement. Une fois l’authentification et le routage fonctionnels, élargissez vers l’invite plus longue que vous prévoyez d’utiliser.
Pour une requête de raisonnement long‑contexte, structurez l’invite afin que le modèle puisse distinguer les instructions des preuves :
- Placez les règles de comportement stables dans le message système.
- Placez la tâche, le format de sortie attendu et les contraintes en haut du message utilisateur.
- Étiquetez les grands blocs de preuves avec des noms clairs tels que
Résumé du dépôt,Fichiers modifiés,JournauxouExtraits sources. - Demandez au modèle de citer les étiquettes de preuves ou les noms de fichiers lorsque la sortie doit être auditée.
- Plafonnez la sortie avec
max_tokensafin qu’un test ne puisse pas générer plus de texte que votre produit ne peut en gérer.
Si vous utilisez l’appel de fonction ou la sortie structurée, testez ces fonctionnalités après qu’une simple complétion de chat fonctionne. Les longues invites de raisonnement peuvent produire plus de texte que prévu, alors définissez la forme finale de la réponse et validez‑la avant d’utiliser la réponse.
Étape 3 : Lire la réponse spécifique à la fonctionnalité
Dans une réponse de complétion de chat compatible OpenAI, la réponse principale est généralement renvoyée à :
choices[0].message.content
Pour les requêtes long‑contexte, la gestion de la réponse doit faire plus que simplement afficher la réponse. Stockez suffisamment de métadonnées pour déboguer les échecs et estimer le coût :
- ID du modèle utilisé.
- Taille de l’invite ou estimation du nombre de tokens.
- Taille de la sortie.
- Indication si le contexte en cache a été utilisé.
- ID de trace de l’application ou ID de requête si disponible.
- Version du modèle d’invite.
- Version du paquet source ou requête de recherche utilisée pour assembler le contexte.
Lorsque la réponse est censée être un JSON structuré, validez‑la avant d’agir. Si la réponse échoue à la validation, réessayez avec un ensemble de preuves plus petit, un schéma plus simple ou des instructions de formatage plus strictes.
Étape 4 : Tester les cas d’échec
Avant d’utiliser DeepSeek V4 Pro avec de vrais utilisateurs, testez les chemins les plus susceptibles d’échouer :
- Clé API manquante.
- Mauvais ID de modèle.
- Invite assemblée au‑delà de la limite de contexte.
- Plafond de sortie trop petit pour la tâche demandée.
- Invite incluant des preuves non pertinentes qui modifient la réponse.
- La sortie structurée échoue à la validation.
- Les arguments d’appel d’outil sont incomplets ou dangereux.
- Les tentatives de répétition dupliquent une action visible par l’utilisateur.
Pour les applications agentiques, gardez le raisonnement du modèle séparé de l’exécution des actions. Le modèle peut proposer un appel d’outil, mais votre serveur doit valider les arguments, les permissions et l’idempotence avant d’exécuter quoi que ce soit.
Champs de démarrage rapide de l’API
| Champ | Valeur |
| Nom du modèle | DeepSeek V4 Pro |
| ID du modèle | deepseek/deepseek-v4-pro |
| URL de base | https://api.novita.ai/openai |
| URL des complétions de chat | https://api.novita.ai/openai/v1/chat/completions |
| Modalité d’entrée | Texte |
| Modalité de sortie | Texte |
| Fenêtre de contexte | 1 048 576 tokens |
| Sortie maximale | 393 216 tokens |
| Tarification actuelle en entrée | 1,60 $ par million de tokens |
| Tarification actuelle en lecture cache | 0,135 $ par million de tokens |
| Tarification actuelle en sortie | 3,20 $ par million de tokens |
La tarification ci‑dessus provient de la page actuelle du modèle, et non des anciens tarifs du blog de DeepSeek. Revérifiez la documentation du modèle DeepSeek V4 Pro avant le déploiement.
Exemple Python
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai/v1",
)
contexte = """
Résumé du dépôt :
- Le service valide les requêtes API et écrit des événements d'audit.
- Un changement récent a ajouté une logique de réessai asynchrone.
Problème :
- Certaines tentatives de réessai dupliquent les événements d'audit.
Journaux pertinents :
- request_id=abc123 retry=1 audit_event_created=true
- request_id=abc123 retry=2 audit_event_created=true
"""
response = client.chat.completions.create(
model="deepseek/deepseek-v4-pro",
messages=[
{
"role": "system",
"content": "Vous analysez un long contexte technique et fournissez des conseils d'ingénierie concis.",
},
{
"role": "user",
"content": (
"Identifiez le risque d'implémentation probable et proposez un correctif. "
"Utilisez uniquement les preuves ci‑dessous.\n\n"
f"{contexte}"
),
},
],
temperature=0.2,
max_tokens=800,
)
Envoyer la requête avec cURL
payload='{
"model": "deepseek/deepseek-v4-pro",
"messages": [
{
"role": "system",
"content": "Vous analysez un long contexte technique et fournissez des conseils d'ingénierie concis."
},
{
"role": "user",
"content": "Identifiez le risque d'implémentation probable et proposez un correctif. Utilisez uniquement ces preuves : la tentative de réessai 1 a créé un événement d'audit ; la tentative de réessai 2 a également créé un événement d'audit pour le même request_id."
}
],
"temperature": 0.2,
"max_tokens": 800
}'
curl --request POST "https://api.novita.ai/openai/v1/chat/completions" \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data "$payload"
Bonnes pratiques
Garder le contexte organisé
Une fenêtre de contexte de 1M de tokens fonctionne mieux lorsque l’entrée est étiquetée et filtrée. Séparez les fichiers sources, les journaux, les exigences et les instructions de tâche. Si vous collez un grand bloc de texte non différencié, le modèle aura moins de structure à suivre et votre équipe aura moins de capacité à déboguer la réponse.
Utiliser la recherche avant les invites plein‑contexte
Le long contexte ne doit pas remplacer la discipline de recherche. Utilisez la recherche, le classement ou le filtrage basé sur des règles pour supprimer les éléments non pertinents avant d’assembler l’invite. Réservez la grande fenêtre de contexte pour les informations qui doivent vraiment rester ensemble.
Plafonner la sortie pendant les tests
La sortie maximale est de 393 216 tokens, mais la plupart des applications devraient commencer avec des plafonds beaucoup plus petits. Augmentez max_tokens uniquement lorsque le produit a réellement besoin d’une sortie générée longue et que votre interface utilisateur, votre stockage et vos contrôles de coûts peuvent la gérer.
Valider les sorties structurées
Si la réponse déclenche une action de l’application, demandez une réponse structurée finale et validez‑la côté serveur. Par exemple, exigez des champs tels que risk_summary, evidence, recommended_fix et confidence, puis rejetez ou réessayez les réponses qui ne correspondent pas au schéma.
Traiter les appels d’outils comme des propositions
La page actuelle du modèle mentionne la prise en charge de l’appel de fonction. Traitez un appel de fonction comme une action proposée jusqu’à ce que votre application valide les permissions, les arguments, les limites de débit et les effets secondaires.
Notes sur la tarification et les limites
La tarification actuelle de DeepSeek V4 Pro sur Novita AI est :
| Type de token | Prix |
| Entrée | 1,60 $ par million de tokens |
| Lecture cache | 0,135 $ par million de tokens |
| Sortie | 3,20 $ par million de tokens |
La fenêtre de contexte est actuellement de 1 048 576 tokens et la sortie maximale est actuellement de 393 216 tokens. Les grandes requêtes sont possibles, mais elles nécessitent des contrôles clairs des coûts et de la taille de la réponse.
Pour estimer les coûts, calculez :
- Nombre moyen de tokens d’entrée par requête.
- Pourcentage de requêtes utilisant le contexte en cache.
- Nombre moyen de tokens de sortie par requête.
- Taux de nouvelle tentative.
- Nombre de tentatives de réparation d’appel d’outil ou de sortie structurée.
- Si les longues invites incluent des preuves non pertinentes qui devraient être filtrées.
N’utilisez pas les anciens tarifs du blog de DeepSeek pour une estimation actuelle des coûts. Utilisez la page du modèle en direct ou la dernière source de tarification de la plateforme avant de publier un budget, une estimation de facture ou une comparaison orientée client.
FAQ
DeepSeek V4 Pro prend‑il en charge le raisonnement long‑contexte sur Novita AI ?
Oui. La page actuelle du modèle Novita AI liste DeepSeek V4 Pro avec une fenêtre de contexte de 1 048 576 tokens et une prise en charge du raisonnement.
Quel est l’ID du modèle pour DeepSeek V4 Pro ?
Utilisez deepseek/deepseek-v4-pro.
Quels paramètres contrôlent la requête ?
Pour le chemin de démarrage rapide, utilisez model, messages, temperature et max_tokens. Une fois la requête de base fonctionnelle, testez tools pour l’appel de fonction ou un format de réponse structuré si votre application en a besoin.
Le raisonnement long‑contexte affecte‑t‑il la tarification ou la longueur de la sortie ?
Les invites plus longues augmentent le coût d’entrée, et les réponses plus longues augmentent le coût de sortie. La tarification actuelle est de 1,60 $ par million de tokens d’entrée, 0,135 $ par million de tokens de lecture cache et 3,20 $ par million de tokens de sortie.
Quand dois‑je éviter DeepSeek V4 Pro ?
Évitez‑le lorsque la tâche n’a pas besoin d’un grand contexte textuel, lorsqu’une invite plus petite peut répondre à la question, ou lorsque l’application nécessite une entrée image ou vidéo. DeepSeek V4 Pro est actuellement listé comme entrée texte et sortie texte.
L’ancienne tarification du blog DeepSeek est‑elle toujours valable ?
Utilisez la tarification de la page actuelle du modèle pour la planification des coûts. Les anciens tarifs du blog peuvent ne plus correspondre à la page du modèle en direct.
