DeepSeek V4 Pro : Raisonnement Long‑Contexte – Guide Développeur

DeepSeek V4 Pro : Raisonnement Long‑Contexte – Guide Développeur

DeepSeek V4 Pro est disponible sur Novita AI avec l’ID de modèle deepseek/deepseek-v4-pro, une fenêtre de contexte de 1 048 576 tokens, une sortie maximale de 393 216 tokens, et une tarification actuelle sur la page du modèle de 1,60 $ en entrée, 0,135 $ en lecture cache et 3,20 $ en sortie par million de tokens. Utilisez ces valeurs lorsque vous testez le raisonnement long‑contexte ou des tâches de codage, et non les anciens tarifs issus des annonces de lancement.

Ce que fait le raisonnement long‑contexte

Le raisonnement long‑contexte permet à une application d’envoyer davantage de travail en une seule requête : fichiers sources, journaux, documents récupérés, texte de politique, historique de conversation, échecs de tests, notes d’architecture, ou un mélange de documents connexes. Cela donne au modèle plus de contexte pour travailler qu’une invite courte ou un petit résultat de recherche.

Sur Novita AI, la page du modèle DeepSeek V4 Pro indique une fenêtre de contexte de 1 048 576 tokens et une prise en charge du raisonnement. Cela le rend adapté à l’analyse de code au niveau du dépôt, à la synthèse multi‑documents, à la planification d’agents et aux tâches de débogage qui nécessitent plus de contexte qu’une courte invite de chat ne peut en contenir.

La fenêtre de contexte n’est qu’une partie du travail. Vous devez encore organiser l’invite, plafonner la sortie, estimer le coût, valider les réponses et décider quoi faire en cas d’échec d’une requête.

Quand utiliser DeepSeek V4 Pro

Utilisez DeepSeek V4 Pro lorsque la réponse dépend d’une grande quantité de texte et que vous souhaitez conserver ce matériel dans une seule requête. Exemples :

  • Examiner une modification de code multi‑fichiers avec le contexte d’implémentation environnant.
  • Résumer un long document technique et en extraire les actions à mener.
  • Comparer des journaux, des tickets et des extraits de code dans une tâche de débogage.
  • Exécuter une étape d’agent qui nécessite un contexte de planification et les résultats d’outils.
  • Produire une sortie structurée à partir d’un volumineux dossier de preuves.

Ne faites pas de chaque requête une requête de 1M de contexte par défaut. Si une courte invite ou un petit résultat de recherche peut répondre à la question, cette voie est plus facile à tester, moins coûteuse à exécuter et moins susceptible d’intégrer des éléments non pertinents.

DeepSeek V4 Pro est un modèle texte‑entrée et texte‑sortie sur la page actuelle de Novita. Pour les entrées image ou vidéo, choisissez un modèle prenant en charge les requêtes multimodales plutôt que de forcer du contenu multimodal dans ce chemin de requête.

Étape 1 : Confirmer la prise en charge des fonctionnalités sur Novita AI

L’ID de modèle vérifié de DeepSeek V4 Pro est :

deepseek/deepseek-v4-pro

Utilisez l’URL de base compatible OpenAI de Novita AI :

https://api.novita.ai/openai

Pour les complétions de chat, envoyez les requêtes à :

https://api.novita.ai/openai/v1/chat/completions

Utilisez ces détails API de DeepSeek V4 Pro pour la première requête :

Champ Valeur
ID du modèle deepseek/deepseek-v4-pro
URL de base https://api.novita.ai/openai
Fenêtre de contexte 1 048 576 tokens
Sortie maximale 393 216 tokens
Entrées Texte
Sortie Texte
Support serverless Pris en charge
Appel de fonction Pris en charge
Sortie structurée Pris en charge
Raisonnement Pris en charge
Compatibilité API Anthropic Pris en charge
Quantification FP8

Consultez la documentation du modèle DeepSeek V4 Pro avant de déployer, car la disponibilité, la tarification, le contexte et les champs de support peuvent changer.

Étape 2 : Configurer la requête

Commencez par une petite requête textuelle uniquement. Une fois l’authentification et le routage fonctionnels, élargissez vers l’invite plus longue que vous prévoyez d’utiliser.

Pour une requête de raisonnement long‑contexte, structurez l’invite afin que le modèle puisse distinguer les instructions des preuves :

  • Placez les règles de comportement stables dans le message système.
  • Placez la tâche, le format de sortie attendu et les contraintes en haut du message utilisateur.
  • Étiquetez les grands blocs de preuves avec des noms clairs tels que Résumé du dépôt, Fichiers modifiés, Journaux ou Extraits sources.
  • Demandez au modèle de citer les étiquettes de preuves ou les noms de fichiers lorsque la sortie doit être auditée.
  • Plafonnez la sortie avec max_tokens afin qu’un test ne puisse pas générer plus de texte que votre produit ne peut en gérer.

Si vous utilisez l’appel de fonction ou la sortie structurée, testez ces fonctionnalités après qu’une simple complétion de chat fonctionne. Les longues invites de raisonnement peuvent produire plus de texte que prévu, alors définissez la forme finale de la réponse et validez‑la avant d’utiliser la réponse.

Étape 3 : Lire la réponse spécifique à la fonctionnalité

Dans une réponse de complétion de chat compatible OpenAI, la réponse principale est généralement renvoyée à :

choices[0].message.content

Pour les requêtes long‑contexte, la gestion de la réponse doit faire plus que simplement afficher la réponse. Stockez suffisamment de métadonnées pour déboguer les échecs et estimer le coût :

  • ID du modèle utilisé.
  • Taille de l’invite ou estimation du nombre de tokens.
  • Taille de la sortie.
  • Indication si le contexte en cache a été utilisé.
  • ID de trace de l’application ou ID de requête si disponible.
  • Version du modèle d’invite.
  • Version du paquet source ou requête de recherche utilisée pour assembler le contexte.

Lorsque la réponse est censée être un JSON structuré, validez‑la avant d’agir. Si la réponse échoue à la validation, réessayez avec un ensemble de preuves plus petit, un schéma plus simple ou des instructions de formatage plus strictes.

Étape 4 : Tester les cas d’échec

Avant d’utiliser DeepSeek V4 Pro avec de vrais utilisateurs, testez les chemins les plus susceptibles d’échouer :

  • Clé API manquante.
  • Mauvais ID de modèle.
  • Invite assemblée au‑delà de la limite de contexte.
  • Plafond de sortie trop petit pour la tâche demandée.
  • Invite incluant des preuves non pertinentes qui modifient la réponse.
  • La sortie structurée échoue à la validation.
  • Les arguments d’appel d’outil sont incomplets ou dangereux.
  • Les tentatives de répétition dupliquent une action visible par l’utilisateur.

Pour les applications agentiques, gardez le raisonnement du modèle séparé de l’exécution des actions. Le modèle peut proposer un appel d’outil, mais votre serveur doit valider les arguments, les permissions et l’idempotence avant d’exécuter quoi que ce soit.

Champs de démarrage rapide de l’API

Champ Valeur
Nom du modèle DeepSeek V4 Pro
ID du modèle deepseek/deepseek-v4-pro
URL de base https://api.novita.ai/openai
URL des complétions de chat https://api.novita.ai/openai/v1/chat/completions
Modalité d’entrée Texte
Modalité de sortie Texte
Fenêtre de contexte 1 048 576 tokens
Sortie maximale 393 216 tokens
Tarification actuelle en entrée 1,60 $ par million de tokens
Tarification actuelle en lecture cache 0,135 $ par million de tokens
Tarification actuelle en sortie 3,20 $ par million de tokens

La tarification ci‑dessus provient de la page actuelle du modèle, et non des anciens tarifs du blog de DeepSeek. Revérifiez la documentation du modèle DeepSeek V4 Pro avant le déploiement.

Exemple Python

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai/v1",
)

contexte = """
Résumé du dépôt :
- Le service valide les requêtes API et écrit des événements d'audit.
- Un changement récent a ajouté une logique de réessai asynchrone.

Problème :
- Certaines tentatives de réessai dupliquent les événements d'audit.

Journaux pertinents :
- request_id=abc123 retry=1 audit_event_created=true
- request_id=abc123 retry=2 audit_event_created=true
"""

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-pro",
    messages=[
        {
            "role": "system",
            "content": "Vous analysez un long contexte technique et fournissez des conseils d'ingénierie concis.",
        },
        {
            "role": "user",
            "content": (
                "Identifiez le risque d'implémentation probable et proposez un correctif. "
                "Utilisez uniquement les preuves ci‑dessous.\n\n"
                f"{contexte}"
            ),
        },
    ],
    temperature=0.2,
    max_tokens=800,
)

Envoyer la requête avec cURL

payload='{
  "model": "deepseek/deepseek-v4-pro",
  "messages": [
    {
      "role": "system",
      "content": "Vous analysez un long contexte technique et fournissez des conseils d'ingénierie concis."
    },
    {
      "role": "user",
      "content": "Identifiez le risque d'implémentation probable et proposez un correctif. Utilisez uniquement ces preuves : la tentative de réessai 1 a créé un événement d'audit ; la tentative de réessai 2 a également créé un événement d'audit pour le même request_id."
    }
  ],
  "temperature": 0.2,
  "max_tokens": 800
}'

curl --request POST "https://api.novita.ai/openai/v1/chat/completions" \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data "$payload"

Bonnes pratiques

Garder le contexte organisé

Une fenêtre de contexte de 1M de tokens fonctionne mieux lorsque l’entrée est étiquetée et filtrée. Séparez les fichiers sources, les journaux, les exigences et les instructions de tâche. Si vous collez un grand bloc de texte non différencié, le modèle aura moins de structure à suivre et votre équipe aura moins de capacité à déboguer la réponse.

Utiliser la recherche avant les invites plein‑contexte

Le long contexte ne doit pas remplacer la discipline de recherche. Utilisez la recherche, le classement ou le filtrage basé sur des règles pour supprimer les éléments non pertinents avant d’assembler l’invite. Réservez la grande fenêtre de contexte pour les informations qui doivent vraiment rester ensemble.

Plafonner la sortie pendant les tests

La sortie maximale est de 393 216 tokens, mais la plupart des applications devraient commencer avec des plafonds beaucoup plus petits. Augmentez max_tokens uniquement lorsque le produit a réellement besoin d’une sortie générée longue et que votre interface utilisateur, votre stockage et vos contrôles de coûts peuvent la gérer.

Valider les sorties structurées

Si la réponse déclenche une action de l’application, demandez une réponse structurée finale et validez‑la côté serveur. Par exemple, exigez des champs tels que risk_summary, evidence, recommended_fix et confidence, puis rejetez ou réessayez les réponses qui ne correspondent pas au schéma.

Traiter les appels d’outils comme des propositions

La page actuelle du modèle mentionne la prise en charge de l’appel de fonction. Traitez un appel de fonction comme une action proposée jusqu’à ce que votre application valide les permissions, les arguments, les limites de débit et les effets secondaires.

Notes sur la tarification et les limites

La tarification actuelle de DeepSeek V4 Pro sur Novita AI est :

Type de token Prix
Entrée 1,60 $ par million de tokens
Lecture cache 0,135 $ par million de tokens
Sortie 3,20 $ par million de tokens

La fenêtre de contexte est actuellement de 1 048 576 tokens et la sortie maximale est actuellement de 393 216 tokens. Les grandes requêtes sont possibles, mais elles nécessitent des contrôles clairs des coûts et de la taille de la réponse.

Pour estimer les coûts, calculez :

  • Nombre moyen de tokens d’entrée par requête.
  • Pourcentage de requêtes utilisant le contexte en cache.
  • Nombre moyen de tokens de sortie par requête.
  • Taux de nouvelle tentative.
  • Nombre de tentatives de réparation d’appel d’outil ou de sortie structurée.
  • Si les longues invites incluent des preuves non pertinentes qui devraient être filtrées.

N’utilisez pas les anciens tarifs du blog de DeepSeek pour une estimation actuelle des coûts. Utilisez la page du modèle en direct ou la dernière source de tarification de la plateforme avant de publier un budget, une estimation de facture ou une comparaison orientée client.

FAQ

DeepSeek V4 Pro prend‑il en charge le raisonnement long‑contexte sur Novita AI ?

Oui. La page actuelle du modèle Novita AI liste DeepSeek V4 Pro avec une fenêtre de contexte de 1 048 576 tokens et une prise en charge du raisonnement.

Quel est l’ID du modèle pour DeepSeek V4 Pro ?

Utilisez deepseek/deepseek-v4-pro.

Quels paramètres contrôlent la requête ?

Pour le chemin de démarrage rapide, utilisez model, messages, temperature et max_tokens. Une fois la requête de base fonctionnelle, testez tools pour l’appel de fonction ou un format de réponse structuré si votre application en a besoin.

Le raisonnement long‑contexte affecte‑t‑il la tarification ou la longueur de la sortie ?

Les invites plus longues augmentent le coût d’entrée, et les réponses plus longues augmentent le coût de sortie. La tarification actuelle est de 1,60 $ par million de tokens d’entrée, 0,135 $ par million de tokens de lecture cache et 3,20 $ par million de tokens de sortie.

Quand dois‑je éviter DeepSeek V4 Pro ?

Évitez‑le lorsque la tâche n’a pas besoin d’un grand contexte textuel, lorsqu’une invite plus petite peut répondre à la question, ou lorsque l’application nécessite une entrée image ou vidéo. DeepSeek V4 Pro est actuellement listé comme entrée texte et sortie texte.

L’ancienne tarification du blog DeepSeek est‑elle toujours valable ?

Utilisez la tarification de la page actuelle du modèle pour la planification des coûts. Les anciens tarifs du blog peuvent ne plus correspondre à la page du modèle en direct.