DeepSeek V4 Pro Long-Context Reasoning: Entwicklerhandbuch

DeepSeek V4 Pro Long-Context Reasoning: Entwicklerhandbuch

DeepSeek V4 Pro ist auf Novita AI mit der Modell-ID deepseek/deepseek-v4-pro, einem Kontextfenster von 1.048.576 Token, einer maximalen Ausgabeeinstellung von 393.216 Token und aktuellen Modellseitenpreisen von 1,60 $ für Eingabe, 0,135 $ für Cache-Lesen und 3,20 $ für Ausgabe pro 1 Mio. Token verfügbar. Verwenden Sie diese Werte, wenn Sie Long-Context Reasoning oder Codierungsaufgaben testen, nicht ältere Preise aus der Startberichterstattung.

Was Long-Context Reasoning bewirkt

Long-Context Reasoning ermöglicht es einer Anwendung, mehr Arbeit in eine einzige Anfrage zu packen: Quelldateien, Logs, abgerufene Dokumente, Richtlinientexte, Konversationsverlauf, Testfehler, Architekturnotizen oder eine Mischung verwandter Materialien. Das gibt dem Modell mehr Kontext zur Bearbeitung, als ein kurzer Prompt oder ein kleines Retrieval-Ergebnis bieten kann.

Auf Novita AI zeigt die DeepSeek V4 Pro Modellseite ein Kontextfenster von 1.048.576 Token und Reasoning-Unterstützung. Das macht es geeignet für Code-Analyse auf Repository-Ebene, Synthese mehrerer Dokumente, Agentenplanung und Debugging-Aufgaben, die mehr Kontext benötigen, als ein kurzer Chat-Prompt liefern kann.

Das Kontextfenster ist nur ein Teil der Arbeit. Sie müssen den Prompt dennoch organisieren, die Ausgabe begrenzen, die Kosten schätzen, Antworten validieren und entscheiden, was passiert, wenn eine Anfrage fehlschlägt.

Wann DeepSeek V4 Pro verwenden

Verwenden Sie DeepSeek V4 Pro, wenn die Antwort von einer großen Textmenge abhängt und Sie dieses Material in einer einzigen Anfrage behalten möchten. Beispiele:

  • Überprüfen einer dateiübergreifenden Codeänderung mit umgebendem Implementierungskontext.
  • Zusammenfassen eines langen technischen Dokuments und Extrahieren von Aktionspunkten.
  • Vergleichen von Logs, Tickets und Codeausschnitten bei einer Debugging-Aufgabe.
  • Ausführen eines Agentenschritts, der Planungskontext und Tool-Ergebnisse benötigt.
  • Erzeugen strukturierter Ausgabe aus einem großen Beweispaket.

Machen Sie nicht jede Anfrage standardmäßig zu einer 1M-Kontext-Anfrage. Wenn ein kurzer Prompt oder ein kleines Retrieval-Ergebnis die Frage beantworten kann, ist dieser Pfad einfacher zu testen, günstiger auszuführen und weniger wahrscheinlich, irrelevantes Material einzubeziehen.

DeepSeek V4 Pro ist auf der aktuellen Novita-Modellseite für Texteingabe und Textausgabe. Für Bild- oder Videoeingaben wählen Sie ein Modell mit multimodaler Anforderungsunterstützung, anstatt multimodale Inhalte in diesen Anforderungspfad zu erzwingen.

Schritt 1: Funktionsunterstützung auf Novita AI bestätigen

Die verifizierte DeepSeek V4 Pro Modell-ID lautet:

deepseek/deepseek-v4-pro

Verwenden Sie die OpenAI-kompatible Basis-URL von Novita AI:

https://api.novita.ai/openai

Für Chat-Completions senden Sie Anfragen an:

https://api.novita.ai/openai/v1/chat/completions

Verwenden Sie diese DeepSeek V4 Pro API-Details für die erste Anfrage:

Feld Wert
Modell-ID deepseek/deepseek-v4-pro
Basis-URL https://api.novita.ai/openai
Kontextfenster 1.048.576 Token
Maximale Ausgabe 393.216 Token
Eingaben Text
Ausgabe Text
Serverless-Unterstützung Unterstützt
Function Calling Unterstützt
Structured Output Unterstützt
Reasoning Unterstützt
Anthropic-API-Kompatibilität Unterstützt
Quantisierung FP8

Überprüfen Sie die DeepSeek V4 Pro Modelldokumentation, bevor Sie ausliefern, da Verfügbarkeit, Preise, Kontext und Unterstützungsfelder sich ändern können.

Schritt 2: Die Anfrage konfigurieren

Beginnen Sie mit einer kleinen, reinen Textanfrage. Sobald Authentifizierung und Routing funktionieren, erweitern Sie auf den längeren Prompt, den Sie tatsächlich verwenden möchten.

Strukturieren Sie für eine Long-Context Reasoning-Anfrage den Prompt so, dass das Modell Anweisungen von Beweisen unterscheiden kann:

  • Platzieren Sie stabile Verhaltensregeln in der Systemnachricht.
  • Platzieren Sie die Aufgabe, das erwartete Ausgabeformat und die Einschränkungen am Anfang der Benutzernachricht.
  • Kennzeichnen Sie große Beweisblöcke mit klaren Namen wie “Repository-Zusammenfassung”, “Geänderte Dateien”, “Logs” oder “Quellcode-Auszüge”.
  • Bitten Sie das Modell, Beweisbezeichnungen oder Dateinamen zu zitieren, wenn die Ausgabe überprüfbar sein muss.
  • Begrenzen Sie die Ausgabe mit max_tokens, damit ein Test nicht mehr Text erzeugt, als Ihr Produkt verarbeiten kann.

Wenn Sie Function Calling oder Structured Output verwenden, testen Sie diese Funktionen, nachdem eine einfache Chat-Completion funktioniert. Lange Reasoning-Prompts können mehr Text erzeugen als erwartet. Definieren Sie daher die endgültige Antwortform und validieren Sie sie, bevor Sie die Antwort verwenden.

Schritt 3: Die funktionsspezifische Antwort lesen

In einer OpenAI-kompatiblen Chat-Completion-Antwort wird die Hauptantwort normalerweise zurückgegeben unter:

choices[0].message.content

Bei Long-Context-Anfragen sollte die Antwortverarbeitung mehr tun, als die Antwort auszugeben. Speichern Sie genügend Metadaten, um Fehler zu beheben und Kosten zu schätzen:

  • Verwendete Modell-ID.
  • Prompt-Größe oder Tokenschätzung.
  • Ausgabegröße.
  • Ob zwischengespeicherter Kontext verwendet wurde.
  • Anwendungs-Trace-ID oder Anforderungs-ID, falls verfügbar.
  • Prompt-Vorlagenversion.
  • Quellpaketversion oder Retrieval-Abfrage, die zum Zusammenstellen des Kontexts verwendet wurde.

Wenn die Antwort strukturiertes JSON sein soll, validieren Sie sie, bevor Sie darauf reagieren. Wenn die Antwort die Validierung nicht besteht, wiederholen Sie den Vorgang mit einem kleineren Beweissatz, einem einfacheren Schema oder strengeren Formatierungsanweisungen.

Schritt 4: Fehlerfälle testen

Bevor Sie DeepSeek V4 Pro mit echten Benutzern verwenden, testen Sie die Pfade, die am wahrscheinlichsten fehlschlagen:

  • Fehlender API-Schlüssel.
  • Falsche Modell-ID.
  • Prompt, der die Kontextgrenze überschreitet.
  • Ausgabebegrenzung zu klein für die angeforderte Aufgabe.
  • Prompt enthält irrelevante Beweise, die die Antwort ändern.
  • Structured Output schlägt bei der Validierung fehl.
  • Tool-Call-Argumente sind unvollständig oder unsicher.
  • Wiederholungen duplizieren eine benutzersichtbare Aktion.

Bei agentischen Anwendungen halten Sie Modellreasoning und Aktionsausführung getrennt. Das Modell kann einen Tool-Call vorschlagen, aber Ihr Server sollte Argumente, Berechtigungen und Idempotenz validieren, bevor etwas ausgeführt wird.

API-Schnellstartfelder

Feld Wert
Modellname DeepSeek V4 Pro
Modell-ID deepseek/deepseek-v4-pro
Basis-URL https://api.novita.ai/openai
Chat-Completions-URL https://api.novita.ai/openai/v1/chat/completions
Eingabemodalität Text
Ausgabemodalität Text
Kontextfenster 1.048.576 Token
Maximale Ausgabe 393.216 Token
Aktueller Eingabepreis 1,60 $ pro 1 Mio. Token
Aktueller Cache-Lese-Preis 0,135 $ pro 1 Mio. Token
Aktueller Ausgabepreis 3,20 $ pro 1 Mio. Token

Die oben genannten Preise stammen von der aktuellen Modellseite, nicht von älteren DeepSeek-Blogpreisen. Überprüfen Sie vor dem Rollout die DeepSeek V4 Pro Modelldokumentation erneut.

Python-Beispiel

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai/v1",
)

context = """
Repository summary:
- The service validates API requests and writes audit events.
- A recent change added asynchronous retry logic.

Issue:
- Some retry attempts duplicate audit events.

Relevant logs:
- request_id=abc123 retry=1 audit_event_created=true
- request_id=abc123 retry=2 audit_event_created=true
"""

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-pro",
    messages=[
        {
            "role": "system",
            "content": "You analyze long technical context and return concise engineering guidance.",
        },
        {
            "role": "user",
            "content": (
                "Identify the likely implementation risk and propose a fix. "
                "Use only the evidence below.\n\n"
                f"{context}"
            ),
        },
    ],
    temperature=0.2,
    max_tokens=800,
)

Die Anfrage mit cURL senden

payload='{
  "model": "deepseek/deepseek-v4-pro",
  "messages": [
    {
      "role": "system",
      "content": "You analyze long technical context and return concise engineering guidance."
    },
    {
      "role": "user",
      "content": "Identify the likely implementation risk and propose a fix. Use only this evidence: retry attempt 1 created an audit event; retry attempt 2 also created an audit event for the same request_id."
    }
  ],
  "temperature": 0.2,
  "max_tokens": 800
}'

curl --request POST "https://api.novita.ai/openai/v1/chat/completions" \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data "$payload"

Best Practices

Kontext organisiert halten

Ein Kontextfenster von 1 Mio. Token funktioniert am besten, wenn die Eingabe beschriftet und gefiltert ist. Trennen Sie Quelldateien, Logs, Anforderungen und Aufgabenanweisungen. Wenn Sie einen großen, undifferenzierten Textblock einfügen, hat das Modell weniger Struktur, der es folgen kann, und Ihr Team hat weniger Möglichkeiten, die Antwort zu debuggen.

Retrieval vor Full-Context-Prompts verwenden

Langer Kontext sollte die Retrieval-Disziplin nicht ersetzen. Verwenden Sie Retrieval, Ranking oder regelbasierte Filterung, um irrelevantes Material zu entfernen, bevor Sie den Prompt zusammenstellen. Heben Sie sich das große Kontextfenster für Informationen auf, die wirklich zusammenhängen müssen.

Ausgabe während Tests begrenzen

Das Feld für die maximale Ausgabe beträgt 393.216 Token, aber die meisten Anwendungen sollten mit viel kleineren Grenzen beginnen. Erhöhen Sie max_tokens nur, wenn das Produkt tatsächlich lange generierte Ausgabe benötigt und Ihre Benutzeroberfläche, Speicherung und Kostenkontrollen damit umgehen können.

Strukturierte Ausgaben validieren

Wenn die Antwort eine Anwendungsaktion auslöst, fordern Sie eine strukturierte endgültige Antwort an und validieren Sie sie serverseitig. Beispielsweise erforderliche Felder wie risk_summary, evidence, recommended_fix und confidence. Lehnen Sie Antworten ab oder wiederholen Sie sie, die nicht dem Schema entsprechen.

Tool-Aufrufe als Vorschläge behandeln

Die aktuelle Modellseite listet Function-Calling-Unterstützung. Behandeln Sie einen Funktionsaufruf als vorgeschlagene Aktion, bis Ihre Anwendung Berechtigungen, Argumente, Ratenlimits und Nebenwirkungen validiert.

Preis- und Grenzhinweise

Aktuelle DeepSeek V4 Pro Preise auf Novita AI:

Tokentyp Preis
Eingabe 1,60 $ pro 1 Mio. Token
Cache-Lesen 0,135 $ pro 1 Mio. Token
Ausgabe 3,20 $ pro 1 Mio. Token

Das Kontextfenster beträgt derzeit 1.048.576 Token, und das Feld für die maximale Ausgabe beträgt derzeit 393.216 Token. Große Anfragen sind möglich, benötigen jedoch klare Kosten- und Ausgabegrößenkontrollen.

Für Kostenschätzungen berechnen Sie:

  • Durchschnittliche Eingabe-Token pro Anfrage.
  • Prozentsatz der Anfragen, die zwischengespeicherten Kontext verwenden.
  • Durchschnittliche Ausgabe-Token pro Anfrage.
  • Wiederholungsrate.
  • Anzahl der Tool- oder Structured-Output-Reparaturversuche.
  • Ob lange Prompts irrelevante Beweise enthalten, die herausgefiltert werden sollten.

Verwenden Sie keine älteren DeepSeek-Blogpreise für eine aktuelle Kostenschätzung. Verwenden Sie die Live-Modellseite oder die neueste Plattform-Preisquelle, bevor Sie ein Budget, eine Rechnungsschätzung oder einen kundenorientierten Vergleich veröffentlichen.

FAQ

Unterstützt DeepSeek V4 Pro Long-Context Reasoning auf Novita AI?

Ja. Die aktuelle Novita AI Modellseite listet DeepSeek V4 Pro mit einem Kontextfenster von 1.048.576 Token und Reasoning-Unterstützung.

Wie lautet die Modell-ID für DeepSeek V4 Pro?

Verwenden Sie deepseek/deepseek-v4-pro.

Welche Parameter steuern die Anfrage?

Für den Schnellstartpfad verwenden Sie model, messages, temperature und max_tokens. Nachdem die grundlegende Anfrage funktioniert, testen Sie tools für Function Calling oder ein strukturiertes Antwortformat, falls Ihre Anwendung diese Funktionen benötigt.

Beeinflusst Long-Context Reasoning die Preisgestaltung oder die Ausgabelänge?

Längere Prompts erhöhen die Eingabekosten, und längere Antworten erhöhen die Ausgabekosten. Die aktuellen Preise betragen 1,60 $ pro 1 Mio. Eingabe-Token, 0,135 $ pro 1 Mio. Cache-Lese-Token und 3,20 $ pro 1 Mio. Ausgabe-Token.

Wann sollte ich DeepSeek V4 Pro vermeiden?

Vermeiden Sie es, wenn die Aufgabe keinen großen Textkontext benötigt, wenn ein kleinerer Prompt die Frage beantworten kann, oder wenn die Anwendung Bild- oder Videoeingabe benötigt. DeepSeek V4 Pro wird derzeit als Texteingabe und Textausgabe gelistet.

Sind die älteren DeepSeek-Blogpreise noch gültig?

Verwenden Sie die aktuellen Preise der Modellseite für die Kostenplanung. Ältere Blogpreise entsprechen möglicherweise nicht mehr der Live-Modellseite.