- Was Long-Context Reasoning bewirkt
- Wann DeepSeek V4 Pro verwenden
- Schritt 1: Funktionsunterstützung auf Novita AI bestätigen
- Schritt 2: Die Anfrage konfigurieren
- Schritt 3: Die funktionsspezifische Antwort lesen
- Schritt 4: Fehlerfälle testen
- API-Schnellstartfelder
- Python-Beispiel
- Die Anfrage mit cURL senden
- Best Practices
- Preis- und Grenzhinweise
- FAQ
DeepSeek V4 Pro ist auf Novita AI mit der Modell-ID deepseek/deepseek-v4-pro, einem Kontextfenster von 1.048.576 Token, einer maximalen Ausgabeeinstellung von 393.216 Token und aktuellen Modellseitenpreisen von 1,60 $ für Eingabe, 0,135 $ für Cache-Lesen und 3,20 $ für Ausgabe pro 1 Mio. Token verfügbar. Verwenden Sie diese Werte, wenn Sie Long-Context Reasoning oder Codierungsaufgaben testen, nicht ältere Preise aus der Startberichterstattung.
Was Long-Context Reasoning bewirkt
Long-Context Reasoning ermöglicht es einer Anwendung, mehr Arbeit in eine einzige Anfrage zu packen: Quelldateien, Logs, abgerufene Dokumente, Richtlinientexte, Konversationsverlauf, Testfehler, Architekturnotizen oder eine Mischung verwandter Materialien. Das gibt dem Modell mehr Kontext zur Bearbeitung, als ein kurzer Prompt oder ein kleines Retrieval-Ergebnis bieten kann.
Auf Novita AI zeigt die DeepSeek V4 Pro Modellseite ein Kontextfenster von 1.048.576 Token und Reasoning-Unterstützung. Das macht es geeignet für Code-Analyse auf Repository-Ebene, Synthese mehrerer Dokumente, Agentenplanung und Debugging-Aufgaben, die mehr Kontext benötigen, als ein kurzer Chat-Prompt liefern kann.
Das Kontextfenster ist nur ein Teil der Arbeit. Sie müssen den Prompt dennoch organisieren, die Ausgabe begrenzen, die Kosten schätzen, Antworten validieren und entscheiden, was passiert, wenn eine Anfrage fehlschlägt.
Wann DeepSeek V4 Pro verwenden
Verwenden Sie DeepSeek V4 Pro, wenn die Antwort von einer großen Textmenge abhängt und Sie dieses Material in einer einzigen Anfrage behalten möchten. Beispiele:
- Überprüfen einer dateiübergreifenden Codeänderung mit umgebendem Implementierungskontext.
- Zusammenfassen eines langen technischen Dokuments und Extrahieren von Aktionspunkten.
- Vergleichen von Logs, Tickets und Codeausschnitten bei einer Debugging-Aufgabe.
- Ausführen eines Agentenschritts, der Planungskontext und Tool-Ergebnisse benötigt.
- Erzeugen strukturierter Ausgabe aus einem großen Beweispaket.
Machen Sie nicht jede Anfrage standardmäßig zu einer 1M-Kontext-Anfrage. Wenn ein kurzer Prompt oder ein kleines Retrieval-Ergebnis die Frage beantworten kann, ist dieser Pfad einfacher zu testen, günstiger auszuführen und weniger wahrscheinlich, irrelevantes Material einzubeziehen.
DeepSeek V4 Pro ist auf der aktuellen Novita-Modellseite für Texteingabe und Textausgabe. Für Bild- oder Videoeingaben wählen Sie ein Modell mit multimodaler Anforderungsunterstützung, anstatt multimodale Inhalte in diesen Anforderungspfad zu erzwingen.
Schritt 1: Funktionsunterstützung auf Novita AI bestätigen
Die verifizierte DeepSeek V4 Pro Modell-ID lautet:
deepseek/deepseek-v4-pro
Verwenden Sie die OpenAI-kompatible Basis-URL von Novita AI:
https://api.novita.ai/openai
Für Chat-Completions senden Sie Anfragen an:
https://api.novita.ai/openai/v1/chat/completions
Verwenden Sie diese DeepSeek V4 Pro API-Details für die erste Anfrage:
| Feld | Wert |
| Modell-ID | deepseek/deepseek-v4-pro |
| Basis-URL | https://api.novita.ai/openai |
| Kontextfenster | 1.048.576 Token |
| Maximale Ausgabe | 393.216 Token |
| Eingaben | Text |
| Ausgabe | Text |
| Serverless-Unterstützung | Unterstützt |
| Function Calling | Unterstützt |
| Structured Output | Unterstützt |
| Reasoning | Unterstützt |
| Anthropic-API-Kompatibilität | Unterstützt |
| Quantisierung | FP8 |
Überprüfen Sie die DeepSeek V4 Pro Modelldokumentation, bevor Sie ausliefern, da Verfügbarkeit, Preise, Kontext und Unterstützungsfelder sich ändern können.
Schritt 2: Die Anfrage konfigurieren
Beginnen Sie mit einer kleinen, reinen Textanfrage. Sobald Authentifizierung und Routing funktionieren, erweitern Sie auf den längeren Prompt, den Sie tatsächlich verwenden möchten.
Strukturieren Sie für eine Long-Context Reasoning-Anfrage den Prompt so, dass das Modell Anweisungen von Beweisen unterscheiden kann:
- Platzieren Sie stabile Verhaltensregeln in der Systemnachricht.
- Platzieren Sie die Aufgabe, das erwartete Ausgabeformat und die Einschränkungen am Anfang der Benutzernachricht.
- Kennzeichnen Sie große Beweisblöcke mit klaren Namen wie “Repository-Zusammenfassung”, “Geänderte Dateien”, “Logs” oder “Quellcode-Auszüge”.
- Bitten Sie das Modell, Beweisbezeichnungen oder Dateinamen zu zitieren, wenn die Ausgabe überprüfbar sein muss.
- Begrenzen Sie die Ausgabe mit
max_tokens, damit ein Test nicht mehr Text erzeugt, als Ihr Produkt verarbeiten kann.
Wenn Sie Function Calling oder Structured Output verwenden, testen Sie diese Funktionen, nachdem eine einfache Chat-Completion funktioniert. Lange Reasoning-Prompts können mehr Text erzeugen als erwartet. Definieren Sie daher die endgültige Antwortform und validieren Sie sie, bevor Sie die Antwort verwenden.
Schritt 3: Die funktionsspezifische Antwort lesen
In einer OpenAI-kompatiblen Chat-Completion-Antwort wird die Hauptantwort normalerweise zurückgegeben unter:
choices[0].message.content
Bei Long-Context-Anfragen sollte die Antwortverarbeitung mehr tun, als die Antwort auszugeben. Speichern Sie genügend Metadaten, um Fehler zu beheben und Kosten zu schätzen:
- Verwendete Modell-ID.
- Prompt-Größe oder Tokenschätzung.
- Ausgabegröße.
- Ob zwischengespeicherter Kontext verwendet wurde.
- Anwendungs-Trace-ID oder Anforderungs-ID, falls verfügbar.
- Prompt-Vorlagenversion.
- Quellpaketversion oder Retrieval-Abfrage, die zum Zusammenstellen des Kontexts verwendet wurde.
Wenn die Antwort strukturiertes JSON sein soll, validieren Sie sie, bevor Sie darauf reagieren. Wenn die Antwort die Validierung nicht besteht, wiederholen Sie den Vorgang mit einem kleineren Beweissatz, einem einfacheren Schema oder strengeren Formatierungsanweisungen.
Schritt 4: Fehlerfälle testen
Bevor Sie DeepSeek V4 Pro mit echten Benutzern verwenden, testen Sie die Pfade, die am wahrscheinlichsten fehlschlagen:
- Fehlender API-Schlüssel.
- Falsche Modell-ID.
- Prompt, der die Kontextgrenze überschreitet.
- Ausgabebegrenzung zu klein für die angeforderte Aufgabe.
- Prompt enthält irrelevante Beweise, die die Antwort ändern.
- Structured Output schlägt bei der Validierung fehl.
- Tool-Call-Argumente sind unvollständig oder unsicher.
- Wiederholungen duplizieren eine benutzersichtbare Aktion.
Bei agentischen Anwendungen halten Sie Modellreasoning und Aktionsausführung getrennt. Das Modell kann einen Tool-Call vorschlagen, aber Ihr Server sollte Argumente, Berechtigungen und Idempotenz validieren, bevor etwas ausgeführt wird.
API-Schnellstartfelder
| Feld | Wert |
| Modellname | DeepSeek V4 Pro |
| Modell-ID | deepseek/deepseek-v4-pro |
| Basis-URL | https://api.novita.ai/openai |
| Chat-Completions-URL | https://api.novita.ai/openai/v1/chat/completions |
| Eingabemodalität | Text |
| Ausgabemodalität | Text |
| Kontextfenster | 1.048.576 Token |
| Maximale Ausgabe | 393.216 Token |
| Aktueller Eingabepreis | 1,60 $ pro 1 Mio. Token |
| Aktueller Cache-Lese-Preis | 0,135 $ pro 1 Mio. Token |
| Aktueller Ausgabepreis | 3,20 $ pro 1 Mio. Token |
Die oben genannten Preise stammen von der aktuellen Modellseite, nicht von älteren DeepSeek-Blogpreisen. Überprüfen Sie vor dem Rollout die DeepSeek V4 Pro Modelldokumentation erneut.
Python-Beispiel
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["NOVITA_API_KEY"],
base_url="https://api.novita.ai/openai/v1",
)
context = """
Repository summary:
- The service validates API requests and writes audit events.
- A recent change added asynchronous retry logic.
Issue:
- Some retry attempts duplicate audit events.
Relevant logs:
- request_id=abc123 retry=1 audit_event_created=true
- request_id=abc123 retry=2 audit_event_created=true
"""
response = client.chat.completions.create(
model="deepseek/deepseek-v4-pro",
messages=[
{
"role": "system",
"content": "You analyze long technical context and return concise engineering guidance.",
},
{
"role": "user",
"content": (
"Identify the likely implementation risk and propose a fix. "
"Use only the evidence below.\n\n"
f"{context}"
),
},
],
temperature=0.2,
max_tokens=800,
)
Die Anfrage mit cURL senden
payload='{
"model": "deepseek/deepseek-v4-pro",
"messages": [
{
"role": "system",
"content": "You analyze long technical context and return concise engineering guidance."
},
{
"role": "user",
"content": "Identify the likely implementation risk and propose a fix. Use only this evidence: retry attempt 1 created an audit event; retry attempt 2 also created an audit event for the same request_id."
}
],
"temperature": 0.2,
"max_tokens": 800
}'
curl --request POST "https://api.novita.ai/openai/v1/chat/completions" \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data "$payload"
Best Practices
Kontext organisiert halten
Ein Kontextfenster von 1 Mio. Token funktioniert am besten, wenn die Eingabe beschriftet und gefiltert ist. Trennen Sie Quelldateien, Logs, Anforderungen und Aufgabenanweisungen. Wenn Sie einen großen, undifferenzierten Textblock einfügen, hat das Modell weniger Struktur, der es folgen kann, und Ihr Team hat weniger Möglichkeiten, die Antwort zu debuggen.
Retrieval vor Full-Context-Prompts verwenden
Langer Kontext sollte die Retrieval-Disziplin nicht ersetzen. Verwenden Sie Retrieval, Ranking oder regelbasierte Filterung, um irrelevantes Material zu entfernen, bevor Sie den Prompt zusammenstellen. Heben Sie sich das große Kontextfenster für Informationen auf, die wirklich zusammenhängen müssen.
Ausgabe während Tests begrenzen
Das Feld für die maximale Ausgabe beträgt 393.216 Token, aber die meisten Anwendungen sollten mit viel kleineren Grenzen beginnen. Erhöhen Sie max_tokens nur, wenn das Produkt tatsächlich lange generierte Ausgabe benötigt und Ihre Benutzeroberfläche, Speicherung und Kostenkontrollen damit umgehen können.
Strukturierte Ausgaben validieren
Wenn die Antwort eine Anwendungsaktion auslöst, fordern Sie eine strukturierte endgültige Antwort an und validieren Sie sie serverseitig. Beispielsweise erforderliche Felder wie risk_summary, evidence, recommended_fix und confidence. Lehnen Sie Antworten ab oder wiederholen Sie sie, die nicht dem Schema entsprechen.
Tool-Aufrufe als Vorschläge behandeln
Die aktuelle Modellseite listet Function-Calling-Unterstützung. Behandeln Sie einen Funktionsaufruf als vorgeschlagene Aktion, bis Ihre Anwendung Berechtigungen, Argumente, Ratenlimits und Nebenwirkungen validiert.
Preis- und Grenzhinweise
Aktuelle DeepSeek V4 Pro Preise auf Novita AI:
| Tokentyp | Preis |
| Eingabe | 1,60 $ pro 1 Mio. Token |
| Cache-Lesen | 0,135 $ pro 1 Mio. Token |
| Ausgabe | 3,20 $ pro 1 Mio. Token |
Das Kontextfenster beträgt derzeit 1.048.576 Token, und das Feld für die maximale Ausgabe beträgt derzeit 393.216 Token. Große Anfragen sind möglich, benötigen jedoch klare Kosten- und Ausgabegrößenkontrollen.
Für Kostenschätzungen berechnen Sie:
- Durchschnittliche Eingabe-Token pro Anfrage.
- Prozentsatz der Anfragen, die zwischengespeicherten Kontext verwenden.
- Durchschnittliche Ausgabe-Token pro Anfrage.
- Wiederholungsrate.
- Anzahl der Tool- oder Structured-Output-Reparaturversuche.
- Ob lange Prompts irrelevante Beweise enthalten, die herausgefiltert werden sollten.
Verwenden Sie keine älteren DeepSeek-Blogpreise für eine aktuelle Kostenschätzung. Verwenden Sie die Live-Modellseite oder die neueste Plattform-Preisquelle, bevor Sie ein Budget, eine Rechnungsschätzung oder einen kundenorientierten Vergleich veröffentlichen.
FAQ
Unterstützt DeepSeek V4 Pro Long-Context Reasoning auf Novita AI?
Ja. Die aktuelle Novita AI Modellseite listet DeepSeek V4 Pro mit einem Kontextfenster von 1.048.576 Token und Reasoning-Unterstützung.
Wie lautet die Modell-ID für DeepSeek V4 Pro?
Verwenden Sie deepseek/deepseek-v4-pro.
Welche Parameter steuern die Anfrage?
Für den Schnellstartpfad verwenden Sie model, messages, temperature und max_tokens. Nachdem die grundlegende Anfrage funktioniert, testen Sie tools für Function Calling oder ein strukturiertes Antwortformat, falls Ihre Anwendung diese Funktionen benötigt.
Beeinflusst Long-Context Reasoning die Preisgestaltung oder die Ausgabelänge?
Längere Prompts erhöhen die Eingabekosten, und längere Antworten erhöhen die Ausgabekosten. Die aktuellen Preise betragen 1,60 $ pro 1 Mio. Eingabe-Token, 0,135 $ pro 1 Mio. Cache-Lese-Token und 3,20 $ pro 1 Mio. Ausgabe-Token.
Wann sollte ich DeepSeek V4 Pro vermeiden?
Vermeiden Sie es, wenn die Aufgabe keinen großen Textkontext benötigt, wenn ein kleinerer Prompt die Frage beantworten kann, oder wenn die Anwendung Bild- oder Videoeingabe benötigt. DeepSeek V4 Pro wird derzeit als Texteingabe und Textausgabe gelistet.
Sind die älteren DeepSeek-Blogpreise noch gültig?
Verwenden Sie die aktuellen Preise der Modellseite für die Kostenplanung. Ältere Blogpreise entsprechen möglicherweise nicht mehr der Live-Modellseite.
