So verwenden Sie DeepSeek V4 Flash in Claude Code über Novita AI

So verwenden Sie DeepSeek V4 Flash in Claude Code über Novita AI

DeepSeek V4 Flash ist ein 284B MoE-Modell mit einem 1-Millionen-Token-Kontextfenster, verfügbar über den Anthropic-kompatiblen Endpunkt von Novita AI. Das bedeutet, dass Claude Code es direkt mit einer Änderung von drei Umgebungsvariablen nutzen kann. Mit 0,14 $/M Input-Tokens im Vergleich zu 3 $/M bei Claude Sonnet ist der Kostenunterschied für Teams, die kontinuierliche agentische Codierungssitzungen durchführen, erheblich.

Warum DeepSeek V4 Flash in Claude Code verwenden?

Die Kosteneffizienz ist der offensichtlichste Grund. Claude Code verwendet standardmäßig Claude Sonnet, das mit 3 $/M Input-Tokens und 15 $/M Output-Tokens zu Buche schlägt. DeepSeek V4 Flash auf Novita AI kostet 0,14 $/M Input und 0,28 $/M Output – das entspricht in etwa einer 20-fachen Reduzierung bei Input und einer 50-fachen Reduzierung bei Output. Für ein Team, das Claude Code über einen Acht-Stunden-Arbeitstag hinweg nutzt, summiert sich dieser Unterschied schnell.

Neben den Kosten bringt V4 Flash zwei Fähigkeiten mit, die speziell für agentisches Codieren relevant sind:

  • 1M-Token-Kontextfenster – Claude Code kann eine gesamte Codebasis in den Kontext laden, ohne sie aufteilen zu müssen. Refaktorisierungen über mehrere Dateien, Debugging über Repository-Grenzen hinweg und lange Konversationsverläufe bleiben kohärent, ohne manuelles Kontextmanagement.
  • Auswählbare Reasoning-Modi – Der Non-Think-Modus liefert schnelle Antworten für Standardaufgaben; die Modi Think und Think Max ermöglichen schrittweises Reasoning für komplexe Architekturentscheidungen oder anspruchsvolle Debugging-Sitzungen. Sie wählen pro Sitzung aus, ohne das Modell wechseln zu müssen.

Novita AI stellt einen Anthropic-kompatiblen Endpunkt (/anthropic) bereit, sodass Claude Code ihn als direkten Ersatz behandelt. Keine SDK-Änderungen, kein erforderliches Plugin – nur Umgebungsvariablen.

Was ist DeepSeek V4 Flash?

DeepSeek V4 Flash ist ein Mixture-of-Experts (MoE)-Modell von DeepSeek AI. Es hat 284B Gesamtparameter, aktiviert aber nur 13B pro Durchlauf, was die Latenz und die Kosten pro Token nahe an ein dichtes 13B-Modell bringt, während die Wissenskapazität eines viel größeren Netzwerks erhalten bleibt.

Die wichtigsten technischen Daten auf einen Blick:

Spezifikation Wert
Modell-ID deepseek/deepseek-v4-flash
Gesamtparameter 284B (13B pro Inferenz aktiviert)
Kontextfenster 1.048.576 Tokens
Maximale Output-Tokens 393.216
Input-Preis (Novita AI) 0,14 $/M Tokens
Output-Preis (Novita AI) 0,28 $/M Tokens
Cache-Read-Preis 0,028 $/M Tokens
Reasoning-Modi Non-think, Think, Think Max
Function Calling Ja
Strukturierte Ausgaben Ja
Lizenz MIT

Die drei Reasoning-Modi ermöglichen es Ihnen, Kosten und Qualität pro Sitzung abzustimmen. Der Non-Think-Modus ist schnell und günstig – ideal für wiederholte Code-Gerüste oder die Generierung von Standardcode. Der Think-Modus fügt schrittweises Reasoning für Code-Reviews, Architekturarbeit und Debugging hinzu. Think Max verwendet das maximale Reasoning-Budget und erreicht bei den meisten Code-Benchmarks das Niveau von V4 Pro.

Novita AI bietet das volle 1M-Token-Kontextfenster und zuverlässige Betriebszeit, was es zu einer praktischen Wahl für produktive agentische Workloads macht.

Ihren Novita AI API-Schlüssel abrufen

Melden Sie sich für ein Novita AI-Konto an, um kostenlose Testguthaben zu erhalten. Navigieren Sie nach dem Einloggen zur Seite für die Schlüsselverwaltung und klicken Sie auf Neuen Schlüssel erstellen.

Kopieren Sie den Schlüssel sofort – er wird nicht noch einmal angezeigt. Bewahren Sie ihn in einem Passwort-Manager oder Secrets Store auf; Sie werden ihn im nächsten Schritt benötigen.

Claude Code installieren

Claude Code erfordert Node.js 18 oder höher. Überprüfen Sie zuerst Ihre Version:

node --version

Wenn Node unter 18 ist, aktualisieren Sie es von nodejs.org, bevor Sie fortfahren.

Windows

Öffnen Sie die Eingabeaufforderung und führen Sie Folgendes aus:

npm install -g @anthropic-ai/claude-code

Mac und Linux

Öffnen Sie das Terminal und führen Sie Folgendes aus:

npm install -g @anthropic-ai/claude-code

Die globale Installation macht claude von jedem Verzeichnis aus verfügbar.

Umgebungsvariablen konfigurieren

Diese vier Variablen leiten Claude Code zum Anthropic-kompatiblen Endpunkt von Novita AI um, wobei DeepSeek V4 Flash als aktives Modell verwendet wird.

Windows

set ANTHROPIC_BASE_URL=https://api.novita.ai/anthropic
set ANTHROPIC_AUTH_TOKEN=<Ihr Novita API-Schlüssel>
set ANTHROPIC_MODEL=deepseek/deepseek-v4-flash
set ANTHROPIC_SMALL_FAST_MODEL=deepseek/deepseek-v4-flash

Diese gelten für die aktuelle Eingabeaufforderungs-Sitzung. Um sie dauerhaft zu machen, setzen Sie sie über Systemsteuerung → System → Erweiterte Systemeinstellungen → Umgebungsvariablen.

Mac und Linux

export ANTHROPIC_BASE_URL="https://api.novita.ai/anthropic"
export ANTHROPIC_AUTH_TOKEN="<Ihr Novita API-Schlüssel>"
export ANTHROPIC_MODEL="deepseek/deepseek-v4-flash"
export ANTHROPIC_SMALL_FAST_MODEL="deepseek/deepseek-v4-flash"

Um die Einstellungen über Sitzungen hinweg zu speichern, fügen Sie diese Zeilen zu Ihrer ~/.bashrc, ~/.zshrc oder einem entsprechenden Shell-Profil hinzu.

ANTHROPIC_SMALL_FAST_MODEL steuert das leichte Modell, das Claude Code für schnelle interne Aufgaben wie Dateisuche und Zusammenfassungen verwendet. Wenn Sie es auf dieselbe Modell-ID setzen, bleibt der gesamte Datenverkehr auf einer einzigen Abrechnungslinie und unerwartete Anfragen an die Anthropic-API werden vermieden.

Claude Code starten

Navigieren Sie zu Ihrem Projektverzeichnis und starten Sie Claude Code:

cd <Ihr-Projektverzeichnis>
claude .

Claude Code öffnet eine interaktive Sitzung im aktuellen Verzeichnis. Sie sehen die Eingabeaufforderung, sobald die Verbindung zum Endpunkt von Novita AI hergestellt ist. Beschreiben Sie von hier aus Ihre Aufgabe in natürlicher Sprache – Claude Code liest Ihre Dateien, schlägt Änderungen vor und wendet sie mit Ihrer Zustimmung an.

Arbeiten mit großen Codebasen

Das 1M-Token-Kontextfenster ist der praktischste Vorteil von V4 Flash gegenüber Alternativen mit kleinerem Kontext. Eine typische mittelgroße Produktionscodebasis umfasst 100.000–300.000 Tokens, wenn sie flach dargestellt wird. V4 Flash kann die gesamte Codebasis im Kontext halten, ohne dass eine Aufteilungsstrategie erforderlich ist.

Einige Arbeitsabläufe, die direkt davon profitieren:

Refaktorisierungen über mehrere Dateien hinweg – Bitten Sie Claude Code, ein Datenmodell umzubenennen, einen API-Vertrag zu ändern oder eine Serviceschnittstelle in jeder Datei, die darauf verweist, zu refaktorisieren. Mit einem vollständigen Kontextfenster sieht das Modell alle Abhängigkeiten gleichzeitig, anstatt Datei für Datei.

Lange Debugging-Sitzungen – Wenn eine Debugging-Sitzung Toolaufrufe, Dateilesevorgänge und Reasoning-Spuren ansammelt, kürzen kleinere Kontextfenster den frühen Verlauf. V4 Flash behält die gesamte Sitzung, sodass das Modell über Muster nachdenken kann, die es vor 200 Toolaufrufen gesehen hat.

Repository-weite Überprüfungen – Geben Sie die gesamte Codebasis in den Think- oder Think-Max-Modus von V4 Flash ein und bitten Sie um eine Sicherheitsüberprüfung, Architekturbewertung oder eine Analyse von totem Code. Dies würde ein 128K-Modell schnell erschöpfen; es passt bequem in das Fenster von V4 Flash.

System-Prompt-Overhead – Claude Code verwendet einen detaillierten System-Prompt, der 10.000–20.000 Tokens umfassen kann. Bei einem 128K-Modell ist dieser Overhead signifikant. Bei einem 1M-Fenster ist er vernachlässigbar und lässt fast das gesamte Kontextbudget für den eigentlichen Code übrig.

Für die Kostenkontrolle bei langen Sitzungen erledigt der Non-Think-Modus die Masse der routinemäßigen Dateibearbeitungen zu den niedrigsten Kosten. Wechseln Sie in den Think-Modus, wenn die Aufgabe Design-Reasoning erfordert, und zu Think Max für schwierige algorithmische Probleme oder Debugging-Probleme. Der Novita-Cache-Read-Preis (0,028 $/M) bedeutet, dass wiederholte System-Prompt-Injektionen im großen Maßstab sehr wenig kosten.

Reasoning-Modi pro Sitzung auswählen

DeepSeek V4 Flash unterstützt drei Reasoning-Modi, die Sie pro Sitzung steuern können. Der Non-Think-Modus liefert schnelle, direkte Vervollständigungen – ideal für die Generierung von Standardcode, routinemäßige Bearbeitungen und schnelle Suchvorgänge. Der Think-Modus ermöglicht schrittweises Reasoning für Code-Reviews, Refaktorisierungen und Architekturentscheidungen. Think Max weist das maximale Reasoning-Budget zu und erreicht bei den meisten Code-Benchmarks das Niveau von V4 Pro.

Der einfachste Weg, Claude Code zu tieferem Reasoning zu bewegen, ist ein benutzerdefinierter System-Prompt:

claude --system "Verwenden Sie erweitertes Denken für Architekturentscheidungen und komplexes Debugging."

Für die programmatische Steuerung akzeptiert der Endpunkt von Novita AI den Parameter budget_tokens. Wenn Sie ihn auf 0 setzen, wird das Denken vollständig deaktiviert; jeder positive Wert aktiviert das Denken bis zu diesem Token-Budget. Dies ist in agentischen Pipelines nützlich, in denen nur bestimmte Schritte tiefes Reasoning benötigen:

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.novita.ai/anthropic",
    api_key="<Ihr Novita API-Schlüssel>",
)

# Think Max – maximales Reasoning-Budget für schwierige Probleme
response = client.messages.create(
    model="deepseek/deepseek-v4-flash",
    max_tokens=16000,
    thinking={"type": "enabled", "budget_tokens": 10000},
    messages=[{"role": "user", "content": "Überprüfen Sie diese Funktion auf subtile Concurrency-Fehler."}],
)

Für kostenbewusste Sitzungen starten Sie im Non-Think-Modus und wechseln Sie nur dann zu Think, wenn Sie auf ein Problem stoßen, das dies erfordert. Da der Novita-Cache-Read-Preis 0,028 $/M Tokens beträgt, bleiben wiederholte System-Prompt-Injektionen auch über lange, mehrschrittige Sitzungen hinweg günstig.

Fazit

DeepSeek V4 Flash auf Novita AI gibt Claude Code ein leistungsfähiges, kosteneffizientes Rückgrat – 1M Kontext, auswählbares Reasoning und Function Calling zu einem Bruchteil der Kosten von Claude Sonnet. Die Einrichtung dauert weniger als fünf Minuten. Sobald die Umgebungsvariablen gesetzt sind, läuft Ihr bestehender Claude Code-Workflow unverändert weiter.

Testen Sie DeepSeek V4 Flash auf Novita AI und lesen Sie die Novita AI LLM API Dokumentation für weitere Konfigurationsoptionen.

FAQ

Benötigt Claude Code ein Plugin oder eine Erweiterung, um Novita AI zu nutzen?

Nein. Claude Code liest die Umgebungsvariable ANTHROPIC_BASE_URL beim Start und leitet alle API-Aufrufe dorthin. Es ist kein Plugin, keine Erweiterung und keine Code-Änderung erforderlich – die Umstellung erfolgt vollständig über Umgebungsvariablen.

Werde ich von Anthropic abgerechnet, wenn ich Novita AI verwende?

Nein. Wenn ANTHROPIC_BASE_URL auf Novita AI verweist, erfolgen der gesamte Datenverkehr und die Abrechnung über Ihr Novita AI-Konto. Ihr Anthropic-Konto wird nicht verwendet.

Kann ich ohne Neuinstallation zu Claude Sonnet zurückwechseln?

Ja. Entfernen Sie die Setzung von ANTHROPIC_BASE_URL und ANTHROPIC_MODEL – oder öffnen Sie eine neue Shell ohne diese Exporte – und Claude Code kehrt zum Standard-Anthropic-Endpunkt mit Claude Sonnet zurück.

Ist V4 Flash für automatisierte CI-Pipelines geeignet?

V4 Flash unterstützt Function Calling und strukturierte Ausgaben, die beiden Fähigkeiten, auf die Claude Code am stärksten angewiesen ist. Es ist eine praktische Wahl für automatisierte Codierungs-Pipelines, CI-Integrationen und lange agentische Sitzungen, bei denen Kontextkontinuität und Kostenvorhersagbarkeit wichtig sind.

Was passiert, wenn das Kontextfenster voll ist?

Mit 1.048.576 Tokens ist das Kontextfenster von V4 Flash groß genug, dass die meisten Sitzungen es nicht füllen werden. Wenn Sie eine extrem lange Sitzung ausführen – Tage mit akkumuliertem Verlauf, sehr große Repos – beginnt Claude Code, die ältesten Nachrichten zu kürzen. In der Praxis ist das Starten einer neuen Sitzung für eine neue Aufgabe der einfachste Weg, um innerhalb des Limits zu bleiben.

Novita AI ist eine AI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, AI-Modelle über eine einfache API bereitzustellen und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud für den Aufbau und die Skalierung bereitzustellen.

Empfohlene Artikel