Qwen3 Coder Next API auf Novita AI für Coding-Agenten

Qwen3 Coder Next API auf Novita AI für Coding-Agenten

Qwen3 Coder Next ist auf Novita AI als serverloses Textmodell für Coding-Agent-Workflows verfügbar, die ein langes Kontextverständnis von Code, strukturierte Ausgaben und eine funktionsaufrufähnliche Toolkoordination über eine Chat-Completions-API benötigen. Verwenden Sie die bestätigte Modell-ID qwen/qwen3-coder-next mit dem OpenAI-kompatiblen Endpunkt POST https://api.novita.ai/openai/v1/chat/completions, wenn Sie ein auf Codierung ausgerichtetes Modell in einer Agentenschleife einsetzen möchten, ohne das Modellhosting verwalten zu müssen.

Wann Qwen3 Coder Next für Coding-Agenten verwenden

Verwenden Sie Qwen3 Coder Next, wenn Ihre Anwendung ein codierungsorientiertes Sprachmodell in einem kontrollierten Softwareentwicklungsworkflow benötigt: Code-Erklärung, Patch-Planung, Fehlerlokalisierung, Testfallentwurf, Refactoring-Review oder toolgestützte Repository-Inspektion.

Der wichtige Unterschied ist, dass dieser Leitfaden kein allgemeiner Modellüberblick ist. Er konzentriert sich auf ein Implementierungsmuster für Coding-Agenten:

  • Repository- oder Dateikontext in eine Chat-Completion-Anfrage senden;
  • das Modell nach einer begrenzten nächsten Aktion fragen;
  • optional strukturiertes JSON anfordern, damit Ihr Agent entscheiden kann, ob er eine andere Datei inspizieren, einen Patch vorschlagen oder anhalten soll;
  • Tools in Ihrer eigenen Anwendungsschicht ausführen, nicht innerhalb des Modellaufrufs;
  • die Beobachtung zurück in die nächste Chat-Runde senden.

Novita AIs Katalog beschreibt Qwen3 Coder Next als ein Text-in, Text-out LLM mit serverloser Verfügbarkeit, Funktionsaufruf-Unterstützung, Unterstützung für strukturierte Ausgaben und langem Kontext. Das sind die Teile, die für Coding-Agenten wichtig sind: Das Modell kann toolaufrufähnliche Anweisungen und strukturierte Entscheidungen produzieren, während Ihre Anwendung für Dateisystemzugriff, Befehlsausführung, Repository-Änderungen und Genehmigungstore zuständig bleibt.

Vermeiden Sie es, das Modell so zu behandeln, als würde es direkt selbst ein Repository bearbeiten. Ein Coding-Agent benötigt umgebenden Code, der Kontext vorbereitet, Ausgaben validiert, Tools ausführt, Patches anwendet und Ergebnisse aufzeichnet. Qwen3 Coder Next liefert den Sprachmodellschritt in dieser Schleife.

Modell-ID, Endpunkt, Preise und Limits

Die bestätigte Novita AI Modell-ID ist qwen/qwen3-coder-next.

FeldBestätigter Wert
AnzeigenameQwen3 Coder Next
Modell-IDqwen/qwen3-coder-next
EingabemodalitätText
AusgabemodalitätText
Endpunktfamiliechat/completions, anthropic
OpenAI-kompatibler EndpunktPOST https://api.novita.ai/openai/v1/chat/completions
Kontextgröße262.144 Token
Maximale Ausgabetoken65.536 Token
Gelisteter Eingabepreis$0,20 pro 1 Mio. Token
Gelisteter Ausgabepreis$1,50 pro 1 Mio. Token
Gelistete FunktionenFunction Calling, strukturierte Ausgaben, serverlos
Gelistete RPM bei T1-Kontingent30 RPM

Preise, Ratenlimits und Verfügbarkeit können sich ändern. Überprüfen Sie die Novita AI Modellbibliothek und Ihr Konsolenkontingent vor der Produktionseinführung.

Schritt 1: Holen Sie sich einen Novita AI API-Schlüssel

Erstellen oder öffnen Sie Ihr Novita AI-Konto und generieren Sie dann einen API-Schlüssel aus der Konsole. Speichern Sie ihn als Umgebungsvariable, anstatt ihn fest in Ihre Anwendung zu codieren.

export NOVITA_API_KEY="your_api_key_here"

Für die lokale Entwicklung verwenden Sie Ihr Shell-Profil, einen .env-Lader oder einen Secret-Manager. Für die Produktion injizieren Sie den Schlüssel über das Geheimnissystem Ihrer Bereitstellungsplattform und halten Sie ihn aus Logs, clientseitigem Code und Repository-Verlauf fern.

Schritt 2: Erste Codierungsanfrage senden

Beginnen Sie mit der kleinsten sinnvollen Anfrage: einer Systemnachricht, die die Rolle des Assistenten einschränkt, plus einer Benutzernachricht mit einem kurzen Codebeispiel und einer bestimmten Codierungsaufgabe.

curl https://api.novita.ai/openai/v1/chat/completions \
-H "Authorization: Bearer $NOVITA_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen/qwen3-coder-next",
"messages": [
{
"role": "system",
"content": "You are a coding assistant. Explain risks clearly and avoid changing behavior unless asked."
},
{
"role": "user",
"content": "Review this JavaScript function for edge cases:\n\nfunction divide(a, b) {\n return a / b;\n}"
}
],
"temperature": 0.2,
"max_tokens": 600
}'

Eine erfolgreiche nicht-streaming Antwort gibt ein Chat-Completion-Objekt mit einem choices-Array zurück. Lesen Sie choices[0].message.content für die Modellausgabe und usage für die Token-Abrechnung.

import os
import requests

api_key = os.environ["NOVITA_API_KEY"]

response = requests.post(
    "https://api.novita.ai/openai/v1/chat/completions",
    headers={
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json",
    },
    json={
        "model": "qwen/qwen3-coder-next",
        "messages": [
            {
                "role": "system",
                "content": (
                    "You are a coding assistant. Explain risks clearly "
                    "and keep recommendations scoped to the provided code."
                ),
            },
            {
                "role": "user",
                "content": (
                    "Review this Python function for bugs:\n\n"
                    "def normalize(items):\n"
                    "    return [x.strip().lower() for x in items]\n"
                ),
            },
        ],
        "temperature": 0.2,
        "max_tokens": 600,
    },
    timeout=60,
)

response.raise_for_status()
data = response.json()
print(data["choices"][0]["message"]["content"])

Dieses Beispiel ist absichtlich einfach. Fügen Sie Streaming, Tools oder strukturierte Ausgaben erst hinzu, nachdem die grundlegende Anfrage in Ihrer Umgebung funktioniert.

Schritt 3: Qwen3 Coder Next in einer Agentenschleife verwenden

Ein Coding-Agent ist eine Schleife um das Modell. Das Modell schlägt die nächste Aktion vor; Ihre Anwendung entscheidet, ob sie ausgeführt wird, und gibt das Ergebnis dann zurück.

AktionWas Ihre Anwendung tut
inspect_fileLiest einen erlaubten Dateipfad und gibt relevanten Inhalt zurück.
search_codeDurchsucht das Repository mit einer begrenzten Abfrage.
propose_patchFordert das Modell auf, einen Patch-Plan oder Diff zur Überprüfung zu erstellen.
finishBeendet die Schleife mit einer Zusammenfassung und verbleibenden Risiken.

Geben Sie dem Modell keinen uneingeschränkten Shell-Zugriff. Behandeln Sie jede vorgeschlagene Aktion als eine Anfrage, die Ihre Anwendung validiert. Eine gute Validierung umfasst Pfad-Whitelists, maximale Dateigröße, Befehls-Whitelists (falls Befehle unterstützt werden), Zeitüberschreitungsgrenzen und menschliche Genehmigung vor dem Anwenden von Änderungen.

import json
import os
import requests

API_URL = "https://api.novita.ai/openai/v1/chat/completions"
MODEL = "qwen/qwen3-coder-next"

def call_model(messages):
    response = requests.post(
        API_URL,
        headers={
            "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}",
            "Content-Type": "application/json",
        },
        json={
            "model": MODEL,
            "messages": messages,
            "temperature": 0.1,
            "max_tokens": 1200,
            "response_format": {"type": "json_object"},
        },
        timeout=60,
    )
    response.raise_for_status()
    return response.json()["choices"][0]["message"]["content"]

messages = [
    {
        "role": "system",
        "content": (
            "You are a coding-agent planner. Return JSON only with keys "
            "action, path, query, rationale, and final_answer. Allowed actions "
            "are inspect_file, search_code, propose_patch, and finish."
        ),
    },
    {
        "role": "user",
        "content": (
            "We need to find why normalize_user crashes when email is missing. "
            "Start by choosing the next safe inspection step."
        ),
    },
]

raw = call_model(messages)
decision = json.loads(raw)
print(decision)

Dieses Beispiel verwendet den JSON-Modus, um den Anwendungsparser einfach zu halten. Validieren Sie für die Produktion, dass die Antwort eine erlaubte action enthält und dass Felder wie path und query Ihren Sicherheitsregeln entsprechen, bevor Sie etwas ausführen.

Schritt 4: Strukturierte Ausgabe für Agentenentscheidungen hinzufügen

Die Chat-Completions-API von Novita AI enthält response_format, einschließlich der Optionen json_object und json_schema. Qwen3 Coder Next ist in der Modellbibliothek mit Unterstützung für strukturierte Ausgaben gelistet, daher sind strukturierte Entscheidungsobjekte gut für die Orchestrierung von Coding-Agenten geeignet.

Verwenden Sie strukturierte Ausgaben für Entscheidungen, die Ihre Software zuverlässig parsen muss:

  • klassifizieren, ob eine Änderung erforderlich ist;
  • einen Patch-Plan mit Dateipfaden und Risikohinweisen zurückgeben;
  • entscheiden, ob mehr Kontext erforderlich ist;
  • eine Testcheckliste erstellen;
  • eine abschließende Zusammenfassung ausgeben, die geändertes Verhalten, Validierung und Risiken trennt.

Verwenden Sie für eine strengere Validierung json_schema und halten Sie das Schema klein. Die Modellausgabe ist immer noch nicht vertrauenswürdige Eingabe für Ihr Programm, validieren Sie sie daher nach dem Parsen.

schema = {
    "name": "coding_agent_decision",
    "schema": {
        "type": "object",
        "properties": {
            "action": {
                "type": "string",
                "enum": ["inspect_file", "search_code", "propose_patch", "finish"],
            },
            "path": {"type": "string"},
            "query": {"type": "string"},
            "rationale": {"type": "string"},
            "risk": {"type": "string"},
        },
        "required": ["action", "rationale", "risk"],
        "additionalProperties": False,
    },
    "strict": True,
}

payload = {
    "model": "qwen/qwen3-coder-next",
    "messages": [
        {
            "role": "system",
            "content": "Return the next coding-agent decision as structured JSON.",
        },
        {
            "role": "user",
            "content": "Find the safest first step for debugging a failing login test.",
        },
    ],
    "response_format": {
        "type": "json_schema",
        "json_schema": schema,
    },
    "temperature": 0.1,
    "max_tokens": 800,
}

Verwenden Sie Funktionsaufrufe, wenn Ihre Anwendung bereits eine Tool-Dispatch-Schicht hat. Die Novita AI API-Referenz dokumentiert ein tools-Feld, in dem Funktionen bereitgestellt werden können. Das Modell kann JSON-Eingaben für diese Funktionen generieren, aber Ihre Anwendung führt die Funktion weiterhin aus und gibt Beobachtungen in einer späteren Runde zurück. Halten Sie Tool-Beschreibungen präzise und vermeiden Sie die Offenlegung destruktiver Operationen, es sei denn, sie erfordern eine explizite Genehmigung.

Schritt 5: Kontext, Ausgabe und Kosten planen

Qwen3 Coder Next hat auf Novita AI eine gelistete Kontextgröße von 262.144 Token und eine gelistete maximale Ausgabegröße von 65.536 Token. Das gibt Coding-Agenten Platz für Multi-Datei-Kontext, aber größere Prompts erhöhen die Kosten und können die Aufmerksamkeit des Modells verwässern.

Verwenden Sie einen Abrufschritt, anstatt ein ganzes Repository in jede Anfrage zu werfen:

  1. Beginnen Sie mit der Benutzeranfrage, relevanter Fehlermeldung und Repository-Map.
  2. Bitten Sie das Modell, zu inspizierende Dateien auszuwählen.
  3. Fügen Sie nur die ausgewählten Ausschnitte oder Dateien hinzu.
  4. Fragen Sie nach einem begrenzten Patch-Plan, bevor Sie nach einem Diff fragen.
  5. Führen Sie eine kurze laufende Zusammenfassung, anstatt jede vorherige Beobachtung erneut zu senden.

Die Kosten basieren auf Eingabe- und Ausgabetoken. Mit den gelisteten Preisen von $0,20 pro 1 Mio. Eingabetoken und $1,50 pro 1 Mio. Ausgabetoken können ausführlich generierte Diffs teurer sein als eine präzise Analyse. Setzen Sie max_tokens auf den kleinsten Wert, der für den Schritt geeignet ist. Beispielsweise benötigt ein Planungsschritt möglicherweise Hunderte von Token, während eine abschließende Patcherklärung mehr benötigen kann.

Ratenlimits sind ebenfalls wichtig in einer Agentenschleife. Die Modellbibliothek listet T1-Kontingent bei 30 RPM für Qwen3 Coder Next, mit höheren RPM-Stufen, die im Katalog angezeigt werden. Entwerfen Sie Ihren Agenten so, dass er 429-Antworten mit Backoff wiederholt, parallele Schleifen vermeidet, die wiederholt dieselben Dateien inspizieren, und Zusammenfassungen wo angemessen zwischenspeichert.

Fehlerbehebung

ProblemWahrscheinliche UrsacheBehebung
401 oder AuthentifizierungsfehlerFehlender, abgelaufener oder fehlerhafter API-SchlüsselÜberprüfen Sie den Header Authorization: Bearer $NOVITA_API_KEY und generieren Sie den Schlüssel bei Bedarf neu.
Modell nicht gefundenFalsche Modell-IDVerwenden Sie genau qwen/qwen3-coder-next.
Ausgabe ist kein gültiges JSONPrompt oder Schema ist zu lockerVerwenden Sie response_format, senken Sie temperature und validieren Sie das geparste Objekt.
Kontext ist zu großZu viele Dateien oder lange Logs in einer AnfrageRufen Sie kleinere Ausschnitte ab und fassen Sie vorherige Runden zusammen.
Agentenschleife ohne FortschrittAktionsraum ist zu breit oder Beobachtungen wiederholen sichFügen Sie eine maximale Iterationsgrenze hinzu und fordern Sie für jeden Schritt eine neue Begründung.
Unerwartete Tool-AktionDas Modell hat eine Aktion vorgeschlagen, die Ihre App nicht ausführen sollteErzwingen Sie Whitelists und Genehmigungstore außerhalb des Modells.
Rate-Limit-FehlerZu viele parallele Aufrufe oder enge WiederholungsschleifenFügen Sie exponentielles Backoff hinzu und stellen Sie Agentenschritte in die Warteschlange.

FAQ

Ist Qwen3 Coder Next über die Novita AI API verfügbar?

Ja. Die Novita AI Modellbibliothek listet Qwen3 Coder Next als serverloses LLM mit der Modell-ID qwen/qwen3-coder-next.

Welchen Endpunkt sollte ich für Qwen3 Coder Next verwenden?

Verwenden Sie den OpenAI-kompatiblen Chat-Completions-Endpunkt: POST https://api.novita.ai/openai/v1/chat/completions. Der Modellkatalog listet auch eine anthropic Endpunktfamilie, aber die ausführbaren Beispiele in diesem Leitfaden verwenden Chat Completions.

Wie viel kostet Qwen3 Coder Next auf Novita AI?

Der überprüfte Novita AI Katalog listet Qwen3 Coder Next mit $0,20 pro 1 Mio. Eingabetoken und $1,50 pro 1 Mio. Ausgabetoken. Überprüfen Sie die Preise vor dem Start in der Modellbibliothek erneut, da sich die Preise ändern können.

Was sind die Kontext- und Ausgabelimits?

Der überprüfte Novita AI Katalog listet eine Kontextgröße von 262.144 Token und maximal 65.536 Ausgabetoken für Qwen3 Coder Next.

Unterstützt Qwen3 Coder Next Funktionsaufrufe und strukturierte Ausgaben?

Ja. Die Novita AI Modellbibliothek listet Qwen3 Coder Next mit den Funktionen function-calling und structured-outputs. Ihre Anwendung muss trotzdem alle Tool-Aktionen validieren und ausführen.

Kann Qwen3 Coder Next mein Repository direkt bearbeiten?

Nein. Die API gibt Modellausgabe zurück. Repository-Lesen, Befehlsausführung, Patch-Anwendung, Tests und Genehmigungen müssen in Ihrer eigenen Agent-Laufzeitumgebung implementiert werden.