GLM 5.2 API – Schnellstart auf Novita AI

GLM 5.2 API – Schnellstart auf Novita AI

Dieser Schnellstart zeigt, wie Sie GLM 5.2 auf Novita AI über die OpenAI‑kompatible Chat‑Completions‑API aufrufen können. Verwenden Sie die verifizierte Modell‑ID zai-org/glm-5.2, die Novita‑AI‑Basis‑URL und eine kleine erste Anfrage, bevor Sie das 1.048.576‑Token‑Kontextfenster des Modells, die maximale Ausgabe von 131.072 Token, Funktionsaufrufe, strukturierte Ausgaben, Reasoning‑Unterstützung oder den Anthropic‑kompatiblen Zugriff testen, die in der aktuellen Modellliste angezeigt werden.

Voraussetzungen für den GLM‑5.2‑API‑Schnellstart

GLM 5.2 ist das Flaggschiff‑Modell von Z.AI für langfristige autonome Arbeit. Die Novita‑AI‑Modellseite beschreibt es als ein Modell, das für durchgängige Aufgaben wie Planung, Ausführung, iterative Optimierung, Codierung und Lieferung produktionsreifer Ergebnisse entwickelt wurde. Für Entwickler ist der praktische Punkt einfach: GLM 5.2 ist nicht nur ein weiteres Kurzchat‑Modell. Es ist für Workflows positioniert, bei denen das Modell genügend Kontext benötigt, um eine große Aufgabe, eine Codebasis, einen Dokumentsatz oder einen Agentenzustand im Blick zu behalten.

Auf Novita AI wird GLM 5.2 über serverlose Modell‑APIs bereitgestellt. Das ist wichtig, wenn Sie das Modell evaluieren möchten, ohne eine GPU‑Infrastruktur aufzubauen, Traffic über einen benutzerdefinierten Inferenz‑Stack zu leiten oder Long‑Context‑Serving selbst zu verwalten. Sie verwenden den API‑Schlüssel von Novita AI, den OpenAI‑kompatiblen Endpunkt und die genaue Modell‑ID:

zai-org/glm-5.2

Der aktuelle Novita‑AI‑LLM‑API‑Leitfaden dokumentiert den OpenAI‑kompatiblen Ansatz der Plattform für Chat‑ und Aufgabenabschlüsse. Die Chat‑Completions‑API‑Referenz dokumentiert den REST‑Pfad, der in den folgenden Beispielen verwendet wird:

https://api.novita.ai/openai/v1/chat/completions

Verwenden Sie die Modellseite für modellspezifische Details wie Kontextlänge, maximale Ausgabe, Preise, Modalitäten und unterstützte Endpunktfamilien. Verwenden Sie die API‑Referenz für Anforderungsparameter, Authentifizierung, Streaming und Chat‑Nachrichtenstruktur.

GLM 5.2 API – Spezifikationen und Preise

Die aktuelle Novita‑AI‑Listung für GLM 5.2 zeigt ein serverloses Text‑in‑Text‑out‑Modell mit Long‑Context‑ und agentenorientierten Funktionen.

Feld Aktueller Wert bei Novita AI
Anzeigename GLM 5.2
API‑Modell‑ID zai-org/glm-5.2
Zugriffspfad Serverlos
Kontextfenster 1.048.576 Token
Maximale Ausgabe 131.072 Token
Eingabemodalitäten Text
Ausgabemodalitäten Text
Endpunktfamilien chat/completions, Anthropic‑kompatibler Endpunkt
Funktionsaufruf Unterstützt
Strukturierte Ausgaben Unterstützt
Reasoning Unterstützt
Eingabepreis 1,40 $ pro Million Token
Cache‑Lese‑Eingabepreis 0,26 $ pro Million Token
Ausgabepreis 4,40 $ pro Million Token

Die Preise sind pro Million Token angegeben. Für eine schnelle Schätzung multiplizieren Sie die Prompt‑Token mit dem Eingabesatz und die generierten Token mit dem Ausgabesatz. Cache‑Lese‑Preise können die Kosten senken, wenn Ihre Anwendung wiederholt denselben wiederverwendbaren Kontext sendet, z. B. einen System‑Prompt, ein Tool‑Schema, einen Richtlinienblock oder eine stabile Repository‑Zusammenfassung.

Beispiel: Eine Anfrage mit 100.000 nicht gecachten Eingabe‑Token und 5.000 Ausgabe‑Token würde wie folgt geschätzt:

Komponente Berechnung Geschätzte Kosten
Eingabe 0,1 Millionen Token × 1,40 $ 0,14 $
Ausgabe 0,005 Millionen Token × 4,40 $ 0,022 $
Gesamt Eingabe + Ausgabe 0,162 $

Dies ist nur eine einfache Token‑Raten‑Schätzung. Die Produktionskosten hängen auch von der Prompt‑Wiederverwendung, Wiederholungen, Kürzung, Streaming‑Verhalten, Antwortlänge und davon ab, ob Ihre Anwendung wiederholt große Kontextblöcke einschließt, die gecacht oder zusammengefasst werden könnten.

So stellen Sie Ihre erste GLM‑5.2‑API‑Anfrage

Beginnen Sie mit einem kleinen Prompt, bevor Sie das vollständige 1‑Millionen‑Token‑Kontextfenster testen. Das gibt Ihnen eine saubere Baseline für Authentifizierung, Modell‑Routing, Antwortformat und Latenz.

Installieren Sie das OpenAI‑Python‑SDK und speichern Sie Ihren Novita‑AI‑Schlüssel als Umgebungsvariable:

pip install openai
export NOVITA_API_KEY="IHR_NOVITA_API_SCHLÜSSEL"

Rufen Sie dann GLM 5.2 mit der Novita‑AI‑Basis‑URL auf:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "Sie sind ein praktischer Assistent für Softwarearchitektur.",
        },
        {
            "role": "user",
            "content": "Überprüfen Sie diesen Migrationsplan und listen Sie die Schritte mit dem höchsten Risiko auf.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

Wenn Sie einen direkten REST‑Aufruf bevorzugen, verwenden Sie den Chat‑Completions‑Pfad:

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "Sie sind ein präziser technischer Prüfer."
      },
      {
        "role": "user",
        "content": "Erstellen Sie eine Release‑Risiko‑Checkliste für eine Änderung an einer Zahlungs‑API."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

Aktivieren Sie für längere Antworten das Streaming, damit Ihre Anwendung mit dem Empfang von Token beginnen kann, bevor die vollständige Antwort abgeschlossen ist:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Entwerfen Sie einen schrittweisen Plan zum Refactoring eines Monolithen in Dienste.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

Halten Sie API‑Schlüssel aus der Versionskontrolle heraus, setzen Sie explizite max_tokens‑Werte und protokollieren Sie Nutzungsdaten, sofern verfügbar. Long‑Context‑Modelle machen es einfach, sehr große Prompts zu senden. Daher beginnt die Kostenkontrolle mit der Messung der Prompt‑ und Fertigstellungs‑Token ab dem ersten Prototyp.

Wann sollte GLM 5.2 verwendet werden?

GLM 5.2 ist eine gute Wahl, wenn Ihre Aufgabe zu umfangreich für einen normalen Chat‑Kontext ist oder wenn das Modell mehrere Schritte mit Tools, Dateien oder strukturierten Ausgaben koordinieren muss.

Gute Evaluierungsziele sind:

  • Repository‑Analyse: Bitten Sie das Modell, Architekturnotizen, Dateizuordnungen, Abhängigkeitsbeschreibungen und ausgewählte Code‑Auszüge in einer einzigen Anfrage zu überprüfen.
  • Coding‑Agenten: Behalten Sie Aufgabenziele, Einschränkungen, Tool‑Schemata, frühere Entscheidungen und Arbeitsnotizen im Kontext, während der Agent iteriert.
  • Langdokument‑Synthese: Fassen Sie Richtlinien, technische Spezifikationen, Verträge, Forschungsnotizen oder Produktdokumente ohne aggressive Aufteilung zusammen.
  • Migrationsplanung: Geben Sie dem Modell eine Systemkarte, Einschränkungen, einen Rollout‑Plan und ein Risikoregister und bitten Sie dann um Lücken oder Sequenzierungsprobleme.
  • Strukturierte Extraktion: Kombinieren Sie lange Quelldokumente mit einem strengen JSON‑Schema für nachgelagerte Systeme.

GLM 5.2 ist nicht automatisch das richtige Modell für jede Anfrage. Für kurze Klassifikationen, einfache Chats, einfache Extraktionen oder hochvolumigen Traffic mit niedriger Latenz vergleichen Sie kleinere Modelle in der Novita‑AI‑Modellbibliothek und die aktuellen Preise auf der Novita‑AI‑Preisseite. Ein 1‑Millionen‑Token‑Modell ist am wertvollsten, wenn Sie den Kontext, die Ausgabedecke oder die agentenorientierten Funktionen tatsächlich benötigen.

Funktionsaufruf und strukturierte Ausgaben

Die GLM‑5.2‑Listung zeigt Unterstützung für Funktionsaufrufe und strukturierte Ausgaben. Diese Funktionen sind nützlich, wenn das Modell etwas zurückgeben soll, mit dem Ihre Anwendung arbeiten kann, nicht nur Prosa.

Funktionsaufrufe sind eine gute Wahl, wenn Ihre Anwendung kontrollierte Tools bereitstellt, wie zum Beispiel:

  • Abrufen eines Kundendatensatzes,
  • Eröffnen eines Tickets,
  • Überprüfen des Bereitstellungsstatus,
  • Durchsuchen einer internen Wissensdatenbank,
  • Berechnen eines Angebots,
  • oder Weiterleiten einer Anfrage an einen spezialisierten Dienst.

Hier ist ein minimales Tool‑Aufruf‑Muster:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "Erstellen Sie ein Release‑Ticket nach der Risikoüberprüfung.",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Bewerten Sie dieses Release und erstellen Sie ein Ticket, wenn das Risiko mittel oder hoch ist.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

Strukturierte Ausgaben sind nützlich, wenn die Antwort in ein vorhersagbares Schema passen soll. Selbst wenn Sie nach JSON fragen, behalten Sie die Validierung in Ihrer Anwendung. Behandeln Sie die Ausgabe des Modells als generierten Kandidaten, parsen Sie ihn, validieren Sie Pflichtfelder und behandeln Sie Fehler mit einem Reparatur‑Prompt oder einem Fallback‑Pfad.

Weitere Hintergrundinformationen zum Tool‑Design finden Sie im Novita‑AI‑Leitfaden zu Funktionsaufruf und strukturierten Ausgaben und dem GLM‑spezifischen Leitfaden zu GLM‑Funktionsaufrufen.

Produktionshinweise für die Nutzung langer Kontexte

Das genannte Kontextfenster ist die Obergrenze, nicht der Standardbetriebsmodus. Eine Anfrage mit 1.048.576 Token kann nützlich sein, aber die meisten Anwendungen sollten sich schrittweise an diese Größe herantasten.

Beginnen Sie mit diesen Steuerelementen:

  • Prompt budgetieren: Teilen Sie stabile Anweisungen, volatile Benutzereingaben, Abrufergebnisse und Tool‑Schemata auf, damit Sie sehen können, welcher Teil die Token‑Anzahl antreibt.
  • Abruf vor Vollständigem Puffern verwenden: Senden Sie zuerst die relevantesten Dateien oder Passagen, erweitern Sie dann den Kontext nur, wenn die Aufgabe mehr Beweise benötigt.
  • Ausgabelänge begrenzen: GLM 5.2 unterstützt eine hohe maximale Ausgabe, aber die meisten Workflows benötigen keine 131.072 generierten Token. Setzen Sie max_tokens auf den kleinsten sinnvollen Wert.
  • Lange Antworten streamen: Streaming verbessert die Benutzererfahrung und ermöglicht Ihrem Dienst, lange Antworten eleganter zu handhaben.
  • Strukturierte Ergebnisse validieren: Schemata reduzieren Mehrdeutigkeiten, aber Ihre Anwendung benötigt dennoch Parser‑Prüfungen, Wiederholungen und eine klare Fehlerbehandlung.
  • Cache‑Möglichkeiten verfolgen: Wiederholte Kontextblöcke können teuer sein, wenn sie jedes Mal als frische Eingabe gesendet werden. Identifizieren Sie frühzeitig wiederverwendbare Prompts, Richtlinien und Tool‑Definitionen.
  • Ein kleineres Modell als Fallback bereithalten: Viele Routing‑Systeme verwenden ein kleineres Modell für einfache Fälle und reservieren Long‑Context‑Modelle für Aufgaben, die ihre volle Kapazität benötigen.

Für Coding‑Agenten ist ein praktisches Muster, dauerhaften Projektkontext außerhalb des Prompts zu halten, nur die für die aktuelle Aufgabe relevanten Dateien abzurufen und GLM 5.2 zu bitten, einen begrenzten Plan oder eine Patch‑Überprüfung zu erstellen, anstatt einen offenen Aufsatz. Dies hält die Kosten nachvollziehbar, während das Modell dennoch genügend Kontext erhält, um über die relevanten Teile des Systems nachzudenken.

Häufig gestellte Fragen

Ist GLM 5.2 auf Novita AI verfügbar?

Ja. GLM 5.2 wird auf Novita AI als serverloses Modell mit der API‑Modell‑ID zai-org/glm-5.2 gelistet.

Wie groß ist das Kontextfenster von GLM 5.2 auf Novita AI?

Die aktuelle Novita‑AI‑Listung zeigt ein Kontextfenster von 1.048.576 Token für GLM 5.2.

Wie hoch ist die maximale Ausgabe von GLM 5.2?

Die aktuelle Novita‑AI‑Listung zeigt eine maximale Ausgabe von 131.072 Token für GLM 5.2. Setzen Sie einen kleineren max_tokens‑Wert, es sei denn, Ihr Workflow benötigt tatsächlich eine sehr lange Antwort.

Wie viel kostet GLM 5.2 auf Novita AI?

Die aktuelle Preisseite listet GLM 5.2 mit 1,40 $ pro Million Eingabe‑Token, 0,26 $ pro Million Cache‑Lese‑Eingabe‑Token und 4,40 $ pro Million Ausgabe‑Token.

Unterstützt GLM 5.2 Funktionsaufrufe?

Ja. Die aktuelle GLM‑5.2‑Listung zeigt Unterstützung für Funktionsaufrufe. Verwenden Sie diese, wenn das Modell aus kontrollierten Anwendungswerkzeugen wählen soll, anstatt nur natürlichsprachlichen Text zurückzugeben.

Unterstützt GLM 5.2 strukturierte Ausgaben?

Ja. Die aktuelle GLM‑5.2‑Listung zeigt Unterstützung für strukturierte Ausgaben. Validieren Sie generierte JSON‑ oder schemaförmige Antworten in Ihrer Anwendung, bevor Sie sie nachgelagert verwenden.

Empfohlene Artikel