GLM-5.1 API auf Novita AI: Langfristiges agentisches Modell

GLM-5.1 API auf Novita AI: Langfristiges agentisches Modell

Die meisten Programmiermodelle stoßen nach einigen Dutzend Tool-Aufrufen an ihre Grenzen. Sie probieren die offensichtlichen Ansätze, gehen ihnen die Ideen aus und erreichen ein Plateau. Mehr Zeit hilft nicht — das Modell hat bereits ausgeschöpft, was es auszuprobieren weiß.

GLM-5.1, das neueste Flaggschiff von Z.ai, basiert auf einer anderen Annahme: Nützliche Optimierung sollte sich mit der Zeit vervielfachen, nicht abflachen. In den eigenen Benchmarks von Z.ai führte es 655 Iterationen an einem Vektorsuchproblem durch und erreichte 21,5k QPS — etwa das 6-fache dessen, was die besten Modelle in einer Standard-Sitzung erreichen. Es lief 8 Stunden lang, um einen Linux-Desktop von Grund auf zu erstellen, und entschied selbst, was als Nächstes hinzugefügt werden sollte.

GLM-5.1 ist jetzt auf Novita AI verfügbar, über OpenAI- und Anthropic-kompatible APIs, mit Abrechnung pro Token.

Probieren Sie GLM-5.1 jetzt aus

Was ist neu bei GLM-5.1

GLM-5.1 ist ein Mixture-of-Experts-Modell mit 754B Parametern, von denen 40B pro Inferenzdurchlauf aktiv sind, mit einem Kontextfenster von 204.800 Token.

Die eigentliche Neuerung liegt im Verhalten bei langfristigen Aufgaben. Z.ai nennt dies ein Treppenmuster: Das Modell verfeinert seine Arbeit innerhalb einer festen Strategie, bis es an eine Grenze stößt, wechselt dann zu einem strukturell anderen Ansatz und steigt erneut. Sechs solcher Wechsel fanden in einem einzelnen VectorDBBench-Durchlauf statt. Jeder wurde vom Modell selbst eingeleitet, nachdem es seine eigenen Benchmark-Protokolle analysiert und identifiziert hatte, was weitere Fortschritte blockierte.

Das unterscheidet sich von einem längeren Kontextfenster: Hier verwaltet das Modell seine Strategie aktiv selbst.

GLM-5.1 Benchmark-Ergebnisse: Programmier- und agentische Aufgaben

GLM-5.1 führt bei Programmier- und agentischen Benchmarks an. Bei Reasoning liegen Gemini 3.1 Pro und GPT-5.4 vorn.

Reasoning

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
HLE 31.0 30.5 28.8 28.0 25.1 31.5 36.7 45.0 39.8
HLE (w/ Tools) 52.3 50.4 50.6 40.8 51.8 53.1 51.4 52.1
AIME 2026 95.3 95.4 95.1 89.8 95.1 94.5 95.6 98.2 98.7
HMMT Nov. 2025 94.0 96.9 94.6 81.0 90.2 91.1 96.3 94.8 95.8
HMMT Feb. 2026 82.6 82.8 87.8 72.7 79.9 81.3 84.3 87.3 91.8
IMOAnswerBench 83.8 82.5 83.8 66.3 78.3 81.8 75.3 81.0 91.4
GPQA-Diamond 86.2 86.0 90.4 87.0 82.4 87.6 91.3 94.3 92.0

Coding

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
SWE-Bench Pro 58.4 55.1 56.6 56.2 53.8 57.3 54.2 57.7
NL2Repo 42.7 35.9 37.9 39.8 32.0 49.8 33.4 41.3
Terminal-Bench 2.0 (Terminus-2) 63.5 56.2 61.6 39.3 50.8 65.4 68.5
Terminal-Bench 2.0 (best harness) 69.0 (Claude Code) 56.2 (Claude Code) 57.0 (Claude Code) 46.4 (Claude Code) 75.1 (Codex)
CyberGym 68.7 48.3 17.3 41.3 66.6

Agentic

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
BrowseComp 68.0 62.0 51.4 60.6
BrowseComp (w/ Context Manage) 79.3 75.9 67.6 74.9 84.0 85.9 82.7
τ³-Bench 70.6 69.2 70.7 67.6 69.2 66.0 72.4 67.1 72.9
MCP-Atlas (Public Set) 71.8 69.2 74.1 48.8 62.2 63.8 73.8 69.2 67.2
Tool-Decathlon 40.7 38.0 39.8 46.3 35.2 27.8 47.2 48.8 54.6
Vending Bench 2 $5,634 $4,432 $5,115 $1,034 $1,198 $8,018 $911 $6,144

SWE-Bench Pro (58,4) ist das Highlight — die höchste Punktzahl unter allen neun Modellen in diesem Vergleich, sowohl Open-Source als auch proprietär. CyberGym weist den größten Sprung zwischen den Generationen auf: von 48,3 bei GLM-5 auf 68,7. Bei Terminal-Bench 2.0 ist anzumerken: Die Zeile „Bestes Harness“ spiegelt die von jedem Team selbst gemeldeten Ergebnisse mit ihrer bevorzugten Ausführungsumgebung wider. GLM-5.1 erreicht 69,0 mit Claude Code; GPT-5.4 erreicht 75,1 mit Codex.

Wie langfristige agentische Ausführung in der Praxis aussieht

Einmalige Benchmark-Zahlen bilden nicht ab, was passiert, wenn man ein Modell stundenlang laufen lässt. Z.ai hat drei Szenarien mit zunehmend weniger strukturiertem Feedback durchgeführt, um zu zeigen, was GLM-5.1 anders macht.

Szenario 1: Vektordatenbank-Optimierung, 600+ Iterationen

VectorDBBench gibt dem Modell ein Rust-Gerüst mit HTTP-Endpunkten und leeren Implementierungsgerüsten. Mit Tool-Aufruf-basierten Agenten liest und schreibt es Dateien, kompiliert, testet und profiliert — normalerweise innerhalb eines Budgets von 50 Durchläufen. Das beste Ergebnis unter dieser Einschränkung: 3.547 QPS von Claude Opus 4.6.

Z.ai hat die Begrenzung entfernt. In jeder Iteration konnte GLM-5.1 so viele Tool-Aufrufe wie nötig verwenden und dann eine neue Version zum Benchmark einreichen. Es führte 655 Iterationen mit über 6.000 Tool-Aufrufen durch und erreichte 21,5k QPS — etwa das 6-fache des besten Ergebnisses einer einzelnen Sitzung.

Zwei Übergänge veranschaulichen, wie es dorthin gelangt ist. Etwa bei Iteration 90 wechselte es von der vollständigen Korpusdurchsuchung zur IVF-Cluster-Untersuchung mit f16-Vektorkomprimierung und sprang auf 6,4k QPS. Etwa bei Iteration 240 führte es eine zweistufige Pipeline ein — u8-Vorauswertung gefolgt von f16-Reranking — und erreichte 13,4k QPS. Sechs solcher struktureller Übergänge fanden im gesamten Durchlauf statt, jeder vom Modell selbst eingeleitet, nachdem es seine eigenen Benchmark-Protokolle analysiert und den aktuellen Engpass identifiziert hatte.

Szenario 2: GPU-Kernel-Optimierung, 1.000+ Durchläufe

KernelBench fordert das Modell auf, eine Referenzimplementierung in PyTorch zu nehmen und einen schnelleren GPU-Kernel mit identischen Ausgaben zu erstellen. Level 3 umfasst 50 Probleme mit vollständigen Modellen: MobileNet, VGG, MiniGPT, Mamba. Basislinie: torch.compile mit 1,15-facher Geschwindigkeit, max-autotune mit 1,49-facher Geschwindigkeit.

Z.ai hat vier Modelle auf Level 3 getestet und die geometrische Mittelwertgeschwindigkeitssteigerung über die Tool-Nutzungsdurchläufe verfolgt:

  • GLM-5 verbessert sich zu Beginn schnell und flacht dann ab
  • Claude Opus 4.5 läuft länger, flacht dann aber auch ab
  • GLM-5.1 endet bei 3,6-facher Geschwindigkeit und macht auch noch weit im Verlauf Fortschritte
  • Claude Opus 4.6 ist mit 4,2-facher Geschwindigkeit am stärksten und zeigt am Ende noch Potenzial

GLM-5.1 erreicht hier nicht die Leistung von Claude Opus 4.6. Aber es verlängert die nützliche Laufzeit deutlich über GLM-5 hinaus, was der Punkt ist.

Szenario 3: Erstellung eines Linux-Desktops, 8 Stunden autonom

Die ersten beiden Szenarien haben eine zu optimierende Zahl. Dieses hier nicht. Die Aufgabe: Erstellen Sie eine Linux-ähnliche Desktop-Umgebung als Webanwendung. Kein Starter-Code, keine Design-Mockups, kein Zwischenfeedback.

Die meisten Modelle erstellen ein einfaches Grundgerüst — statische Taskleiste, ein Platzhalterfenster — und erklären es dann für fertig.

GLM-5.1 lief in einem einfachen Harness: Nach jeder Ausführungsrunde überprüft das Modell seine eigene Ausgabe, identifiziert, was fehlt oder defekt ist, und macht weiter. Über 8 Stunden erstellte es einen Dateibrowser, ein Terminal, einen Texteditor, einen Systemmonitor, einen Taschenrechner und funktionale Spiele, die jeweils in eine kohärente UI integriert waren. Das Design wurde mit jedem Durchgang polierter. Randfälle wurden behandelt. Das Modell hat die gesamte Roadmap selbst festgelegt.

Wofür GLM-5.1 entwickelt wurde

GLM-5.1 eignet sich am besten für Aufgaben, bei denen zusätzliche Laufzeit tatsächlich bessere Ausgaben erzeugt:

  • Lang laufende Programmieragenten — Multi-Datei-Refactorings, Migrationen, vollständige Systembuilds
  • Agentische Programmiertools — Kompatibel mit Claude Code, OpenClaw, Trae, Cursor, Codex und Cline
  • Terminalautomatisierung — 63,5 bei Terminal-Bench 2.0 (Terminus-2), gegenüber 56,2 bei GLM-5 verbessert
  • Cybersicherheit — 68,7 bei CyberGym, die höchste Punktzahl in diesem Benchmark-Set
  • Web-Recherche — 68,0 bei BrowseComp, ebenfalls die höchste hier

GLM-5.1 API-Preise auf Novita AI

|Preis| |—|—| |Eingabe|$1,40 / M Token| |Cache-Lesen|$0,26 / M Token| |Ausgabe|$4,40 / M Token|

Abrechnung pro Token, keine monatliche Bindung. Die vollständigen Preise finden Sie unter novita.ai/pricing.

Erste Schritte: Kompatibel mit OpenAI- und Anthropic-SDKs

Die API von Novita AI funktioniert sowohl mit dem OpenAI- als auch dem Anthropic-SDK. Fügen Sie einfach die Modell-ID hinzu, und Ihre bestehende Einrichtung funktioniert ohne Änderungen. GLM-5.1 kann direkt von Claude Code, OpenClaw, Trae, Cursor, Codex und jeder Plattform aufgerufen werden, die einen OpenAI- oder Anthropic-kompatiblen Endpunkt akzeptiert.

Probieren Sie GLM-5.1 im Playground aus | API-Dokumentation anzeigen

Python (OpenAI-SDK):

from openai import OpenAI

client = OpenAI(
    api_key="<Your Novita API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-5.1",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Refactor this module to use async/await throughout."}
    ],
    max_tokens=131072,
    temperature=0.7
)

print(response.choices[0].message.content)

TypeScript (OpenAI-SDK):

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "<Your Novita API Key>",
  baseURL: "https://api.novita.ai/openai",
});

const response = await client.chat.completions.create({
  model: "zai-org/glm-5.1",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Build a CLI tool for parsing JSON logs." }
  ],
  max_tokens: 131072,
});

console.log(response.choices[0].message.content);

Anwendungsfälle für Entwickler

GLM-5.1 ist am nützlichsten bei Aufgaben, die nicht in einem einzigen Durchgang gelöst werden können und von iterativer Verfeinerung profitieren:

  • Autonome Programmieragenten — Weisen Sie eine Repository-weite Aufgabe zu und lassen Sie das Modell planen, implementieren, testen und iterieren, ohne Check-ins
  • CI/CD-Pipeline-Automatisierung — Funktionsaufrufe machen es einfach, GLM-5.1 in Build-/Test-/Debug-Schleifen zu integrieren
  • Generierung von langen technischen Dokumenten — 204K Kontext und 131K Ausgabe verarbeiten große, kohärente Dokumente in einem einzigen Aufruf
  • GPU-Kernel- und ML-Leistungsoptimierung — Die 3,6-fache Geschwindigkeitssteigerung bei KernelBench lässt sich direkt auf ML-Infrastrukturarbeit übertragen
  • Webanwendungs-Scaffolding — GLM-5.1 hat eine vollständige Desktop-UI aus einem einzigen Prompt in natürlicher Sprache erstellt; dieselbe Schleife gilt für jede komplexe Frontend- oder Backend-Aufgabe
  • Sicherheitsentwicklung — 68,7 bei CyberGym macht es zu einem der stärksten verfügbaren Modelle für autonome Sicherheitsaufgaben

Fazit

Open-Source-Modelle haben den Rückstand bei Reasoning-Benchmarks aufgeholt. Die verbleibende Lücke liegt in der langfristigen Ausführung — über hunderte Tool-Aufrufe und Stunden autonomer Arbeit kohärent und produktiv zu bleiben. GLM-5.1 ist der bisher klarste Beweis dafür, dass diese Lücke geschlossen werden kann.

Wenn Sie ernsthafte agentische Workloads ausführen und proprietären Lock-in vermeiden möchten, ist es derzeit die leistungsfähigste Open-Source-Option für Programmier- und Agentenaufgaben. Auf Novita AI erhalten Sie es mit Kompatibilität zu OpenAI- und Anthropic-SDKs, Abrechnung pro Token und ohne Infrastrukturaufwand.

Probieren Sie GLM-5.1 im Playground aus | API-Dokumentation anzeigen

Novita AI ist eine KI- & Agenten-Cloud-Plattform, die Entwicklern und Startups hilft, Modelle und agentische Anwendungen mit hoher Leistung, Zuverlässigkeit und Kosteneffizienz zu erstellen, bereitzustellen und zu skalieren.

Häufig gestellte Fragen

Was hat sich zwischen GLM-5 und GLM-5.1 geändert?u003c/strongu003e

Die größte Neuerung liegt in der langfristigen Ausführung. GLM-5 erreicht nach einigen Dutzend Iterationen ein Plateau; GLM-5.1 findet über hunderte Runden hinweg immer neue Strategien. Das Treppenmuster — strukturelle Wechsel, die durch Selbstanalyse ausgelöst werden — macht den Unterschied. Die Punktzahlen bei Programmier-Benchmarks haben sich außerdem insgesamt verbessert.

Ist GLM-5.1 Open-Source?u003c/strongu003e

Ja, MIT-Lizenz. Die Gewichte sind auf Hugging Face verfügbar. Sie können es kommerziell nutzen, feinabstimmen und selbst hosten.

Wie schneidet GLM-5.1 im Vergleich zu Claude Opus 4.6 ab?

Beim SWE-Bench Pro erreicht GLM-5.1 58,4 Punkte gegenüber 57,3 von Claude Opus 4.6. Bei der langfristigen GPU-Optimierung im KernelBench liegt Claude Opus 4.6 mit 4,2-facher Geschwindigkeit vor GLM-5.1 mit 3,6-facher Geschwindigkeit. Bei den meisten agentischen Programmieraufgaben sind die beiden Modelle fast gleichauf — GLM-5.1 hat den Vorteil von offenen Gewichten und geringeren Kosten.