- Was ist neu bei GLM-5.1
- GLM-5.1 Benchmark-Ergebnisse: Programmier- und agentische Aufgaben
- Wie langfristige agentische Ausführung in der Praxis aussieht
- Wofür GLM-5.1 entwickelt wurde
- GLM-5.1 API-Preise auf Novita AI
- Erste Schritte: Kompatibel mit OpenAI- und Anthropic-SDKs
- Anwendungsfälle für Entwickler
- Fazit
Die meisten Programmiermodelle stoßen nach einigen Dutzend Tool-Aufrufen an ihre Grenzen. Sie probieren die offensichtlichen Ansätze, gehen ihnen die Ideen aus und erreichen ein Plateau. Mehr Zeit hilft nicht — das Modell hat bereits ausgeschöpft, was es auszuprobieren weiß.
GLM-5.1, das neueste Flaggschiff von Z.ai, basiert auf einer anderen Annahme: Nützliche Optimierung sollte sich mit der Zeit vervielfachen, nicht abflachen. In den eigenen Benchmarks von Z.ai führte es 655 Iterationen an einem Vektorsuchproblem durch und erreichte 21,5k QPS — etwa das 6-fache dessen, was die besten Modelle in einer Standard-Sitzung erreichen. Es lief 8 Stunden lang, um einen Linux-Desktop von Grund auf zu erstellen, und entschied selbst, was als Nächstes hinzugefügt werden sollte.
GLM-5.1 ist jetzt auf Novita AI verfügbar, über OpenAI- und Anthropic-kompatible APIs, mit Abrechnung pro Token.
Probieren Sie GLM-5.1 jetzt aus
Was ist neu bei GLM-5.1
GLM-5.1 ist ein Mixture-of-Experts-Modell mit 754B Parametern, von denen 40B pro Inferenzdurchlauf aktiv sind, mit einem Kontextfenster von 204.800 Token.
Die eigentliche Neuerung liegt im Verhalten bei langfristigen Aufgaben. Z.ai nennt dies ein Treppenmuster: Das Modell verfeinert seine Arbeit innerhalb einer festen Strategie, bis es an eine Grenze stößt, wechselt dann zu einem strukturell anderen Ansatz und steigt erneut. Sechs solcher Wechsel fanden in einem einzelnen VectorDBBench-Durchlauf statt. Jeder wurde vom Modell selbst eingeleitet, nachdem es seine eigenen Benchmark-Protokolle analysiert und identifiziert hatte, was weitere Fortschritte blockierte.
Das unterscheidet sich von einem längeren Kontextfenster: Hier verwaltet das Modell seine Strategie aktiv selbst.
GLM-5.1 Benchmark-Ergebnisse: Programmier- und agentische Aufgaben
GLM-5.1 führt bei Programmier- und agentischen Benchmarks an. Bei Reasoning liegen Gemini 3.1 Pro und GPT-5.4 vorn.
Reasoning
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| HLE | 31.0 | 30.5 | 28.8 | 28.0 | 25.1 | 31.5 | 36.7 | 45.0 | 39.8 |
| HLE (w/ Tools) | 52.3 | 50.4 | 50.6 | — | 40.8 | 51.8 | 53.1 | 51.4 | 52.1 |
| AIME 2026 | 95.3 | 95.4 | 95.1 | 89.8 | 95.1 | 94.5 | 95.6 | 98.2 | 98.7 |
| HMMT Nov. 2025 | 94.0 | 96.9 | 94.6 | 81.0 | 90.2 | 91.1 | 96.3 | 94.8 | 95.8 |
| HMMT Feb. 2026 | 82.6 | 82.8 | 87.8 | 72.7 | 79.9 | 81.3 | 84.3 | 87.3 | 91.8 |
| IMOAnswerBench | 83.8 | 82.5 | 83.8 | 66.3 | 78.3 | 81.8 | 75.3 | 81.0 | 91.4 |
| GPQA-Diamond | 86.2 | 86.0 | 90.4 | 87.0 | 82.4 | 87.6 | 91.3 | 94.3 | 92.0 |
Coding
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 55.1 | 56.6 | 56.2 | — | 53.8 | 57.3 | 54.2 | 57.7 |
| NL2Repo | 42.7 | 35.9 | 37.9 | 39.8 | — | 32.0 | 49.8 | 33.4 | 41.3 |
| Terminal-Bench 2.0 (Terminus-2) | 63.5 | 56.2 | 61.6 | — | 39.3 | 50.8 | 65.4 | 68.5 | — |
| Terminal-Bench 2.0 (best harness) | 69.0 (Claude Code) | 56.2 (Claude Code) | — | 57.0 (Claude Code) | 46.4 (Claude Code) | — | — | — | 75.1 (Codex) |
| CyberGym | 68.7 | 48.3 | — | — | 17.3 | 41.3 | 66.6 | — | — |
Agentic
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| BrowseComp | 68.0 | 62.0 | — | — | 51.4 | 60.6 | — | — | — |
| BrowseComp (w/ Context Manage) | 79.3 | 75.9 | — | — | 67.6 | 74.9 | 84.0 | 85.9 | 82.7 |
| τ³-Bench | 70.6 | 69.2 | 70.7 | 67.6 | 69.2 | 66.0 | 72.4 | 67.1 | 72.9 |
| MCP-Atlas (Public Set) | 71.8 | 69.2 | 74.1 | 48.8 | 62.2 | 63.8 | 73.8 | 69.2 | 67.2 |
| Tool-Decathlon | 40.7 | 38.0 | 39.8 | 46.3 | 35.2 | 27.8 | 47.2 | 48.8 | 54.6 |
| Vending Bench 2 | $5,634 | $4,432 | $5,115 | — | $1,034 | $1,198 | $8,018 | $911 | $6,144 |
SWE-Bench Pro (58,4) ist das Highlight — die höchste Punktzahl unter allen neun Modellen in diesem Vergleich, sowohl Open-Source als auch proprietär. CyberGym weist den größten Sprung zwischen den Generationen auf: von 48,3 bei GLM-5 auf 68,7. Bei Terminal-Bench 2.0 ist anzumerken: Die Zeile „Bestes Harness“ spiegelt die von jedem Team selbst gemeldeten Ergebnisse mit ihrer bevorzugten Ausführungsumgebung wider. GLM-5.1 erreicht 69,0 mit Claude Code; GPT-5.4 erreicht 75,1 mit Codex.
Wie langfristige agentische Ausführung in der Praxis aussieht
Einmalige Benchmark-Zahlen bilden nicht ab, was passiert, wenn man ein Modell stundenlang laufen lässt. Z.ai hat drei Szenarien mit zunehmend weniger strukturiertem Feedback durchgeführt, um zu zeigen, was GLM-5.1 anders macht.
Szenario 1: Vektordatenbank-Optimierung, 600+ Iterationen
VectorDBBench gibt dem Modell ein Rust-Gerüst mit HTTP-Endpunkten und leeren Implementierungsgerüsten. Mit Tool-Aufruf-basierten Agenten liest und schreibt es Dateien, kompiliert, testet und profiliert — normalerweise innerhalb eines Budgets von 50 Durchläufen. Das beste Ergebnis unter dieser Einschränkung: 3.547 QPS von Claude Opus 4.6.
Z.ai hat die Begrenzung entfernt. In jeder Iteration konnte GLM-5.1 so viele Tool-Aufrufe wie nötig verwenden und dann eine neue Version zum Benchmark einreichen. Es führte 655 Iterationen mit über 6.000 Tool-Aufrufen durch und erreichte 21,5k QPS — etwa das 6-fache des besten Ergebnisses einer einzelnen Sitzung.
Zwei Übergänge veranschaulichen, wie es dorthin gelangt ist. Etwa bei Iteration 90 wechselte es von der vollständigen Korpusdurchsuchung zur IVF-Cluster-Untersuchung mit f16-Vektorkomprimierung und sprang auf 6,4k QPS. Etwa bei Iteration 240 führte es eine zweistufige Pipeline ein — u8-Vorauswertung gefolgt von f16-Reranking — und erreichte 13,4k QPS. Sechs solcher struktureller Übergänge fanden im gesamten Durchlauf statt, jeder vom Modell selbst eingeleitet, nachdem es seine eigenen Benchmark-Protokolle analysiert und den aktuellen Engpass identifiziert hatte.
Szenario 2: GPU-Kernel-Optimierung, 1.000+ Durchläufe
KernelBench fordert das Modell auf, eine Referenzimplementierung in PyTorch zu nehmen und einen schnelleren GPU-Kernel mit identischen Ausgaben zu erstellen. Level 3 umfasst 50 Probleme mit vollständigen Modellen: MobileNet, VGG, MiniGPT, Mamba. Basislinie: torch.compile mit 1,15-facher Geschwindigkeit, max-autotune mit 1,49-facher Geschwindigkeit.
Z.ai hat vier Modelle auf Level 3 getestet und die geometrische Mittelwertgeschwindigkeitssteigerung über die Tool-Nutzungsdurchläufe verfolgt:
- GLM-5 verbessert sich zu Beginn schnell und flacht dann ab
- Claude Opus 4.5 läuft länger, flacht dann aber auch ab
- GLM-5.1 endet bei 3,6-facher Geschwindigkeit und macht auch noch weit im Verlauf Fortschritte
- Claude Opus 4.6 ist mit 4,2-facher Geschwindigkeit am stärksten und zeigt am Ende noch Potenzial
GLM-5.1 erreicht hier nicht die Leistung von Claude Opus 4.6. Aber es verlängert die nützliche Laufzeit deutlich über GLM-5 hinaus, was der Punkt ist.
Szenario 3: Erstellung eines Linux-Desktops, 8 Stunden autonom
Die ersten beiden Szenarien haben eine zu optimierende Zahl. Dieses hier nicht. Die Aufgabe: Erstellen Sie eine Linux-ähnliche Desktop-Umgebung als Webanwendung. Kein Starter-Code, keine Design-Mockups, kein Zwischenfeedback.
Die meisten Modelle erstellen ein einfaches Grundgerüst — statische Taskleiste, ein Platzhalterfenster — und erklären es dann für fertig.
GLM-5.1 lief in einem einfachen Harness: Nach jeder Ausführungsrunde überprüft das Modell seine eigene Ausgabe, identifiziert, was fehlt oder defekt ist, und macht weiter. Über 8 Stunden erstellte es einen Dateibrowser, ein Terminal, einen Texteditor, einen Systemmonitor, einen Taschenrechner und funktionale Spiele, die jeweils in eine kohärente UI integriert waren. Das Design wurde mit jedem Durchgang polierter. Randfälle wurden behandelt. Das Modell hat die gesamte Roadmap selbst festgelegt.
Wofür GLM-5.1 entwickelt wurde
GLM-5.1 eignet sich am besten für Aufgaben, bei denen zusätzliche Laufzeit tatsächlich bessere Ausgaben erzeugt:
- Lang laufende Programmieragenten — Multi-Datei-Refactorings, Migrationen, vollständige Systembuilds
- Agentische Programmiertools — Kompatibel mit Claude Code, OpenClaw, Trae, Cursor, Codex und Cline
- Terminalautomatisierung — 63,5 bei Terminal-Bench 2.0 (Terminus-2), gegenüber 56,2 bei GLM-5 verbessert
- Cybersicherheit — 68,7 bei CyberGym, die höchste Punktzahl in diesem Benchmark-Set
- Web-Recherche — 68,0 bei BrowseComp, ebenfalls die höchste hier
GLM-5.1 API-Preise auf Novita AI
|Preis| |—|—| |Eingabe|$1,40 / M Token| |Cache-Lesen|$0,26 / M Token| |Ausgabe|$4,40 / M Token|
Abrechnung pro Token, keine monatliche Bindung. Die vollständigen Preise finden Sie unter novita.ai/pricing.
Erste Schritte: Kompatibel mit OpenAI- und Anthropic-SDKs
Die API von Novita AI funktioniert sowohl mit dem OpenAI- als auch dem Anthropic-SDK. Fügen Sie einfach die Modell-ID hinzu, und Ihre bestehende Einrichtung funktioniert ohne Änderungen. GLM-5.1 kann direkt von Claude Code, OpenClaw, Trae, Cursor, Codex und jeder Plattform aufgerufen werden, die einen OpenAI- oder Anthropic-kompatiblen Endpunkt akzeptiert.
Probieren Sie GLM-5.1 im Playground aus | API-Dokumentation anzeigen
Python (OpenAI-SDK):
from openai import OpenAI
client = OpenAI(
api_key="<Your Novita API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-5.1",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Refactor this module to use async/await throughout."}
],
max_tokens=131072,
temperature=0.7
)
print(response.choices[0].message.content)
TypeScript (OpenAI-SDK):
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "<Your Novita API Key>",
baseURL: "https://api.novita.ai/openai",
});
const response = await client.chat.completions.create({
model: "zai-org/glm-5.1",
messages: [
{ role: "system", content: "You are a helpful assistant." },
{ role: "user", content: "Build a CLI tool for parsing JSON logs." }
],
max_tokens: 131072,
});
console.log(response.choices[0].message.content);
Anwendungsfälle für Entwickler
GLM-5.1 ist am nützlichsten bei Aufgaben, die nicht in einem einzigen Durchgang gelöst werden können und von iterativer Verfeinerung profitieren:
- Autonome Programmieragenten — Weisen Sie eine Repository-weite Aufgabe zu und lassen Sie das Modell planen, implementieren, testen und iterieren, ohne Check-ins
- CI/CD-Pipeline-Automatisierung — Funktionsaufrufe machen es einfach, GLM-5.1 in Build-/Test-/Debug-Schleifen zu integrieren
- Generierung von langen technischen Dokumenten — 204K Kontext und 131K Ausgabe verarbeiten große, kohärente Dokumente in einem einzigen Aufruf
- GPU-Kernel- und ML-Leistungsoptimierung — Die 3,6-fache Geschwindigkeitssteigerung bei KernelBench lässt sich direkt auf ML-Infrastrukturarbeit übertragen
- Webanwendungs-Scaffolding — GLM-5.1 hat eine vollständige Desktop-UI aus einem einzigen Prompt in natürlicher Sprache erstellt; dieselbe Schleife gilt für jede komplexe Frontend- oder Backend-Aufgabe
- Sicherheitsentwicklung — 68,7 bei CyberGym macht es zu einem der stärksten verfügbaren Modelle für autonome Sicherheitsaufgaben
Fazit
Open-Source-Modelle haben den Rückstand bei Reasoning-Benchmarks aufgeholt. Die verbleibende Lücke liegt in der langfristigen Ausführung — über hunderte Tool-Aufrufe und Stunden autonomer Arbeit kohärent und produktiv zu bleiben. GLM-5.1 ist der bisher klarste Beweis dafür, dass diese Lücke geschlossen werden kann.
Wenn Sie ernsthafte agentische Workloads ausführen und proprietären Lock-in vermeiden möchten, ist es derzeit die leistungsfähigste Open-Source-Option für Programmier- und Agentenaufgaben. Auf Novita AI erhalten Sie es mit Kompatibilität zu OpenAI- und Anthropic-SDKs, Abrechnung pro Token und ohne Infrastrukturaufwand.
Probieren Sie GLM-5.1 im Playground aus | API-Dokumentation anzeigen
Novita AI ist eine KI- & Agenten-Cloud-Plattform, die Entwicklern und Startups hilft, Modelle und agentische Anwendungen mit hoher Leistung, Zuverlässigkeit und Kosteneffizienz zu erstellen, bereitzustellen und zu skalieren.
Häufig gestellte Fragen
Was hat sich zwischen GLM-5 und GLM-5.1 geändert?u003c/strongu003e
Die größte Neuerung liegt in der langfristigen Ausführung. GLM-5 erreicht nach einigen Dutzend Iterationen ein Plateau; GLM-5.1 findet über hunderte Runden hinweg immer neue Strategien. Das Treppenmuster — strukturelle Wechsel, die durch Selbstanalyse ausgelöst werden — macht den Unterschied. Die Punktzahlen bei Programmier-Benchmarks haben sich außerdem insgesamt verbessert.
Ist GLM-5.1 Open-Source?u003c/strongu003e
Ja, MIT-Lizenz. Die Gewichte sind auf Hugging Face verfügbar. Sie können es kommerziell nutzen, feinabstimmen und selbst hosten.
Wie schneidet GLM-5.1 im Vergleich zu Claude Opus 4.6 ab?
Beim SWE-Bench Pro erreicht GLM-5.1 58,4 Punkte gegenüber 57,3 von Claude Opus 4.6. Bei der langfristigen GPU-Optimierung im KernelBench liegt Claude Opus 4.6 mit 4,2-facher Geschwindigkeit vor GLM-5.1 mit 3,6-facher Geschwindigkeit. Bei den meisten agentischen Programmieraufgaben sind die beiden Modelle fast gleichauf — GLM-5.1 hat den Vorteil von offenen Gewichten und geringeren Kosten.
