API GLM-5.1 sur Novita AI : Modèle agentique à long horizon

API GLM-5.1 sur Novita AI : Modèle agentique à long horizon

La plupart des modèles de codage atteignent leurs limites après quelques dizaines d’appels d’outils. Ils essaient les approches évidentes, sont à court d’idées et plafonnent. Passer plus de temps ne sert à rien : le modèle a déjà épuisé tout ce qu’il sait essayer.

GLM-5.1, la dernière référence de Z.ai, est conçu autour d’une hypothèse différente : l’optimisation utile doit s’améliorer avec le temps, pas diminuer. Lors des propres benchmarks de Z.ai, il a effectué 655 itérations sur un problème de recherche vectorielle et a atteint 21,5k QPS — soit environ 6 fois le meilleur résultat des modèles lors d’une session standard. Il a fonctionné pendant 8 heures pour construire un bureau Linux from scratch, décidant lui-même ce qu’il fallait ajouter ensuite.

GLM-5.1 est désormais disponible sur Novita AI, via des API compatibles OpenAI et Anthropic, avec paiement à l’usage par token.

Essayez GLM-5.1 maintenant

Ce qui est réellement nouveau dans GLM-5.1

GLM-5.1 est un modèle Mélange d’Experts (Mixture-of-Experts) de 754 milliards de paramètres, avec 40 milliards de paramètres actifs par passage d’inférence, et une fenêtre de contexte de 204 800 tokens.

Le vrai changement réside dans son comportement sur les tâches à long horizon. Z.ai appelle cela un motif en escalier : le modèle affine sa stratégie au sein d’une approche fixe jusqu’à atteindre un plafond, puis passe à une approche structurellement différente et progresse à nouveau. Six transitions de ce type se sont produites lors d’une seule exécution de VectorDBBench. Chacune a été initiée par le modèle après qu’il a analysé ses propres journaux de benchmark et identifié ce qui bloquait les progrès supplémentaires.

Cela diffère d’une simple fenêtre de contexte plus longue : c’est le modèle qui gère activement sa propre stratégie.

Résultats des benchmarks de GLM-5.1 : codage et tâches agentiques

GLM-5.1 est en tête des benchmarks de codage et agentiques. Pour le raisonnement, Gemini 3.1 Pro et GPT-5.4 sont en avance.

Raisonnement

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
HLE 31.0 30.5 28.8 28.0 25.1 31.5 36.7 45.0 39.8
HLE (w/ Tools) 52.3 50.4 50.6 40.8 51.8 53.1 51.4 52.1
AIME 2026 95.3 95.4 95.1 89.8 95.1 94.5 95.6 98.2 98.7
HMMT Nov. 2025 94.0 96.9 94.6 81.0 90.2 91.1 96.3 94.8 95.8
HMMT Feb. 2026 82.6 82.8 87.8 72.7 79.9 81.3 84.3 87.3 91.8
IMOAnswerBench 83.8 82.5 83.8 66.3 78.3 81.8 75.3 81.0 91.4
GPQA-Diamond 86.2 86.0 90.4 87.0 82.4 87.6 91.3 94.3 92.0

Codage

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
SWE-Bench Pro 58.4 55.1 56.6 56.2 53.8 57.3 54.2 57.7
NL2Repo 42.7 35.9 37.9 39.8 32.0 49.8 33.4 41.3
Terminal-Bench 2.0 (Terminus-2) 63.5 56.2 61.6 39.3 50.8 65.4 68.5
Terminal-Bench 2.0 (best harness) 69.0 (Claude Code) 56.2 (Claude Code) 57.0 (Claude Code) 46.4 (Claude Code) 75.1 (Codex)
CyberGym 68.7 48.3 17.3 41.3 66.6

Agentique

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
BrowseComp 68.0 62.0 51.4 60.6
BrowseComp (w/ Context Manage) 79.3 75.9 67.6 74.9 84.0 85.9 82.7
τ³-Bench 70.6 69.2 70.7 67.6 69.2 66.0 72.4 67.1 72.9
MCP-Atlas (Public Set) 71.8 69.2 74.1 48.8 62.2 63.8 73.8 69.2 67.2
Tool-Decathlon 40.7 38.0 39.8 46.3 35.2 27.8 47.2 48.8 54.6
Vending Bench 2 $5,634 $4,432 $5,115 $1,034 $1,198 $8,018 $911 $6,144

Le SWE-Bench Pro (58,4) fait la une — c’est le score le plus élevé parmi les neuf modèles de cette comparaison, qu’ils soient open source ou propriétaires. CyberGym est la progression la plus marquée d’une génération à l’autre : de 48,3 sur GLM-5 à 68,7. Concernant Terminal-Bench 2.0, la ligne « meilleur environnement d’exécution » reflète les résultats auto-déclarés de chaque équipe utilisant leur environnement d’exécution préféré. GLM-5.1 atteint 69,0 avec Claude Code ; GPT-5.4 atteint 75,1 avec Codex.

À quoi ressemble l’exécution agentique à long horizon en pratique

Les scores de benchmark en passage unique ne capturent pas ce qui se passe lorsque vous laissez un modèle fonctionner pendant des heures. Z.ai a mené trois scénarios avec des retours de moins en moins structurés pour montrer ce que GLM-5.1 fait différemment.

Scénario 1 : optimisation de base de données vectorielle, plus de 600 itérations

VectorDBBench fournit au modèle un squelette Rust avec des points de terminaison HTTP et des implémentations vides. En utilisant des agents basés sur des appels d’outils, il lit et écrit des fichiers, compile, teste et profite — normalement dans une limite de 50 tours. Le meilleur résultat dans cette contrainte : 3 547 QPS, par Claude Opus 4.6.

Z.ai a supprimé la limite. Lors de chaque itération, GLM-5.1 pouvait utiliser autant d’appels d’outils que nécessaire, puis soumettre une nouvelle version au benchmark. Il a effectué 655 itérations avec plus de 6 000 appels d’outils et a atteint 21,5k QPS — soit environ 6 fois le meilleur résultat en session unique.

Deux transitions illustrent comment il y est parvenu. Autour de l’itération 90, il est passé de l’analyse de l’ensemble du corpus au sondage de clusters IVF avec compression de vecteurs f16, passant à 6,4k QPS. Autour de l’itération 240, il a introduit un pipeline en deux étapes — présélection u8 suivie d’un reranking f16 — atteignant 13,4k QPS. Six transitions structurelles de ce type se sont produites sur l’ensemble de l’exécution, chacune initiée par le modèle après analyse de ses propres journaux de benchmark et identification du goulot d’étranglement actuel.

Scénario 2 : optimisation de noyau GPU, plus de 1 000 tours

KernelBench demande au modèle de prendre une implémentation PyTorch de référence et de produire un noyau GPU plus rapide avec des sorties identiques. Le niveau 3 couvre 50 problèmes de modèle complet : MobileNet, VGG, MiniGPT, Mamba. Baseline : torch.compile à 1,15x, max-autotune à 1,49x.

Z.ai a exécuté quatre modèles sur le niveau 3, en suivant l’accélération moyenne géométrique sur les tours d’utilisation d’outils :

  • GLM-5 s’améliore rapidement au début puis plafonne
  • Claude Opus 4.5 continue plus longtemps, puis diminue également
  • GLM-5.1 termine à 3,6x et continue de progresser tard dans l’exécution
  • Claude Opus 4.6 est le plus performant à 4,2x, montrant encore de la marge à la fin

GLM-5.1 n’égale pas Claude Opus 4.6 ici. Mais il étend clairement la durée d’exécution utile au-delà de GLM-5, ce qui est le but.

Scénario 3 : construction d’un bureau Linux, 8 heures d’autonomie

Les deux premiers scénarios ont un nombre à optimiser. Celui-ci n’en a pas. La consigne : construire un environnement de bureau de style Linux en application web. Pas de code de départ, pas de maquettes de design, pas de retours intermédiaires.

La plupart des modèles produisent un squelette basique — barre des tâches statique, fenêtre placeholder — puis déclarent avoir terminé.

GLM-5.1 a fonctionné dans un environnement simple : après chaque tour d’exécution, le modèle examine sa propre sortie, identifie ce qui manque ou est défectueux, et continue. Pendant 8 heures, il a construit un navigateur de fichiers, un terminal, un éditeur de texte, un moniteur système, une calculatrice et des jeux fonctionnels, chacun intégré dans une interface cohérente. Le style s’est amélioré à chaque passage. Les cas limites ont été gérés. Le modèle a décidé de toute la feuille de route lui-même.

Pour quoi GLM-5.1 est conçu

GLM-5.1 est le plus adapté pour les tâches où un temps d’exécution supplémentaire produit réellement une meilleure sortie :

  • Agents de codage de longue durée — refactorisations multi-fichiers, migrations, constructions complètes de systèmes
  • Outils de codage agentiques — fonctionne avec Claude Code, OpenClaw, Trae, Cursor, Codex et Cline
  • Automatisation du terminal — 63,5 sur Terminal-Bench 2.0 (Terminus-2), contre 56,2 sur GLM-5
  • Cybersécurité — 68,7 sur CyberGym, le score le plus élevé de cet ensemble de benchmarks
  • Recherche web — 68,0 sur BrowseComp, également le plus élevé ici

Tarification de l’API GLM-5.1 sur Novita AI

|Prix| |—|—| |Entrée|1,40 $ / M tokens| |Lecture de cache|0,26 $ / M tokens| |Sortie|4,40 $ / M tokens|

Paiement à l’usage par token, sans engagement mensuel. Tarification complète sur novita.ai/pricing.

Démarrage : compatible avec les SDK OpenAI et Anthropic

L’API de Novita AI fonctionne avec les SDK OpenAI et Anthropic. Insérez simplement l’ID du modèle et votre configuration existante fonctionne telle quelle. GLM-5.1 peut être appelé directement depuis Claude Code, OpenClaw, Trae, Cursor, Codex et toute plateforme acceptant un point de terminaison compatible OpenAI ou Anthropic.

Essayez GLM-5.1 sur le Playground | Consultez la documentation API

Python (SDK OpenAI) :

from openai import OpenAI

client = OpenAI(
    api_key="<Your Novita API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-5.1",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Refactor this module to use async/await throughout."}
    ],
    max_tokens=131072,
    temperature=0.7
)

print(response.choices[0].message.content)

TypeScript (SDK OpenAI) :

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "<Your Novita API Key>",
  baseURL: "https://api.novita.ai/openai",
});

const response = await client.chat.completions.create({
  model: "zai-org/glm-5.1",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Build a CLI tool for parsing JSON logs." }
  ],
  max_tokens: 131072,
});

console.log(response.choices[0].message.content);

Cas d’usage pour les développeurs

GLM-5.1 est le plus utile lorsque la tâche ne peut pas être résolue en un seul passage et bénéficie d’un affinage itératif :

  • Agents de codage autonomes — Assignez une tâche au niveau du dépôt et laissez le modèle planifier, implémenter, tester et itérer sans points de validation
  • Automatisation des pipelines CI/CD — L’appel de fonctions permet d’intégrer facilement GLM-5.1 dans les boucles de construction/test/débogage
  • Génération de documents techniques longs — Un contexte de 204K tokens et une sortie de 131K tokens permettent de traiter des documents volumineux et cohérents en un seul appel
  • Optimisation de noyaux GPU et de performances ML — L’accélération de 3,6× sur KernelBench se traduit directement par des travaux sur l’infrastructure ML
  • Génération de squelette d’applications web — GLM-5.1 a construit une interface de bureau complète à partir d’une seule consigne en langage naturel ; la même boucle s’applique à toute tâche frontend ou backend complexe
  • Ingénierie de sécurité — Le score de 68,7 sur CyberGym le place parmi les modèles les plus performants disponibles pour les tâches de sécurité autonomes

En résumé

Les modèles open source ont comblé leur retard sur les benchmarks de raisonnement. L’écart restant réside dans l’exécution à long horizon — rester cohérent et productif sur des centaines d’appels d’outils et des heures de travail autonome. GLM-5.1 est la preuve la plus claire à ce jour que cet écart peut être comblé.

Si vous exécutez des charges de travail agentiques sérieuses et souhaitez éviter l’enfermement propriétaire, c’est l’option open source la plus performante actuellement pour les tâches de codage et agentiques. Sur Novita AI, vous bénéficiez de la compatibilité avec les SDK OpenAI et Anthropic, d’une tarification à l’usage par token et sans frais d’infrastructure.

Essayez GLM-5.1 sur le Playground | Consultez la documentation API

Novita AI est une plateforme cloud IA et agentique qui aide les développeurs et les startups à construire, déployer et mettre à l’échelle des modèles et des applications agentiques avec des performances élevées, une fiabilité et une efficacité de coûts.

Foire aux questions

Qu’est-ce qui a changé entre le GLM-5 et le GLM-5.1 ?

Le changement le plus important concerne l’exécution à long horizon. Le GLM-5 plafonne après quelques dizaines d’itérations ; le GLM-5.1 continue de trouver de nouvelles stratégies sur des centaines de tours. Le motif en escalier — des transitions structurelles déclenchées par l’auto-analyse — est ce qui fait la différence. Les scores aux benchmarks de codage se sont également améliorés dans tous les domaines.

GLM-5.1 est-il open source ?

Oui, sous licence MIT. Les poids sont disponibles sur Hugging Face. Vous pouvez l’utiliser commercialement, l’affiner et l’héberger vous-même.

Comment GLM-5.1 se compare-t-il à Claude Opus 4.6 ?

Sur le SWE-Bench Pro, GLM-5.1 obtient 58,4 contre 57,3 pour Claude Opus 4.6. Sur l’optimisation GPU à long horizon de KernelBench, Claude Opus 4.6 est en tête avec 4,2× contre 3,6× pour GLM-5.1. Pour la plupart des tâches de codage agentiques, les deux sont très proches — GLM-5.1 présente un avantage de poids ouvert et de coût.