API GLM-5.1 sur Novita AI: Modèle d'agent à long horizon

glm5.1 sur novita

La plupart des modèles de codage atteignent leurs limites après quelques dizaines d'appels à des outils. Ils essaient les approches évidentes, se retrouvent à court d'idées et stagnent. Perdre du temps ne change rien : le modèle a déjà épuisé toutes ses possibilités.

Quelles sont les véritables nouveautés de GLM-5.1 ?

GLM-5.1 est un modèle Mixture-of-Experts à 754 milliards de paramètres, 40 milliards actifs par passage d'inférence, fenêtre de contexte de 204 800 jetons.

Le véritable changement réside dans son comportement face aux tâches à long terme. Z.ai le décrit comme un modèle en escalier : le modèle s'affine selon une stratégie fixe jusqu'à atteindre un plafond, puis adopte une approche structurellement différente et recommence à progresser. Six changements de ce type se sont produits lors d'une seule exécution de VectorDBBench. Chacun a été initié par le modèle après l'analyse de ses propres journaux de benchmark et l'identification des éléments bloquant sa progression.

C'est différent d'avoir une fenêtre de contexte plus longue. Il s'agit du modèle qui gère activement sa propre stratégie.

Résultats du benchmark GLM-5.1 : tâches de codage et d’agentivité

GLM-5.1 domine les tests de codage et d'agentivité. En matière de raisonnement, Gemini 3.1 Pro et GPT-5.4 sont en tête.

Raisonnement

référenceGLM-5.1GLM-5Qwen3.6-PlusMiniMax M2.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.6Gémeaux 3.1 ProGPT-5.4
ENFER31.030.528.828.025.131.536.745.039.8
HLE (avec outils)52.350.450.6-40.851.853.151.452.1
AIME 202695.395.495.189.895.194.595.698.298.7
HMMT novembre 202594.096.994.681.090.291.196.394.895.8
HMMT février 202682.682.887.872.779.981.384.387.391.8
IMOAnswerBench83.882.583.866.378.381.875.381.091.4
GPQA-Diamant86.286.090.487.082.487.691.394.392.0

Codage

référenceGLM-5.1GLM-5Qwen3.6-PlusMiniMax M2.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.6Gémeaux 3.1 ProGPT-5.4
SWE-Bench Pro58.455.156.656.2-53.857.354.257.7
NL2Repo42.735.937.939.8-32.049.833.441.3
Terminal-Bench 2.0 (Terminus-2)63.556.261.6-39.350.865.468.5-
Terminal-Bench 2.0 (meilleur faisceau)69.0 (Code Claude)56.2 (Code Claude)-57.0 (Code Claude)46.4 (Code Claude)---75.1 (Manuscrit)
CyberGym68.748.3--17.341.366.6--

Agentique

référenceGLM-5.1GLM-5Qwen3.6-PlusMiniMax M2.7DeepSeek-V3.2Kimi K2.5Claude Opus 4.6Gémeaux 3.1 ProGPT-5.4
BrowseComp68.062.0--51.460.6---
BrowseComp (avec gestion du contexte)79.375.9--67.674.984.085.982.7
Banc τ³70.669.270.767.669.266.072.467.172.9
Atlas MCP (Ensemble public)71.869.274.148.862.263.873.869.267.2
Décathlon des outils40.738.039.846.335.227.847.248.854.6
Banc de distribution automatique 2$5,634$4,432$5,115-$1,034$1,198$8,018$911$6,144

SWE-Bench Pro (58.4) se distingue par son score élevé, le meilleur parmi les neuf modèles comparés, qu'ils soient open source ou propriétaires. CyberGym affiche la progression la plus spectaculaire d'une génération à l'autre : de 48.3 sur GLM-5 à 68.7. À noter concernant Terminal-Bench 2.0 : la ligne « meilleur environnement » correspond au résultat déclaré par chaque équipe, obtenu avec son environnement d'exécution préféré. GLM-5.1 atteint 69.0 avec Claude Code ; GPT-5.4 atteint 75.1 avec Codex.

À quoi ressemble concrètement l'exécution d'agents à long terme ?

Les résultats des tests de performance en une seule passe ne reflètent pas l'évolution d'un modèle lorsqu'il est exécuté pendant des heures. Z.ai a donc exécuté trois scénarios avec des retours d'information de moins en moins structurés afin de mettre en évidence les différences de comportement de GLM-5.1.

Scénario 1 : optimisation de base de données vectorielles, plus de 600 itérations

VectorDBBench fournit au modèle une structure Rust avec des points de terminaison HTTP et des stubs d'implémentation vides. À l'aide d'agents basés sur des appels d'outils, il lit et écrit des fichiers, compile, teste et profile, généralement en 50 tours. Le meilleur résultat obtenu avec cette contrainte est de 3 547 requêtes par seconde (QPS), par Claude Opus 4.6.

Z.ai a levé la limite. À chaque itération, GLM-5.1 pouvait utiliser autant d'appels d'outils que nécessaire, puis soumettre une nouvelle version pour évaluation. Il a exécuté 655 itérations avec plus de 6 000 appels d'outils et a atteint 21 500 requêtes par seconde (QPS), soit environ six fois le meilleur résultat obtenu en une seule session.

Deux transitions illustrent cette évolution. Aux alentours de l'itération 90, le modèle est passé d'une analyse complète du corpus à un sondage par clusters IVF avec compression vectorielle f16, atteignant ainsi 6 400 requêtes par seconde (QPS). Aux alentours de l'itération 240, il a introduit un pipeline en deux étapes : un pré-score u8 suivi d'un ré-ordonnancement f16, permettant d'atteindre 13 400 QPS. Six transitions structurelles de ce type se sont produites au cours de l'exécution, chacune étant initiée par le modèle après analyse de ses propres journaux de benchmark et identification du goulot d'étranglement. 

Scenario 2 : GPU Optimisation du noyau, plus de 1 000 tours

KernelBench demande au modèle de prendre une implémentation PyTorch de référence et d'en produire une plus rapide. GPU Noyau avec des sorties identiques. Le niveau 3 couvre 50 problèmes de modélisation complète : MobileNet, VGG, MiniGPT, Mamba. Référence : torch.compile à 1.15x, réglage automatique maximal à 1.49x.

Z.ai a exécuté quatre modèles au niveau 3, en suivant l'accélération moyenne géométrique au fil des tours d'utilisation des outils :

  • Le GLM-5 s'améliore rapidement au début et se stabilise ensuite.
  • Claude Opus 4.5 se prolonge, puis s'amenuise également.
  • GLM-5.1 termine à 3.6x et continue de progresser tout au long de la course.
  • Claude Opus 4.6 est le plus puissant à 4.2x, montrant encore une marge de manœuvre en fin de course.

GLM-5.1 n'égale pas Claude Opus 4.6 sur ce point. Mais il étend clairement la durée d'exécution utile au-delà de GLM-5, ce qui est l'essentiel.

Scénario 3 : Création d’un bureau Linux, 8 heures d’autonomie

Les deux premiers scénarios proposent un nombre à optimiser. Celui-ci n'en propose pas. Consigne : créer un environnement de bureau de type Linux sous forme d'application web. Aucun code de départ, aucune maquette, aucun retour d'information intermédiaire.

La plupart des modèles produisent une structure de base — une barre des tâches statique, une fenêtre de substitution — puis déclarent le travail terminé.

GLM-5.1 s'exécutait dans un environnement simple : après chaque itération, le modèle analysait son propre résultat, identifiait les éléments manquants ou défectueux, puis poursuivait son exécution. En huit heures, il a généré un explorateur de fichiers, un terminal, un éditeur de texte, un moniteur système, une calculatrice et des jeux fonctionnels, le tout intégré dans une interface utilisateur cohérente. Le style s'est affiné à chaque itération. Les cas particuliers ont été gérés. Le modèle a défini lui-même la feuille de route du projet.

À quoi sert GLM-5.1 ?

GLM-5.1 est le plus pertinent pour les tâches où un temps d'exécution supplémentaire produit réellement de meilleurs résultats :

  • Agents de codage de longue durée — refactorisations multi-fichiers, migrations, compilations complètes du système
  • Outils de codage agentic — compatibles avec Claude Code, OpenClaw, Trae, Cursor, Codex et Cline
  • Automatisation des terminaux — 63.5 sur Terminal-Bench 2.0 (Terminus-2), contre 56.2 sur GLM-5
  • Cybersécurité — 68.7 sur CyberGym, le score le plus élevé de cet ensemble de référence
  • Recherche Web — 68.0 sur BrowseComp, également le score le plus élevé ici

Tarification de l'API GLM-5.1 sur Novita AI

 Tarif :
Entrée1.40 $ / jetons M
Lecture du cache0.26 $ / jetons M
Sortie4.40 $ / jetons M

Paiement à l'unité, sans engagement mensuel. Tarifs complets sur novita.ai/tarification.

Pour commencer : compatible avec OpenAI et le SDK Anthropic

Novita AIL'API est compatible avec les SDK OpenAI et Anthropic. Il suffit d'indiquer l'identifiant du modèle pour que votre configuration existante fonctionne sans modification. GLM-5.1 peut être appelé directement depuis Claude Code, OpenClaw, Trae, Cursor, Codex et toute plateforme acceptant un point de terminaison compatible OpenAI ou Anthropic.

Essayez GLM-5.1 sur Playground  |  Afficher la documentation de l'API

Python (SDK OpenAI) :

depuis openai import OpenAI client = OpenAI( api_key=" ", base_url="https://api.novita.ai/openai" ) réponse = client.chat.completions.create( modèle="zai-org/glm-5.1", messages=[ {"role": "system", "content": "Vous êtes un assistant utile."}, {"role": "user", "content": "Refactorisez ce module pour utiliser async/await partout."} ], max_tokens=131072, temperature=0.7 ) print(response.choices[0].message.content)

TypeScript (SDK OpenAI) :

import OpenAI from "openai"; const client = new OpenAI({ apiKey: " ", baseURL: "https://api.novita.ai/openai", }); const response = await client.chat.completions.create({ model: "zai-org/glm-5.1", messages: [ { role: "system", content: "Vous êtes un assistant utile." }, { role: "user", content: "Créez un outil CLI pour analyser les journaux JSON." } ], max_tokens: 131072, }); console.log(response.choices[0].message.content);

Cas d'utilisation pour les développeurs

GLM-5.1 est particulièrement utile lorsque la tâche ne peut être résolue en une seule passe et bénéficie d'un raffinement itératif :

  • Agents de codage autonomes — Attribuez une tâche au niveau du dépôt et laissez le modèle planifier, implémenter, tester et itérer sans validation.
  • Automatisation des pipelines CI/CD — L'appel de fonctions simplifie l'intégration de GLM-5.1 dans les boucles de compilation/test/débogage.
  • Génération de documents techniques longs : le contexte (204 Ko) et la sortie (131 Ko) permettent de traiter des documents volumineux et cohérents en un seul appel.
  • GPU Optimisation des performances du noyau et du ML : un gain de vitesse de 3.6× sur KernelBench se traduit directement par une amélioration des performances de l’infrastructure ML.
  • Génération d'une application web — GLM-5.1 a permis de créer une interface utilisateur de bureau complète à partir d'une seule invite en langage naturel ; le même processus s'applique à toute tâche complexe côté client ou côté serveur.
  • Ingénierie de sécurité — avec un score de 68.7 sur CyberGym, ce modèle figure parmi les plus performants pour les tâches de sécurité autonomes.

En résumé

Les modèles open source ont comblé l'écart en matière de performances de raisonnement. Le défi persistant réside dans l'exécution à long terme : maintenir la cohérence et la productivité malgré des centaines d'appels d'outils et des heures de travail autonome. GLM-5.1 constitue à ce jour la preuve la plus convaincante que cet écart est comblable.

Si vous gérez des charges de travail importantes avec des agents et que vous souhaitez éviter la dépendance à un logiciel propriétaire, c'est actuellement l'option open source la plus performante pour le codage et les tâches liées aux agents. Novita AIVous bénéficiez ainsi d'une compatibilité avec les SDK OpenAI et Anthropic, d'une tarification au jeton et d'aucune surcharge d'infrastructure.

Essayez GLM-5.1 sur Playground  |  Afficher la documentation de l'API

Novita AI est une plateforme cloud d'IA et d'agents aidant les développeurs et les startups à créer, déployer et faire évoluer des modèles et des applications agentiques avec des performances, une fiabilité et une rentabilité élevées.

Questions fréquemment posées

Qu'est-ce qui a changé entre GLM-5 et GLM-5.1 ?

Le changement le plus important réside dans l'exécution à long terme. GLM-5 atteint un plateau après quelques dizaines d'itérations ; GLM-5.1 continue de découvrir de nouvelles stratégies sur des centaines d'itérations. La structure en escalier – des changements structurels déclenchés par l'auto-analyse – est ce qui fait la différence. Les scores des tests de performance en programmation se sont également améliorés de manière générale.

GLM-5.1 est-il un logiciel libre ?

Oui, licence MIT. Les poids sont disponibles sur Hugging Face. Vous pouvez l'utiliser à des fins commerciales, le personnaliser et l'héberger vous-même.

Comment GLM-5.1 se compare-t-il à Claude Opus 4.6 ?

Sur SWE-Bench Pro, GLM-5.1 obtient un score de 58.4 contre 57.3 pour Claude Opus 4.6. Sur KernelBench long-horizon GPU En matière d'optimisation, Claude Opus 4.6 surpasse GLM-5.1 avec un gain de 4.2× contre 3.6×. Pour la plupart des tâches de codage agentiel, les deux algorithmes sont très proches, GLM-5.1 présentant un avantage en termes de poids ouvert et de coût.


Découvrez-en plus sur Novita

Abonnez-vous pour recevoir les derniers articles envoyés à votre adresse e-mail.

Laisser un commentaire

Remonter en haut

Découvrez-en plus sur Novita

Abonnez-vous maintenant pour continuer à lire et accéder aux archives complètes.

Lire la suite