MiniMax M2.5 atteint le score de 77,8 % de GLM 5 sur le SWE-bench Verified avec un résultat de 80,2 % — pour un tiers du coût API sur Novita AI. Sortis à 24 heures d’intervalle en février 2026, ces deux modèles chinois MoE (Mélange d’Experts) adoptent des approches différentes pour les agents IA. GLM 5 monte à 754 milliards de paramètres avec 40 milliards actifs, ciblant l’ingénierie système complexe avec une fenêtre de contexte de 200K et l’attention éparse DeepSeek. MiniMax M2.5 reste à 228,7 milliards de paramètres au total, avec des capacités de rédaction de spécifications, entraîné sur 200 000 environnements RL (Renforcement par Apprentissage) réels. Le choix se résume à savoir si vous avez besoin de la profondeur architecturale de GLM 5 pour des sessions de débogage de plusieurs heures, ou du faible coût de M2.5 pour des pipelines d’agents à haut volume.
Aperçu des modèles MiniMax M2.5 et GLM 5
L’architecture MoE de 754 milliards de paramètres de GLM 5 active 40 milliards de paramètres par inférence, ce qui le rend 3,2x plus grand que les 228,7 milliards au total de M2.5. Cet écart révèle des philosophies de conception distinctes qui se répercutent sur toutes les dimensions de performance.
| Composant d’architecture | GLM 5 | MiniMax M2.5 |
|---|---|---|
| Nombre total de paramètres | 754Md (40Md actifs) | 229Md |
| Architecture d’experts | 256 experts routés, Top-8, 1 expert partagé | 256 experts locaux, sélection Top-8 |
| Mécanisme d’attention | Attention éparse DeepSeek (DSA) | Attention standard |
| Couches cachées | 78 couches, taille cachée de 6144 | 62 couches, taille cachée de 3072 |
| Fenêtre de contexte | 202 752 tokens (200K) | 196 608 tokens (197K) |
| Données d’entraînement | 28,5T de tokens | Non divulguées |
| Framework RL | Slime (RL asynchrone) | Forge (RL natif pour agents, +200K environnements) |
L’attention éparse DeepSeek est la fonctionnalité architecturale clé de GLM 5. Elle maintient des performances élevées sur du long contexte tout en réduisant les coûts de déploiement. La différence de 202K contre 197K de fenêtre de contexte semble faible sur le papier, mais le DSA de GLM 5 maintient la cohérence sur toute cette fenêtre sans mise à l’échelle quadratique de la mémoire. MiniMax M2.5 compense par une efficacité de décomposition des tâches plutôt que par une capacité de contexte brute.
Introduction au DSA par kaitchup
Introduction à Forge par MiniMax
L’écart d’entraînement RL raconte une histoire plus profonde. Le framework Slime de GLM 5 permet un RL asynchrone à une échelle sans précédent, repoussant simultanément les limites de pré-entraînement et de post-entraînement. Le framework Forge de MiniMax découple complètement le moteur d’entraînement des agents, optimisé pour la généralisation sur différents échafaudages plutôt que pour la maîtrise d’une tâche unique. Vous choisissez entre un modèle entraîné pour gérer tout ce qu’on lui lance (GLM 5) et un modèle entraîné dans les environnements exacts que vos agents rencontreront (les +200K scénarios d’entraînement réels de M2.5).
Essayez GLM 5 et MiniMax M2.5 dès maintenant !
Comparaison coding tête-à-tête de MiniMax M2.5 et GLM 5
Le score de 80,2 % de M2.5 sur le SWE-bench Verified devance les 77,8 % de GLM 5, plaçant les deux à portée du score de 80,9 % de Claude Opus 4.6.
| Benchmark de codage | GLM 5 | MiniMax M2.5 | Ce qu’il mesure |
|---|---|---|---|
| SWE-bench Verified | 77,8 % | 80,2 % | Résolution de PR GitHub réelles |
| SWE-bench Multilingue | 73,3 % | 74,1 % | Correction de bugs multilingue |
| Terminal-Bench 2.0 | 56,2 % | 51,7 % | Manipulation d’environnements CLI |
L’écart apparaît dans la façon dont ils atteignent des scores similaires. Les tests contrôlés de Kilo AI révèlent le schéma : GLM 5 excelle dans l’ingénierie agentique — des cycles de débogage itératifs où le modèle s’auto-réfléchit sur les erreurs de compilation et refactorise jusqu’à ce que les tests passent. Il a obtenu un score parfait de 35/35 au test API-from-spec en écrivant 94 cas de test, créant des middleware réutilisables et en utilisant des motifs de base de données standard. Zéro bug sur trois exécutions autonomes.
M2.5 l’emporte sur la rédaction de spécifications — l’approche de l’architecte. Avant de toucher au code, il décompose les fonctionnalités en structure, design UI et limites système. Sur la tâche de chasse aux bugs, M2.5 a documenté chaque correction avec des commentaires en ligne et préservé tous les contrats d’API d’origine, obtenant 28/30 contre 24,5/30 pour GLM 5. Le hic : M2.5 a terminé tous les tests en 21 minutes contre 44 minutes pour GLM 5, mais a produit un bug d’autorisation critique sur le point de terminaison des pièces jointes que les tests complets de GLM 5 auraient détecté.

Test provenant de Kilo Code
Point clé à retenir : Les boucles d’auto-réflexion de GLM 5 brillent lorsque vous construisez à partir de zéro et avez besoin d’un code infaillible. La planification en amont de M2.5 domine lorsque vous travaillez avec des bases de code existantes où des modifications minimales et une documentation claire comptent plus qu’une architecture parfaite. Les développeurs rapportent que M2.5 nécessite plus de surveillance mais finit plus vite, tandis que GLM 5 s’aligne mieux sur l’intention au prix de limites de débit occasionnelles. GLM 5 construit plus et teste plus. MiniMax M2.5 modifie moins et finit plus vite.
https://www.youtube.com/watch?v=t94H-DkFIys
Essayez GLM 5 et MiniMax M2.5 dès maintenant !
Performance agentique de MiniMax M2.5 et GLM 5
GLM 5 domine les benchmarks d’appel d’outils. Il obtient 67,8 % sur MCP-Atlas (ensemble public), 38 % sur Tool-Decathlon et 89,7 % sur τ²-Bench. Ce ne sont pas des tests génériques d’appel de fonctions ; ils mesurent si un agent peut enchaîner 5 à 10 invocations d’outils pour résoudre des tâches de recherche réelles.
L’avantage de M2.5 se montre dans l’efficacité décisionnelle. Sur BrowseComp, Wide Search et RISE, M2.5 obtient de meilleurs résultats en utilisant 20 % de rounds de recherche en moins que M2.1. Il a appris à résoudre des problèmes avec des requêtes plus précises plutôt qu’une exploration exhaustive. Cette efficacité s’additionne en production : lorsque votre agent exécute 1 000 tâches de recherche par jour, l’efficacité tokenique de M2.5 réduit les coûts de 20 % avant même de prendre en compte son tarif API plus bas.
| Benchmark agentique | GLM 5 | MiniMax M2.5 | Scénario de test |
|---|---|---|---|
| BrowseComp (avec gestion de contexte) | 75,9 % | 75,1 %~76,3 % | Navigation réelle avec stratégie d’abandon d’historique |
| RISE (interne) | Non divulgué | 50,2 % | Tâches de recherche professionnelles |
| BFCL | Non divulgué | 76,8 % | |
| τ²-Bench | 89,7 % | Non divulgué | Sélection et séquencement d’outils |
| MCP-Atlas (ensemble public) | 67,8 % | Non divulgué | Tâches d’intégration de serveurs MCP |
Analyse des coûts de MiniMax M2.5 et GLM 5
Le tarif de M2.5 de 0,30 $ par million de tokens en entrée / 1,20 $ en sortie est 70 % moins cher que l’estimation de GLM 5 de 1,00 $ en entrée / 3,20 $ en sortie sur l’entrée, 62,5 % sur la sortie. Faire tourner M2.5 en continu coûte 1 $ par heure (8 760 $ par an). Le tarif de GLM 5 place l’opération continue à environ 2,80 $ par heure (24 528 $ par an) — 2,8x plus cher pour une disponibilité comparable.
| Scénario de coût | GLM 5 | MiniMax M2.5 | MiniMax M2.5 Haute vitesse |
|---|---|---|---|
| Tarif API (1M tokens) | 1,00 $ entrée / 3,20 $ sortie | 0,30 $ entrée / 1,20 $ sortie | 0,60 $ entrée / 2,40 $ sortie |
| Lecture de cache | 0,2 $ /Mt | 0,03 $ /Mt | 0,03 $ /Mt |
| Utilisation quotidienne OpenClaw (500K entrée / 100K sortie) | 0,82 $/jour | 0,27 $/jour | 0,54 $/jour |
La lecture de cache fait référence au coût de lecture de tokens précédemment stockés dans le cache de prompt. Lorsque le même contenu de prompt est réutilisé sur plusieurs requêtes, le modèle récupère ces tokens directement depuis le cache au lieu de les traiter à nouveau à partir de zéro. Cela réduit à la fois la latence d’inférence et le coût.
Essayez GLM 5 et MiniMax M2.5 dès maintenant !
Recommandations d’usage pour MiniMax M2.5 et GLM 5
Choisissez MiniMax M2.5 lorsque la domination vitesse-coût compte plus que la flexibilité architecturale. Les agents orientés client nécessitant des réponses en moins d’une seconde à grande échelle — chatbots gérant +10 000 conversations par jour, autocomplétion de code across les équipes de développement, génération automatisée de documentation — tirent tous parti du haut débit de M2.5 et de son coût API 3x moins élevé.
Choisissez GLM 5 lorsque la profondeur architecturale et les besoins de personnalisation l’emportent sur les contraintes de coût. Les environnements de recherche nécessitant le contexte complet de la base de code, des sessions de débogage de plusieurs heures, ou l’intégration avec des piles d’outils personnalisées favorisent la fenêtre de contexte de 200K de GLM 5 et sa domination sur MCP-Atlas/Tool-Decathlon. L’échelle de 754 milliards de paramètres avec l’attention éparse DeepSeek maintient la cohérence sur des tâches d’ingénierie système complexes qui feraient perdre le contexte à M2.5 en milieu de session.
| Catégorie de cas d’usage | GLM 5 | MiniMax M2.5 | Facteur décisionnel |
|---|---|---|---|
| Agents orientés client | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Tarif API bas |
| Ingénierie système complexe | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | Contexte 200K + DSA pour sessions de plusieurs heures |
| Automatisation à haut volume (+10K tâches/jour) | ⭐⭐ | ⭐⭐⭐⭐⭐ | API 3x moins chère = 3x plus de tâches par dollar |
| Développement exploratoire | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Temps de tâche de 21 min pour M2.5 contre 44 min pour GLM 5 sur le test Kilo |
| Intégration de pile d’outils personnalisée | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | 67,8 % sur MCP-Atlas, 89,7 % sur τ²-Bench |
| Maintenance de base de code multilingue | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | 73,3 % contre 51,3 % sur SWE-bench Multilingue |
| Productivité bureautique (Word/Excel/PPT) | ⭐⭐ | ⭐⭐⭐⭐⭐ | Taux de victoire de 59 % contre les modèles grand public (GDPval-MM) |
Essayez GLM 5 et MiniMax M2.5 dès maintenant !
Comment accéder aux deux modèles via Novita AI ?
Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles
Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Étape 2 : Choisissez votre modèle
Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Étape 3 : Commencez votre essai gratuit
Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Essayez GLM 5 et MiniMax M2.5 dès maintenant !
Étape 4 : Récupérez votre clé API
Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. En vous rendant sur la page « Paramètres », vous pouvez copier la clé API comme indiqué sur l’image.

Étape 5 : Installez l’API
Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.
Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec le LLM Novita AI. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-5 or minimax/minimax-m2.5",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=131072,
temperature=0.7
)
print(response.choices[0].message.content)
La question test : Avez-vous besoin de personnalisation ou simplement de performance ? Si votre flux de travail nécessite du fine-tuning, de l’auto-hébergement ou l’intégration avec des piles d’outils propriétaires → la flexibilité architecturale de GLM 5 et sa licence MIT justifient le surcoût. Si vous déployez des agents qui doivent passer à l’échelle de millions d’invocations sans contraintes budgétaires → l’intelligence à faible coût de M2.5 devient votre avantage concurrentiel. Le paysage des modèles open source chinois vient de forcer tous les concurrents à réévaluer ce que signifie « IA abordable » en 2026.
Foire aux questions
Quel modèle est meilleur pour les tâches de codage, MiniMax M2.5 ou GLM 5 ?
MiniMax M2.5 obtient de meilleurs résultats pour les tâches de codage avec 80,2 % sur le SWE-bench Verified, devançant légèrement GLM 5.
Quel modèle est meilleur pour les flux de travail agentiques, MiniMax M2.5 ou GLM 5 ?
GLM 5 obtient de meilleurs résultats pour les flux de travail agentiques complexes avec des scores plus élevés sur HLE avec outils et Terminal-Bench que MiniMax M2.5.
MiniMax M2.5 et GLM 5 peuvent-ils fonctionner sur des GPU grand public ?
MiniMax M2.5 et GLM 5 nécessitent tous les deux une grande quantité de VRAM et sont généralement accessibles via des API plutôt que sur des GPU grand public.
Novita AI est une plateforme cloud IA & agent qui aide les développeurs et les startups à construire, déployer et mettre à l’échelle des modèles et des applications agentiques avec des performances élevées, une fiabilité et une efficacité de coûts.
Lectures recommandées

Introduction au DSA par 