GLM-4.6 est désormais disponible sur la plateforme Novita AI, apportant le nouveau modèle phare de nouvelle génération de Zai-org avec des améliorations majeures en termes de longueur de contexte, de performances de codage et de capacités agentiques. Doté d’une architecture MoE (Mixture of Experts) de 355 milliards de paramètres et atteignant des performances de pointe parmi les modèles open source, GLM-4.6 représente une avancée significative des capacités de l’IA.
Cette dernière version double la fenêtre de contexte, passant de 128K à 200K tokens, tout en atteignant des performances quasi équivalentes à celles de Claude Sonnet 4 sur des tâches de codage réelles. Que vous construisiez des agents IA, développiez des applications complexes ou créiez des solutions d’automatisation, GLM-4.6 vous apporte les capacités dont vous avez besoin grâce à l’infrastructure conviviale pour les développeurs de Novita AI.
Tarification actuelle sur Novita AI : 204 800 tokens de contexte, 0,6 $ par million de tokens d’entrée, 2,2 $ par million de tokens de sortie
Qu’est-ce que le GLM-4.6 ?
GLM-4.6 est le nouveau modèle phare de nouvelle génération de Zhipu AI, qui apporte des améliorations significatives par rapport au GLM-4.5, atteignant des performances de pointe parmi les modèles open source. Construit avec une architecture MoE de 355 milliards de paramètres, il est spécialement conçu pour exceller dans les tâches agentiques, les applications de codage et les scénarios de raisonnement complexes.
Fenêtre de contexte étendue : GLM-4.6 introduit une fenêtre de contexte de 200K tokens (contre 128K pour le GLM-4.5), lui permettant de gérer des conversations plus complexes et de traiter des bases de code plus volumineuses. Cette extension permet aux développeurs de travailler avec une documentation exhaustive, d’analyser des fichiers de code plus longs et de maintenir le contexte sur des flux de travail agentiques sophistiqués.
Performances de codage supérieures : GLM-4.6 affiche des améliorations substantielles sur plusieurs benchmarks et des performances exceptionnelles dans des assistants de codage populaires comme Claude Code, Cline, Roo Code et Kilo Code. Le modèle excelle dans la génération de pages front-end visuellement soignées et la gestion de tâches de développement complexes avec une plus grande précision.
Capacités de raisonnement améliorées : Le raisonnement du modèle a été renforcé grâce à la prise en charge de l’utilisation d’outils pendant l’inférence, ce qui conduit à de meilleures performances dans les scénarios de résolution de problèmes. GLM-4.6 s’intègre plus efficacement dans les frameworks agentiques, ce qui en fait un choix idéal pour construire des systèmes d’automatisation alimentés par l’IA qui nécessitent un raisonnement multi-étapes et une intégration d’outils externes.
Qualité d’écriture affinée : GLM-4.6 produit des textes qui correspondent mieux aux préférences humaines en termes de style et de lisibilité, se comportant plus naturellement dans les scénarios de jeu de rôle et les tâches de génération de contenu.
Benchmarks de performance
GLM-4.6 affiche des performances solides lors d’évaluations complètes couvrant les agents, le raisonnement et les capacités de codage.
Résultats des benchmarks publics
Évalué sur huit benchmarks publics, GLM-4.6 affiche des améliorations claires par rapport au GLM-4.5 et atteint des performances de pointe parmi les modèles open source. Il affiche des performances compétitives face à des modèles de pointe comme DeepSeek-V3.2-Exp et Claude Sonnet 4, même s’il reste en retrait de Claude Sonnet 4.5 en matière de capacité de codage pure.

Performance dans le monde réel (CC-Bench)
Dans l’évaluation CC-Bench étendue, des évaluateurs humains ont utilisé GLM-4.6 dans des conteneurs Docker isolés pour accomplir des tâches multi-tours couvrant le développement front-end, la création d’outils, l’analyse de données, les tests et l’implémentation d’algorithmes.
Les résultats montrent que GLM-4.6 atteint des performances quasi équivalentes à celles de Claude Sonnet 4, avec un taux de victoire de 48,6 % tout en surpassant clairement les autres modèles open source.

Efficacité des tokens
GLM-4.6 accomplit des tâches avec environ 15 % de tokens en moins que le GLM-4.5, ce qui se traduit par des temps de réponse plus rapides, des coûts de calcul réduits et une qualité de sortie maintenue ou améliorée.
Démarrage avec GLM-4.6 sur la plateforme Novita AI
Novita AI propose plusieurs moyens d’accéder à GLM-4.6, adaptés à différents niveaux de compétence et cas d’usage.
Utiliser le playground (aucun code requis)
Inscrivez-vous et commencez à expérimenter avec GLM-4.6 en quelques secondes grâce à une interface interactive. Testez des prompts, consultez les résultats en temps réel avec la fenêtre de contexte complète de 200K et comparez GLM-4.6 avec d’autres modèles de pointe. Parfait pour le prototypage et la compréhension des capacités du modèle avant de construire des implémentations complètes.
Intégration via l’API (pour les développeurs)
Connectez GLM-4.6 à vos applications en utilisant l’API REST unifiée de Novita AI.
Intégration API directe (exemple Python)
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key="",
)
model = "zai-org/glm-4.6"
stream = True # or False
max_tokens = 49152
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Flux de travail multi-agents avec le SDK OpenAI Agents
Construisez des systèmes multi-agents sophistiqués avec une intégration plug-and-play, une prise en charge des transferts, du routage et de l’intégration d’outils avec la fenêtre de contexte complète de 200K.
Connexion avec des plateformes tierces
Agents de codage : Intégrez-vous avec des assistants de codage populaires comme Claude Code, Cursor, Codex, Trae, Qwen Code et Cline via des API compatibles OpenAI et des API compatibles Anthropic.
Frameworks d’orchestration : Connectez-vous avec LangChain, Dify, CrewAI et Langflow en utilisant des connecteurs officiels.
Hugging Face : Novita AI est un fournisseur d’inférence officiel pour Hugging Face, garantissant une compatibilité large avec l’écosystème.
Conclusion
GLM-4.6 sur Novita AI propose le nouveau modèle phare de Zhipu AI avec une architecture MoE de 355 milliards de paramètres et une fenêtre de contexte de 200K, atteignant des performances de pointe parmi les modèles open source. Avec des performances quasi équivalentes à celles de Claude Sonnet 4 (taux de victoire de 48,6 %) et une efficacité des tokens 15 % supérieure à celle du GLM-4.5, GLM-4.6 représente un bond en avant significatif des capacités d’IA accessibles.
Commencez à explorer GLM-4.6 dès aujourd’hui via le playground et l’API de Novita AI, ou des intégrations tierces pour améliorer votre flux de travail de développement avec une assistance de codage exceptionnelle, une écriture affinée et des capacités de raisonnement puissantes.
Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles IA grâce à notre API simple, tout en fournissant un cloud GPU abordable et fiable pour construire et mettre à l’échelle.
