Novita AI s'associe à Z.ai pour proposer GLM-4.5 : Unification des capacités de raisonnement, de codage et d'IA agentique

Table des matières

⚡ Performances globales
🚀 Commencez avec Novita AI
🔬 Innovation technique de GLM-4.5
🎯 Prêt à expérimenter l'IA unifiée ?

Aujourd’hui, nous sommes ravis d’annoncer le partenariat entre Novita AI et Z.ai pour offrir un support dès le premier jour de GLM-4.5 sur la plateforme Novita AI en tant que partenaire de lancement de Z.ai. Cette collaboration révolutionnaire présente la série de modèles d’IA la plus unifiée au monde, combinant raisonnement avancé, capacités de codage sophistiquées et fonctionnalité agentique native dans un seul framework puissant conçu pour les développeurs créant la prochaine génération d’applications d’IA.

Novita AI propose désormais le modèle révolutionnaire GLM-4.5 (355B paramètres totaux, 32B actifs) : construit avec des modes de raisonnement hybrides offrant à la fois le mode thinking pour le raisonnement complexe et l’utilisation d’outils, et le mode non-thinking pour des réponses instantanées. Il se classe 2e au classement général sur des benchmarks complets.

Les deux modèles bénéficient d’une longueur de contexte de 128k et d’une capacité d’appel de fonctions native, disponibles via l’infrastructure d’inférence optimisée de Novita AI.

⚡ Performances globales

GLM-4.5 se classe 2e et GLM-4.5-Air 5e sur 12 benchmarks couvrant des tâches agentiques (3), de raisonnement (7) et de codage (2), comparé aux modèles d’OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, Moonshot et DeepSeek.

GLM-4.5 unifie toutes les capacités là où les modèles précédents excellaient dans des domaines spécifiques — codage, mathématiques ou raisonnement — mais aucun n’atteignait les meilleures performances dans toutes les tâches.

Tâches agentiques

GLM-4.5 est un modèle fondamental optimisé pour les tâches agentiques. Il offre une longueur de contexte de 128k et une capacité d’appel de fonctions native. Z.ai a mesuré sa capacité agentique sur τ-bench et BFCL-v3 (Berkeley Function Calling Leaderboard v3). Sur les deux benchmarks, GLM-4.5 égalise les performances de Claude-4-Sonnet.

La navigation web est une application agentique populaire qui nécessite un raisonnement complexe et une utilisation d’outils multi-tours. Z.ai a évalué GLM-4.5 sur le benchmark BrowseComp, un benchmark exigeant pour la navigation web composé de questions complexes attendent des réponses courtes. Avec accès à l’outil de navigation web, GLM-4.5 donne des réponses correctes pour 26.4 % de toutes les questions, surpassant clairement Claude-4-Opus (18.8 %) et proche de o4-mini-high (28.0 %).

Benchmark	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	GPT-4.1	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Qwen3 235B Thinking 2507	DeepSeek R1 0528	Kimi K2	Grok4
TAU-bench	70.1	69.4	61.2	57.4	62.0	70.5	70.3	62.5	73.2	58.7	62.6	67.5
BFCL v3 (Full)	77.8	76.4	72.4	67.2	68.9	61.8	75.2	61.2	72.4	63.8	71.1	66.2
BrowseComp	26.4	21.3	49.7	28.3	4.1	18.8	14.7	7.6	4.6	3.2	7.9	32.6

Raisonnement

En mode thinking, GLM-4.5 et GLM-4.5-Air peuvent résoudre des problèmes de raisonnement complexes incluant les mathématiques, les sciences et les problèmes logiques.

Benchmark	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Gemini 2.5 Flash	DeepSeek R1 0528	Qwen3-235B Thinking 2507	Grok4
MMLU Pro	84.6	81.4	85.3	83.2	87.3	84.2	86.2	83.2	84.9	84.5	86.6
AIME24	91.0	89.4	90.3	94.0	75.7	77.3	88.7	82.3	89.3	94.1	94.3
MATH 500	98.2	98.1	99.2	98.9	98.2	99.1	96.7	98.1	98.3	98.0	99.0
SciCode	41.7	37.3	41.0	46.5	39.8	40.0	42.8	39.4	40.3	42.9	45.7
GPQA	79.1	75.0	82.7	78.4	79.6	77.7	84.4	79.0	81.3	81.1	87.7
HLE	14.4	10.6	20.0	17.5	11.7	8.5	21.1	11.1	14.9	15.8	23.9
LiveCodeBench (2407-2501)	72.9	70.7	78.4	80.4	63.6	58.0	80.1	69.5	77.0	78.2	81.9
AA-Index (Estimated)	67.7	64.8	70.0	69.8	64.4	62.7	70.5	65.1	68.3	69.4	73.2

Codage

GLM-4.5 est également performant en codage, incluant à la fois la construction d’un projet de codage à partir de zéro et la résolution agentique de tâches de codage dans des projets existants. Il peut être combiné de manière transparente avec des boîtes à outils de codage existantes telles que Claude Code, Roo Code et CodeGeex. Pour évaluer la capacité de codage, Z.ai a comparé différents modèles sur SWE-bench Verified et Terminal Bench.

Benchmark	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	GPT-4.1	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Gemini 2.5 Flash	Qwen3 235B Thinking 2507	Qwen3 235B	DeepSeek R1 0528	Kimi K2
SWE-bench Verified	64.2	57.6	69.1	54.8	48.6	67.8	70.4	49.0	60.4	35.0	36.2	41.4	65.4
Terminal-Bench	37.5	30.0	30.2	18.5	30.3	43.2	35.5	25.3	16.8	6.3	6.6	17.5	25.0

Pour évaluer les capacités de codage agentique de GLM-4.5 dans des scénarios réels, Z.ai a utilisé Claude Code pour effectuer des tests complets contre Claude-4-Sonnet, Kimi K2 et Qwen3-Coder en utilisant 52 tâches de codage couvrant le développement frontend, le développement d’outils, l’analyse de données, les tests et les applications algorithmiques. GLM-4.5 l’emporte sur Kimi K2 dans 53.9 % des tâches et domine Qwen3-Coder avec un taux de victoire de 80.8 %, tout en montrant une marge d’amélioration par rapport à Claude-4-Sonnet.

Notamment, GLM-4.5 atteint le taux de succès moyen d’appel d’outils le plus élevé à 90.6 %, surpassant Claude-4-Sonnet (89.5 %), Kimi-K2 (86.2 %) et Qwen3-Coder (77.1 %), démontrant une fiabilité et une efficacité supérieures dans les tâches de codage agentique.

🚀 Commencez avec Novita AI

Utilisez le Playground (Aucun codage requis)

Accès instantané : Inscrivez-vous et commencez à expérimenter avec GLM-4.5 en quelques secondes
Interface interactive : Testez des prompts de raisonnement complexes et visualisez les sorties structurées en temps réel
Comparaison de modèles : Comparez GLM-4.5 avec d’autres modèles leaders pour votre cas d’utilisation spécifique

Intégrez via l’API (Pour les développeurs)

Connectez GLM-4.5 à vos applications avec l’API REST unifiée de Novita AI.

Option 1 : Intégration directe via l’API (Exemple Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_S4q9KTdBQujFkXSE5aZYZCrwN9f5QO96BtAFLw4FOgB__slLHW9KFAjmMgC12ag6mf2lJ1rASEvHbP_gv7Jh2Q==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Fonctionnalités clés :

API compatible OpenAI pour une intégration transparente
Contrôle flexible des paramètres pour affiner les réponses
Support du streaming pour des réponses en temps réel

Option 2 : Workflows multi-agents avec OpenAI Agents SDK
Construisez des systèmes multi-agents sophistiqués avec GLM-4.5 :

Intégration plug-and-play : Utilisez GLM-4.5 dans n’importe quel workflow OpenAI Agents
Capacités agentiques avancées : Prise en charge des transferts, du routage et de l’intégration d’outils avec un taux de succès de 90.6 %
Architecture évolutive : Concevez des agents qui exploitent les capacités unifiées de raisonnement, de codage et agentiques de GLM-4.5

Connectez-vous avec des plateformes tierces

Outils de développement : Intégrez-vous de manière transparente avec les IDE et environnements de développement populaires comme Cursor et Cline via des API compatibles OpenAI
Frameworks d’orchestration : Connectez-vous avec LangChain, Dify, Langflow et d’autres plateformes d’orchestration IA à l’aide de connecteurs officiels
Intégration Hugging Face : Utilisez GLM-4.5 dans Spaces, pipelines, ou avec la bibliothèque Transformers via les endpoints Novita AI

🔬 Innovation technique de GLM-4.5

Excellence de l’architecture MoE

GLM-4.5 adopte l’architecture Mixture of Experts (MoE) qui améliore l’efficacité de calcul pour l’entraînement et l’inférence. Comparé à DeepSeek-V3, la conception réduit la largeur (dimension cachée et experts routés) tout en augmentant la hauteur (nombre de couches).

Caractéristiques techniques clés :

Grouped-Query Attention with partial RoPE (continued from ChatGLM2)
QK-Norm to stabilize attention logits range
Muon optimizer for accelerated convergence and larger batch size tolerance
MTP (Multi-Token Prediction) layer supporting speculative decoding during inference

Pipeline d’entraînement avancé

Pré-entraînement : Approche en deux étapes

15T jetons sur un corpus de pré-entraînement général
7T jetons sur un corpus de code et de raisonnement

Entraînement intermédiaire : Optimisation par domaine

Données de code au niveau dépôt (500B jetons)
Données de raisonnement synthétique (500B jetons)
Données de contexte long et agentiques (100B jetons)

Post-entraînement : Approche hybride sophistiquée

Entraînement expert : Modèles séparés pour les domaines Raisonnement, Agentique et Général via SFT et RL spécialisé
Entraînement unifié : Distillation des connaissances combinant les experts en un seul modèle via une auto-distillation SFT à grande échelle, suivie d’un alignement RL en trois étapes

slime : Infrastructure RL révolutionnaire

L’entraînement de GLM-4.5 est propulsé par slime, une infrastructure RL open source conçue pour les modèles à grande échelle :

Architecture d’entraînement hybride flexible : Prend en charge à la fois l’entraînement synchrone colocalisé et l’entraînement asynchrone désagrégé
Conception orientée agent découplée : Sépare les moteurs de déploiement des moteurs d’entraînement pour des performances optimisées
Génération de données accélérée : Inférence en précision mixte utilisant FP8 pour la génération de données tout en maintenant la stabilité BF16 pour l’entraînement

🎯 Prêt à expérimenter l’IA unifiée ?

Essayez GLM-4.5 et GLM-4.5-Air dès aujourd’hui sur la plateforme Novita AI. Découvrez par vous-même comment les capacités d’IA unifiées transforment ce qui est possible lorsque le raisonnement, le codage et les fonctionnalités agentiques convergent dans une infrastructure optimisée et prête pour la production.

Commencez à construire dès aujourd’hui →

Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API simple, tout en fournissant un cloud GPU abordable et fiable pour construire et passer à l’échelle.

Novita AI s'associe à Z.ai pour proposer GLM-4.5 : Unification des capacités de raisonnement, de codage et d'IA agentique