Novita AI s'associe à Z.ai pour proposer GLM-4.5 : Unification des capacités de raisonnement, de codage et d'IA agentique

Novita AI s'associe à Z.ai pour proposer GLM-4.5 : Unification des capacités de raisonnement, de codage et d'IA agentique

Aujourd’hui, nous sommes ravis d’annoncer le partenariat entre Novita AI et Z.ai pour offrir un support dès le premier jour de GLM-4.5 sur la plateforme Novita AI en tant que partenaire de lancement de Z.ai. Cette collaboration révolutionnaire présente la série de modèles d’IA la plus unifiée au monde, combinant raisonnement avancé, capacités de codage sophistiquées et fonctionnalité agentique native dans un seul framework puissant conçu pour les développeurs créant la prochaine génération d’applications d’IA.

Novita AI propose désormais le modèle révolutionnaire GLM-4.5 (355B paramètres totaux, 32B actifs) : construit avec des modes de raisonnement hybrides offrant à la fois le mode thinking pour le raisonnement complexe et l’utilisation d’outils, et le mode non-thinking pour des réponses instantanées. Il se classe 2e au classement général sur des benchmarks complets.

Les deux modèles bénéficient d’une longueur de contexte de 128k et d’une capacité d’appel de fonctions native, disponibles via l’infrastructure d’inférence optimisée de Novita AI.

⚡ Performances globales

GLM-4.5 se classe 2e et GLM-4.5-Air 5e sur 12 benchmarks couvrant des tâches agentiques (3), de raisonnement (7) et de codage (2), comparé aux modèles d’OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, Moonshot et DeepSeek.

GLM-4.5 unifie toutes les capacités là où les modèles précédents excellaient dans des domaines spécifiques — codage, mathématiques ou raisonnement — mais aucun n’atteignait les meilleures performances dans toutes les tâches.

Tâches agentiques

GLM-4.5 est un modèle fondamental optimisé pour les tâches agentiques. Il offre une longueur de contexte de 128k et une capacité d’appel de fonctions native. Z.ai a mesuré sa capacité agentique sur τ-bench et BFCL-v3 (Berkeley Function Calling Leaderboard v3). Sur les deux benchmarks, GLM-4.5 égalise les performances de Claude-4-Sonnet.

La navigation web est une application agentique populaire qui nécessite un raisonnement complexe et une utilisation d’outils multi-tours. Z.ai a évalué GLM-4.5 sur le benchmark BrowseComp, un benchmark exigeant pour la navigation web composé de questions complexes attendent des réponses courtes. Avec accès à l’outil de navigation web, GLM-4.5 donne des réponses correctes pour 26.4 % de toutes les questions, surpassant clairement Claude-4-Opus (18.8 %) et proche de o4-mini-high (28.0 %).

Benchmark GLM-4.5 GLM-4.5-Air o3 o4-mini-high GPT-4.1 Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Qwen3 235B Thinking 2507 DeepSeek R1 0528 Kimi K2 Grok4
TAU-bench 70.1 69.4 61.2 57.4 62.0 70.5 70.3 62.5 73.2 58.7 62.6 67.5
BFCL v3 (Full) 77.8 76.4 72.4 67.2 68.9 61.8 75.2 61.2 72.4 63.8 71.1 66.2
BrowseComp 26.4 21.3 49.7 28.3 4.1 18.8 14.7 7.6 4.6 3.2 7.9 32.6

Raisonnement

En mode thinking, GLM-4.5 et GLM-4.5-Air peuvent résoudre des problèmes de raisonnement complexes incluant les mathématiques, les sciences et les problèmes logiques.

Benchmark GLM-4.5 GLM-4.5-Air o3 o4-mini-high Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Gemini 2.5 Flash DeepSeek R1 0528 Qwen3-235B Thinking 2507 Grok4
MMLU Pro 84.6 81.4 85.3 83.2 87.3 84.2 86.2 83.2 84.9 84.5 86.6
AIME24 91.0 89.4 90.3 94.0 75.7 77.3 88.7 82.3 89.3 94.1 94.3
MATH 500 98.2 98.1 99.2 98.9 98.2 99.1 96.7 98.1 98.3 98.0 99.0
SciCode 41.7 37.3 41.0 46.5 39.8 40.0 42.8 39.4 40.3 42.9 45.7
GPQA 79.1 75.0 82.7 78.4 79.6 77.7 84.4 79.0 81.3 81.1 87.7
HLE 14.4 10.6 20.0 17.5 11.7 8.5 21.1 11.1 14.9 15.8 23.9
LiveCodeBench (2407-2501) 72.9 70.7 78.4 80.4 63.6 58.0 80.1 69.5 77.0 78.2 81.9
AA-Index (Estimated) 67.7 64.8 70.0 69.8 64.4 62.7 70.5 65.1 68.3 69.4 73.2

Codage

GLM-4.5 est également performant en codage, incluant à la fois la construction d’un projet de codage à partir de zéro et la résolution agentique de tâches de codage dans des projets existants. Il peut être combiné de manière transparente avec des boîtes à outils de codage existantes telles que Claude Code, Roo Code et CodeGeex. Pour évaluer la capacité de codage, Z.ai a comparé différents modèles sur SWE-bench Verified et Terminal Bench.

Benchmark GLM-4.5 GLM-4.5-Air o3 o4-mini-high GPT-4.1 Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Gemini 2.5 Flash Qwen3 235B Thinking 2507 Qwen3 235B DeepSeek R1 0528 Kimi K2
SWE-bench Verified 64.2 57.6 69.1 54.8 48.6 67.8 70.4 49.0 60.4 35.0 36.2 41.4 65.4
Terminal-Bench 37.5 30.0 30.2 18.5 30.3 43.2 35.5 25.3 16.8 6.3 6.6 17.5 25.0

Pour évaluer les capacités de codage agentique de GLM-4.5 dans des scénarios réels, Z.ai a utilisé Claude Code pour effectuer des tests complets contre Claude-4-Sonnet, Kimi K2 et Qwen3-Coder en utilisant 52 tâches de codage couvrant le développement frontend, le développement d’outils, l’analyse de données, les tests et les applications algorithmiques. GLM-4.5 l’emporte sur Kimi K2 dans 53.9 % des tâches et domine Qwen3-Coder avec un taux de victoire de 80.8 %, tout en montrant une marge d’amélioration par rapport à Claude-4-Sonnet.

Expérience de GLM-4.5 avec le codage agentique dans des scénarios de développement réels

Notamment, GLM-4.5 atteint le taux de succès moyen d’appel d’outils le plus élevé à 90.6 %, surpassant Claude-4-Sonnet (89.5 %), Kimi-K2 (86.2 %) et Qwen3-Coder (77.1 %), démontrant une fiabilité et une efficacité supérieures dans les tâches de codage agentique.

Comparaison du taux de succès moyen d'appel d'outils

🚀 Commencez avec Novita AI

Utilisez le Playground (Aucun codage requis)

  • Accès instantané : Inscrivez-vous et commencez à expérimenter avec GLM-4.5 en quelques secondes
  • Interface interactive : Testez des prompts de raisonnement complexes et visualisez les sorties structurées en temps réel
  • Comparaison de modèles : Comparez GLM-4.5 avec d’autres modèles leaders pour votre cas d’utilisation spécifique

Intégrez via l’API (Pour les développeurs)

Connectez GLM-4.5 à vos applications avec l’API REST unifiée de Novita AI.

Option 1 : Intégration directe via l’API (Exemple Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_S4q9KTdBQujFkXSE5aZYZCrwN9f5QO96BtAFLw4FOgB__slLHW9KFAjmMgC12ag6mf2lJ1rASEvHbP_gv7Jh2Q==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Fonctionnalités clés :

  • API compatible OpenAI pour une intégration transparente
  • Contrôle flexible des paramètres pour affiner les réponses
  • Support du streaming pour des réponses en temps réel

Option 2 : Workflows multi-agents avec OpenAI Agents SDK
Construisez des systèmes multi-agents sophistiqués avec GLM-4.5 :

  • Intégration plug-and-play : Utilisez GLM-4.5 dans n’importe quel workflow OpenAI Agents
  • Capacités agentiques avancées : Prise en charge des transferts, du routage et de l’intégration d’outils avec un taux de succès de 90.6 %
  • Architecture évolutive : Concevez des agents qui exploitent les capacités unifiées de raisonnement, de codage et agentiques de GLM-4.5

Connectez-vous avec des plateformes tierces

  • Outils de développement : Intégrez-vous de manière transparente avec les IDE et environnements de développement populaires comme Cursor et Cline via des API compatibles OpenAI
  • Frameworks d’orchestration : Connectez-vous avec LangChain, Dify, Langflow et d’autres plateformes d’orchestration IA à l’aide de connecteurs officiels
  • Intégration Hugging Face : Utilisez GLM-4.5 dans Spaces, pipelines, ou avec la bibliothèque Transformers via les endpoints Novita AI

🔬 Innovation technique de GLM-4.5

Excellence de l’architecture MoE

GLM-4.5 adopte l’architecture Mixture of Experts (MoE) qui améliore l’efficacité de calcul pour l’entraînement et l’inférence. Comparé à DeepSeek-V3, la conception réduit la largeur (dimension cachée et experts routés) tout en augmentant la hauteur (nombre de couches).

Caractéristiques techniques clés :

  • Grouped-Query Attention with partial RoPE (continued from ChatGLM2)
  • QK-Norm to stabilize attention logits range
  • Muon optimizer for accelerated convergence and larger batch size tolerance
  • MTP (Multi-Token Prediction) layer supporting speculative decoding during inference

Pipeline d’entraînement avancé

Pré-entraînement : Approche en deux étapes

  • 15T jetons sur un corpus de pré-entraînement général
  • 7T jetons sur un corpus de code et de raisonnement

Entraînement intermédiaire : Optimisation par domaine

  • Données de code au niveau dépôt (500B jetons)
  • Données de raisonnement synthétique (500B jetons)
  • Données de contexte long et agentiques (100B jetons)

Post-entraînement : Approche hybride sophistiquée

  1. Entraînement expert : Modèles séparés pour les domaines Raisonnement, Agentique et Général via SFT et RL spécialisé
  2. Entraînement unifié : Distillation des connaissances combinant les experts en un seul modèle via une auto-distillation SFT à grande échelle, suivie d’un alignement RL en trois étapes

slime : Infrastructure RL révolutionnaire

L’entraînement de GLM-4.5 est propulsé par slime, une infrastructure RL open source conçue pour les modèles à grande échelle :

  • Architecture d’entraînement hybride flexible : Prend en charge à la fois l’entraînement synchrone colocalisé et l’entraînement asynchrone désagrégé
  • Conception orientée agent découplée : Sépare les moteurs de déploiement des moteurs d’entraînement pour des performances optimisées
  • Génération de données accélérée : Inférence en précision mixte utilisant FP8 pour la génération de données tout en maintenant la stabilité BF16 pour l’entraînement

🎯 Prêt à expérimenter l’IA unifiée ?

Essayez GLM-4.5 et GLM-4.5-Air dès aujourd’hui sur la plateforme Novita AI. Découvrez par vous-même comment les capacités d’IA unifiées transforment ce qui est possible lorsque le raisonnement, le codage et les fonctionnalités agentiques convergent dans une infrastructure optimisée et prête pour la production.

Commencez à construire dès aujourd’hui

Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API simple, tout en fournissant un cloud GPU abordable et fiable pour construire et passer à l’échelle.