Démarrage rapide de l'API GLM 5.2 sur Novita AI

Démarrage rapide de l'API GLM 5.2 sur Novita AI

Ce guide de démarrage rapide montre comment appeler GLM 5.2 sur Novita AI via l’API de complétion de chat compatible OpenAI. Utilisez l’ID de modèle vérifié zai-org/glm-5.2, l’URL de base Novita AI, et une petite première requête avant de tester la fenêtre de contexte de 1 048 576 tokens, la sortie maximale de 131 072 tokens, l’appel de fonctions, les sorties structurées, le support du raisonnement ou l’accès compatible Anthropic indiqué dans la fiche actuelle du modèle.

Prérequis pour le démarrage rapide de l’API GLM 5.2

GLM 5.2 est le modèle phare de Z.AI pour le travail autonome à long horizon. La page du modèle Novita AI le décrit comme un modèle conçu pour les tâches soutenues telles que la planification, l’exécution, l’optimisation itérative, le codage et la livraison de résultats de qualité production. Pour les développeurs, le point pratique est simple : GLM 5.2 n’est pas un simple modèle de chat court. Il est positionné pour les workflows où le modèle a besoin d’assez de contexte pour garder en vue une tâche importante, une base de code, un ensemble de documents ou un état d’agent.

Sur Novita AI, GLM 5.2 est exposé via des API de modèle serverless. C’est important si vous souhaitez évaluer le modèle sans mettre en place d’infrastructure GPU, sans router le trafic via une pile d’inférence personnalisée, ni gérer vous-même le service de long contexte. Vous utilisez la clé API de Novita AI, l’endpoint compatible OpenAI et l’ID de modèle exact :

zai-org/glm-5.2

Le guide actuel de l’API LLM Novita AI documente l’approche compatible OpenAI de la plateforme pour les tâches de chat et de complétion. La référence de l’API de complétion de chat documente le chemin REST utilisé dans les exemples ci-dessous :

https://api.novita.ai/openai/v1/chat/completions

Utilisez la page du modèle pour les détails spécifiques au modèle tels que la longueur du contexte, la sortie maximale, la tarification, les modalités et les familles d’endpoints supportées. Utilisez la référence API pour les paramètres de requête, l’authentification, le streaming et la structure des messages de chat.

Spécifications et tarification de l’API GLM 5.2

La fiche actuelle de Novita AI pour GLM 5.2 présente un modèle serverless text-in, text-out avec un long contexte et un support de fonctionnalités orientées agent.

Champ Valeur actuelle Novita AI
Nom d’affichage GLM 5.2
ID de modèle API zai-org/glm-5.2
Chemin d’accès Serverless
Fenêtre de contexte 1 048 576 tokens
Sortie maximale 131 072 tokens
Modalités d’entrée Texte
Modalités de sortie Texte
Familles d’endpoints chat/completions, endpoint compatible Anthropic
Appel de fonctions Pris en charge
Sorties structurées Pris en charge
Raisonnement Pris en charge
Prix d’entrée 1,40 $ par million de tokens
Prix d’entrée en lecture cache 0,26 $ par million de tokens
Prix de sortie 4,40 $ par million de tokens

Les prix sont indiqués par million de tokens. Pour une estimation rapide, multipliez les tokens de la requête par le taux d’entrée et les tokens générés par le taux de sortie. La tarification en lecture cache peut réduire les coûts lorsque votre application envoie à plusieurs reprises le même contexte réutilisable, comme un prompt système, un schéma d’outil, un bloc de politique ou un résumé de référentiel stable.

Par exemple, une requête avec 100 000 tokens d’entrée non mis en cache et 5 000 tokens de sortie serait estimée comme suit :

Composant Calcul Coût estimé
Entrée 0,1 million de tokens x 1,40 $ 0,14 $
Sortie 0,005 million de tokens x 4,40 $ 0,022 $
Total Entrée + sortie 0,162 $

Il ne s’agit que d’une simple estimation du taux de tokens. Le coût de production dépend également de la réutilisation des prompts, des nouvelles tentatives, de la troncature, du comportement de streaming, de la longueur de réponse et du fait que votre application inclut ou non de manière répétée de grands blocs de contexte qui pourraient être mis en cache ou résumés.

Comment effectuer votre première requête API GLM 5.2

Commencez par un petit prompt avant de tester la fenêtre complète de 1 million de tokens. Cela vous donne une base de référence claire pour l’authentification, le routage du modèle, la forme de la réponse et la latence.

Installez le SDK Python OpenAI et stockez votre clé Novita AI dans une variable d’environnement :

pip install openai
export NOVITA_API_KEY="VOTRE_CLE_NOVITA_API"

Appelez ensuite GLM 5.2 avec l’URL de base Novita AI :

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "Vous êtes un assistant pratique en architecture logicielle.",
        },
        {
            "role": "user",
            "content": "Examinez ce plan de migration et listez les étapes les plus risquées.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

Si vous préférez un appel REST direct, utilisez le chemin de complétion de chat :

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "Vous êtes un relecteur technique concis."
      },
      {
        "role": "user",
        "content": "Créez une liste de contrôle des risques de mise en production pour un changement d'"API de paiement."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

Pour des réponses plus longues, activez le streaming afin que votre application puisse commencer à recevoir des tokens avant que la complétion complète ne soit terminée :

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Rédigez un plan progressif pour refactoriser un monolithe en services.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

Gardez les clés API hors du contrôle de source, définissez des valeurs explicites de max_tokens et enregistrez les données d’utilisation lorsqu’elles sont disponibles. Les modèles à long contexte facilitent l’envoi de très grands prompts, donc le contrôle des coûts commence par la mesure des tokens de prompt et de complétion dès le premier prototype.

Quand utiliser GLM 5.2

GLM 5.2 est un bon choix lorsque votre tâche est trop volumineuse pour un contexte de chat normal ou lorsque le modèle doit coordonner plusieurs étapes avec des outils, des fichiers ou des sorties structurées.

Les bonnes cibles d’évaluation incluent :

  • Analyse de dépôt : demandez au modèle d’examiner les notes d’architecture, les cartes de fichiers, les descriptions de dépendances et des extraits de code sélectionnés en une seule requête.
  • Agents de codage : conservez les objectifs de la tâche, les contraintes, les schémas d’outils, les décisions antérieures et les notes de travail dans le contexte pendant que l’agent itère.
  • Synthèse de longs documents : résumez des politiques, des spécifications techniques, des contrats, des notes de recherche ou des documents produits sans découpage agressif.
  • Planification de migration : donnez au modèle une carte du système, des contraintes, un plan de déploiement et un registre des risques, puis demandez des lacunes ou des problèmes de séquencement.
  • Extraction structurée : combinez des documents sources longs avec un schéma JSON strict pour les systèmes en aval.

GLM 5.2 n’est pas automatiquement le bon modèle pour chaque requête. Pour la classification courte, le chat basique, l’extraction simple ou le trafic à volume élevé et faible latence, comparez les modèles plus petits dans la bibliothèque de modèles Novita AI et les tarifs actuels sur la page de tarification Novita AI. Un modèle à 1 million de tokens est plus utile lorsque vous avez réellement besoin du contexte, du plafond de sortie ou des fonctionnalités orientées agent.

Appel de fonctions et sorties structurées

La fiche GLM 5.2 indique la prise en charge de l’appel de fonctions et des sorties structurées. Ces fonctionnalités sont utiles lorsque le modèle doit retourner quelque chose sur lequel votre application peut agir, et pas seulement du texte.

L’appel de fonctions est approprié lorsque votre application expose des outils contrôlés tels que :

  • la récupération d’un enregistrement client,
  • l’ouverture d’un ticket,
  • la vérification du statut de déploiement,
  • la recherche dans une base de connaissances interne,
  • le calcul d’un devis,
  • ou le routage d’une requête vers un service spécialisé.

Voici un modèle minimal d’appel d’outil :

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "creer_ticket_mise_en_production",
            "description": "Crée un ticket de mise en production après une revue des risques.",
            "parameters": {
                "type": "object",
                "properties": {
                    "titre": {"type": "string"},
                    "niveau_risque": {
                        "type": "string",
                        "enum": ["faible", "moyen", "élevé"],
                    },
                    "resume": {"type": "string"},
                },
                "required": ["titre", "niveau_risque", "resume"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Évaluez cette mise en production et créez un ticket si le risque est moyen ou élevé.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

Les sorties structurées sont utiles lorsque vous souhaitez que la réponse corresponde à un schéma prévisible. Même lorsque vous demandez du JSON, conservez la validation dans votre application. Considérez la sortie du modèle comme un candidat généré, analysez-le, validez les champs obligatoires et gérez les erreurs avec un prompt de réparation ou un chemin de repli.

Pour plus d’informations sur la conception d’outils, consultez le guide de Novita AI sur l’appel de fonctions et les sorties structurées et le guide dédié à GLM sur l’appel de fonctions GLM.

Notes de production pour l’utilisation du long contexte

La fenêtre de contexte annoncée est le plafond, pas le mode de fonctionnement par défaut. Une requête de 1 048 576 tokens peut être utile, mais la plupart des applications doivent gagner leur place jusqu’à cette taille.

Commencez par ces contrôles :

  • Budgétisez le prompt : séparez les instructions stables, les entrées utilisateur volatiles, les résultats de récupération et les schémas d’outils afin de voir quelle partie contribue au nombre de tokens.
  • Utilisez la récupération avant le remplissage complet : envoyez d’abord les fichiers ou passages les plus pertinents, puis élargissez le contexte uniquement lorsque la tâche nécessite plus de preuves.
  • Limitez la longueur de sortie : GLM 5.2 supporte une sortie maximale élevée, mais la plupart des workflows n’ont pas besoin de 131 072 tokens générés. Définissez max_tokens à la plus petite valeur utile.
  • Streamer les réponses longues : le streaming améliore l’expérience utilisateur et permet à votre service de gérer les longues complétions plus gracieusement.
  • Validez les résultats structurés : les schémas réduisent l’ambiguïté, mais votre application a toujours besoin de contrôles d’analyse, de nouvelles tentatives et d’une gestion claire des erreurs.
  • Suivez les opportunités de cache : les blocs de contexte répétés peuvent être coûteux s’ils sont envoyés comme nouvelle entrée à chaque fois. Identifiez les prompts, politiques et définitions d’outils réutilisables tôt.
  • Gardez un repli avec un modèle plus petit : de nombreux systèmes de routage utilisent un modèle plus petit pour les cas faciles et réservent les modèles à long contexte pour les tâches qui nécessitent toute leur capacité.

Pour les agents de codage, un modèle pratique consiste à conserver le contexte durable du projet en dehors du prompt, à récupérer uniquement les fichiers pertinents pour la tâche en cours et à demander à GLM 5.2 de produire un plan limité ou une revue de correctif plutôt qu’un essai ouvert. Cela permet de garder les coûts lisibles tout en donnant au modèle suffisamment de contexte pour raisonner sur les parties du système qui comptent.

Questions fréquentes

GLM 5.2 est-il disponible sur Novita AI ?

Oui. GLM 5.2 est listé sur Novita AI en tant que modèle serverless avec l’ID de modèle API zai-org/glm-5.2.

Quelle est la fenêtre de contexte de GLM 5.2 sur Novita AI ?

La fiche actuelle de Novita AI indique une fenêtre de contexte de 1 048 576 tokens pour GLM 5.2.

Quelle est la sortie maximale de GLM 5.2 ?

La fiche actuelle de Novita AI indique une sortie maximale de 131 072 tokens pour GLM 5.2. Définissez une valeur plus petite pour max_tokens sauf si votre workflow nécessite réellement une réponse très longue.

Combien coûte GLM 5.2 sur Novita AI ?

La page de tarification actuelle liste GLM 5.2 à 1,40 $ par million de tokens d’entrée, 0,26 $ par million de tokens d’entrée en lecture cache et 4,40 $ par million de tokens de sortie.

GLM 5.2 prend-il en charge l’appel de fonctions ?

Oui. La fiche actuelle de GLM 5.2 indique la prise en charge de l’appel de fonctions. Utilisez-le lorsque le modèle doit choisir parmi des outils d’application contrôlés plutôt que de retourner uniquement du texte en langage naturel.

GLM 5.2 prend-il en charge les sorties structurées ?

Oui. La fiche actuelle de GLM 5.2 indique la prise en charge des sorties structurées. Validez le JSON généré ou les réponses en forme de schéma dans votre application avant de les utiliser en aval.

Articles recommandés