Guide de démarrage rapide de l'API GLM 5.2 sur Novita AI

Table des matières

Prérequis pour le démarrage rapide de l'API GLM 5.2
Spécifications et tarification de l'API GLM 5.2
Comment effectuer votre première requête API GLM 5.2
Quand utiliser GLM 5.2
Appel de fonctions et sorties structurées
Notes de production pour l'utilisation de contexte long
Questions fréquentes
Articles recommandés

Ce guide de démarrage rapide explique comment appeler GLM 5.2 sur Novita AI via l’API de complétion de chat compatible OpenAI. Utilisez l’ID de modèle vérifié zai-org/glm-5.2, l’URL de base Novita AI et une petite première requête avant de tester la fenêtre de contexte de 1 048 576 tokens, la sortie maximale de 131 072 tokens, l’appel de fonctions, les sorties structurées, la prise en charge du raisonnement ou l’accès compatible Anthropic indiqué dans la liste actuelle des modèles.

Prérequis pour le démarrage rapide de l’API GLM 5.2

GLM 5.2 est le modèle phare de Z.AI pour le travail autonome à long terme. La page du modèle Novita AI le décrit comme un modèle conçu pour des tâches soutenues telles que la planification, l’exécution, l’optimisation itérative, le codage et la livraison de résultats de qualité production. Pour les développeurs, le point pratique est simple : GLM 5.2 n’est pas un modèle de chat court supplémentaire. Il est positionné pour les workflows où le modèle a besoin de suffisamment de contexte pour garder en vue une grande tâche, une base de code, un ensemble de documents ou un état d’agent.

Sur Novita AI, GLM 5.2 est exposé via des API de modèle serverless. Cela compte si vous souhaitez évaluer le modèle sans mettre en place une infrastructure GPU, router le trafic via une pile d’inférence personnalisée ou gérer vous-même le service de contexte long. Vous utilisez la clé API Novita AI, le point de terminaison compatible OpenAI et l’ID de modèle exact :

zai-org/glm-5.2

Le guide actuel de l’API LLM Novita AI documente l’approche compatible OpenAI de la plateforme pour les tâches de chat et de complétion. La référence de l’API de complétion de chat documente le chemin REST utilisé par les exemples ci-dessous :

https://api.novita.ai/openai/v1/chat/completions

Utilisez la page du modèle pour les détails spécifiques au modèle tels que la longueur du contexte, la sortie maximale, la tarification, les modalités et les familles de points de terminaison prises en charge. Utilisez la référence de l’API pour les paramètres de requête, l’authentification, le streaming et la structure des messages de chat.

Spécifications et tarification de l’API GLM 5.2

La liste actuelle de Novita AI pour GLM 5.2 montre un modèle serverless texte-entrée, texte-sortie avec un contexte long et un support de fonctionnalités orientées agent.

Champ	Valeur actuelle Novita AI
Nom d’affichage	GLM 5.2
ID du modèle API	`zai-org/glm-5.2`
Chemin d’accès	Serverless
Fenêtre de contexte	1 048 576 tokens
Sortie maximale	131 072 tokens
Modalités d’entrée	Texte
Modalités de sortie	Texte
Familles de points de terminaison	`chat/completions`, point de terminaison compatible Anthropic
Appel de fonctions	Pris en charge
Sorties structurées	Pris en charge
Raisonnement	Pris en charge
Prix d’entrée	1,40 $ par million de tokens
Prix d’entrée en lecture en cache	0,26 $ par million de tokens
Prix de sortie	4,40 $ par million de tokens

Les prix sont indiqués par million de tokens. Pour une estimation rapide, multipliez les tokens de l’invite par le taux d’entrée et les tokens générés par le taux de sortie. La tarification en lecture en cache peut réduire les coûts lorsque votre application envoie à plusieurs reprises le même contexte réutilisable, comme une invite système, un schéma d’outil, un bloc de politique ou un résumé de référentiel stable.

Par exemple, une requête avec 100 000 tokens d’entrée non mis en cache et 5 000 tokens de sortie serait estimée comme suit :

Composant	Calcul	Coût estimé
Entrée	0,1 million de tokens x 1,40 $	0,14 $
Sortie	0,005 million de tokens x 4,40 $	0,022 $
Total	Entrée + sortie	0,162 $

Il s’agit uniquement d’une estimation simple basée sur le taux de tokens. Le coût de production dépend également de la réutilisation de l’invite, des tentatives, de la troncature, du comportement de streaming, de la longueur de la réponse et du fait que votre application inclut à plusieurs reprises de grands blocs de contexte qui pourraient être mis en cache ou résumés.

Comment effectuer votre première requête API GLM 5.2

Commencez par une petite invite avant de tester la fenêtre de contexte complète de 1M de tokens. Cela vous donne une base de référence propre pour l’authentification, le routage du modèle, la forme de la réponse et la latence.

Installez le SDK Python OpenAI et stockez votre clé Novita AI dans une variable d’environnement :

pip install openai
export NOVITA_API_KEY="VOTRE_CLE_NOVITA_API"

Appelez ensuite GLM 5.2 avec l’URL de base Novita AI :

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "Vous êtes un assistant pratique en architecture logicielle.",
        },
        {
            "role": "user",
            "content": "Examinez ce plan de migration et listez les étapes les plus risquées.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

Si vous préférez un appel REST direct, utilisez le chemin de complétion de chat :

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "Vous êtes un examinateur technique concis."
      },
      {
        "role": "user",
        "content": "Créez une liste de contrôle des risques de mise en production pour un changement d'API de paiement."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

Pour des réponses plus longues, activez le streaming afin que votre application puisse commencer à recevoir des tokens avant la fin de la complétion :

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Rédigez un plan par étapes pour refactoriser un monolithe en services.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

Gardez les clés API hors du contrôle de version, définissez des valeurs explicites max_tokens et enregistrez les données d’utilisation lorsque disponibles. Les modèles à contexte long facilitent l’envoi de très grandes invites, donc le contrôle des coûts commence par la mesure des tokens d’invite et de complétion dès le premier prototype.

Quand utiliser GLM 5.2

GLM 5.2 est un bon choix lorsque votre tâche est trop volumineuse pour un contexte de chat normal ou lorsque le modèle doit coordonner plusieurs étapes avec des outils, des fichiers ou des sorties structurées.

Les bons cas d’évaluation incluent :

Analyse de référentiel : demandez au modèle d’examiner les notes d’architecture, les cartes de fichiers, les descriptions de dépendances et des extraits de code sélectionnés en une seule requête.
Agents de codage : conservez les objectifs de la tâche, les contraintes, les schémas d’outils, les décisions précédentes et les notes de travail dans le contexte pendant que l’agent itère.
Synthèse de longs documents : résumez les politiques, les spécifications techniques, les contrats, les notes de recherche ou les documents produits sans division agressive.
Planification de migration : fournissez au modèle une carte du système, des contraintes, un plan de déploiement et un registre des risques, puis demandez des lacunes ou des problèmes de séquencement.
Extraction structurée : combinez de longs documents source avec un schéma JSON strict pour les systèmes en aval.

GLM 5.2 n’est pas automatiquement le bon modèle pour chaque requête. Pour la classification courte, le chat de base, l’extraction simple ou le trafic à volume élevé et faible latence, comparez les modèles plus petits dans la bibliothèque de modèles Novita AI et les tarifs actuels sur la page de tarification Novita AI. Un modèle de 1M de tokens est le plus utile lorsque vous avez réellement besoin du contexte, du plafond de sortie ou des fonctionnalités orientées agent.

Appel de fonctions et sorties structurées

La liste GLM 5.2 montre la prise en charge de l’appel de fonctions et des sorties structurées. Ces fonctionnalités sont utiles lorsque le modèle doit renvoyer quelque chose sur lequel votre application peut agir, pas seulement du texte.

L’appel de fonctions est adapté lorsque votre application expose des outils contrôlés tels que :

récupérer un enregistrement client,
ouvrir un ticket,
vérifier l’état du déploiement,
rechercher une base de connaissances interne,
calculer un devis,
ou router une demande vers un service spécialisé.

Voici un modèle minimal d’appel d’outil :

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "Créer un ticket de mise en production après l'examen des risques.",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Évaluez cette mise en production et créez un ticket si le risque est moyen ou élevé.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

Les sorties structurées sont utiles lorsque vous souhaitez que la réponse corresponde à un schéma prévisible. Même lorsque vous demandez du JSON, gardez la validation dans votre application. Traitez la sortie du modèle comme un candidat généré, analysez-le, validez les champs obligatoires et gérez les erreurs avec une invite de réparation ou un chemin de secours.

Pour plus d’informations sur la conception d’outils, consultez le guide de Novita AI sur l’appel de fonctions et les sorties structurées et le guide axé sur GLM l’appel de fonctions GLM.

Notes de production pour l’utilisation de contexte long

La fenêtre de contexte annoncée est le plafond, pas le mode de fonctionnement par défaut. Une requête de 1 048 576 tokens peut être utile, mais la plupart des applications devraient gagner leur chemin jusqu’à cette taille.

Commencez par ces contrôles :

Budgétisez l’invite : divisez les instructions stables, les entrées utilisateur volatiles, les résultats de récupération et les schémas d’outils afin de pouvoir voir quelle partie entraîne le nombre de tokens.
Utilisez la récupération avant le remplissage complet : envoyez d’abord les fichiers ou passages les plus pertinents, puis élargissez le contexte uniquement lorsque la tâche nécessite plus de preuves.
Limitez la longueur de sortie : GLM 5.2 prend en charge une sortie maximale élevée, mais la plupart des workflows n’ont pas besoin de 131 072 tokens générés. Définissez max_tokens sur la plus petite valeur utile.
Streamer les longues réponses : le streaming améliore l’expérience utilisateur et permet à votre service de gérer plus élégamment les longues complétions.
Validez les résultats structurés : les schémas réduisent l’ambiguïté, mais votre application a toujours besoin de vérifications de l’analyseur, de tentatives et d’une gestion claire des erreurs.
Suivez les opportunités de cache : des blocs de contexte répétés peuvent être coûteux s’ils sont envoyés comme nouvelle entrée à chaque fois. Identifiez tôt les invites, politiques et définitions d’outils réutilisables.
Gardez un modèle plus petit de secours : de nombreux systèmes de routage utilisent un modèle plus petit pour les cas faciles et réservent les modèles à contexte long pour les tâches nécessitant leur pleine capacité.

Pour les agents de codage, un modèle pratique consiste à conserver le contexte durable du projet en dehors de l’invite, à récupérer uniquement les fichiers pertinents pour la tâche en cours et à demander à GLM 5.2 de produire un plan limité ou une revue de correctif plutôt qu’un essai ouvert. Cela maintient les coûts lisibles tout en donnant au modèle suffisamment de contexte pour raisonner sur les parties du système qui comptent.

Questions fréquentes

GLM 5.2 est-il disponible sur Novita AI ?

Oui. GLM 5.2 est répertorié sur Novita AI comme un modèle serverless avec l’ID de modèle API zai-org/glm-5.2.

Quelle est la fenêtre de contexte pour GLM 5.2 sur Novita AI ?

La liste actuelle de Novita AI affiche une fenêtre de contexte de 1 048 576 tokens pour GLM 5.2.

Quelle est la sortie maximale pour GLM 5.2 ?

La liste actuelle de Novita AI affiche une sortie maximale de 131 072 tokens pour GLM 5.2. Définissez une valeur max_tokens plus petite sauf si votre workflow nécessite vraiment une réponse très longue.

Combien coûte GLM 5.2 sur Novita AI ?

La page de tarification actuelle répertorie GLM 5.2 à 1,40 $ par million de tokens d’entrée, 0,26 $ par million de tokens d’entrée en lecture en cache et 4,40 $ par million de tokens de sortie.

GLM 5.2 prend-il en charge l’appel de fonctions ?

Oui. La liste actuelle de GLM 5.2 indique la prise en charge de l’appel de fonctions. Utilisez-le lorsque le modèle doit choisir parmi des outils d’application contrôlés au lieu de renvoyer uniquement du texte en langage naturel.

GLM 5.2 prend-il en charge les sorties structurées ?

Oui. La liste actuelle de GLM 5.2 indique la prise en charge des sorties structurées. Validez le JSON généré ou les réponses en forme de schéma dans votre application avant de les utiliser en aval.

Guide de démarrage rapide de l'API GLM 5.2 sur Novita AI

Prérequis pour le démarrage rapide de l’API GLM 5.2

Spécifications et tarification de l’API GLM 5.2

Comment effectuer votre première requête API GLM 5.2

Quand utiliser GLM 5.2

Appel de fonctions et sorties structurées

Notes de production pour l’utilisation de contexte long

Questions fréquentes

GLM 5.2 est-il disponible sur Novita AI ?

Quelle est la fenêtre de contexte pour GLM 5.2 sur Novita AI ?

Quelle est la sortie maximale pour GLM 5.2 ?

Combien coûte GLM 5.2 sur Novita AI ?

GLM 5.2 prend-il en charge l’appel de fonctions ?

GLM 5.2 prend-il en charge les sorties structurées ?

Articles recommandés

Product

RESOURCES

Partners

Company

Prérequis pour le démarrage rapide de l’API GLM 5.2

Spécifications et tarification de l’API GLM 5.2

Comment effectuer votre première requête API GLM 5.2

Quand utiliser GLM 5.2

Appel de fonctions et sorties structurées

Notes de production pour l’utilisation de contexte long

Questions fréquentes

GLM 5.2 est-il disponible sur Novita AI ?

Quelle est la fenêtre de contexte pour GLM 5.2 sur Novita AI ?

Quelle est la sortie maximale pour GLM 5.2 ?

Combien coûte GLM 5.2 sur Novita AI ?

GLM 5.2 prend-il en charge l’appel de fonctions ?

GLM 5.2 prend-il en charge les sorties structurées ?

Articles recommandés

Articles associés

Product

RESOURCES

Partners

Company