Guía rápida de la API de GLM 5.2 en Novita AI

Tabla de contenido

Prerrequisitos de la guía rápida de la API de GLM 5.2
Especificaciones y precios de la API de GLM 5.2
Cómo hacer tu primera solicitud a la API de GLM 5.2
Cuándo usar GLM 5.2
Llamada a funciones y salidas estructuradas
Notas de producción para el uso de contexto largo
Preguntas frecuentes
Artículos recomendados

Esta guía rápida muestra cómo llamar a GLM 5.2 en Novita AI a través de la API de finalizaciones de chat compatible con OpenAI. Usa el ID de modelo verificado zai-org/glm-5.2, la URL base de Novita AI y una pequeña primera solicitud antes de probar la ventana de contexto de 1,048,576 tokens, la salida máxima de 131,072 tokens, la llamada a funciones, las salidas estructuradas, el soporte de razonamiento o el acceso compatible con Anthropic que se muestra en la lista actual del modelo.

Prerrequisitos de la guía rápida de la API de GLM 5.2

GLM 5.2 es el modelo insignia de Z.AI para trabajo autónomo de largo horizonte. La página del modelo en Novita AI lo describe como un modelo diseñado para tareas sostenidas como planificación, ejecución, optimización iterativa, codificación y entrega de resultados de nivel de producción. Para los desarrolladores, el punto práctico es simple: GLM 5.2 no es solo otro modelo de chat corto. Está posicionado para flujos de trabajo donde el modelo necesita suficiente contexto para mantener una tarea grande, un código base, un conjunto de documentos o el estado de un agente a la vista.

En Novita AI, GLM 5.2 se expone a través de APIs de modelo sin servidor. Esto es importante si deseas evaluar el modelo sin levantar infraestructura GPU, enrutar tráfico a través de una pila de inferencia personalizada o gestionar tú mismo el servicio de contexto largo. Usas la clave de API de Novita AI, el endpoint compatible con OpenAI y el ID de modelo exacto:

zai-org/glm-5.2

La guía actual de la API LLM de Novita AI documenta el enfoque compatible con OpenAI de la plataforma para tareas de chat y finalización. La referencia de la API de finalizaciones de chat documenta la ruta REST utilizada en los ejemplos a continuación:

https://api.novita.ai/openai/v1/chat/completions

Usa la página del modelo para detalles específicos del modelo como longitud de contexto, salida máxima, precios, modalidades y familias de endpoints compatibles. Usa la referencia de la API para parámetros de solicitud, autenticación, streaming y estructura de mensajes de chat.

Especificaciones y precios de la API de GLM 5.2

La lista actual de Novita AI para GLM 5.2 muestra un modelo de texto a texto sin servidor con contexto largo y soporte de funciones orientadas a agentes.

Campo	Valor actual en Novita AI
Nombre para mostrar	GLM 5.2
ID del modelo de API	`zai-org/glm-5.2`
Ruta de acceso	Sin servidor
Ventana de contexto	1,048,576 tokens
Salida máxima	131,072 tokens
Modalidades de entrada	Texto
Modalidades de salida	Texto
Familias de endpoints	`chat/completions`, endpoint compatible con Anthropic
Llamada a funciones	Compatible
Salidas estructuradas	Compatible
Razonamiento	Compatible
Precio de entrada	$1.40 por millón de tokens
Precio de entrada de lectura en caché	$0.26 por millón de tokens
Precio de salida	$4.40 por millón de tokens

Los precios se listan por millón de tokens. Para una estimación rápida, multiplica los tokens de la solicitud por la tarifa de entrada y los tokens generados por la tarifa de salida. El precio de lectura en caché puede reducir el costo cuando tu aplicación envía repetidamente el mismo contexto reutilizable, como un mensaje del sistema, un esquema de herramienta, un bloque de políticas o un resumen estable del repositorio.

Por ejemplo, una solicitud con 100,000 tokens de entrada no almacenados en caché y 5,000 tokens de salida se estimaría como:

Componente	Cálculo	Costo estimado
Entrada	0.1 millones de tokens x $1.40	$0.14
Salida	0.005 millones de tokens x $4.40	$0.022
Total	Entrada + salida	$0.162

Esto es solo una estimación simple basada en tarifas de tokens. El costo de producción también depende de la reutilización de la solicitud, reintentos, truncamiento, comportamiento de streaming, longitud de la respuesta y si tu aplicación incluye repetidamente grandes bloques de contexto que podrían almacenarse en caché o resumirse.

Cómo hacer tu primera solicitud a la API de GLM 5.2

Comienza con una solicitud pequeña antes de probar la ventana de contexto completa de 1M de tokens. Esto te da una línea base limpia para autenticación, enrutamiento del modelo, forma de la respuesta y latencia.

Instala el SDK de Python de OpenAI y almacena tu clave de Novita AI en una variable de entorno:

pip install openai
export NOVITA_API_KEY="TU_CLAVE_API_NOVITA"

Luego llama a GLM 5.2 con la URL base de Novita AI:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "You are a practical software architecture assistant.",
        },
        {
            "role": "user",
            "content": "Review this migration plan and list the highest-risk steps.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

Si prefieres una llamada REST directa, usa la ruta de finalizaciones de chat:

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "You are a concise engineering reviewer."
      },
      {
        "role": "user",
        "content": "Create a release-risk checklist for a payments API change."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

Para respuestas más largas, habilita el streaming para que tu aplicación pueda comenzar a recibir tokens antes de que la finalización completa haya terminado:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Draft a phased plan for refactoring a monolith into services.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

Mantén las claves de API fuera del control de versiones, establece valores explícitos de max_tokens y registra los datos de uso cuando estén disponibles. Los modelos de contexto largo facilitan el envío de solicitudes muy grandes, por lo que el control de costos comienza midiendo los tokens de solicitud y finalización desde el primer prototipo.

Cuándo usar GLM 5.2

GLM 5.2 es una buena opción cuando tu tarea es demasiado grande para un contexto de chat normal o cuando el modelo necesita coordinar múltiples pasos con herramientas, archivos o salidas estructuradas.

Los buenos objetivos de evaluación incluyen:

Análisis de repositorio: pide al modelo que revise notas de arquitectura, mapas de archivos, descripciones de dependencias y extractos de código seleccionados en una sola solicitud.
Agentes de codificación: mantén los objetivos de la tarea, restricciones, esquemas de herramientas, decisiones anteriores y notas de trabajo en contexto mientras el agente itera.
Síntesis de documentos largos: resume políticas, especificaciones técnicas, contratos, notas de investigación o documentos de producto sin fragmentación agresiva.
Planificación de migración: proporciona al modelo un mapa del sistema, restricciones, plan de implementación y registro de riesgos, luego pide brechas o problemas de secuenciación.
Extracción estructurada: combina documentos fuente largos con un esquema JSON estricto para sistemas posteriores.

GLM 5.2 no es automáticamente el modelo correcto para cada solicitud. Para clasificación corta, chat básico, extracción simple o tráfico de alto volumen y baja latencia, compara modelos más pequeños en la biblioteca de modelos de Novita AI y las tarifas actuales en la página de precios de Novita AI. Un modelo de 1M de tokens es más valioso cuando realmente necesitas el contexto, el límite de salida o las funciones orientadas a agentes.

Llamada a funciones y salidas estructuradas

La lista de GLM 5.2 muestra soporte para llamada a funciones y salidas estructuradas. Estas características son útiles cuando el modelo debe devolver algo sobre lo que tu aplicación pueda actuar, no solo prosa.

La llamada a funciones es adecuada cuando tu aplicación expone herramientas controladas como:

recuperar un registro de cliente,
abrir un ticket,
verificar el estado de implementación,
buscar en una base de conocimiento interna,
calcular un presupuesto,
o enrutar una solicitud a un servicio especializado.

Aquí hay un patrón mínimo de llamada a herramientas:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "Create a release ticket after risk review.",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Assess this release and create a ticket if risk is medium or high.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

Las salidas estructuradas son útiles cuando deseas que la respuesta se ajuste a un esquema predecible. Incluso cuando pides JSON, mantén la validación en tu aplicación. Trata la salida del modelo como un candidato generado, analízalo, valida los campos requeridos y maneja los errores con un mensaje de reparación o una ruta alternativa.

Para más información sobre el diseño de herramientas, consulta la guía de Novita AI sobre llamada a funciones y salidas estructuradas y la guía centrada en GLM sobre llamada a funciones de GLM.

Notas de producción para el uso de contexto largo

La ventana de contexto principal es el límite superior, no el modo de operación predeterminado. Una solicitud de 1,048,576 tokens puede ser útil, pero la mayoría de las aplicaciones deberían ganarse el camino hasta ese tamaño.

Comienza con estos controles:

Presupuesta la solicitud: separa las instrucciones estables, la entrada de usuario volátil, los resultados de recuperación y los esquemas de herramientas para que puedas ver qué parte está impulsando el conteo de tokens.
Usa recuperación antes de llenar: envía primero los archivos o pasajes más relevantes, luego expande el contexto solo cuando la tarea necesite más evidencia.
Limita la longitud de salida: GLM 5.2 admite una salida máxima alta, pero la mayoría de los flujos de trabajo no necesitan 131,072 tokens generados. Establece max_tokens al valor útil más pequeño.
Transmite respuestas largas: el streaming mejora la experiencia del usuario y permite que tu servicio maneje finalizaciones largas de manera más elegante.
Valida los resultados estructurados: los esquemas reducen la ambigüedad, pero tu aplicación aún necesita verificaciones del analizador, reintentos y un manejo claro de errores.
Rastrea oportunidades de caché: los bloques de contexto repetidos pueden ser costosos si se envían como entrada nueva cada vez. Identifica mensajes, políticas y definiciones de herramientas reutilizables desde el principio.
Mantén una alternativa de modelo más pequeño: muchos sistemas de enrutamiento usan un modelo más pequeño para casos fáciles y reservan modelos de contexto largo para tareas que necesitan toda su capacidad.

Para agentes de codificación, un patrón práctico es mantener el contexto duradero del proyecto fuera de la solicitud, recuperar solo los archivos relevantes para la tarea actual y pedir a GLM 5.2 que produzca un plan acotado o una revisión de parche en lugar de un ensayo abierto. Esto mantiene los costos legibles mientras se le da al modelo suficiente contexto para razonar sobre las partes del sistema que importan.

Preguntas frecuentes

¿Está disponible GLM 5.2 en Novita AI?

Sí. GLM 5.2 está listado en Novita AI como un modelo sin servidor con el ID de modelo de API zai-org/glm-5.2.

¿Cuál es la ventana de contexto de GLM 5.2 en Novita AI?

La lista actual de Novita AI muestra una ventana de contexto de 1,048,576 tokens para GLM 5.2.

¿Cuál es la salida máxima de GLM 5.2?

La lista actual de Novita AI muestra una salida máxima de 131,072 tokens para GLM 5.2. Establece un valor de max_tokens más pequeño a menos que tu flujo de trabajo realmente necesite una respuesta muy larga.

¿Cuánto cuesta GLM 5.2 en Novita AI?

La página de precios actual lista GLM 5.2 a $1.40 por millón de tokens de entrada, $0.26 por millón de tokens de entrada de lectura en caché y $4.40 por millón de tokens de salida.

¿GLM 5.2 admite llamada a funciones?

Sí. La lista actual de GLM 5.2 muestra soporte para llamada a funciones. Úsalo cuando el modelo deba elegir entre herramientas controladas de la aplicación en lugar de devolver solo texto en lenguaje natural.

¿GLM 5.2 admite salidas estructuradas?

Sí. La lista actual de GLM 5.2 muestra soporte para salidas estructuradas. Valida el JSON generado o las respuestas con forma de esquema en tu aplicación antes de usarlas posteriormente.

Guía rápida de la API de GLM 5.2 en Novita AI

Prerrequisitos de la guía rápida de la API de GLM 5.2

Especificaciones y precios de la API de GLM 5.2

Cómo hacer tu primera solicitud a la API de GLM 5.2

Cuándo usar GLM 5.2

Llamada a funciones y salidas estructuradas

Notas de producción para el uso de contexto largo

Preguntas frecuentes

¿Está disponible GLM 5.2 en Novita AI?

¿Cuál es la ventana de contexto de GLM 5.2 en Novita AI?

¿Cuál es la salida máxima de GLM 5.2?

¿Cuánto cuesta GLM 5.2 en Novita AI?

¿GLM 5.2 admite llamada a funciones?

¿GLM 5.2 admite salidas estructuradas?

Artículos recomendados

Product

RESOURCES

Partners

Company

Prerrequisitos de la guía rápida de la API de GLM 5.2

Especificaciones y precios de la API de GLM 5.2

Cómo hacer tu primera solicitud a la API de GLM 5.2

Cuándo usar GLM 5.2

Llamada a funciones y salidas estructuradas

Notas de producción para el uso de contexto largo

Preguntas frecuentes

¿Está disponible GLM 5.2 en Novita AI?

¿Cuál es la ventana de contexto de GLM 5.2 en Novita AI?

¿Cuál es la salida máxima de GLM 5.2?

¿Cuánto cuesta GLM 5.2 en Novita AI?

¿GLM 5.2 admite llamada a funciones?

¿GLM 5.2 admite salidas estructuradas?

Artículos recomendados

Publicaciones relacionadas

Product

RESOURCES

Partners

Company