Inicio rápido de la API de GLM 5.2 en Novita AI

Inicio rápido de la API de GLM 5.2 en Novita AI

Esta guía de inicio rápido muestra cómo llamar a GLM 5.2 en Novita AI a través de la API de completaciones de chat compatible con OpenAI. Usa el ID de modelo verificado zai-org/glm-5.2, la URL base de Novita AI y una primera solicitud pequeña antes de probar la ventana de contexto de 1.048.576 tokens, la salida máxima de 131.072 tokens, la llamada a funciones, las salidas estructuradas, el soporte de razonamiento o el acceso compatible con Anthropic que se muestra en la lista de modelos actual.

Requisitos previos para el inicio rápido de la API de GLM 5.2

GLM 5.2 es el modelo insignia de Z.AI para trabajo autónomo de largo horizonte. La página del modelo de Novita AI lo describe como un modelo diseñado para tareas sostenidas como planificación, ejecución, optimización iterativa, codificación y entrega de resultados de nivel de producción. Para los desarrolladores, el punto práctico es simple: GLM 5.2 no es solo otro modelo de chat corto. Está posicionado para flujos de trabajo donde el modelo necesita suficiente contexto para mantener una tarea grande, un código base, un conjunto de documentos o un estado de agente a la vista.

En Novita AI, GLM 5.2 se expone a través de APIs de modelos serverless. Eso importa si quieres evaluar el modelo sin levantar infraestructura GPU, enrutar el tráfico a través de una pila de inferencia personalizada o gestionar tú mismo el servicio de contexto largo. Usas la clave API de Novita AI, el endpoint compatible con OpenAI y el ID de modelo exacto:

zai-org/glm-5.2

La guía actual de la API de LLM de Novita AI documenta el enfoque compatible con OpenAI de la plataforma para tareas de chat y completación. La referencia de la API de completaciones de chat documenta la ruta REST utilizada en los ejemplos a continuación:

https://api.novita.ai/openai/v1/chat/completions

Usa la página del modelo para detalles específicos del modelo como longitud de contexto, salida máxima, precios, modalidades y familias de endpoints compatibles. Usa la referencia de la API para parámetros de solicitud, autenticación, transmisión (streaming) y estructura de mensajes de chat.

Especificaciones y precios de la API de GLM 5.2

La lista actual de Novita AI para GLM 5.2 muestra un modelo serverless de texto de entrada y salida con soporte de contexto largo y características orientadas a agentes.

Campo Valor actual en Novita AI
Nombre mostrado GLM 5.2
ID de modelo de API zai-org/glm-5.2
Ruta de acceso Serverless
Ventana de contexto 1.048.576 tokens
Salida máxima 131.072 tokens
Modalidades de entrada Texto
Modalidades de salida Texto
Familias de endpoints chat/completions, endpoint compatible con Anthropic
Llamada a funciones Compatible
Salidas estructuradas Compatible
Razonamiento Compatible
Precio de entrada $1.40 por millón de tokens
Precio de entrada en lectura en caché $0.26 por millón de tokens
Precio de salida $4.40 por millón de tokens

Los precios se muestran por millón de tokens. Para un cálculo rápido, multiplica los tokens de la solicitud por la tarifa de entrada y los tokens generados por la tarifa de salida. El precio de lectura en caché puede reducir el costo cuando tu aplicación envía repetidamente el mismo contexto reutilizable, como un prompt del sistema, un esquema de herramienta, un bloque de políticas o un resumen de repositorio estable.

Por ejemplo, una solicitud con 100.000 tokens de entrada sin caché y 5.000 tokens de salida se estimaría como:

Componente Cálculo Costo estimado
Entrada 0.1 millones de tokens x $1.40 $0.14
Salida 0.005 millones de tokens x $4.40 $0.022
Total Entrada + salida $0.162

Esto es solo una estimación simple de tarifa de tokens. El costo de producción también depende de la reutilización de prompts, reintentos, truncamiento, comportamiento de streaming, longitud de la respuesta y si tu aplicación incluye repetidamente grandes bloques de contexto que podrían almacenarse en caché o resumirse.

Cómo hacer tu primera solicitud a la API de GLM 5.2

Comienza con un prompt pequeño antes de probar la ventana de contexto completa de 1M de tokens. Esto te da una línea base limpia para la autenticación, el enrutamiento del modelo, la forma de la respuesta y la latencia.

Instala el SDK de OpenAI para Python y almacena tu clave de Novita AI en una variable de entorno:

pip install openai
export NOVITA_API_KEY="TU_CLAVE_DE_NOVITA_AI"

Luego llama a GLM 5.2 con la URL base de Novita AI:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "system",
            "content": "Eres un asistente práctico de arquitectura de software.",
        },
        {
            "role": "user",
            "content": "Revisa este plan de migración y enumera los pasos de mayor riesgo.",
        },
    ],
    max_tokens=1200,
    temperature=0.3,
)

print(response.choices[0].message.content)

Si prefieres una llamada REST directa, usa la ruta de completaciones de chat:

curl --request POST \
  --url https://api.novita.ai/openai/v1/chat/completions \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "model": "zai-org/glm-5.2",
    "messages": [
      {
        "role": "system",
        "content": "Eres un revisor de ingeniería conciso."
      },
      {
        "role": "user",
        "content": "Crea una lista de verificación de riesgos de lanzamiento para un cambio en la API de pagos."
      }
    ],
    "max_tokens": 1200,
    "temperature": 0.3
  }'

Para respuestas más largas, habilita el streaming para que tu aplicación pueda empezar a recibir tokens antes de que la completación termine por completo:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

stream = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Redacta un plan por fases para refactorizar un monolito en servicios.",
        }
    ],
    max_tokens=2000,
    temperature=0.3,
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

Mantén las claves API fuera del control de versiones, establece valores explícitos de max_tokens y registra los datos de uso cuando estén disponibles. Los modelos de contexto largo facilitan el envío de prompts muy grandes, por lo que el control de costos comienza midiendo los tokens de la solicitud y de la completación desde el primer prototipo.

Cuándo usar GLM 5.2

GLM 5.2 es una buena opción cuando tu tarea es demasiado grande para un contexto de chat normal o cuando el modelo necesita coordinar múltiples pasos con herramientas, archivos o salidas estructuradas.

Buenos objetivos de evaluación incluyen:

  • Análisis de repositorios: pídele al modelo que revise notas de arquitectura, mapas de archivos, descripciones de dependencias y extractos de código seleccionados en una sola solicitud.
  • Agentes de codificación: mantén los objetivos de la tarea, restricciones, esquemas de herramientas, decisiones previas y notas de trabajo en contexto mientras el agente itera.
  • Síntesis de documentos largos: resume políticas, especificaciones técnicas, contratos, notas de investigación o documentos de producto sin fragmentación agresiva.
  • Planificación de migraciones: proporciónale al modelo un mapa del sistema, restricciones, plan de despliegue y registro de riesgos, luego pídele que identifique brechas o problemas de secuenciación.
  • Extracción estructurada: combina documentos fuente largos con un esquema JSON estricto para sistemas posteriores.

GLM 5.2 no es automáticamente el modelo correcto para cada solicitud. Para clasificación corta, chat básico, extracción simple o tráfico de alto volumen y baja latencia, compara modelos más pequeños en la biblioteca de modelos de Novita AI y las tarifas actuales en la página de precios de Novita AI. Un modelo de 1M de tokens es más valioso cuando realmente necesitas el contexto, el techo de salida o las características orientadas a agentes.

Llamada a funciones y salidas estructuradas

La lista de GLM 5.2 muestra soporte para llamada a funciones y salidas estructuradas. Estas características son útiles cuando el modelo debe devolver algo sobre lo que tu aplicación pueda actuar, no solo prosa.

La llamada a funciones es adecuada cuando tu aplicación expone herramientas controladas como:

  • recuperar un registro de cliente,
  • abrir un ticket,
  • verificar el estado del despliegue,
  • buscar en una base de conocimiento interna,
  • calcular un presupuesto,
  • o enrutar una solicitud a un servicio especializado.

Aquí hay un patrón mínimo de llamada a herramientas:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["NOVITA_API_KEY"],
    base_url="https://api.novita.ai/openai",
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "create_release_ticket",
            "description": "Crea un ticket de lanzamiento después de la revisión de riesgos.",
            "parameters": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "risk_level": {
                        "type": "string",
                        "enum": ["low", "medium", "high"],
                    },
                    "summary": {"type": "string"},
                },
                "required": ["title", "risk_level", "summary"],
            },
        },
    }
]

response = client.chat.completions.create(
    model="zai-org/glm-5.2",
    messages=[
        {
            "role": "user",
            "content": "Evalúa este lanzamiento y crea un ticket si el riesgo es medio o alto.",
        }
    ],
    tools=tools,
    tool_choice="auto",
    max_tokens=1000,
)

print(response.choices[0].message)

Las salidas estructuradas son útiles cuando quieres que la respuesta se ajuste a un esquema predecible. Incluso cuando pides JSON, mantén la validación en tu aplicación. Trata la salida del modelo como un candidato generado, analízalo, valida los campos obligatorios y maneja los errores con un prompt de reparación o una ruta de respaldo.

Para más información sobre el diseño de herramientas, consulta la guía de Novita AI sobre llamada a funciones y salidas estructuradas y la guía centrada en GLM sobre llamada a funciones en GLM.

Notas de producción para el uso de contexto largo

La ventana de contexto principal es el techo, no el modo operativo predeterminado. Una solicitud de 1.048.576 tokens puede ser útil, pero la mayoría de las aplicaciones deberían ganarse el derecho a ese tamaño.

Empieza con estos controles:

  • Presupuesta el prompt: separa las instrucciones estables, la entrada de usuario volátil, los resultados de recuperación y los esquemas de herramientas para que puedas ver qué parte está impulsando el recuento de tokens.
  • Usa recuperación antes de llenar todo: envía primero los archivos o pasajes más relevantes, luego expande el contexto solo cuando la tarea necesite más evidencia.
  • Limita la longitud de salida: GLM 5.2 soporta una salida máxima alta, pero la mayoría de los flujos de trabajo no necesitan 131.072 tokens generados. Establece max_tokens en el valor útil más pequeño.
  • Transmite respuestas largas: el streaming mejora la experiencia del usuario y permite que tu servicio maneje completaciones largas de manera más fluida.
  • Valida los resultados estructurados: los esquemas reducen la ambigüedad, pero tu aplicación aún necesita verificaciones de análisis, reintentos y un manejo claro de errores.
  • Rastrea oportunidades de caché: los bloques de contexto repetidos pueden ser costosos si se envían como entrada nueva cada vez. Identifica prompts, políticas y definiciones de herramientas reutilizables desde el principio.
  • Mantén un modelo más pequeño como respaldo: muchos sistemas de enrutamiento usan un modelo más pequeño para casos fáciles y reservan modelos de contexto largo para tareas que necesitan toda su capacidad.

Para agentes de codificación, un patrón práctico es mantener el contexto duradero del proyecto fuera del prompt, recuperar solo los archivos relevantes para la tarea actual y pedirle a GLM 5.2 que produzca un plan acotado o una revisión de parche en lugar de un ensayo abierto. Esto mantiene los costos legibles mientras sigue dando al modelo suficiente contexto para razonar a través de las partes del sistema que importan.

Preguntas frecuentes

¿Está disponible GLM 5.2 en Novita AI?

Sí. GLM 5.2 está listado en Novita AI como un modelo serverless con el ID de modelo de API zai-org/glm-5.2.

¿Cuál es la ventana de contexto de GLM 5.2 en Novita AI?

La lista actual de Novita AI muestra una ventana de contexto de 1.048.576 tokens para GLM 5.2.

¿Cuál es la salida máxima de GLM 5.2?

La lista actual de Novita AI muestra una salida máxima de 131.072 tokens para GLM 5.2. Establece un valor más pequeño de max_tokens a menos que tu flujo de trabajo realmente necesite una respuesta muy larga.

¿Cuánto cuesta GLM 5.2 en Novita AI?

La página de precios actual lista GLM 5.2 a $1.40 por millón de tokens de entrada, $0.26 por millón de tokens de entrada leídos en caché y $4.40 por millón de tokens de salida.

¿GLM 5.2 soporta llamada a funciones?

Sí. La lista actual de GLM 5.2 muestra soporte para llamada a funciones. Úsalo cuando el modelo deba elegir entre herramientas de aplicación controladas en lugar de devolver solo texto en lenguaje natural.

¿GLM 5.2 soporta salidas estructuradas?

Sí. La lista actual de GLM 5.2 muestra soporte para salidas estructuradas. Valida el JSON generado o las respuestas con forma de esquema en tu aplicación antes de usarlos en etapas posteriores.

Artículos recomendados