API de GLM-5.1 en Novita AI: Modelo Agéntico de Horizonte Largo

API de GLM-5.1 en Novita AI: Modelo Agéntico de Horizonte Largo

La mayoría de los modelos de codificación se estancan después de unas pocas docenas de llamadas a herramientas. Intentan los enfoques obvios, se quedan sin ideas y se estancan. Más tiempo no ayuda — el modelo ya ha agotado lo que sabe cómo probar.

GLM-5.1, el último buque insignia de Z.ai, se basa en una premisa diferente: que la optimización útil debería acumularse con el tiempo, no disminuir. En los propios benchmarks de Z.ai, realizó 655 iteraciones en un problema de búsqueda vectorial y alcanzó 21.5k QPS — aproximadamente 6 veces lo que los mejores modelos logran en una sesión estándar. Se ejecutó durante 8 horas construyendo un escritorio Linux desde cero, decidiendo por sí mismo qué añadir después.

GLM-5.1 ya está disponible en Novita AI, a través de APIs compatibles con OpenAI y Anthropic, pago por token.

Prueba GLM-5.1 Ahora

Qué hay realmente de nuevo en GLM-5.1

GLM-5.1 es un modelo Mixture-of-Experts de 754B parámetros, 40B activos por paso de inferencia, ventana de contexto de 204,800 tokens.

El cambio real está en cómo se comporta en tareas de horizonte largo. Z.ai lo llama patrón de escalera: el modelo refina dentro de una estrategia fija hasta que alcanza un techo, luego cambia a un enfoque estructuralmente diferente y sube de nuevo. Seis cambios de este tipo ocurrieron en una sola ejecución de VectorDBBench. Cada uno fue iniciado por el modelo después de analizar sus propios registros de benchmark e identificar qué estaba bloqueando el progreso.

Eso es diferente de tener una ventana de contexto más larga. Es el modelo gestionando activamente su propia estrategia.

Resultados de benchmark de GLM-5.1: tareas de codificación y agénticas

GLM-5.1 lidera en benchmarks de codificación y agénticos. En razonamiento, Gemini 3.1 Pro y GPT-5.4 están por delante.

Razonamiento

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
HLE 31.0 30.5 28.8 28.0 25.1 31.5 36.7 45.0 39.8
HLE (con Herramientas) 52.3 50.4 50.6 40.8 51.8 53.1 51.4 52.1
AIME 2026 95.3 95.4 95.1 89.8 95.1 94.5 95.6 98.2 98.7
HMMT Nov. 2025 94.0 96.9 94.6 81.0 90.2 91.1 96.3 94.8 95.8
HMMT Feb. 2026 82.6 82.8 87.8 72.7 79.9 81.3 84.3 87.3 91.8
IMOAnswerBench 83.8 82.5 83.8 66.3 78.3 81.8 75.3 81.0 91.4
GPQA-Diamond 86.2 86.0 90.4 87.0 82.4 87.6 91.3 94.3 92.0

Codificación

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
SWE-Bench Pro 58.4 55.1 56.6 56.2 53.8 57.3 54.2 57.7
NL2Repo 42.7 35.9 37.9 39.8 32.0 49.8 33.4 41.3
Terminal-Bench 2.0 (Terminus-2) 63.5 56.2 61.6 39.3 50.8 65.4 68.5
Terminal-Bench 2.0 (mejor arnés) 69.0 (Claude Code) 56.2 (Claude Code) 57.0 (Claude Code) 46.4 (Claude Code) 75.1 (Codex)
CyberGym 68.7 48.3 17.3 41.3 66.6

Agéntico

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
BrowseComp 68.0 62.0 51.4 60.6
BrowseComp (con Gestión de Contexto) 79.3 75.9 67.6 74.9 84.0 85.9 82.7
τ³-Bench 70.6 69.2 70.7 67.6 69.2 66.0 72.4 67.1 72.9
MCP-Atlas (Conjunto Público) 71.8 69.2 74.1 48.8 62.2 63.8 73.8 69.2 67.2
Tool-Decathlon 40.7 38.0 39.8 46.3 35.2 27.8 47.2 48.8 54.6
Vending Bench 2 $5,634 $4,432 $5,115 $1,034 $1,198 $8,018 $911 $6,144

SWE-Bench Pro (58.4) es el titular — la puntuación más alta entre los nueve modelos en esta comparación, tanto de código abierto como propietarios. CyberGym es el salto más pronunciado generación tras generación: 48.3 en GLM-5 a 68.7. Vale la pena señalar en Terminal-Bench 2.0: la fila “mejor arnés” refleja el resultado auto-reportado de cada equipo usando su entorno de ejecución preferido. GLM-5.1 alcanza 69.0 con Claude Code; GPT-5.4 alcanza 75.1 con Codex.

Cómo se ve la ejecución agéntica de horizonte largo en la práctica

Los números de benchmark de una sola pasada no capturan lo que sucede cuando dejas que un modelo se ejecute durante horas. Z.ai ejecutó tres escenarios con retroalimentación progresivamente menos estructurada para mostrar lo que GLM-5.1 hace de manera diferente.

Escenario 1: optimización de base de datos vectorial, más de 600 iteraciones

VectorDBBench le da al modelo un esqueleto de Rust con endpoints HTTP y stubs de implementación vacíos. Usando agentes basados en llamadas a herramientas, lee y escribe archivos, compila, prueba y perfila — normalmente dentro de un presupuesto de 50 turnos. El mejor resultado bajo esa restricción: 3,547 QPS, por Claude Opus 4.6.

Z.ai eliminó el límite. En cada iteración, GLM-5.1 podía usar tantas llamadas a herramientas como necesitara, luego enviar una nueva versión para comparar. Realizó 655 iteraciones con más de 6,000 llamadas a herramientas y alcanzó 21.5k QPS — aproximadamente 6 veces el mejor de una sola sesión.

Dos transiciones ilustran cómo llegó allí. Alrededor de la iteración 90, cambió de escaneo completo del corpus a agrupación de clusters IVF con compresión de vectores f16, saltando a 6.4k QPS. Alrededor de la iteración 240, introdujo un pipeline de dos etapas—puntuación previa u8 seguida de reordenamiento f16—alcanzando 13.4k QPS. Seis transiciones estructurales de este tipo ocurrieron en toda la ejecución, cada una iniciada por el modelo después de analizar sus propios registros de benchmark e identificar el cuello de botella actual.

Escenario 2: optimización de kernel GPU, más de 1,000 turnos

KernelBench le pide al modelo que tome una implementación de referencia en PyTorch y produzca un kernel GPU más rápido con salidas idénticas. El Nivel 3 cubre 50 problemas de modelo completo: MobileNet, VGG, MiniGPT, Mamba. Línea base: torch.compile a 1.15x, max-autotune a 1.49x.

Z.ai ejecutó cuatro modelos en el Nivel 3, rastreando el speedup de media geométrica a lo largo de los turnos de uso de herramientas:

  • GLM-5 mejora rápidamente al principio y se nivela
  • Claude Opus 4.5 continúa por más tiempo, luego también se estanca
  • GLM-5.1 termina en 3.6x y sigue progresando bien entrada la ejecución
  • Claude Opus 4.6 es el más fuerte con 4.2x, todavía mostrando margen al final

GLM-5.1 no iguala a Claude Opus 4.6 aquí. Pero claramente extiende la duración útil de la ejecución más allá de GLM-5, que es el punto.

Escenario 3: construyendo un escritorio Linux, 8 horas autónomo

Los dos primeros escenarios tienen un número para optimizar. Este no. El prompt: construye un entorno de escritorio estilo Linux como una aplicación web. Sin código inicial, sin maquetas de diseño, sin retroalimentación intermedia.

La mayoría de los modelos producen un esqueleto básico — barra de tareas estática, una ventana placeholder — y luego declaran que está terminado.

GLM-5.1 se ejecutó dentro de un arnés simple: después de cada ronda de ejecución, el modelo revisa su propia salida, identifica qué falta o está roto, y continúa. Durante 8 horas, construyó un explorador de archivos, terminal, editor de texto, monitor del sistema, calculadora y juegos funcionales, cada uno integrado en una interfaz coherente. El estilo se volvió más pulido con cada pasada. Los casos límite se manejaron. El modelo decidió toda la hoja de ruta por sí mismo.

Para qué está diseñado GLM-5.1

GLM-5.1 tiene más sentido para tareas donde un tiempo de ejecución adicional realmente produce mejores resultados:

  • Agentes de codificación de larga duración — refactorizaciones de múltiples archivos, migraciones, construcciones completas de sistemas
  • Herramientas de codificación agénticas — funciona con Claude Code, OpenClaw, Trae, Cursor, Codex y Cline
  • Automatización de terminal — 63.5 en Terminal-Bench 2.0 (Terminus-2), subiendo de 56.2 en GLM-5
  • Ciberseguridad — 68.7 en CyberGym, el más alto en este conjunto de benchmarks
  • Investigación web — 68.0 en BrowseComp, también el más alto aquí

Precios de API de GLM-5.1 en Novita AI

|Precio| |—|—| |Entrada|$1.40 / M tokens| |Lectura de Caché|$0.26 / M tokens| |Salida|$4.40 / M tokens|

Paga por token, sin compromiso mensual. Precios completos en novita.ai/pricing.

Primeros pasos: compatible con SDK de OpenAI y Anthropic

La API de Novita AI funciona con los SDK de OpenAI y Anthropic. Simplemente coloca el ID del modelo y tu configuración existente funciona tal cual. GLM-5.1 se puede llamar directamente desde Claude Code, OpenClaw, Trae, Cursor, Codex y cualquier plataforma que acepte un endpoint compatible con OpenAI o Anthropic.

Prueba GLM-5.1 en Playground | Ver Documentación de la API

Python (SDK de OpenAI):

from openai import OpenAI

client = OpenAI(
    api_key="<Tu Clave API de Novita>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-5.1",
    messages=[
        {"role": "system", "content": "Eres un asistente útil."},
        {"role": "user", "content": "Refactoriza este módulo para usar async/await en todo su contenido."}
    ],
    max_tokens=131072,
    temperature=0.7
)

print(response.choices[0].message.content)

TypeScript (SDK de OpenAI):

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "<Tu Clave API de Novita>",
  baseURL: "https://api.novita.ai/openai",
});

const response = await client.chat.completions.create({
  model: "zai-org/glm-5.1",
  messages: [
    { role: "system", content: "Eres un asistente útil." },
    { role: "user", content: "Construye una herramienta CLI para analizar registros JSON." }
  ],
  max_tokens: 131072,
});

console.log(response.choices[0].message.content);

Casos de uso para desarrolladores

GLM-5.1 es más útil donde la tarea no se puede resolver en una sola pasada y se beneficia de la refinación iterativa:

  • Agentes de codificación autónomos — Asigna una tarea a nivel de repositorio y deja que el modelo planifique, implemente, pruebe e itere sin intervenciones
  • Automatización de pipelines CI/CD — La llamada a funciones facilita conectar GLM-5.1 en bucles de compilación/prueba/depuración
  • Generación de documentos técnicos largos — El contexto de 204K y la salida de 131K manejan documentos grandes y coherentes en una sola llamada
  • Optimización de kernels GPU y rendimiento de ML — El speedup de 3.6× en KernelBench se traduce directamente en trabajo de infraestructura de ML
  • Andamiaje de aplicaciones web — GLM-5.1 construyó una interfaz de escritorio completa a partir de un solo prompt en lenguaje natural; el mismo bucle se aplica a cualquier tarea compleja de frontend o backend
  • Ingeniería de seguridad — 68.7 en CyberGym lo sitúa entre los modelos más fuertes disponibles para tareas de seguridad autónomas

Conclusión

Los modelos de código abierto han cerrado la brecha en los benchmarks de razonamiento. La brecha restante está en la ejecución de horizonte largo — mantenerse coherente y productivo a través de cientos de llamadas a herramientas y horas de trabajo autónomo. GLM-5.1 es la evidencia más clara hasta ahora de que esta brecha se puede cerrar.

Si estás ejecutando cargas de trabajo agénticas serias y quieres evitar el bloqueo propietario, es la opción de código abierto más capaz en este momento para tareas de codificación y agénticas. En Novita AI, lo obtienes con compatibilidad con SDK de OpenAI y Anthropic, precios de pago por token y sin sobrecarga de infraestructura.

Prueba GLM-5.1 en Playground | Ver Documentación de la API

Novita AI es una plataforma en la nube de IA y agentes que ayuda a desarrolladores y startups a construir, desplegar y escalar modelos y aplicaciones agénticas con alto rendimiento, fiabilidad y eficiencia de costos.

Preguntas Frecuentes

¿Qué cambió entre GLM-5 y GLM-5.1?u003c/strongu003e

El mayor cambio está en la ejecución de horizonte largo. GLM-5 se estanca después de unas pocas docenas de iteraciones; GLM-5.1 sigue encontrando nuevas estrategias a través de cientos de rondas. El patrón de escalera — cambios estructurales desencadenados por autoanálisis — es lo que marca la diferencia. Las puntuaciones en benchmarks de codificación también mejoraron en general.

¿GLM-5.1 es de código abierto?u003c/strongu003e

Sí, licencia MIT. Los pesos están en Hugging Face. Puedes usarlo comercialmente, ajustarlo finamente y auto-alojarlo.

¿Cómo se compara GLM-5.1 con Claude Opus 4.6?

En SWE-Bench Pro, GLM-5.1 puntúa 58.4 frente al 57.3 de Claude Opus 4.6. En KernelBench de optimización GPU de horizonte largo, Claude Opus 4.6 lidera con 4.2× frente al 3.6× de GLM-5.1. Para la mayoría de las tareas de codificación agénticas, los dos están muy igualados — GLM-5.1 tiene una ventaja de pesos abiertos y costo.