API GLM-5.1 na Novita AI: Modelo Agente de Longo Horizonte

API GLM-5.1 na Novita AI: Modelo Agente de Longo Horizonte

A maioria dos modelos de codificação atinge um limite após algumas dezenas de chamadas de ferramentas. Eles testam as abordagens mais óbvias, ficam sem ideias e estagnam. Mais tempo não ajuda — o modelo já esgotou tudo o que sabe tentar.

O GLM-5.1, o mais recente modelo principal da Z.ai, foi construído com uma premissa diferente: a otimização útil deve se acumular ao longo do tempo, e não diminuir. Nos próprios benchmarks da Z.ai, ele executou 655 iterações em um problema de busca vetorial e atingiu 21,5k QPS — aproximadamente 6 vezes o que os melhores modelos conseguem em uma sessão padrão. Ele funcionou por 8 horas construindo um desktop Linux do zero, decidindo por si mesmo o que adicionar em seguida.

O GLM-5.1 já está disponível na Novita AI, por meio de APIs compatíveis com OpenAI e Anthropic, com pagamento por token.

Teste o GLM-5.1 Agora

O que há de realmente novo no GLM-5.1

O GLM-5.1 é um modelo de Mistura de Especialistas (MoE) com 754 bilhões de parâmetros, 40 bilhões ativos por passagem de inferência e janela de contexto de 204,8 mil tokens.

A mudança real está em como ele se comporta em tarefas de longo horizonte. A Z.ai chama isso de padrão de escada: o modelo refina dentro de uma estratégia fixa até atingir um limite, depois muda para uma abordagem estruturalmente diferente e avança novamente. Seis dessas mudanças aconteceram em uma única execução do VectorDBBench. Cada uma foi iniciada pelo modelo depois que ele analisou seus próprios logs de benchmark e identificou o que estava bloqueando o progresso adicional.

Isso é diferente de apenas ter uma janela de contexto maior. É o modelo gerenciando ativamente sua própria estratégia.

Resultados de benchmark do GLM-5.1: tarefas de codificação e agentes

O GLM-5.1 lidera nos benchmarks de codificação e tarefas de agentes. Em raciocínio, o Gemini 3.1 Pro e o GPT-5.4 estão à frente.

Raciocínio

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
HLE 31.0 30.5 28.8 28.0 25.1 31.5 36.7 45.0 39.8
HLE (w/ Tools) 52.3 50.4 50.6 40.8 51.8 53.1 51.4 52.1
AIME 2026 95.3 95.4 95.1 89.8 95.1 94.5 95.6 98.2 98.7
HMMT Nov. 2025 94.0 96.9 94.6 81.0 90.2 91.1 96.3 94.8 95.8
HMMT Feb. 2026 82.6 82.8 87.8 72.7 79.9 81.3 84.3 87.3 91.8
IMOAnswerBench 83.8 82.5 83.8 66.3 78.3 81.8 75.3 81.0 91.4
GPQA-Diamond 86.2 86.0 90.4 87.0 82.4 87.6 91.3 94.3 92.0

Codificação

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
SWE-Bench Pro 58.4 55.1 56.6 56.2 53.8 57.3 54.2 57.7
NL2Repo 42.7 35.9 37.9 39.8 32.0 49.8 33.4 41.3
Terminal-Bench 2.0 (Terminus-2) 63.5 56.2 61.6 39.3 50.8 65.4 68.5
Terminal-Bench 2.0 (best harness) 69.0 (Claude Code) 56.2 (Claude Code) 57.0 (Claude Code) 46.4 (Claude Code) 75.1 (Codex)
CyberGym 68.7 48.3 17.3 41.3 66.6

Agentes

Benchmark GLM-5.1 GLM-5 Qwen3.6-Plus MiniMax M2.7 DeepSeek-V3.2 Kimi K2.5 Claude Opus 4.6 Gemini 3.1 Pro GPT-5.4
BrowseComp 68.0 62.0 51.4 60.6
BrowseComp (w/ Context Manage) 79.3 75.9 67.6 74.9 84.0 85.9 82.7
τ³-Bench 70.6 69.2 70.7 67.6 69.2 66.0 72.4 67.1 72.9
MCP-Atlas (Public Set) 71.8 69.2 74.1 48.8 62.2 63.8 73.8 69.2 67.2
Tool-Decathlon 40.7 38.0 39.8 46.3 35.2 27.8 47.2 48.8 54.6
Vending Bench 2 US$ 5.634 US$ 4.432 US$ 5.115 US$ 1.034 US$ 1.198 US$ 8.018 US$ 911 US$ 6.144

O SWE-Bench Pro (58,4) é o destaque — a pontuação mais alta entre os nove modelos desta comparação, tanto de código aberto quanto proprietários. O CyberGym é o salto mais expressivo entre gerações: de 48,3 no GLM-5 para 68,7. Vale destacar no Terminal-Bench 2.0: a linha ‘melhor ambiente de execução’ reflete o resultado auto relatado por cada equipe, usando seu ambiente de execução preferido. O GLM-5.1 atinge 69,0 com o Claude Code; o GPT-5.4 atinge 75,1 com o Codex.

Como a execução agente de longo horizonte funciona na prática

Os números de benchmark de passagem única não capturam o que acontece quando você deixa um modelo funcionar por horas. A Z.ai executou três cenários com feedback progressivamente menos estruturado para mostrar o que o GLM-5.1 faz de diferente.

Cenário 1: otimização de banco de dados vetorial, mais de 600 iterações

O VectorDBBench fornece ao modelo um esqueleto em Rust com endpoints HTTP e stubs de implementação vazios. Usando agentes baseados em chamadas de ferramentas, ele lê e escreve arquivos, compila, testa e realiza profiling — normalmente dentro de um orçamento de 50 turnos. O melhor resultado sob essa restrição: 3.547 QPS, do Claude Opus 4.6.

A Z.ai removeu o limite. Em cada iteração, o GLM-5.1 podia usar quantas chamadas de ferramentas fossem necessárias, depois enviar uma nova versão para o benchmark. Ele executou 655 iterações com mais de 6.000 chamadas de ferramentas e atingiu 21,5k QPS — aproximadamente 6 vezes o melhor resultado em uma sessão única.

Duas transições ilustram como ele chegou lá. Por volta da iteração 90, ele mudou da varredura de corpus completo para a sondagem de clusters IVF com compressão de vetores f16, saltando para 6,4k QPS. Por volta da iteração 240, ele introduziu um pipeline de duas etapas — pré-classificação u8 seguida de reclassificação f16 — atingindo 13,4k QPS. Seis dessas transições estruturais ocorreram durante toda a execução, cada uma iniciada pelo modelo depois de analisar seus próprios logs de benchmark e identificar o gargalo atual.

Cenário 2: otimização de kernel de GPU, mais de 1.000 turnos

O KernelBench pede ao modelo que pegue uma implementação de referência em PyTorch e produza um kernel de GPU mais rápido com saídas idênticas. O Nível 3 cobre 50 problemas de modelo completo: MobileNet, VGG, MiniGPT, Mamba. Linha de base: torch.compile com 1,15x, max-autotune com 1,49x.

A Z.ai executou quatro modelos no Nível 3, acompanhando o aumento de velocidade médio geométrico ao longo dos turnos de uso de ferramentas:

  • O GLM-5 melhora rapidamente no início e depois estagna
  • O Claude Opus 4.5 continua por mais tempo, mas também diminui o ritmo depois
  • O GLM-5.1 termina com 3,6x e continua progredindo bem no final da execução
  • O Claude Opus 4.6 é o mais forte, com 4,2x, ainda mostrando espaço para melhorias no final

O GLM-5.1 não iguala o Claude Opus 4.6 aqui. Mas ele claramente estende a duração útil da execução além do GLM-5, que é o objetivo.

Cenário 3: construção de um desktop Linux, 8 horas de execução autônoma

Os dois primeiros cenários têm um número para otimizar. Este não. O prompt: construir um ambiente de desktop estilo Linux como uma aplicação web. Sem código inicial, sem mockups de design, sem feedback intermediário.

A maioria dos modelos produz um esqueleto básico — barra de tarefas estática, uma janela de espaço reservado — depois declara que está pronto.

O GLM-5.1 foi executado dentro de uma estrutura de teste simples: após cada rodada de execução, o modelo revisa sua própria saída, identifica o que está faltando ou quebrado, e continua. Ao longo de 8 horas, ele construiu um navegador de arquivos, terminal, editor de texto, monitor de sistema, calculadora e jogos funcionais, cada um integrado a uma interface de usuário (UI) coerente. A estilização ficou mais polida a cada passagem. Casos extremos foram tratados. O modelo decidiu todo o roteiro de desenvolvimento por si mesmo.

Para que o GLM-5.1 foi desenvolvido

O GLM-5.1 é mais útil para tarefas onde o tempo de execução adicional realmente produz uma saída melhor:

  • Agentes de codificação de longa duração — refatorações de múltiplos arquivos, migrações, construções completas de sistemas
  • Ferramentas de codificação agente — funciona com Claude Code, OpenClaw, Trae, Cursor, Codex e Cline
  • Automação de terminal — 63,5 no Terminal-Bench 2.0 (Terminus-2), aumento em relação aos 56,2 do GLM-5
  • Segurança cibernética — 68,7 no CyberGym, a pontuação mais alta deste conjunto de benchmarks
  • Pesquisa web — 68,0 no BrowseComp, também a mais alta aqui

Preços da API do GLM-5.1 na Novita AI

|Preço| |—|—| |Entrada|$1,40 por M tokens| |Leitura de Cache|$0,26 por M tokens| |Saída|$4,40 por M tokens|

Pagamento por token, sem compromisso mensal. Preços completos em novita.ai/pricing.

Primeiros passos: compatível com os SDKs OpenAI e Anthropic

A API da Novita AI funciona com os SDKs OpenAI e Anthropic. Basta inserir o ID do modelo e sua configuração existente funciona sem alterações. O GLM-5.1 pode ser chamado diretamente do Claude Code, OpenClaw, Trae, Cursor, Codex e de qualquer plataforma que aceite um endpoint compatível com OpenAI ou Anthropic.

Teste o GLM-5.1 no Playground | Veja a Documentação da API

Python (SDK OpenAI):

from openai import OpenAI

client = OpenAI(
    api_key="<Your Novita API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-5.1",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Refactor this module to use async/await throughout."}
    ],
    max_tokens=131072,
    temperature=0.7
)

print(response.choices[0].message.content)

TypeScript (SDK OpenAI):

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "<Your Novita API Key>",
  baseURL: "https://api.novita.ai/openai",
});

const response = await client.chat.completions.create({
  model: "zai-org/glm-5.1",
  messages: [
    { role: "system", content: "You are a helpful assistant." },
    { role: "user", content: "Build a CLI tool for parsing JSON logs." }
  ],
  max_tokens: 131072,
});

console.log(response.choices[0].message.content);

Casos de uso para desenvolvedores

O GLM-5.1 é mais útil onde a tarefa não pode ser resolvida em uma única passagem e se beneficia de refinamento iterativo:

  • Agentes de codificação autônomos — atribua uma tarefa em nível de repositório e deixe o modelo planejar, implementar, testar e iterar sem check-ins
  • Automação de pipelines de CI/CD — a chamada de funções facilita a integração do GLM-5.1 em ciclos de build/test/debug
  • Geração de documentos técnicos longos — o contexto de 204K e a saída de 131K lidam com documentos grandes e coerentes em uma única chamada
  • Otimização de kernels de GPU e desempenho de ML — o aumento de velocidade de 3,6x no KernelBench se traduz diretamente para trabalho de infraestrutura de ML
  • Scaffolding de aplicações web — o GLM-5.1 construiu uma interface de desktop completa a partir de um único prompt em linguagem natural; o mesmo loop se aplica a qualquer tarefa complexa de frontend ou backend
  • Engenharia de segurança — a pontuação de 68,7 no CyberGym coloca o modelo entre os mais capazes disponíveis para tarefas de segurança autônomas

Conclusão

Os modelos de código aberto fecharam a lacuna nos benchmarks de raciocínio. A lacuna restante está na execução de longo horizonte — manter a coerência e a produtividade ao longo de centenas de chamadas de ferramentas e horas de trabalho autônomo. O GLM-5.1 é a evidência mais clara até agora de que essa lacuna pode ser fechada.

Se você executa cargas de trabalho agente sérias e quer evitar lock-in proprietário, é a opção de código aberto mais capaz atualmente para tarefas de codificação e agentes. Na Novita AI, você obtém compatibilidade com os SDKs OpenAI e Anthropic, preços por token e nenhuma sobrecarga de infraestrutura.

Teste o GLM-5.1 no Playground | Veja a Documentação da API

A Novita AI é uma plataforma de nuvem de IA e agentes que ajuda desenvolvedores e startups a construir, implantar e escalar modelos e aplicações agente com alta performance, confiabilidade e eficiência de custos.

Perguntas Frequentes

O que mudou entre o GLM-5 e o GLM-5.1?

A maior mudança está na execução de longo horizonte. O GLM-5 estagna após algumas dezenas de iterações; o GLM-5.1 continua encontrando novas estratégias ao longo de centenas de rodadas. O padrão de escada — mudanças estruturais acionadas por autoanálise — é o que faz a diferença. As pontuações nos benchmarks de codificação também melhoraram em todas as categorias.

O GLM-5.1 é de código aberto?

Sim, licença MIT. Os pesos do modelo estão disponíveis no Hugging Face. Você pode usá-lo comercialmente, fazer fine-tuning e auto-hospedá-lo.

Como o GLM-5.1 se compara ao Claude Opus 4.6?

No SWE-Bench Pro, o GLM-5.1 obtém 58,4 pontos contra 57,3 do Claude Opus 4.6. Na otimização de GPU de longo horizonte do KernelBench, o Claude Opus 4.6 lidera com 4,2x contra 3,6x do GLM-5.1. Para a maioria das tarefas de codificação agente, os dois são muito parecidos — o GLM-5.1 tem vantagem de peso aberto e custo.