- O que há de realmente novo no GLM-5.1
- Resultados de benchmark do GLM-5.1: tarefas de codificação e agentes
- Como a execução agente de longo horizonte funciona na prática
- Para que o GLM-5.1 foi desenvolvido
- Preços da API do GLM-5.1 na Novita AI
- Primeiros passos: compatível com os SDKs OpenAI e Anthropic
- Casos de uso para desenvolvedores
- Conclusão
A maioria dos modelos de codificação atinge um limite após algumas dezenas de chamadas de ferramentas. Eles testam as abordagens mais óbvias, ficam sem ideias e estagnam. Mais tempo não ajuda — o modelo já esgotou tudo o que sabe tentar.
O GLM-5.1, o mais recente modelo principal da Z.ai, foi construído com uma premissa diferente: a otimização útil deve se acumular ao longo do tempo, e não diminuir. Nos próprios benchmarks da Z.ai, ele executou 655 iterações em um problema de busca vetorial e atingiu 21,5k QPS — aproximadamente 6 vezes o que os melhores modelos conseguem em uma sessão padrão. Ele funcionou por 8 horas construindo um desktop Linux do zero, decidindo por si mesmo o que adicionar em seguida.
O GLM-5.1 já está disponível na Novita AI, por meio de APIs compatíveis com OpenAI e Anthropic, com pagamento por token.
O que há de realmente novo no GLM-5.1
O GLM-5.1 é um modelo de Mistura de Especialistas (MoE) com 754 bilhões de parâmetros, 40 bilhões ativos por passagem de inferência e janela de contexto de 204,8 mil tokens.
A mudança real está em como ele se comporta em tarefas de longo horizonte. A Z.ai chama isso de padrão de escada: o modelo refina dentro de uma estratégia fixa até atingir um limite, depois muda para uma abordagem estruturalmente diferente e avança novamente. Seis dessas mudanças aconteceram em uma única execução do VectorDBBench. Cada uma foi iniciada pelo modelo depois que ele analisou seus próprios logs de benchmark e identificou o que estava bloqueando o progresso adicional.
Isso é diferente de apenas ter uma janela de contexto maior. É o modelo gerenciando ativamente sua própria estratégia.
Resultados de benchmark do GLM-5.1: tarefas de codificação e agentes
O GLM-5.1 lidera nos benchmarks de codificação e tarefas de agentes. Em raciocínio, o Gemini 3.1 Pro e o GPT-5.4 estão à frente.
Raciocínio
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| HLE | 31.0 | 30.5 | 28.8 | 28.0 | 25.1 | 31.5 | 36.7 | 45.0 | 39.8 |
| HLE (w/ Tools) | 52.3 | 50.4 | 50.6 | — | 40.8 | 51.8 | 53.1 | 51.4 | 52.1 |
| AIME 2026 | 95.3 | 95.4 | 95.1 | 89.8 | 95.1 | 94.5 | 95.6 | 98.2 | 98.7 |
| HMMT Nov. 2025 | 94.0 | 96.9 | 94.6 | 81.0 | 90.2 | 91.1 | 96.3 | 94.8 | 95.8 |
| HMMT Feb. 2026 | 82.6 | 82.8 | 87.8 | 72.7 | 79.9 | 81.3 | 84.3 | 87.3 | 91.8 |
| IMOAnswerBench | 83.8 | 82.5 | 83.8 | 66.3 | 78.3 | 81.8 | 75.3 | 81.0 | 91.4 |
| GPQA-Diamond | 86.2 | 86.0 | 90.4 | 87.0 | 82.4 | 87.6 | 91.3 | 94.3 | 92.0 |
Codificação
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 55.1 | 56.6 | 56.2 | — | 53.8 | 57.3 | 54.2 | 57.7 |
| NL2Repo | 42.7 | 35.9 | 37.9 | 39.8 | — | 32.0 | 49.8 | 33.4 | 41.3 |
| Terminal-Bench 2.0 (Terminus-2) | 63.5 | 56.2 | 61.6 | — | 39.3 | 50.8 | 65.4 | 68.5 | — |
| Terminal-Bench 2.0 (best harness) | 69.0 (Claude Code) | 56.2 (Claude Code) | — | 57.0 (Claude Code) | 46.4 (Claude Code) | — | — | — | 75.1 (Codex) |
| CyberGym | 68.7 | 48.3 | — | — | 17.3 | 41.3 | 66.6 | — | — |
Agentes
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| BrowseComp | 68.0 | 62.0 | — | — | 51.4 | 60.6 | — | — | — |
| BrowseComp (w/ Context Manage) | 79.3 | 75.9 | — | — | 67.6 | 74.9 | 84.0 | 85.9 | 82.7 |
| τ³-Bench | 70.6 | 69.2 | 70.7 | 67.6 | 69.2 | 66.0 | 72.4 | 67.1 | 72.9 |
| MCP-Atlas (Public Set) | 71.8 | 69.2 | 74.1 | 48.8 | 62.2 | 63.8 | 73.8 | 69.2 | 67.2 |
| Tool-Decathlon | 40.7 | 38.0 | 39.8 | 46.3 | 35.2 | 27.8 | 47.2 | 48.8 | 54.6 |
| Vending Bench 2 | US$ 5.634 | US$ 4.432 | US$ 5.115 | — | US$ 1.034 | US$ 1.198 | US$ 8.018 | US$ 911 | US$ 6.144 |
O SWE-Bench Pro (58,4) é o destaque — a pontuação mais alta entre os nove modelos desta comparação, tanto de código aberto quanto proprietários. O CyberGym é o salto mais expressivo entre gerações: de 48,3 no GLM-5 para 68,7. Vale destacar no Terminal-Bench 2.0: a linha ‘melhor ambiente de execução’ reflete o resultado auto relatado por cada equipe, usando seu ambiente de execução preferido. O GLM-5.1 atinge 69,0 com o Claude Code; o GPT-5.4 atinge 75,1 com o Codex.
Como a execução agente de longo horizonte funciona na prática
Os números de benchmark de passagem única não capturam o que acontece quando você deixa um modelo funcionar por horas. A Z.ai executou três cenários com feedback progressivamente menos estruturado para mostrar o que o GLM-5.1 faz de diferente.
Cenário 1: otimização de banco de dados vetorial, mais de 600 iterações
O VectorDBBench fornece ao modelo um esqueleto em Rust com endpoints HTTP e stubs de implementação vazios. Usando agentes baseados em chamadas de ferramentas, ele lê e escreve arquivos, compila, testa e realiza profiling — normalmente dentro de um orçamento de 50 turnos. O melhor resultado sob essa restrição: 3.547 QPS, do Claude Opus 4.6.
A Z.ai removeu o limite. Em cada iteração, o GLM-5.1 podia usar quantas chamadas de ferramentas fossem necessárias, depois enviar uma nova versão para o benchmark. Ele executou 655 iterações com mais de 6.000 chamadas de ferramentas e atingiu 21,5k QPS — aproximadamente 6 vezes o melhor resultado em uma sessão única.
Duas transições ilustram como ele chegou lá. Por volta da iteração 90, ele mudou da varredura de corpus completo para a sondagem de clusters IVF com compressão de vetores f16, saltando para 6,4k QPS. Por volta da iteração 240, ele introduziu um pipeline de duas etapas — pré-classificação u8 seguida de reclassificação f16 — atingindo 13,4k QPS. Seis dessas transições estruturais ocorreram durante toda a execução, cada uma iniciada pelo modelo depois de analisar seus próprios logs de benchmark e identificar o gargalo atual.
Cenário 2: otimização de kernel de GPU, mais de 1.000 turnos
O KernelBench pede ao modelo que pegue uma implementação de referência em PyTorch e produza um kernel de GPU mais rápido com saídas idênticas. O Nível 3 cobre 50 problemas de modelo completo: MobileNet, VGG, MiniGPT, Mamba. Linha de base: torch.compile com 1,15x, max-autotune com 1,49x.
A Z.ai executou quatro modelos no Nível 3, acompanhando o aumento de velocidade médio geométrico ao longo dos turnos de uso de ferramentas:
- O GLM-5 melhora rapidamente no início e depois estagna
- O Claude Opus 4.5 continua por mais tempo, mas também diminui o ritmo depois
- O GLM-5.1 termina com 3,6x e continua progredindo bem no final da execução
- O Claude Opus 4.6 é o mais forte, com 4,2x, ainda mostrando espaço para melhorias no final
O GLM-5.1 não iguala o Claude Opus 4.6 aqui. Mas ele claramente estende a duração útil da execução além do GLM-5, que é o objetivo.
Cenário 3: construção de um desktop Linux, 8 horas de execução autônoma
Os dois primeiros cenários têm um número para otimizar. Este não. O prompt: construir um ambiente de desktop estilo Linux como uma aplicação web. Sem código inicial, sem mockups de design, sem feedback intermediário.
A maioria dos modelos produz um esqueleto básico — barra de tarefas estática, uma janela de espaço reservado — depois declara que está pronto.
O GLM-5.1 foi executado dentro de uma estrutura de teste simples: após cada rodada de execução, o modelo revisa sua própria saída, identifica o que está faltando ou quebrado, e continua. Ao longo de 8 horas, ele construiu um navegador de arquivos, terminal, editor de texto, monitor de sistema, calculadora e jogos funcionais, cada um integrado a uma interface de usuário (UI) coerente. A estilização ficou mais polida a cada passagem. Casos extremos foram tratados. O modelo decidiu todo o roteiro de desenvolvimento por si mesmo.
Para que o GLM-5.1 foi desenvolvido
O GLM-5.1 é mais útil para tarefas onde o tempo de execução adicional realmente produz uma saída melhor:
- Agentes de codificação de longa duração — refatorações de múltiplos arquivos, migrações, construções completas de sistemas
- Ferramentas de codificação agente — funciona com Claude Code, OpenClaw, Trae, Cursor, Codex e Cline
- Automação de terminal — 63,5 no Terminal-Bench 2.0 (Terminus-2), aumento em relação aos 56,2 do GLM-5
- Segurança cibernética — 68,7 no CyberGym, a pontuação mais alta deste conjunto de benchmarks
- Pesquisa web — 68,0 no BrowseComp, também a mais alta aqui
Preços da API do GLM-5.1 na Novita AI
|Preço| |—|—| |Entrada|$1,40 por M tokens| |Leitura de Cache|$0,26 por M tokens| |Saída|$4,40 por M tokens|
Pagamento por token, sem compromisso mensal. Preços completos em novita.ai/pricing.
Primeiros passos: compatível com os SDKs OpenAI e Anthropic
A API da Novita AI funciona com os SDKs OpenAI e Anthropic. Basta inserir o ID do modelo e sua configuração existente funciona sem alterações. O GLM-5.1 pode ser chamado diretamente do Claude Code, OpenClaw, Trae, Cursor, Codex e de qualquer plataforma que aceite um endpoint compatível com OpenAI ou Anthropic.
Teste o GLM-5.1 no Playground | Veja a Documentação da API
Python (SDK OpenAI):
from openai import OpenAI
client = OpenAI(
api_key="<Your Novita API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-5.1",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Refactor this module to use async/await throughout."}
],
max_tokens=131072,
temperature=0.7
)
print(response.choices[0].message.content)
TypeScript (SDK OpenAI):
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "<Your Novita API Key>",
baseURL: "https://api.novita.ai/openai",
});
const response = await client.chat.completions.create({
model: "zai-org/glm-5.1",
messages: [
{ role: "system", content: "You are a helpful assistant." },
{ role: "user", content: "Build a CLI tool for parsing JSON logs." }
],
max_tokens: 131072,
});
console.log(response.choices[0].message.content);
Casos de uso para desenvolvedores
O GLM-5.1 é mais útil onde a tarefa não pode ser resolvida em uma única passagem e se beneficia de refinamento iterativo:
- Agentes de codificação autônomos — atribua uma tarefa em nível de repositório e deixe o modelo planejar, implementar, testar e iterar sem check-ins
- Automação de pipelines de CI/CD — a chamada de funções facilita a integração do GLM-5.1 em ciclos de build/test/debug
- Geração de documentos técnicos longos — o contexto de 204K e a saída de 131K lidam com documentos grandes e coerentes em uma única chamada
- Otimização de kernels de GPU e desempenho de ML — o aumento de velocidade de 3,6x no KernelBench se traduz diretamente para trabalho de infraestrutura de ML
- Scaffolding de aplicações web — o GLM-5.1 construiu uma interface de desktop completa a partir de um único prompt em linguagem natural; o mesmo loop se aplica a qualquer tarefa complexa de frontend ou backend
- Engenharia de segurança — a pontuação de 68,7 no CyberGym coloca o modelo entre os mais capazes disponíveis para tarefas de segurança autônomas
Conclusão
Os modelos de código aberto fecharam a lacuna nos benchmarks de raciocínio. A lacuna restante está na execução de longo horizonte — manter a coerência e a produtividade ao longo de centenas de chamadas de ferramentas e horas de trabalho autônomo. O GLM-5.1 é a evidência mais clara até agora de que essa lacuna pode ser fechada.
Se você executa cargas de trabalho agente sérias e quer evitar lock-in proprietário, é a opção de código aberto mais capaz atualmente para tarefas de codificação e agentes. Na Novita AI, você obtém compatibilidade com os SDKs OpenAI e Anthropic, preços por token e nenhuma sobrecarga de infraestrutura.
Teste o GLM-5.1 no Playground | Veja a Documentação da API
A Novita AI é uma plataforma de nuvem de IA e agentes que ajuda desenvolvedores e startups a construir, implantar e escalar modelos e aplicações agente com alta performance, confiabilidade e eficiência de custos.
Perguntas Frequentes
O que mudou entre o GLM-5 e o GLM-5.1?
A maior mudança está na execução de longo horizonte. O GLM-5 estagna após algumas dezenas de iterações; o GLM-5.1 continua encontrando novas estratégias ao longo de centenas de rodadas. O padrão de escada — mudanças estruturais acionadas por autoanálise — é o que faz a diferença. As pontuações nos benchmarks de codificação também melhoraram em todas as categorias.
O GLM-5.1 é de código aberto?
Sim, licença MIT. Os pesos do modelo estão disponíveis no Hugging Face. Você pode usá-lo comercialmente, fazer fine-tuning e auto-hospedá-lo.
Como o GLM-5.1 se compara ao Claude Opus 4.6?
No SWE-Bench Pro, o GLM-5.1 obtém 58,4 pontos contra 57,3 do Claude Opus 4.6. Na otimização de GPU de longo horizonte do KernelBench, o Claude Opus 4.6 lidera com 4,2x contra 3,6x do GLM-5.1. Para a maioria das tarefas de codificação agente, os dois são muito parecidos — o GLM-5.1 tem vantagem de peso aberto e custo.
