Hoje, temos o prazer de anunciar a parceria da Novita AI com a Z.ai para trazer suporte desde o primeiro dia para o GLM-4.5 na plataforma Novita AI como parceira de lançamento da Z.ai. Esta colaboração inovadora apresenta a série de modelos de IA mais unificada do mundo, combinando raciocínio avançado, capacidades sofisticadas de codificação e funcionalidade agêntica nativa em um único framework poderoso, projetado para desenvolvedores que criam a próxima geração de aplicações de IA.
A Novita AI agora oferece o inovador modelo GLM-4.5 (355B parâmetros totais, 32B ativos): Construído com modos de raciocínio híbrido, oferecendo modo de pensamento para raciocínio complexo e uso de ferramentas, e modo sem pensamento para respostas instantâneas. Ocupa o 2º lugar geral em benchmarks abrangentes.

Ambos os modelos possuem comprimento de contexto de 128k e capacidade nativa de chamada de função, disponíveis através da infraestrutura de inferência otimizada da Novita AI.
⚡ Desempenho Geral
O GLM-4.5 ocupa o 2º lugar e o GLM-4.5-Air o 5º lugar em 12 benchmarks cobrindo tarefas agênticas (3), raciocínio (7) e codificação (2), comparados com modelos da OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, Moonshot e DeepSeek.
O GLM-4.5 unifica todas as capacidades onde modelos anteriores se destacavam em áreas específicas — codificação, matemática ou raciocínio — mas nenhum alcançava o melhor desempenho em todas as tarefas.
Tarefas Agênticas
O GLM-4.5 é um modelo de base otimizado para tarefas agênticas. Ele oferece comprimento de contexto de 128k e capacidade nativa de chamada de função. A Z.ai mediu sua habilidade agêntica no τ-bench e BFCL-v3 (Berkeley Function Calling Leaderboard v3). Em ambos os benchmarks, o GLM-4.5 iguala o desempenho do Claude-4-Sonnet.
Navegação na web é uma aplicação agêntica popular que requer raciocínio complexo e uso de ferramentas em múltiplas etapas. A Z.ai avaliou o GLM-4.5 no benchmark BrowseComp, um benchmark desafiador para navegação na web que consiste em perguntas complicadas que esperam respostas curtas. Com acesso à ferramenta de navegação na web, o GLM-4.5 fornece respostas corretas para 26,4% de todas as perguntas, superando claramente o Claude-4-Opus (18,8%) e próximo ao o4-mini-high (28,0%).
| Referência | GLM-4.5 | GLM-4.5-Air | o3 | o4-mini-high | GPT-4.1 | Claude 4 Opus | Claude 4 Sonnet | Gemini 2.5 Pro | Qwen3 235B Thinking 2507 | DeepSeek R1 0528 | Kimi K2 | Grok4 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| TAU-bench | 70,1 | 69,4 | 61,2 | 57,4 | 62,0 | 70,5 | 70,3 | 62,5 | 73,2 | 58,7 | 62,6 | 67,5 |
| BFCL v3 (Completo) | 77,8 | 76,4 | 72,4 | 67,2 | 68,9 | 61,8 | 75,2 | 61,2 | 72,4 | 63,8 | 71,1 | 66,2 |
| BrowseComp | 26,4 | 21,3 | 49,7 | 28,3 | 4,1 | 18,8 | 14,7 | 7,6 | 4,6 | 3,2 | 7,9 | 32,6 |
Raciocínio
No modo de pensamento, o GLM-4.5 e o GLM-4.5-Air podem resolver problemas complexos de raciocínio, incluindo problemas de matemática, ciência e lógica.
| Referência | GLM-4.5 | GLM-4.5-Air | o3 | o4-mini-high | Claude 4 Opus | Claude 4 Sonnet | Gemini 2.5 Pro | Gemini 2.5 Flash | DeepSeek R1 0528 | Qwen3-235B Thinking 2507 | Grok4 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| MMLU Pro | 84,6 | 81,4 | 85,3 | 83,2 | 87,3 | 84,2 | 86,2 | 83,2 | 84,9 | 84,5 | 86,6 |
| AIME24 | 91,0 | 89,4 | 90,3 | 94,0 | 75,7 | 77,3 | 88,7 | 82,3 | 89,3 | 94,1 | 94,3 |
| MATH 500 | 98,2 | 98,1 | 99,2 | 98,9 | 98,2 | 99,1 | 96,7 | 98,1 | 98,3 | 98,0 | 99,0 |
| SciCode | 41,7 | 37,3 | 41,0 | 46,5 | 39,8 | 40,0 | 42,8 | 39,4 | 40,3 | 42,9 | 45,7 |
| GPQA | 79,1 | 75,0 | 82,7 | 78,4 | 79,6 | 77,7 | 84,4 | 79,0 | 81,3 | 81,1 | 87,7 |
| HLE | 14,4 | 10,6 | 20,0 | 17,5 | 11,7 | 8,5 | 21,1 | 11,1 | 14,9 | 15,8 | 23,9 |
| LiveCodeBench (2407-2501) | 72,9 | 70,7 | 78,4 | 80,4 | 63,6 | 58,0 | 80,1 | 69,5 | 77,0 | 78,2 | 81,9 |
| AA-Index (Estimado) | 67,7 | 64,8 | 70,0 | 69,8 | 64,4 | 62,7 | 70,5 | 65,1 | 68,3 | 69,4 | 73,2 |
Codificação
O GLM-4.5 também é bom em codificação, incluindo tanto a criação de um projeto de código do zero quanto a resolução agêntica de tarefas de codificação em projetos existentes. Ele pode ser combinado perfeitamente com kits de ferramentas de codificação existentes, como Claude Code, Roo Code e CodeGeex. Para avaliar a capacidade de codificação, a Z.ai comparou diferentes modelos no SWE-bench Verified e Terminal Bench.
| Referência | GLM-4.5 | GLM-4.5-Air | o3 | o4-mini-high | GPT-4.1 | Claude 4 Opus | Claude 4 Sonnet | Gemini 2.5 Pro | Gemini 2.5 Flash | Qwen3 235B Thinking 2507 | Qwen3 235B | DeepSeek R1 0528 | Kimi K2 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SWE-bench Verified | 64,2 | 57,6 | 69,1 | 54,8 | 48,6 | 67,8 | 70,4 | 49,0 | 60,4 | 35,0 | 36,2 | 41,4 | 65,4 |
| Terminal-Bench | 37,5 | 30,0 | 30,2 | 18,5 | 30,3 | 43,2 | 35,5 | 25,3 | 16,8 | 6,3 | 6,6 | 17,5 | 25,0 |
Para avaliar as capacidades agênticas de codificação do GLM-4.5 em cenários do mundo real, a Z.ai usou o Claude Code para realizar testes abrangentes contra o Claude-4-Sonnet, Kimi K2 e Qwen3-Coder usando 52 tarefas de codificação cobrindo desenvolvimento frontend, desenvolvimento de ferramentas, análise de dados, testes e aplicações de algoritmos. O GLM-4.5 vence o Kimi K2 em 53,9% das tarefas e domina o Qwen3-Coder com uma taxa de vitória de 80,8%, enquanto mostra espaço para melhoria contra o Claude-4-Sonnet.

Notavelmente, o GLM-4.5 atinge a maior taxa média de sucesso de chamada de ferramentas com 90,6%, superando o Claude-4-Sonnet (89,5%), Kimi-K2 (86,2%) e Qwen3-Coder (77,1%), demonstrando confiabilidade e eficiência superiores em tarefas agênticas de codificação.

🚀 Comece com a Novita AI
Use o Playground (Sem Necessidade de Codificação)
- Acesso Instantâneo: Cadastre-se e comece a experimentar o GLM-4.5 em segundos
- Interface Interativa: Teste prompts de raciocínio complexo e visualize saídas estruturadas em tempo real
- Comparação de Modelos: Compare o GLM-4.5 com outros modelos líderes para seu caso de uso específico
Integre via API (Para Desenvolvedores)
Conecte o GLM-4.5 às suas aplicações com a API REST unificada da Novita AI.
Opção 1: Integração Direta com API (Exemplo em Python)
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="session_S4q9KTdBQujFkXSE5aZYZCrwN9f5QO96BtAFLw4FOgB__slLHW9KFAjmMgC12ag6mf2lJ1rASEvHbP_gv7Jh2Q==",
)
model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Principais Recursos:
- API compatível com OpenAI para integração perfeita
- Controle flexível de parâmetros para ajuste fino de respostas
- Suporte a streaming para respostas em tempo real
Opção 2: Fluxos de Trabalho Multiagente com OpenAI Agents SDK Construa sistemas multiagente sofisticados usando GLM-4.5:
- Integração Plug-and-Play: Use o GLM-4.5 em qualquer fluxo de trabalho do OpenAI Agents
- Capacidades Avançadas de Agente: Suporte para handoffs, roteamento e integração de ferramentas com 90,6% de taxa de sucesso
- Arquitetura Escalável: Projete agentes que aproveitam as capacidades unificadas de raciocínio, codificação e agênticas do GLM-4.5
Conecte-se com Plataformas de Terceiros
- Ferramentas de Desenvolvimento: Integre-se perfeitamente com IDEs populares e ambientes de desenvolvimento como Cursor e Cline através de APIs compatíveis com OpenAI
- Frameworks de Orquestração: Conecte-se com LangChain, Dify, Langflow e outras plataformas de orquestração de IA usando conectores oficiais
- Integração com Hugging Face: Use o GLM-4.5 em Spaces, pipelines ou com a biblioteca Transformers através de endpoints da Novita AI
🔬 Inovação Técnica do GLM-4.5
Excelência da Arquitetura MoE
O GLM-4.5 adota a arquitetura Mixture of Experts (MoE), melhorando a eficiência computacional tanto para treinamento quanto para inferência. Comparado ao DeepSeek-V3, o design reduz a largura (dimensão oculta e especialistas roteados) enquanto aumenta a altura (número de camadas).
Principais características técnicas:
- Grouped-Query Attention com RoPE parcial (continuado do ChatGLM2)
- QK-Norm para estabilizar o intervalo dos logits de atenção
- Otimizador Muon para convergência acelerada e maior tolerância a tamanhos de lote
- Camada MTP (Multi-Token Prediction) suportando decodificação especulativa durante a inferência
Pipeline de Treinamento Avançado
Pré-treinamento: Abordagem em duas etapas
- 15T tokens no corpus geral de pré-treinamento
- 7T tokens no corpus de código e raciocínio
Treinamento intermediário: Otimização específica de domínio
- Dados de Código em Nível de Repositório (500B tokens)
- Dados Sintéticos de Raciocínio (500B tokens)
- Dados de Contexto Longo e Agente (100B tokens)
Pós-treinamento: Abordagem híbrida sofisticada
- Treinamento de Especialistas: Modelos separados para domínios de Raciocínio, Agêntico e Geral através de SFT e RL especializados
- Treinamento Unificado: Destilação de conhecimento combinando especialistas em um único modelo via autodestilação SFT em larga escala, seguida por alinhamento RL em três estágios
slime: Infraestrutura RL Revolucionária
O treinamento do GLM-4.5 é impulsionado pelo slime, uma infraestrutura RL de código aberto projetada para modelos em larga escala:
- Arquitetura de Treinamento Híbrida Flexível: Suporta tanto treinamento síncrono colocalizado quanto treinamento assíncrono desagregado
- Design Desacoplado Orientado a Agentes: Separa os motores de rollback dos motores de treinamento para desempenho otimizado
- Geração Acelerada de Dados: Inferência de precisão mista usando FP8 para geração de dados, mantendo estabilidade BF16 para treinamento
🎯 Pronto para Experimentar a IA Unificada?
Experimente o GLM-4.5 e o GLM-4.5-Air hoje na Plataforma Novita AI. Veja em primeira mão como as capacidades unificadas de IA estão transformando o que é possível quando raciocínio, codificação e funcionalidade agêntica convergem em uma infraestrutura otimizada e pronta para produção.
Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem GPU acessível e confiável para construir e escalar.
