Novita AI faz parceria com Z.ai para oferecer GLM-4.5: Unificando raciocínio, codificação e capacidades de IA agêntica

Índice

⚡ Desempenho Geral
🚀 Comece com a Novita AI
🔬 Inovação Técnica do GLM-4.5
🎯 Pronto para Experimentar a IA Unificada?

Hoje, temos o prazer de anunciar a parceria da Novita AI com a Z.ai para trazer suporte desde o primeiro dia para o GLM-4.5 na plataforma Novita AI como parceira de lançamento da Z.ai. Esta colaboração inovadora apresenta a série de modelos de IA mais unificada do mundo, combinando raciocínio avançado, capacidades sofisticadas de codificação e funcionalidade agêntica nativa em um único framework poderoso, projetado para desenvolvedores que criam a próxima geração de aplicações de IA.

A Novita AI agora oferece o inovador modelo GLM-4.5 (355B parâmetros totais, 32B ativos): Construído com modos de raciocínio híbrido, oferecendo modo de pensamento para raciocínio complexo e uso de ferramentas, e modo sem pensamento para respostas instantâneas. Ocupa o 2º lugar geral em benchmarks abrangentes.

Ambos os modelos possuem comprimento de contexto de 128k e capacidade nativa de chamada de função, disponíveis através da infraestrutura de inferência otimizada da Novita AI.

⚡ Desempenho Geral

O GLM-4.5 ocupa o 2º lugar e o GLM-4.5-Air o 5º lugar em 12 benchmarks cobrindo tarefas agênticas (3), raciocínio (7) e codificação (2), comparados com modelos da OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, Moonshot e DeepSeek.

O GLM-4.5 unifica todas as capacidades onde modelos anteriores se destacavam em áreas específicas — codificação, matemática ou raciocínio — mas nenhum alcançava o melhor desempenho em todas as tarefas.

Tarefas Agênticas

O GLM-4.5 é um modelo de base otimizado para tarefas agênticas. Ele oferece comprimento de contexto de 128k e capacidade nativa de chamada de função. A Z.ai mediu sua habilidade agêntica no τ-bench e BFCL-v3 (Berkeley Function Calling Leaderboard v3). Em ambos os benchmarks, o GLM-4.5 iguala o desempenho do Claude-4-Sonnet.

Navegação na web é uma aplicação agêntica popular que requer raciocínio complexo e uso de ferramentas em múltiplas etapas. A Z.ai avaliou o GLM-4.5 no benchmark BrowseComp, um benchmark desafiador para navegação na web que consiste em perguntas complicadas que esperam respostas curtas. Com acesso à ferramenta de navegação na web, o GLM-4.5 fornece respostas corretas para 26,4% de todas as perguntas, superando claramente o Claude-4-Opus (18,8%) e próximo ao o4-mini-high (28,0%).

Referência	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	GPT-4.1	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Qwen3 235B Thinking 2507	DeepSeek R1 0528	Kimi K2	Grok4
TAU-bench	70,1	69,4	61,2	57,4	62,0	70,5	70,3	62,5	73,2	58,7	62,6	67,5
BFCL v3 (Completo)	77,8	76,4	72,4	67,2	68,9	61,8	75,2	61,2	72,4	63,8	71,1	66,2
BrowseComp	26,4	21,3	49,7	28,3	4,1	18,8	14,7	7,6	4,6	3,2	7,9	32,6

Raciocínio

No modo de pensamento, o GLM-4.5 e o GLM-4.5-Air podem resolver problemas complexos de raciocínio, incluindo problemas de matemática, ciência e lógica.

Referência	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Gemini 2.5 Flash	DeepSeek R1 0528	Qwen3-235B Thinking 2507	Grok4
MMLU Pro	84,6	81,4	85,3	83,2	87,3	84,2	86,2	83,2	84,9	84,5	86,6
AIME24	91,0	89,4	90,3	94,0	75,7	77,3	88,7	82,3	89,3	94,1	94,3
MATH 500	98,2	98,1	99,2	98,9	98,2	99,1	96,7	98,1	98,3	98,0	99,0
SciCode	41,7	37,3	41,0	46,5	39,8	40,0	42,8	39,4	40,3	42,9	45,7
GPQA	79,1	75,0	82,7	78,4	79,6	77,7	84,4	79,0	81,3	81,1	87,7
HLE	14,4	10,6	20,0	17,5	11,7	8,5	21,1	11,1	14,9	15,8	23,9
LiveCodeBench (2407-2501)	72,9	70,7	78,4	80,4	63,6	58,0	80,1	69,5	77,0	78,2	81,9
AA-Index (Estimado)	67,7	64,8	70,0	69,8	64,4	62,7	70,5	65,1	68,3	69,4	73,2

Codificação

O GLM-4.5 também é bom em codificação, incluindo tanto a criação de um projeto de código do zero quanto a resolução agêntica de tarefas de codificação em projetos existentes. Ele pode ser combinado perfeitamente com kits de ferramentas de codificação existentes, como Claude Code, Roo Code e CodeGeex. Para avaliar a capacidade de codificação, a Z.ai comparou diferentes modelos no SWE-bench Verified e Terminal Bench.

Referência	GLM-4.5	GLM-4.5-Air	o3	o4-mini-high	GPT-4.1	Claude 4 Opus	Claude 4 Sonnet	Gemini 2.5 Pro	Gemini 2.5 Flash	Qwen3 235B Thinking 2507	Qwen3 235B	DeepSeek R1 0528	Kimi K2
SWE-bench Verified	64,2	57,6	69,1	54,8	48,6	67,8	70,4	49,0	60,4	35,0	36,2	41,4	65,4
Terminal-Bench	37,5	30,0	30,2	18,5	30,3	43,2	35,5	25,3	16,8	6,3	6,6	17,5	25,0

Para avaliar as capacidades agênticas de codificação do GLM-4.5 em cenários do mundo real, a Z.ai usou o Claude Code para realizar testes abrangentes contra o Claude-4-Sonnet, Kimi K2 e Qwen3-Coder usando 52 tarefas de codificação cobrindo desenvolvimento frontend, desenvolvimento de ferramentas, análise de dados, testes e aplicações de algoritmos. O GLM-4.5 vence o Kimi K2 em 53,9% das tarefas e domina o Qwen3-Coder com uma taxa de vitória de 80,8%, enquanto mostra espaço para melhoria contra o Claude-4-Sonnet.

Notavelmente, o GLM-4.5 atinge a maior taxa média de sucesso de chamada de ferramentas com 90,6%, superando o Claude-4-Sonnet (89,5%), Kimi-K2 (86,2%) e Qwen3-Coder (77,1%), demonstrando confiabilidade e eficiência superiores em tarefas agênticas de codificação.

🚀 Comece com a Novita AI

Use o Playground (Sem Necessidade de Codificação)

Acesso Instantâneo: Cadastre-se e comece a experimentar o GLM-4.5 em segundos
Interface Interativa: Teste prompts de raciocínio complexo e visualize saídas estruturadas em tempo real
Comparação de Modelos: Compare o GLM-4.5 com outros modelos líderes para seu caso de uso específico

Integre via API (Para Desenvolvedores)

Conecte o GLM-4.5 às suas aplicações com a API REST unificada da Novita AI.

Opção 1: Integração Direta com API (Exemplo em Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_S4q9KTdBQujFkXSE5aZYZCrwN9f5QO96BtAFLw4FOgB__slLHW9KFAjmMgC12ag6mf2lJ1rASEvHbP_gv7Jh2Q==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Principais Recursos:

API compatível com OpenAI para integração perfeita
Controle flexível de parâmetros para ajuste fino de respostas
Suporte a streaming para respostas em tempo real

Opção 2: Fluxos de Trabalho Multiagente com OpenAI Agents SDK Construa sistemas multiagente sofisticados usando GLM-4.5:

Integração Plug-and-Play: Use o GLM-4.5 em qualquer fluxo de trabalho do OpenAI Agents
Capacidades Avançadas de Agente: Suporte para handoffs, roteamento e integração de ferramentas com 90,6% de taxa de sucesso
Arquitetura Escalável: Projete agentes que aproveitam as capacidades unificadas de raciocínio, codificação e agênticas do GLM-4.5

Conecte-se com Plataformas de Terceiros

Ferramentas de Desenvolvimento: Integre-se perfeitamente com IDEs populares e ambientes de desenvolvimento como Cursor e Cline através de APIs compatíveis com OpenAI
Frameworks de Orquestração: Conecte-se com LangChain, Dify, Langflow e outras plataformas de orquestração de IA usando conectores oficiais
Integração com Hugging Face: Use o GLM-4.5 em Spaces, pipelines ou com a biblioteca Transformers através de endpoints da Novita AI

🔬 Inovação Técnica do GLM-4.5

Excelência da Arquitetura MoE

O GLM-4.5 adota a arquitetura Mixture of Experts (MoE), melhorando a eficiência computacional tanto para treinamento quanto para inferência. Comparado ao DeepSeek-V3, o design reduz a largura (dimensão oculta e especialistas roteados) enquanto aumenta a altura (número de camadas).

Principais características técnicas:

Grouped-Query Attention com RoPE parcial (continuado do ChatGLM2)
QK-Norm para estabilizar o intervalo dos logits de atenção
Otimizador Muon para convergência acelerada e maior tolerância a tamanhos de lote
Camada MTP (Multi-Token Prediction) suportando decodificação especulativa durante a inferência

Pipeline de Treinamento Avançado

Pré-treinamento: Abordagem em duas etapas

15T tokens no corpus geral de pré-treinamento
7T tokens no corpus de código e raciocínio

Treinamento intermediário: Otimização específica de domínio

Dados de Código em Nível de Repositório (500B tokens)
Dados Sintéticos de Raciocínio (500B tokens)
Dados de Contexto Longo e Agente (100B tokens)

Pós-treinamento: Abordagem híbrida sofisticada

Treinamento de Especialistas: Modelos separados para domínios de Raciocínio, Agêntico e Geral através de SFT e RL especializados
Treinamento Unificado: Destilação de conhecimento combinando especialistas em um único modelo via autodestilação SFT em larga escala, seguida por alinhamento RL em três estágios

slime: Infraestrutura RL Revolucionária

O treinamento do GLM-4.5 é impulsionado pelo slime, uma infraestrutura RL de código aberto projetada para modelos em larga escala:

Arquitetura de Treinamento Híbrida Flexível: Suporta tanto treinamento síncrono colocalizado quanto treinamento assíncrono desagregado
Design Desacoplado Orientado a Agentes: Separa os motores de rollback dos motores de treinamento para desempenho otimizado
Geração Acelerada de Dados: Inferência de precisão mista usando FP8 para geração de dados, mantendo estabilidade BF16 para treinamento

🎯 Pronto para Experimentar a IA Unificada?

Experimente o GLM-4.5 e o GLM-4.5-Air hoje na Plataforma Novita AI. Veja em primeira mão como as capacidades unificadas de IA estão transformando o que é possível quando raciocínio, codificação e funcionalidade agêntica convergem em uma infraestrutura otimizada e pronta para produção.

Comece a Construir Hoje →

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem GPU acessível e confiável para construir e escalar.

Novita AI faz parceria com Z.ai para oferecer GLM-4.5: Unificando raciocínio, codificação e capacidades de IA agêntica