Novita AI faz parceria com Z.ai para oferecer GLM-4.5: Unificando raciocínio, codificação e capacidades de IA agêntica

Novita AI faz parceria com Z.ai para oferecer GLM-4.5: Unificando raciocínio, codificação e capacidades de IA agêntica

Hoje, temos o prazer de anunciar a parceria da Novita AI com a Z.ai para trazer suporte desde o primeiro dia para o GLM-4.5 na plataforma Novita AI como parceira de lançamento da Z.ai. Esta colaboração inovadora apresenta a série de modelos de IA mais unificada do mundo, combinando raciocínio avançado, capacidades sofisticadas de codificação e funcionalidade agêntica nativa em um único framework poderoso, projetado para desenvolvedores que criam a próxima geração de aplicações de IA.

A Novita AI agora oferece o inovador modelo GLM-4.5 (355B parâmetros totais, 32B ativos): Construído com modos de raciocínio híbrido, oferecendo modo de pensamento para raciocínio complexo e uso de ferramentas, e modo sem pensamento para respostas instantâneas. Ocupa o 2º lugar geral em benchmarks abrangentes.

Ambos os modelos possuem comprimento de contexto de 128k e capacidade nativa de chamada de função, disponíveis através da infraestrutura de inferência otimizada da Novita AI.

⚡ Desempenho Geral

O GLM-4.5 ocupa o 2º lugar e o GLM-4.5-Air o 5º lugar em 12 benchmarks cobrindo tarefas agênticas (3), raciocínio (7) e codificação (2), comparados com modelos da OpenAI, Anthropic, Google DeepMind, xAI, Alibaba, Moonshot e DeepSeek.

O GLM-4.5 unifica todas as capacidades onde modelos anteriores se destacavam em áreas específicas — codificação, matemática ou raciocínio — mas nenhum alcançava o melhor desempenho em todas as tarefas.

Tarefas Agênticas

O GLM-4.5 é um modelo de base otimizado para tarefas agênticas. Ele oferece comprimento de contexto de 128k e capacidade nativa de chamada de função. A Z.ai mediu sua habilidade agêntica no τ-bench e BFCL-v3 (Berkeley Function Calling Leaderboard v3). Em ambos os benchmarks, o GLM-4.5 iguala o desempenho do Claude-4-Sonnet.

Navegação na web é uma aplicação agêntica popular que requer raciocínio complexo e uso de ferramentas em múltiplas etapas. A Z.ai avaliou o GLM-4.5 no benchmark BrowseComp, um benchmark desafiador para navegação na web que consiste em perguntas complicadas que esperam respostas curtas. Com acesso à ferramenta de navegação na web, o GLM-4.5 fornece respostas corretas para 26,4% de todas as perguntas, superando claramente o Claude-4-Opus (18,8%) e próximo ao o4-mini-high (28,0%).

Referência GLM-4.5 GLM-4.5-Air o3 o4-mini-high GPT-4.1 Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Qwen3 235B Thinking 2507 DeepSeek R1 0528 Kimi K2 Grok4
TAU-bench 70,1 69,4 61,2 57,4 62,0 70,5 70,3 62,5 73,2 58,7 62,6 67,5
BFCL v3 (Completo) 77,8 76,4 72,4 67,2 68,9 61,8 75,2 61,2 72,4 63,8 71,1 66,2
BrowseComp 26,4 21,3 49,7 28,3 4,1 18,8 14,7 7,6 4,6 3,2 7,9 32,6

Raciocínio

No modo de pensamento, o GLM-4.5 e o GLM-4.5-Air podem resolver problemas complexos de raciocínio, incluindo problemas de matemática, ciência e lógica.

Referência GLM-4.5 GLM-4.5-Air o3 o4-mini-high Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Gemini 2.5 Flash DeepSeek R1 0528 Qwen3-235B Thinking 2507 Grok4
MMLU Pro 84,6 81,4 85,3 83,2 87,3 84,2 86,2 83,2 84,9 84,5 86,6
AIME24 91,0 89,4 90,3 94,0 75,7 77,3 88,7 82,3 89,3 94,1 94,3
MATH 500 98,2 98,1 99,2 98,9 98,2 99,1 96,7 98,1 98,3 98,0 99,0
SciCode 41,7 37,3 41,0 46,5 39,8 40,0 42,8 39,4 40,3 42,9 45,7
GPQA 79,1 75,0 82,7 78,4 79,6 77,7 84,4 79,0 81,3 81,1 87,7
HLE 14,4 10,6 20,0 17,5 11,7 8,5 21,1 11,1 14,9 15,8 23,9
LiveCodeBench (2407-2501) 72,9 70,7 78,4 80,4 63,6 58,0 80,1 69,5 77,0 78,2 81,9
AA-Index (Estimado) 67,7 64,8 70,0 69,8 64,4 62,7 70,5 65,1 68,3 69,4 73,2

Codificação

O GLM-4.5 também é bom em codificação, incluindo tanto a criação de um projeto de código do zero quanto a resolução agêntica de tarefas de codificação em projetos existentes. Ele pode ser combinado perfeitamente com kits de ferramentas de codificação existentes, como Claude Code, Roo Code e CodeGeex. Para avaliar a capacidade de codificação, a Z.ai comparou diferentes modelos no SWE-bench Verified e Terminal Bench.

Referência GLM-4.5 GLM-4.5-Air o3 o4-mini-high GPT-4.1 Claude 4 Opus Claude 4 Sonnet Gemini 2.5 Pro Gemini 2.5 Flash Qwen3 235B Thinking 2507 Qwen3 235B DeepSeek R1 0528 Kimi K2
SWE-bench Verified 64,2 57,6 69,1 54,8 48,6 67,8 70,4 49,0 60,4 35,0 36,2 41,4 65,4
Terminal-Bench 37,5 30,0 30,2 18,5 30,3 43,2 35,5 25,3 16,8 6,3 6,6 17,5 25,0

Para avaliar as capacidades agênticas de codificação do GLM-4.5 em cenários do mundo real, a Z.ai usou o Claude Code para realizar testes abrangentes contra o Claude-4-Sonnet, Kimi K2 e Qwen3-Coder usando 52 tarefas de codificação cobrindo desenvolvimento frontend, desenvolvimento de ferramentas, análise de dados, testes e aplicações de algoritmos. O GLM-4.5 vence o Kimi K2 em 53,9% das tarefas e domina o Qwen3-Coder com uma taxa de vitória de 80,8%, enquanto mostra espaço para melhoria contra o Claude-4-Sonnet.

Experiência do GLM-4.5 com Codificação Agêntica em Cenários Reais de Desenvolvimento

Notavelmente, o GLM-4.5 atinge a maior taxa média de sucesso de chamada de ferramentas com 90,6%, superando o Claude-4-Sonnet (89,5%), Kimi-K2 (86,2%) e Qwen3-Coder (77,1%), demonstrando confiabilidade e eficiência superiores em tarefas agênticas de codificação.

Comparação da Taxa Média de Sucesso de Chamada de Ferramentas

🚀 Comece com a Novita AI

Use o Playground (Sem Necessidade de Codificação)

  • Acesso Instantâneo: Cadastre-se e comece a experimentar o GLM-4.5 em segundos
  • Interface Interativa: Teste prompts de raciocínio complexo e visualize saídas estruturadas em tempo real
  • Comparação de Modelos: Compare o GLM-4.5 com outros modelos líderes para seu caso de uso específico

Integre via API (Para Desenvolvedores)

Conecte o GLM-4.5 às suas aplicações com a API REST unificada da Novita AI.

Opção 1: Integração Direta com API (Exemplo em Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_S4q9KTdBQujFkXSE5aZYZCrwN9f5QO96BtAFLw4FOgB__slLHW9KFAjmMgC12ag6mf2lJ1rASEvHbP_gv7Jh2Q==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Principais Recursos:

  • API compatível com OpenAI para integração perfeita
  • Controle flexível de parâmetros para ajuste fino de respostas
  • Suporte a streaming para respostas em tempo real

Opção 2: Fluxos de Trabalho Multiagente com OpenAI Agents SDK Construa sistemas multiagente sofisticados usando GLM-4.5:

  • Integração Plug-and-Play: Use o GLM-4.5 em qualquer fluxo de trabalho do OpenAI Agents
  • Capacidades Avançadas de Agente: Suporte para handoffs, roteamento e integração de ferramentas com 90,6% de taxa de sucesso
  • Arquitetura Escalável: Projete agentes que aproveitam as capacidades unificadas de raciocínio, codificação e agênticas do GLM-4.5

Conecte-se com Plataformas de Terceiros

  • Ferramentas de Desenvolvimento: Integre-se perfeitamente com IDEs populares e ambientes de desenvolvimento como Cursor e Cline através de APIs compatíveis com OpenAI
  • Frameworks de Orquestração: Conecte-se com LangChain, Dify, Langflow e outras plataformas de orquestração de IA usando conectores oficiais
  • Integração com Hugging Face: Use o GLM-4.5 em Spaces, pipelines ou com a biblioteca Transformers através de endpoints da Novita AI

🔬 Inovação Técnica do GLM-4.5

Excelência da Arquitetura MoE

O GLM-4.5 adota a arquitetura Mixture of Experts (MoE), melhorando a eficiência computacional tanto para treinamento quanto para inferência. Comparado ao DeepSeek-V3, o design reduz a largura (dimensão oculta e especialistas roteados) enquanto aumenta a altura (número de camadas).

Principais características técnicas:

  • Grouped-Query Attention com RoPE parcial (continuado do ChatGLM2)
  • QK-Norm para estabilizar o intervalo dos logits de atenção
  • Otimizador Muon para convergência acelerada e maior tolerância a tamanhos de lote
  • Camada MTP (Multi-Token Prediction) suportando decodificação especulativa durante a inferência

Pipeline de Treinamento Avançado

Pré-treinamento: Abordagem em duas etapas

  • 15T tokens no corpus geral de pré-treinamento
  • 7T tokens no corpus de código e raciocínio

Treinamento intermediário: Otimização específica de domínio

  • Dados de Código em Nível de Repositório (500B tokens)
  • Dados Sintéticos de Raciocínio (500B tokens)
  • Dados de Contexto Longo e Agente (100B tokens)

Pós-treinamento: Abordagem híbrida sofisticada

  1. Treinamento de Especialistas: Modelos separados para domínios de Raciocínio, Agêntico e Geral através de SFT e RL especializados
  2. Treinamento Unificado: Destilação de conhecimento combinando especialistas em um único modelo via autodestilação SFT em larga escala, seguida por alinhamento RL em três estágios

slime: Infraestrutura RL Revolucionária

O treinamento do GLM-4.5 é impulsionado pelo slime, uma infraestrutura RL de código aberto projetada para modelos em larga escala:

  • Arquitetura de Treinamento Híbrida Flexível: Suporta tanto treinamento síncrono colocalizado quanto treinamento assíncrono desagregado
  • Design Desacoplado Orientado a Agentes: Separa os motores de rollback dos motores de treinamento para desempenho otimizado
  • Geração Acelerada de Dados: Inferência de precisão mista usando FP8 para geração de dados, mantendo estabilidade BF16 para treinamento

🎯 Pronto para Experimentar a IA Unificada?

Experimente o GLM-4.5 e o GLM-4.5-Air hoje na Plataforma Novita AI. Veja em primeira mão como as capacidades unificadas de IA estão transformando o que é possível quando raciocínio, codificação e funcionalidade agêntica convergem em uma infraestrutura otimizada e pronta para produção.

Comece a Construir Hoje

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem GPU acessível e confiável para construir e escalar.