GLM-4.6 Disponível na Novita AI: Modelo principal de nova geração da Zai-org com janela de contexto de 200K

Índice

O que é o GLM-4.6?
Benchmark de desempenho
Começando a usar o GLM-4.6 na plataforma Novita AI
Conclusão

O GLM-4.6 já está disponível na plataforma Novita AI, trazendo o modelo principal de nova geração da Zai-org com melhorias significativas no comprimento do contexto, desempenho de codificação e capacidades de agente. Com arquitetura MoE (Mixture of Experts) de 355B parâmetros e desempenho de ponta entre os modelos de código aberto, o GLM-4.6 representa um avanço significativo nas capacidades de IA.

Esta versão mais recente dobra a janela de contexto de 128K para 200K tokens, ao mesmo tempo que alcança desempenho quase equivalente ao Claude Sonnet 4 em tarefas de codificação do mundo real. Seja você construindo agentes de IA, desenvolvendo aplicações complexas ou criando soluções de automação, o GLM-4.6 entrega as capacidades que você precisa por meio da infraestrutura amigável para desenvolvedores da Novita AI.

Preços atuais na Novita AI: 204.800 de contexto, $0,6 por 1M de tokens de entrada, $2,2 por 1M de tokens de saída

Experimente a demonstração do GLM-4.6

O que é o GLM-4.6?

O GLM-4.6 é o modelo principal de nova geração da Zhipu AI, que traz melhorias significativas em relação ao GLM-4.5, alcançando desempenho de ponta entre os modelos de código aberto. Construído com arquitetura MoE de 355B parâmetros, ele foi projetado especificamente para se destacar em tarefas de agente, aplicações de codificação e cenários de raciocínio complexo.

Janela de contexto expandida: O GLM-4.6 introduz uma janela de contexto de 200K tokens (aumento de 128K no GLM-4.5), permitindo que ele lide com conversas mais complexas e processe bases de código maiores. Essa expansão permite que desenvolvedores trabalhem com documentação extensa, analisem arquivos de código mais longos e mantenham o contexto em fluxos de trabalho de agente sofisticados.

Desempenho de codificação superior: O GLM-4.6 mostra melhorias substanciais em vários benchmarks e desempenho excepcional no mundo real em assistentes de codificação populares como Claude Code, Cline, Roo Code e Kilo Code. O modelo se destaca na geração de páginas front-end visualmente polidas e no tratamento de tarefas de desenvolvimento complexas com maior precisão.

Capacidades de raciocínio aprimoradas: O raciocínio do modelo foi fortalecido por meio do suporte ao uso de ferramentas durante a inferência, levando a um melhor desempenho em cenários de resolução de problemas. O GLM-4.6 se integra de forma mais eficaz em estruturas de agente, tornando-o ideal para construir sistemas de automação alimentados por IA que exigem raciocínio de várias etapas e integração com ferramentas externas.

Qualidade de escrita refinada: O GLM-4.6 produz textos que se alinham melhor às preferências humanas em estilo e legibilidade, atuando de forma mais natural em cenários de interpretação de papéis e tarefas de geração de conteúdo.

Benchmark de desempenho

O GLM-4.6 demonstra desempenho forte em avaliações abrangentes que cobrem agentes, raciocínio e capacidades de codificação.

Resultados de benchmarks públicos

Avaliado em oito benchmarks públicos, o GLM-4.6 mostra melhorias claras em relação ao GLM-4.5 e alcança desempenho de ponta entre os modelos de código aberto. Ele mantém desempenho competitivo contra modelos líderes como DeepSeek-V3.2-Exp e Claude Sonnet 4, embora ainda fique atrás do Claude Sonnet 4.5 em habilidade de codificação pura.

Desempenho no mundo real (CC-Bench)

Na avaliação estendida do CC-Bench, avaliadores humanos usaram o GLM-4.6 dentro de contêineres Docker isolados para concluir tarefas de múltiplas turnos nas áreas de desenvolvimento front-end, construção de ferramentas, análise de dados, testes e implementação de algoritmos.

Os resultados mostram que o GLM-4.6 alcança desempenho quase equivalente ao Claude Sonnet 4, atingindo uma taxa de vitória de 48,6% enquanto supera claramente outros modelos de código aberto.

Eficiência de tokens

O GLM-4.6 conclui tarefas com aproximadamente 15% menos tokens que o GLM-4.5, resultando em tempos de resposta mais rápidos, custos computacionais menores e qualidade de saída mantida ou melhorada.

Começando a usar o GLM-4.6 na plataforma Novita AI

A Novita AI oferece várias formas de acessar o GLM-4.6, projetadas para diferentes níveis de habilidade e casos de uso.

Use o playground (não é necessário codificar)

Cadastre-se e comece a experimentar o GLM-4.6 em segundos por meio de uma interface interativa. Teste prompts, veja saídas em tempo real com a janela de contexto completa de 200K e compare o GLM-4.6 com outros modelos líderes. Perfeito para prototipagem e para entender o que o modelo pode fazer antes de construir implementações completas.

Integre via API (para desenvolvedores)

Conecte o GLM-4.6 às suas aplicações usando a API REST unificada da Novita AI.

Integração direta via API (exemplo em Python)

 from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "zai-org/glm-4.6"
stream = True # or False
max_tokens = 49152
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Fluxos de trabalho de múltiplos agentes com o OpenAI Agents SDK

Construa sistemas de múltiplos agentes sofisticados com integração plug-and-play, suporte a transferências, roteamento e integração de ferramentas com a janela de contexto completa de 200K.

Conecte-se a plataformas de terceiros

Agentes de codificação: Integre com assistentes de codificação populares como Claude Code, Cursor, Codex, Trae, Qwen Code e Cline por meio de APIs compatíveis com OpenAI e APIs compatíveis com Anthropic.

Estruturas de orquestração: Conecte-se ao LangChain, Dify, CrewAI e Langflow usando conectores oficiais.

Hugging Face: A Novita AI é um provedor de inferência oficial do Hugging Face, garantindo compatibilidade ampla com o ecossistema.

Conclusão

O GLM-4.6 na Novita AI entrega o modelo principal de nova geração da Zhipu AI com arquitetura MoE de 355B parâmetros e janela de contexto de 200K, alcançando desempenho de ponta entre os modelos de código aberto. Com desempenho quase equivalente ao Claude Sonnet 4 (taxa de vitória de 48,6%) e eficiência de tokens 15% melhor que o GLM-4.5, o GLM-4.6 representa um salto significativo nas capacidades de IA acessíveis.

Comece a explorar o GLM-4.6 hoje por meio do playground e API da Novita AI, ou integrações de terceiros para aprimorar seu fluxo de trabalho de desenvolvimento com assistência de codificação excepcional, escrita refinada e poderosas capacidades de raciocínio.

A Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma forma fácil de implantar modelos de IA usando nossa API simples, além de fornecer nuvem de GPU acessível e confiável para construção e escalonamento.

GLM-4.6 Disponível na Novita AI: Modelo principal de nova geração da Zai-org com janela de contexto de 200K

O que é o GLM-4.6?