ERNIE-4.5 Thinking: Modelo MoE de 21B da Baidu oferece desempenho 7x mais rápido com apenas 3B de parâmetros ativos

ERNIE-4.5 Thinking: Modelo MoE de 21B da Baidu oferece desempenho 7x mais rápido com apenas 3B de parâmetros ativos

O ERNIE-4.5-21B-A3B-Thinking já está disponível na plataforma Novita AI, trazendo as capacidades de pensamento inovadoras da Baidu para desenvolvedores e empresas por meio de nossa infraestrutura amigável para desenvolvedores. Este lançamento mais recente da Baidu representa um avanço significativo em modelos de IA leves, introduzindo profundidade e qualidade de raciocínio aprimoradas que o diferenciam de gerações anteriores.

Com sua arquitetura eficiente de Mixture-of-Experts (MoE) que ativa apenas 3B de parâmetros por token de um total de 21B de parâmetros, o ERNIE-4.5-21B-A3B-Thinking oferece desempenho de alto nível com requisitos de recursos leves.

Se você está desenvolvendo aplicativos de raciocínio complexos, criando solucionadores matemáticos ou explorando capacidades avançadas de IA, o ERNIE-4.5-21B-A3B-Thinking na Novita AI simplifica o processo de desenvolvimento com nossa infraestrutura otimizada e opções de integração fáceis.

Preços atuais na Novita AI: 131.072 tokens de contexto, $0,07 por 1M de tokens de entrada, $0,28 por 1M de tokens de saída

Experimente a demonstração do ERNIE-4.5-21B-A3B-Thinking

O que é o ERNIE-4.5-21B-A3B-Thinking?

O ERNIE-4.5-21B-A3B-Thinking é um modelo de pós-treinamento baseado em texto do tipo Mixture of Experts (MoE) da série inovadora ERNIE 4.5 da Baidu, que é composta por 10 modelos diferentes. Este modelo representa uma evolução significativa nas capacidades de pensamento da IA, apresentando 21B de parâmetros totais com apenas 3B ativados por token.

O modelo introduz três melhorias principais em relação às versões anteriores: Capacidades de pensamento aprimoradas: O ERNIE-4.5-21B-A3B-Thinking oferece desempenho significativamente melhorado em tarefas de raciocínio, incluindo raciocínio lógico, matemática, ciências, programação, geração de texto e benchmarks acadêmicos que geralmente exigem expertise humana. O modelo apresenta comprimento de pensamento aumentado, tornando-o particularmente eficaz para tarefas de raciocínio altamente complexas. Utilização eficiente de ferramentas: O modelo demonstra capacidades excepcionais no uso de ferramentas e chamadas de funções, tornando-o ideal para aplicativos baseados em agentes. Isso permite integração perfeita com sistemas externos e APIs para aplicações do mundo real. Compreensão estendida de contexto: Com suas capacidades aprimoradas de compreensão de contexto longo de 128K (131.072 tokens), o ERNIE-4.5-21B-A3B-Thinking pode processar documentos extensos, bases de código e conversas de múltiplas turnos complexas sem perder contexto ou precisão.

O ERNIE-4.5-21B-A3B-Thinking utiliza técnicas avançadas de pós-treinamento, incluindo SFT (Ajuste Fino Supervisionado), DPO (Otimização Direta de Preferências) e a UPO proprietária da Baidu (Otimização Unificada de Preferências). O modelo libera pesos no estilo Transformer para alinhamento com a comunidade mais ampla, garantindo compatibilidade com os ecossistemas PyTorch e PaddlePaddle, incluindo vLLM e FastDeploy. Essa ampla compatibilidade facilita a integração em fluxos de trabalho existentes, mantendo a eficiência computacional com um requisito de apenas 80GB × 1 GPU.

Explore o ERNIE-4.5-21B-A3B-Thinking no playground da Novita AI →

Especificações do Modelo

O ERNIE-4.5-21B-A3B-Thinking emprega uma arquitetura sofisticada de Mixture-of-Experts otimizada para desempenho e eficiência. O design do modelo permite a ativação seletiva dos especialistas mais relevantes para cada token, alcançando um equilíbrio ideal entre capacidade e custo computacional.

Especificações principais:

  • Parâmetros totais: 21B
  • Parâmetros ativados: 3B por token
  • Camadas: 28
  • Cabeças de atenção: 20 cabeças de consulta / 4 cabeças de chave-valor
  • Especialistas de texto: 64 no total / 6 ativados por token
  • Especialistas compartilhados: 2
  • Comprimento do contexto: 131.072 tokens
  • Saída máxima: 65.536 tokens
  • Capacidades de entrada/saída: Texto
  • Estágio de treinamento: Pós-treinamento
  • Provedor: Baidu
  • Licença: Apache 2.0
  • Quantização: FP8
  • Requisito de GPU: 80GB × 1 GPU
  • Suporte a raciocínio: Sim

A arquitetura MoE do ERNIE-4.5-21B-A3B-Thinking representa um avanço no design de IA eficiente, herdando inovações da série ERNIE 4.5 mais ampla, incluindo técnicas de roteamento isolado por modalidade e perda ortogonal de roteador. Ao ativar apenas 3B de parâmetros por token, mantendo acesso a 21B de parâmetros totais, o modelo oferece desempenho de nível empresarial sem a sobrecarga computacional típica.

A janela de contexto de 131.072 tokens e a capacidade de saída de 65.536 tokens do modelo permitem o processamento de documentos extensos e a geração de respostas abrangentes, tornando-o ideal para tarefas analíticas complexas, geração de conteúdo longo e documentação técnica detalhada.

Destaques de Desempenho

O ERNIE-4.5-21B-A3B-Thinking demonstra desempenho excepcional em vários domínios, alcançando resultados de última geração (SOTA) como parte da família ERNIE 4.5. As capacidades de pensamento aprimoradas e a profundidade de raciocínio melhorada do modelo o tornam particularmente eficaz para tarefas que exigem análise multietapas e resolução de problemas complexos.

Benchmark do ERNIE-4.5-21B-A3B-Thinking

Principais pontos fortes de desempenho incluem:

  • Raciocínio lógico: O ERNIE-4.5-21B-A3B-Thinking se destaca em tarefas de dedução lógica complexas, demonstrando desempenho superior em quebra-cabeças, silogismos e problemas de raciocínio multietapas que exigem análise cuidadosa e pensamento sistemático.
  • Matemática: O modelo mostra capacidades avançadas de resolução de problemas matemáticos, lidando com tudo, desde aritmética básica até cálculo complexo, álgebra linear e conceitos matemáticos abstratos com alta precisão.
  • Ciências: As capacidades aprimoradas de raciocínio e análise científica permitem que o ERNIE-4.5-21B-A3B-Thinking resolva problemas em física, química, biologia e outros domínios científicos, fornecendo explicações detalhadas e soluções precisas.
  • Programação: Com capacidades aprimoradas de geração e depuração de código em várias linguagens de programação, o modelo pode escrever, analisar e otimizar código, além de fornecer explicações claras de conceitos de programação e melhores práticas.
  • Geração de texto: A geração de linguagem natural de alta qualidade torna o ERNIE-4.5-21B-A3B-Thinking ideal para redação criativa, documentação técnica e tarefas de criação de conteúdo que exigem compreensão e expressão nuanceadas.
  • Benchmarks acadêmicos: O modelo alcança desempenho competitivo em benchmarks que exigem expertise de nível humano, demonstrando sua prontidão para aplicações profissionais e acadêmicas.

Teste as capacidades do ERNIE-4.5-21B-A3B-Thinking no playground da Novita AI →

Começando a usar o ERNIE-4.5-21B-A3B-Thinking na plataforma Novita AI

A Novita AI oferece múltiplos caminhos para acessar o ERNIE-4.5-21B-A3B-Thinking, adaptados a diferentes níveis de expertise técnica e casos de uso. Se você é um usuário empresarial explorando capacidades de IA ou um desenvolvedor criando aplicações de produção, nossa plataforma oferece as ferramentas e a flexibilidade que você precisa.

Use o playground (Disponível agora – Não requer codificação)

O playground da Novita AI oferece a maneira mais rápida de experimentar as capacidades do ERNIE-4.5-21B-A3B-Thinking sem nenhuma configuração técnica: Acesso instantâneo: Inscreva-se e comece a experimentar o ERNIE-4.5-21B-A3B-Thinking em segundos. Nenhuma chave de API ou configuração é necessária para testes iniciais. Interface interativa: Teste prompts e visualize saídas em tempo real com nossa interface web intuitiva. Ajuste parâmetros como temperatura (padrão 0,7), tokens máximos (até 65.536) e prompts de sistema para ver como eles afetam o comportamento do modelo. Configuração do modelo: Ajuste o formato de resposta, temperatura, top-p, min-p, top-k, penalidade de presença, penalidade de frequência e penalidade de repetição para otimizar as saídas para seu caso de uso específico.

O playground é perfeito para prototipagem, teste de ideias e compreensão das capacidades do modelo antes da implementação completa. Exporte seus prompts e configurações bem-sucedidos diretamente para código para uma transição perfeita para a produção.

Comece a testar o ERNIE-4.5-21B-A3B-Thinking no playground →

Integração via API (Ao vivo e pronta – Para desenvolvedores)

Para implantações em produção, a Novita AI oferece acesso robusto via API ao ERNIE-4.5-21B-A3B-Thinking com confiabilidade e desempenho de nível empresarial por meio de endpoints compatíveis com OpenAI.

Integração direta via API (Exemplo em Python)

Conecte o ERNIE-4.5-21B-A3B-Thinking aos seus aplicativos usando nossa API compatível com OpenAI:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "baidu/ernie-4.5-21B-a3b-thinking"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Há suporte adicional a SDKs para TypeScript, Java, Go e Shell para integração perfeita em diferentes pilhas de tecnologia.

Fluxos de trabalho multiagente com o OpenAI Agents SDK

Crie sistemas multiagente sofisticados que aproveitem as capacidades de pensamento aprimoradas do ERNIE-4.5-21B-A3B-Thinking:

  • Integração plug-and-play: Use o ERNIE-4.5-21B-A3B-Thinking em qualquer fluxo de trabalho do OpenAI Agents sem modificações
  • Capacidades avançadas de agente: Suporte completo para transferência de tarefas, roteamento e integração de ferramentas para fluxos de trabalho complexos
  • Chamada de funções: Aproveite definições JsonSchema para interações estruturadas e uso de ferramentas

Opções de implantação

A Novita AI oferece opções de implantação flexíveis para atender aos seus requisitos e padrões de uso específicos.

API sem servidor

O ERNIE-4.5-21B-A3B-Thinking está disponível por meio da API sem servidor da Novita para acesso imediato e preço por token:

  • Nenhuma configuração necessária: Comece a usar o modelo instantaneamente sem gerenciamento de infraestrutura
  • Preço por uso: $0,07 por 1M de tokens de entrada, $0,28 por 1M de tokens de saída
  • Endpoints compatíveis com OpenAI: Substituição direta para integrações OpenAI existentes
  • Escalonamento automático: Lide com cargas de trabalho variáveis sem planejamento de capacidade

Implantações sob demanda

Para aplicações de alto volume ou sensíveis à latência, as implantações sob demanda fornecem recursos dedicados:

  • Pilha de serviço de alto desempenho: Motor de inferência otimizado para throughput máximo
  • Alta confiabilidade: Recursos de GPU dedicados garantem desempenho consistente
  • Sem limites de taxa: Escalone de acordo com suas necessidades sem restrições artificiais
  • Requisitos de GPU: 80GB de VRAM (recomendado: NVIDIA A100 80GB ou H100 80GB para desempenho ideal)

Conecte-se com plataformas de terceiros

O ERNIE-4.5-21B-A3B-Thinking na Novita AI se integra perfeitamente ao seu ecossistema de desenvolvimento existente: Ferramentas de desenvolvimento: Integração direta com IDEs populares e ambientes de desenvolvimento como Cursor, Cline, Continue, Codex e Qwen Code por meio de APIs compatíveis com OpenAI. Frameworks de orquestração: Suporte nativo para LangChain, Dify, CrewAI, Langflow e outras plataformas de orquestração de IA usando conectores oficiais. Integração com Hugging Face: Como provedor de inferência oficial do Hugging Face, a Novita AI garante ampla compatibilidade de ecossistema e implantação fácil de modelos.

Conclusão

O ERNIE-4.5-21B-A3B-Thinking na Novita AI representa um avanço no raciocínio de IA eficiente, fornecendo a desenvolvedores e organizações acesso às capacidades de pensamento mais avançadas da Baidu por meio de nossa plataforma confiável e escalável.

A combinação única do modelo de profundidade de raciocínio aprimorada, utilização eficiente de ferramentas e compreensão de contexto de 131K o torna a escolha ideal para tarefas de raciocínio complexas. Com apenas 3B de parâmetros ativados entregando desempenho de parâmetros 21B e exigindo apenas 80GB de memória GPU, o ERNIE-4.5-21B-A3B-Thinking oferece um equilíbrio inigualável de capacidade e eficiência.

Pronto para experimentar o poder do ERNIE-4.5-21B-A3B-Thinking? Nosso playground oferece acesso instantâneo sem necessidade de configuração – perfeito para explorar as capacidades do modelo e testar seus casos de uso. Comece com nossa interface interativa para entender os pontos fortes do modelo, depois faça a transição perfeita para a integração via API quando estiver pronto para a implantação em produção.

Acesse o ERNIE-4.5-21B-A3B-Thinking no playground da Novita AI agora →

Transforme seus projetos com raciocínio de IA avançado por apenas $0,07 por milhão de tokens de entrada. Comece a explorar em segundos!

A Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem de GPU acessível e confiável para construção e escalonamento.