O ERNIE 4.5 300B A47B Base foi oficialmente lançado na plataforma Novita AI, oferecendo aos usuários acesso a um modelo que supera o DeepSeek V3 671B em 22 dos 28 benchmarks. Até mesmo em comparação com aplicações de alto nível como o DeepSeek R1, o ERNIE 4.5 demonstra um desempenho excepcional. E mais empolgante: os preços são altamente competitivos!
| Nome do Modelo | Comprimento do Contexto | Preço de Entrada | Preço de Saída |
|---|---|---|---|
| ERNIE 4.5 VL 28B A3B | 30k | Grátis | Grátis |
| ERNIE 4.5 VL 424B A47B | 123k | $0,42 / 1M tokens | $1,25 / 1M tokens |
| ERNIE 4.5 0.3B | 120k | Grátis | Grátis |
| ERNIE 4.5 21B A3B | 120k | Grátis | Grátis |
| ERNIE 4.5 300B A47B Paddle | 123k | $0,30 / 1M tokens | $1,00 / 1M tokens |
| DeepSeek R1 0528 | 163k | $0,70 / 1M tokens | $2,50 / 1M tokens |
| DeepSeek V3 0324 | 163k | $0,28 / 1M tokens | $1,14 / 1M tokens |
Mas será que essa redução de preço significa que os requisitos de hardware — especialmente VRAM — também diminuíram? Ou executar um modelo tão poderoso ainda exige recursos significativos? Nas seções a seguir, detalhamos exatamente quanta VRAM o ERNIE 4.5 requer nativamente.
Família de Modelos ERNIE
| Nome do Modelo | Parâmetros Base | Parâmetros Ativos | Tipo de Modelo | Modalidade | Tipo de Treinamento |
|---|---|---|---|---|---|
| ERNIE 4.5 VL 424B A47B | 424B | 47B | MoE | Texto e Visão | PT |
| ERNIE 4.5 VL 424B A47B Base | 424B | 47B | MoE | Texto e Visão | Base |
| ERNIE 4.5 VL 28B A3B | 28B | 3B | MoE | Texto e Visão | PT |
| ERNIE 4.5 VL 28B A3B Base | 28B | 3B | MoE | Texto e Visão | Base |
| ERNIE 4.5 300B A47B | 300B | 47B | MoE | Texto | PT |
| ERNIE 4.5 300B A47B Base | 300B | 47B | MoE | Texto | Base |
| ERNIE 4.5 21B A3B | 21B | 3B | MoE | Texto | PT |
| ERNIE 4.5 21B A3B Base | 21B | 3B | MoE | Texto | Base |
| ERNIE 4.5 0.3B | 0,3B | - | Denso | Texto | PT |
| ERNIE 4.5 0.3B Base | 0,3B | - | Denso | Texto | Base |
Inovações da Família ERNIE

Excelente Desempenho da Família ERNIE

Desempenho dos modelos pré-treinados ERNIE 4.5
- Geral: ERNIE 4.5 21B A3B Base e 300B A7B Base se destacam em alguns benchmarks (C-Eval, CMMU, etc.). O Qwen3 30B A3B Base é forte em outros.
- Raciocínio: Qwen3 30B A3B Base lidera na série ARC; ERNIE 4.5 21B A3B Base vai bem em BBH, Drop.
- Matemática: ERNIE 4.5 21B A3B Base e 300B A7B Base se destacam em partes como GSM8K, CMATH; Qwen3 30B A3B Base também tem pontos fortes.
- Conhecimento: ERNIE 4.5 21B A3B Base se sai bem em SimpleQA, ChineseSimpleQA.
- Codificação: ERNIE 4.5 21B A3B Base e 300B A7B Base são competitivos em HumanEval+, MultiPLE.

Desempenho de modelos multimodais pós-treinados no modo sem raciocínio
Qwen2.5
- Pontos fortes: Excelente em QA visual básico, raciocínio multimodal básico e tarefas leves de vídeo. Forte em MMBench cn/en.
- Pontos fracos: Dificuldade com tarefas complexas de documentos/gráficos, raciocínio multimodal profundo e percepção visual detalhada. Menos capaz em compreensão de vídeo baseada em legendas.
ERNIE 4.5
- Pontos fortes: Domina tarefas complexas de documentos/gráficos, raciocínio multimodal profundo, percepção visual precisa e compreensão de vídeo com legendas. Forte em complexidade multimodal geral.
- Pontos fracos: Menos competitivo em QA visual básico e tarefas simples de vídeo.
Então, Quanta VRAM o ERNIE Precisa?
🚀 Precisão FP16
| Modelo | Parâmetros (Ativos) | VRAM Necessária | GPU(s) Ideal(is) |
|---|---|---|---|
| ERNIE 4.5 VL 424B | 424B (47B ativos) | ~945 GB | NVIDIA H100 (80GB) × 12 |
| ERNIE 4.5 300B | 300B (47B ativos) | ~668 GB | NVIDIA H100 (80GB) × 9 |
| ERNIE 4.5 VL 28B | 28B (3B ativos) | ~64 GB | NVIDIA A100/H100 (80GB) |
| ERNIE 4.5 21B | 21B (3B ativos) | ~48 GB | NVIDIA RTX 6000 Ada (48GB) |
| ERNIE 4.5 0.3B | 300M | ~2,5 GB | NVIDIA RTX 4060 (8GB) / RTX 3060 (12GB) |
| Gemma 3 27B | 27B | ~65,2 GB | NVIDIA A100/H100 (80GB) |
⚡ Precisão INT4
| Modelo | Parâmetros (Ativos) | VRAM Necessária | GPU(s) Ideal(is) |
|---|---|---|---|
| ERNIE 4.5 VL 424B | 424B (47B ativos) | ~237 GB | NVIDIA H100 (80GB) × 3 |
| ERNIE 4.5 300B | 300B (47B ativos) | ~168 GB | NVIDIA H100 (80GB) × 3 |
| ERNIE 4.5 VL 28B | 28B (3B ativos) | ~17 GB | NVIDIA RTX 4090 (24GB) / A10G (24GB) |
| ERNIE 4.5 21B | 21B (3B ativos) | ~13 GB | NVIDIA RTX 4080 (16GB) / A10G (24GB) |
| ERNIE 4.5 0.3B | 300M | ~1,8 GB | A maioria das GPUs com >4GB de VRAM |
| Gemma 3 27B | 27B | ~14,1 GB | Qualquer GPU de ponta com ≥16GB de VRAM |
Desvantagens dos Altos Requisitos de VRAM e Dicas Práticas
Altos requisitos de VRAM trazem vários desafios para os usuários. Primeiro, os custos de hardware podem disparar — GPUs de ponta como a NVIDIA H100 são caras e frequentemente exigem clusters multi-GPU para executar os maiores modelos, tornando-os inacessíveis para indivíduos ou pequenas organizações. Segundo, o consumo de energia e geração de calor aumentam com mais GPUs, levando a custos operacionais mais altos e soluções de refrigeração mais complexas. Terceiro, tais configurações podem ser difíceis de manter, exigindo conhecimento técnico em hardware, computação distribuída e configuração de software.
Esses desafios também podem limitar a acessibilidade: muitos pesquisadores, desenvolvedores e entusiastas simplesmente não têm acesso à infraestrutura necessária, o que pode desacelerar a inovação e a experimentação.
Dicas para superar altas demandas de VRAM:
- Use modelos quantizados: Opte por versões INT4 ou outras versões comprimidas/quantizadas para reduzir significativamente as necessidades de VRAM, muitas vezes com impacto mínimo no desempenho para muitas tarefas.
- Soluções em nuvem: Considere usar plataformas em nuvem que permitem alugar GPUs de ponta apenas quando necessário, em vez de investir em hardware caro.
- Offloading e streaming de modelo: Use ferramentas ou plataformas que suportem offloading, divisão ou streaming de modelo, de modo que nem todos os dados precisem estar na VRAM da GPU ao mesmo tempo.
Novita AI: Acesse ERNIE com 0 VRAM Necessário
Começar a usar o ERNIE 4.5 na Novita AI é simples e sem riscos.
Novos usuários recebem $10 em créditos gratuitos — o suficiente para explorar o ERNIE 4.5 sem custos iniciais.
Use o Playground (Sem Necessidade de Codificação)
- Acesso instantâneo: Cadastre-se, obtenha seus créditos gratuitos e comece a experimentar o ERNIE 4.5 e outros modelos principais em segundos.
- Interface interativa: Teste prompts, raciocínio cadeia-de-pensamento e visualize resultados em tempo real.
- Comparação de modelos: Alterne facilmente entre ERNIE 4.5, Qwen 3, Llama 4, DeepSeek e muito mais para encontrar o ajuste perfeito para suas necessidades.

Integre via API (Para Desenvolvedores)
Conecte perfeitamente o ERNIE 4.5 a aplicações, fluxos de trabalho ou chatbots usando a API REST unificada da Novita AI. Sem preocupações com gerenciamento de pesos de modelo ou infraestrutura — a Novita AI fornece SDKs multi-idioma e controles avançados de parâmetros.
1.Integração Direta com API (Exemplo Python)
curl "https://api.novita.ai/v3/openai/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer " \
-d @- << 'EOF'
{
"model": "baidu/ernie-4.5-300b-a47b-paddle",
"messages": [
{
"role": "system",
"content": "Seja um assistente útil"
},
{
"role": "user",
"content": "Olá!"
}
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # ou False
max_tokens = 6000
system_content = "Seja um assistente útil"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Olá!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
"response_format": { "type": "text" },
"max_tokens": 32768,
"temperature": 1,
"top_p": 1,
"min_p": 0,
"top_k": 50,
"presence_penalty": 0,
"frequency_penalty": 0,
"repetition_penalty": 1
}
EOF
2. Fluxos de Trabalho Multiagente com OpenAI Agents SDK
Construa sistemas multiagente avançados integrando a Novita AI com o OpenAI Agents SDK:
- Plug-and-play: Use o ERNIE 4.5 da Novita AI em qualquer fluxo de trabalho do OpenAI Agents.
- Suporte a handoffs, roteamento e uso de ferramentas: Projete agentes que podem delegar, triar ou executar funções, todos alimentados pelas capacidades do ERNIE 4.5.
- Integração Python: Basta apontar o SDK para o endpoint da Novita (
https://api.novita.ai/v3/openai) e usar sua chave de API.
Conecte a API do ERNIE 4.5 em Plataformas de Terceiros
-
Hugging Face: Use o ERNIE 4.5 em Spaces, pipelines ou com a biblioteca Transformers via endpoints da Novita AI.
-
Frameworks de Agente e Orquestração: Conecte facilmente a Novita AI com plataformas parceiras como Continue, AnythingLLM, LangChain, Dify e Langflow através de conectores oficiais e guias de integração passo a passo.
-
API Compatível com OpenAI: Desfrute de migração e integração sem complicações com ferramentas como Cline e Cursor, projetadas para o padrão da API OpenAI.
Mesmo que executar o ERNIE 4.5 em seu próprio hardware exija GPUs muito poderosas (e caras), a Novita AI permite que você use esses grandes modelos facilmente, com zero VRAM necessária do seu lado. Isso torna a IA avançada acessível a todos, desde iniciantes até desenvolvedores.
Perguntas Frequentes
O ERNIE 4.5 é realmente melhor que outros modelos de IA grandes?
Sim, o ERNIE 4.5 obtém pontuações mais altas que o DeepSeek V3 671B na maioria dos benchmarks e é muito competitivo com outros modelos de ponta.
O ERNIE 4.5 pode ser usado para tarefas de codificação e matemática?
Sim, os modelos ERNIE 4.5 têm bom desempenho em benchmarks de codificação (como HumanEval+) e matemática (como GSM8K, CMATH).
Quanta VRAM preciso para executar o ERNIE 4.5?
Executar as maiores versões do ERNIE 4.5 (como 424B ou 300B) requer muita VRAM — centenas de GB e várias GPUs de ponta. Versões menores ou quantizadas precisam de muito menos VRAM.
Novita AI é a plataforma all-in-one na nuvem que potencializa suas ambições de IA. APIs integradas, serverless, GPU Instance — as ferramentas custo-benefício que você precisa. Elimine infraestrutura, comece grátis e torne sua visão de IA realidade.
