VRAM do ERNIE: Execução Nativa Exige Muito, Novita AI Exige Zero

VRAM do ERNIE: Execução Nativa Exige Muito, Novita AI Exige Zero

O ERNIE 4.5 300B A47B Base foi oficialmente lançado na plataforma Novita AI, oferecendo aos usuários acesso a um modelo que supera o DeepSeek V3 671B em 22 dos 28 benchmarks. Até mesmo em comparação com aplicações de alto nível como o DeepSeek R1, o ERNIE 4.5 demonstra um desempenho excepcional. E mais empolgante: os preços são altamente competitivos!

Nome do Modelo Comprimento do Contexto Preço de Entrada Preço de Saída
ERNIE 4.5 VL 28B A3B 30k Grátis Grátis
ERNIE 4.5 VL 424B A47B 123k $0,42 / 1M tokens $1,25 / 1M tokens
ERNIE 4.5 0.3B 120k Grátis Grátis
ERNIE 4.5 21B A3B 120k Grátis Grátis
ERNIE 4.5 300B A47B Paddle 123k $0,30 / 1M tokens $1,00 / 1M tokens
DeepSeek R1 0528 163k $0,70 / 1M tokens $2,50 / 1M tokens
DeepSeek V3 0324 163k $0,28 / 1M tokens $1,14 / 1M tokens

Mas será que essa redução de preço significa que os requisitos de hardware — especialmente VRAM — também diminuíram? Ou executar um modelo tão poderoso ainda exige recursos significativos? Nas seções a seguir, detalhamos exatamente quanta VRAM o ERNIE 4.5 requer nativamente.

Família de Modelos ERNIE

Nome do Modelo Parâmetros Base Parâmetros Ativos Tipo de Modelo Modalidade Tipo de Treinamento
ERNIE 4.5 VL 424B A47B 424B 47B MoE Texto e Visão PT
ERNIE 4.5 VL 424B A47B Base 424B 47B MoE Texto e Visão Base
ERNIE 4.5 VL 28B A3B 28B 3B MoE Texto e Visão PT
ERNIE 4.5 VL 28B A3B Base 28B 3B MoE Texto e Visão Base
ERNIE 4.5 300B A47B 300B 47B MoE Texto PT
ERNIE 4.5 300B A47B Base 300B 47B MoE Texto Base
ERNIE 4.5 21B A3B 21B 3B MoE Texto PT
ERNIE 4.5 21B A3B Base 21B 3B MoE Texto Base
ERNIE 4.5 0.3B 0,3B - Denso Texto PT
ERNIE 4.5 0.3B Base 0,3B - Denso Texto Base

Inovações da Família ERNIE

Inovações da Família ERNIE

Excelente Desempenho da Família ERNIE

Desempenho dos modelos pré-treinados ERNIE-4.5

Desempenho dos modelos pré-treinados ERNIE 4.5

  • Geral: ERNIE 4.5 21B A3B Base e 300B A7B Base se destacam em alguns benchmarks (C-Eval, CMMU, etc.). O Qwen3 30B A3B Base é forte em outros.
  • Raciocínio: Qwen3 30B A3B Base lidera na série ARC; ERNIE 4.5 21B A3B Base vai bem em BBH, Drop.
  • Matemática: ERNIE 4.5 21B A3B Base e 300B A7B Base se destacam em partes como GSM8K, CMATH; Qwen3 30B A3B Base também tem pontos fortes.
  • Conhecimento: ERNIE 4.5 21B A3B Base se sai bem em SimpleQA, ChineseSimpleQA.
  • Codificação: ERNIE 4.5 21B A3B Base e 300B A7B Base são competitivos em HumanEval+, MultiPLE.

Desempenho de modelos multimodais pós-treinados no modo sem raciocínio

Desempenho de modelos multimodais pós-treinados no modo sem raciocínio

Qwen2.5

  • Pontos fortes: Excelente em QA visual básico, raciocínio multimodal básico e tarefas leves de vídeo. Forte em MMBench cn/en.
  • Pontos fracos: Dificuldade com tarefas complexas de documentos/gráficos, raciocínio multimodal profundo e percepção visual detalhada. Menos capaz em compreensão de vídeo baseada em legendas.

ERNIE 4.5

  • Pontos fortes: Domina tarefas complexas de documentos/gráficos, raciocínio multimodal profundo, percepção visual precisa e compreensão de vídeo com legendas. Forte em complexidade multimodal geral.
  • Pontos fracos: Menos competitivo em QA visual básico e tarefas simples de vídeo.

Então, Quanta VRAM o ERNIE Precisa?

🚀 Precisão FP16

Modelo Parâmetros (Ativos) VRAM Necessária GPU(s) Ideal(is)
ERNIE 4.5 VL 424B 424B (47B ativos) ~945 GB NVIDIA H100 (80GB) × 12
ERNIE 4.5 300B 300B (47B ativos) ~668 GB NVIDIA H100 (80GB) × 9
ERNIE 4.5 VL 28B 28B (3B ativos) ~64 GB NVIDIA A100/H100 (80GB)
ERNIE 4.5 21B 21B (3B ativos) ~48 GB NVIDIA RTX 6000 Ada (48GB)
ERNIE 4.5 0.3B 300M ~2,5 GB NVIDIA RTX 4060 (8GB) / RTX 3060 (12GB)
Gemma 3 27B 27B ~65,2 GB NVIDIA A100/H100 (80GB)

Precisão INT4

Modelo Parâmetros (Ativos) VRAM Necessária GPU(s) Ideal(is)
ERNIE 4.5 VL 424B 424B (47B ativos) ~237 GB NVIDIA H100 (80GB) × 3
ERNIE 4.5 300B 300B (47B ativos) ~168 GB NVIDIA H100 (80GB) × 3
ERNIE 4.5 VL 28B 28B (3B ativos) ~17 GB NVIDIA RTX 4090 (24GB) / A10G (24GB)
ERNIE 4.5 21B 21B (3B ativos) ~13 GB NVIDIA RTX 4080 (16GB) / A10G (24GB)
ERNIE 4.5 0.3B 300M ~1,8 GB A maioria das GPUs com >4GB de VRAM
Gemma 3 27B 27B ~14,1 GB Qualquer GPU de ponta com ≥16GB de VRAM

Desvantagens dos Altos Requisitos de VRAM e Dicas Práticas

Altos requisitos de VRAM trazem vários desafios para os usuários. Primeiro, os custos de hardware podem disparar — GPUs de ponta como a NVIDIA H100 são caras e frequentemente exigem clusters multi-GPU para executar os maiores modelos, tornando-os inacessíveis para indivíduos ou pequenas organizações. Segundo, o consumo de energia e geração de calor aumentam com mais GPUs, levando a custos operacionais mais altos e soluções de refrigeração mais complexas. Terceiro, tais configurações podem ser difíceis de manter, exigindo conhecimento técnico em hardware, computação distribuída e configuração de software.

Esses desafios também podem limitar a acessibilidade: muitos pesquisadores, desenvolvedores e entusiastas simplesmente não têm acesso à infraestrutura necessária, o que pode desacelerar a inovação e a experimentação.

Dicas para superar altas demandas de VRAM:

  • Use modelos quantizados: Opte por versões INT4 ou outras versões comprimidas/quantizadas para reduzir significativamente as necessidades de VRAM, muitas vezes com impacto mínimo no desempenho para muitas tarefas.
  • Soluções em nuvem: Considere usar plataformas em nuvem que permitem alugar GPUs de ponta apenas quando necessário, em vez de investir em hardware caro.
  • Offloading e streaming de modelo: Use ferramentas ou plataformas que suportem offloading, divisão ou streaming de modelo, de modo que nem todos os dados precisem estar na VRAM da GPU ao mesmo tempo.

Novita AI: Acesse ERNIE com 0 VRAM Necessário

Começar a usar o ERNIE 4.5 na Novita AI é simples e sem riscos.

Novos usuários recebem $10 em créditos gratuitos — o suficiente para explorar o ERNIE 4.5 sem custos iniciais.

Experimente a Novita AI Hoje!

Use o Playground (Sem Necessidade de Codificação)

  • Acesso instantâneo: Cadastre-se, obtenha seus créditos gratuitos e comece a experimentar o ERNIE 4.5 e outros modelos principais em segundos.
  • Interface interativa: Teste prompts, raciocínio cadeia-de-pensamento e visualize resultados em tempo real.
  • Comparação de modelos: Alterne facilmente entre ERNIE 4.5, Qwen 3, Llama 4, DeepSeek e muito mais para encontrar o ajuste perfeito para suas necessidades.

inicie um teste gratuito no ernie 4.5

Integre via API (Para Desenvolvedores)

Conecte perfeitamente o ERNIE 4.5 a aplicações, fluxos de trabalho ou chatbots usando a API REST unificada da Novita AI. Sem preocupações com gerenciamento de pesos de modelo ou infraestrutura — a Novita AI fornece SDKs multi-idioma e controles avançados de parâmetros.

1.Integração Direta com API (Exemplo Python)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": "Seja um assistente útil"
        },
        {
            "role": "user",
            "content": "Olá!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # ou False
max_tokens = 6000
system_content = "Seja um assistente útil"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Olá!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF
  
 

2. Fluxos de Trabalho Multiagente com OpenAI Agents SDK

Construa sistemas multiagente avançados integrando a Novita AI com o OpenAI Agents SDK:

  • Plug-and-play: Use o ERNIE 4.5 da Novita AI em qualquer fluxo de trabalho do OpenAI Agents.
  • Suporte a handoffs, roteamento e uso de ferramentas: Projete agentes que podem delegar, triar ou executar funções, todos alimentados pelas capacidades do ERNIE 4.5.
  • Integração Python: Basta apontar o SDK para o endpoint da Novita (https://api.novita.ai/v3/openai) e usar sua chave de API.

Conecte a API do ERNIE 4.5 em Plataformas de Terceiros

  • Hugging Face: Use o ERNIE 4.5 em Spaces, pipelines ou com a biblioteca Transformers via endpoints da Novita AI.

  • Frameworks de Agente e Orquestração: Conecte facilmente a Novita AI com plataformas parceiras como Continue, AnythingLLM, LangChain, Dify e Langflow através de conectores oficiais e guias de integração passo a passo.

  • API Compatível com OpenAI: Desfrute de migração e integração sem complicações com ferramentas como Cline e Cursor, projetadas para o padrão da API OpenAI.

Mesmo que executar o ERNIE 4.5 em seu próprio hardware exija GPUs muito poderosas (e caras), a Novita AI permite que você use esses grandes modelos facilmente, com zero VRAM necessária do seu lado. Isso torna a IA avançada acessível a todos, desde iniciantes até desenvolvedores.

Perguntas Frequentes

O ERNIE 4.5 é realmente melhor que outros modelos de IA grandes?

Sim, o ERNIE 4.5 obtém pontuações mais altas que o DeepSeek V3 671B na maioria dos benchmarks e é muito competitivo com outros modelos de ponta.

O ERNIE 4.5 pode ser usado para tarefas de codificação e matemática?

Sim, os modelos ERNIE 4.5 têm bom desempenho em benchmarks de codificação (como HumanEval+) e matemática (como GSM8K, CMATH).

Quanta VRAM preciso para executar o ERNIE 4.5?

Executar as maiores versões do ERNIE 4.5 (como 424B ou 300B) requer muita VRAM — centenas de GB e várias GPUs de ponta. Versões menores ou quantizadas precisam de muito menos VRAM.

Novita AI é a plataforma all-in-one na nuvem que potencializa suas ambições de IA. APIs integradas, serverless, GPU Instance — as ferramentas custo-benefício que você precisa. Elimine infraestrutura, comece grátis e torne sua visão de IA realidade.

Leitura Recomendada