ERNIE VRAM: Nativo necesita mucho, Novita AI necesita cero

ERNIE VRAM: Nativo necesita mucho, Novita AI necesita cero

ERNIE 4.5 300B A47B Base se ha lanzado oficialmente en la plataforma Novita AI, ofreciendo a los usuarios acceso a un modelo que supera a DeepSeek V3 671B en 22 de 28 benchmarks. Incluso comparado con aplicaciones de primer nivel como DeepSeek R1, ERNIE 4.5 demuestra un rendimiento excepcional. ¡Y lo que es aún más emocionante, los precios son altamente competitivos!

Nombre del modelo Longitud de contexto Precio de entrada Precio de salida
ERNIE 4.5 VL 28B A3B 30k Gratis Gratis
ERNIE 4.5 VL 424B A47B 123k $0.42 / 1M tokens $1.25 / 1M tokens
ERNIE 4.5 0.3B 120k Gratis Gratis
ERNIE 4.5 21B A3B 120k Gratis Gratis
ERNIE 4.5 300B A47B Paddle 123k $0.30 / 1M tokens $1.00 / 1M tokens
DeepSeek R1 0528 163k $0.70 / 1M tokens $2.50 / 1M tokens
DeepSeek V3 0324 163k $0.28 / 1M tokens $1.14 / 1M tokens

Pero, ¿significa esta reducción de precio que también se reducen los requisitos de hardware, especialmente la VRAM? ¿O ejecutar un modelo tan potente sigue exigiendo recursos significativos? En las siguientes secciones, desglosaremos exactamente cuánta VRAM requiere ERNIE 4.5 de forma nativa.

Familia de modelos ERNIE

Nombre del modelo Parámetros base Parámetros activos Tipo de modelo Modalidad Tipo de entrenamiento
ERNIE 4.5 VL 424B A47B 424B 47B MoE Texto y Visión PT
ERNIE 4.5 VL 424B A47B Base 424B 47B MoE Texto y Visión Base
ERNIE 4.5 VL 28B A3B 28B 3B MoE Texto y Visión PT
ERNIE 4.5 VL 28B A3B Base 28B 3B MoE Texto y Visión Base
ERNIE 4.5 300B A47B 300B 47B MoE Texto PT
ERNIE 4.5 300B A47B Base 300B 47B MoE Texto Base
ERNIE 4.5 21B A3B 21B 3B MoE Texto PT
ERNIE 4.5 21B A3B Base 21B 3B MoE Texto Base
ERNIE 4.5 0.3B 0.3B - Denso Texto PT
ERNIE 4.5 0.3B Base 0.3B - Denso Texto Base

Innovaciones de la familia ERNIE

Innovaciones de la familia ERNIE

Excelente rendimiento de la familia ERNIE

Rendimiento de los modelos preentrenados ERNIE-4.5

Rendimiento de los modelos preentrenados ERNIE 4.5

  • General: ERNIE 4.5 21B A3B Base y 300B A7B Base superan en algunos C-Eval, CMMU, etc. Qwen3 30B A3B Base es fuerte en otros.
  • Razonamiento: Qwen3 30B A3B Base lidera en la serie ARC; ERNIE 4.5 21B A3B Base es bueno en BBH, Drop.
  • Matemáticas: ERNIE 4.5 21B A3B Base y 300B A7B Base sobresalen en partes como GSM8K, CMATH; Qwen3 30B A3B Base también tiene puntos fuertes.
  • Conocimiento: ERNIE 4.5 21B A3B Base se desempeña bien en SimpleQA, ChineseSimpleQA.
  • Programación: ERNIE 4.5 21B A3B Base y 300B A7B Base son competitivos en HumanEval+, MultiPLE.

Rendimiento de modelos multimodales post-entrenados en modo no reflexivo

Rendimiento de modelos multimodales post-entrenados en modo no reflexivo

Qwen2.5

  • Fortalezas: Sobresale en QA visual básico, algo de razonamiento multimodal y tareas ligeras de video. Fuerte en MMBench cn/en.
  • Debilidades: Tiene dificultades con tareas complejas de documentos/gráficos, razonamiento multimodal profundo y percepción visual detallada. Menos capaz en comprensión de video basada en subtítulos.

ERNIE 4.5

  • Fortalezas: Domina tareas complejas de documentos/gráficos, razonamiento multimodal profundo, percepción visual precisa y comprensión de video con subtítulos. Fuerte en general en complejidad multimodal.
  • Debilidades: Menos competitivo en QA visual básico y tareas simples de video.

Entonces, ¿cuánta VRAM necesita ERNIE?

🚀 Precisión FP16

Modelo Parámetros (Activos) VRAM Necesaria GPU(s) Ideal(es)
ERNIE 4.5 VL 424B 424B (47B activos) ~945 GB NVIDIA H100 (80GB) × 12
ERNIE 4.5 300B 300B (47B activos) ~668 GB NVIDIA H100 (80GB) × 9
ERNIE 4.5 VL 28B 28B (3B activos) ~64 GB NVIDIA A100/H100 (80GB)
ERNIE 4.5 21B 21B (3B activos) ~48 GB NVIDIA RTX 6000 Ada (48GB)
ERNIE 4.5 0.3B 300M ~2.5 GB NVIDIA RTX 4060 (8GB) / RTX 3060 (12GB)
Gemma 3 27B 27B ~65.2 GB NVIDIA A100/H100 (80GB)

Precisión INT4

Modelo Parámetros (Activos) VRAM Necesaria GPU(s) Ideal(es)
ERNIE 4.5 VL 424B 424B (47B activos) ~237 GB NVIDIA H100 (80GB) × 3
ERNIE 4.5 300B 300B (47B activos) ~168 GB NVIDIA H100 (80GB) × 3
ERNIE 4.5 VL 28B 28B (3B activos) ~17 GB NVIDIA RTX 4090 (24GB) / A10G (24GB)
ERNIE 4.5 21B 21B (3B activos) ~13 GB NVIDIA RTX 4080 (16GB) / A10G (24GB)
ERNIE 4.5 0.3B 300M ~1.8 GB La mayoría de GPUs con >4GB de VRAM
Gemma 3 27B 27B ~14.1 GB Cualquier GPU de gama alta con ≥16GB de VRAM

Los inconvenientes de los altos requisitos de VRAM y consejos prácticos

Los altos requisitos de VRAM plantean varios desafíos para los usuarios. En primer lugar, los costos de hardware pueden dispararse: las GPU de primer nivel como la NVIDIA H100 son caras y a menudo requieren clústeres de múltiples GPU para ejecutar los modelos más grandes, haciéndolos inasequibles para individuos o pequeñas organizaciones. En segundo lugar, el consumo de energía y la generación de calor aumentan con más GPU, lo que conlleva mayores costos operativos y soluciones de refrigeración más complejas. En tercer lugar, tales configuraciones pueden ser difíciles de mantener, requiriendo experiencia técnica en hardware, computación distribuida y configuración de software.

Estos desafíos también pueden limitar la accesibilidad: muchos investigadores, desarrolladores y entusiastas simplemente no tienen acceso a la infraestructura necesaria, lo que puede frenar la innovación y la experimentación.

Consejos para superar las altas demandas de VRAM:

  • Utiliza modelos cuantizados: Opta por versiones INT4 u otras versiones comprimidas/cuantizadas para reducir significativamente las necesidades de VRAM, a menudo con un impacto mínimo en el rendimiento para muchas tareas.
  • Soluciones en la nube: Considera usar plataformas en la nube que te permitan alquilar GPU de alta gama solo cuando las necesites, en lugar de invertir en hardware costoso.
  • Descarga y transmisión de modelos: Usa herramientas o plataformas que admitan la descarga, división o transmisión de modelos, de modo que no todos los datos residan en la VRAM de la GPU a la vez.

Novita AI: Accede a ERNIE con 0 VRAM requerida

Comenzar con ERNIE 4.5 en Novita AI es sencillo y sin riesgos.

Los nuevos usuarios reciben $10 en créditos gratis—suficientes para explorar ERNIE 4.5 sin costos iniciales.

¡Prueba Novita AI hoy!

Usa el Playground (Sin necesidad de programar)

  • Acceso instantáneo: Regístrate, reclama tus créditos gratis y comienza a experimentar con ERNIE 4.5 y otros modelos principales en segundos.
  • Interfaz de usuario interactiva: Prueba prompts, razonamiento en cadena de pensamiento y visualiza resultados en tiempo real.
  • Comparación de modelos: Cambia fácilmente entre ERNIE 4.5, Qwen 3, Llama 4, DeepSeek y más para encontrar el ajuste perfecto para tus necesidades.

Inicia una prueba gratuita con ERNIE 4.5

Integra mediante API (Para desarrolladores)

Conecta sin problemas ERNIE 4.5 a aplicaciones, flujos de trabajo o chatbots utilizando la API REST unificada de Novita AI. Sin preocupaciones sobre la gestión de pesos del modelo o infraestructura: Novita AI proporciona SDK multilingüe y controles de parámetros avanzados.

1.Integración directa con API (Ejemplo en Python)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": "Sé un asistente útil"
        },
        {
            "role": "user",
            "content": "¡Hola!"
        }
    ],
    "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF
  
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # o False
max_tokens = 6000
system_content = "Sé un asistente útil"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "¡Hola!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

2.Flujos de trabajo multiagente con OpenAI Agents SDK

Construye sistemas multiagente avanzados integrando Novita AI con el OpenAI Agents SDK:

  • Plug-and-play: Usa ERNIE 4.5 de Novita AI en cualquier flujo de trabajo de OpenAI Agents.
  • Soporta transferencias, enrutamiento y uso de herramientas: Diseña agentes que puedan delegar, triage o ejecutar funciones, todo impulsado por las capacidades de ERNIE 4.5.
  • Integración en Python: Simplemente apunta el SDK al endpoint de Novita (https://api.novita.ai/v3/openai) y usa tu clave API.

Conecta la API de ERNIE 4.5 en plataformas de terceros

  • Hugging Face: Usa ERNIE 4.5 en Spaces, pipelines, o con la librería Transformers a través de los endpoints de Novita AI.

  • Frameworks de agentes y orquestación: Conecta fácilmente Novita AI con plataformas asociadas como Continue, AnythingLLM, LangChain, Dify y Langflow a través de conectores oficiales y guías de integración paso a paso.

  • API compatible con OpenAI: Disfruta de una migración e integración sin problemas con herramientas como Cline y Cursor, diseñadas para el estándar de la API de OpenAI.

Aunque ejecutar ERNIE 4.5 en tu propio hardware requeriría GPU muy potentes (y caras), Novita AI te permite usar estos grandes modelos fácilmente, con cero VRAM requerida de tu parte. Esto hace que la IA avanzada sea accesible para todos, desde principiantes hasta desarrolladores.

Preguntas frecuentes

¿Es ERNIE 4.5 realmente mejor que otros modelos grandes de IA?

Sí, ERNIE 4.5 obtiene puntuaciones más altas que DeepSeek V3 671B en la mayoría de los benchmarks y es muy competitivo con otros modelos destacados.

¿Se puede usar ERNIE 4.5 para tareas de programación y matemáticas?

Sí, los modelos ERNIE 4.5 se desempeñan bien en programación (como HumanEval+) y en benchmarks de matemáticas (como GSM8K, CMATH).

¿Cuánta VRAM necesito para ejecutar ERNIE 4.5?

Ejecutar las versiones más grandes de ERNIE 4.5 (como 424B o 300B) requiere una VRAM muy alta—cientos de GB y múltiples GPU de alta gama. Las versiones más pequeñas o cuantizadas necesitan mucha menos VRAM.

Novita AI es la plataforma en la nube todo en uno que impulsa tus ambiciones de IA. API integradas, serverless, instancias GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lectura recomendada