API del modelo MoE BaiDu ERNIE 4.5 ya disponible en Novita AI

API del modelo MoE BaiDu ERNIE 4.5 ya disponible en Novita AI

¡ERNIE 4.5, el modelo de última generación de Baidu con pesos abiertos y arquitectura Mixture-of-Experts (MoE), ya está disponible en Novita AI!

Estos son los precios actuales de ERNIE 4.5 en Novita AI:

baidu/ernie-4.5-vl-28b-a3b: 30k de contexto, gratuito

baidu/erine-4.5–21B-a3b: 120k de contexto, gratuito

baidu/erine-4.5–0.3b: 120k de contexto, gratuito

baidu/erine-4.5-vl-424b-a47b: 123k de contexto, $0.42/M tokens de entrada, $1.25/M tokens de salida

baidu/ernie-4.5–300b-a47b-paddle: 123k de contexto, $0.3/M tokens de entrada, $1/M tokens de salida

Prueba la demostración de ERNIE-4.5-300B-A47B ahora

¿Qué es ERNIE 4.5?

ERNIE 4.5 es la serie de modelos de código abierto más reciente de Baidu, compuesta por 10 modelos diferentes. La línea incluye modelos Mixture-of-Experts (MoE) con 47 mil millones y 3 mil millones de parámetros activados —el modelo más grande alcanza un total de 424 mil millones de parámetros—, así como un modelo denso con 0.3 mil millones de parámetros.

familia de modelos erine

Innovación arquitectónica: Estos modelos utilizan una estructura innovadora de modelo heterogéneo multimodal que logra la fusión de conocimiento entre modalidades a través de un mecanismo de compartición de parámetros entre modalidades, mientras preserva espacios de parámetros dedicados para modalidades individuales. Esta arquitectura es muy adecuada para el paradigma de preentrenamiento continuo desde modelos de lenguaje grandes hasta modelos multimodales, mejorando significativamente las capacidades de comprensión multimodal mientras se mantiene o incluso se mejora el rendimiento en tareas de texto.

Marco y entrenamiento: Todos los modelos de la serie ERNIE 4.5 se entrenan, infieren y despliegan de manera eficiente utilizando el marco de aprendizaje profundo PaddlePaddle. Durante el preentrenamiento del modelo de lenguaje grande, la utilización de FLOPs del modelo (MFU) alcanza el 47% .

Rendimiento y capacidades

Logro en benchmarks: Los resultados experimentales muestran que esta serie de modelos logra un rendimiento de última generación (SOTA) en múltiples benchmarks de texto y multimodales, con resultados particularmente destacados en:

benchmark de ernie 4.5

  • Seguimiento de instrucciones: comprender y ejecutar comandos complejos
  • Retención de conocimiento mundial: almacenamiento y recuperación de información factual completa
  • Comprensión visual: capacidades avanzadas de comprensión de imágenes
  • Tareas de razonamiento multimodal: razonamiento complejo a través de entradas textuales y visuales

Especificaciones del modelo (ERNIE-4.5-300B-A47B):

  • Parámetros totales: 300B con 47B activados por token
  • Arquitectura: 54 capas, 64 cabezas de consulta / 8 cabezas clave-valor
  • Configuración de expertos: 64 expertos de texto (8 activados) / 64 expertos de visión (8 activados)
  • Longitud de contexto: 131,072 tokens
  • Modalidad: Texto con capacidad de entrenamiento multimodal

Accesibilidad e implementación:

  • Licencia Apache 2.0: los pesos del modelo se publican como código abierto tanto para investigación académica como para aplicaciones industriales
  • Kit de herramientas de desarrollo de grado industrial: basado en el conjunto completo de PaddlePaddle con soporte de ERNIEKit
  • Amplia compatibilidad con chips: funciona en diversas plataformas de hardware, reduciendo las barreras para el post-entrenamiento y la implementación
  • Excelente rendimiento de inferencia: múltiples opciones de implementación que incluyen FastDeploy, Transformers e integración con vLLM
  • Cuantificación flexible: opciones de 4 bits, 2 bits y FP8 para diferentes restricciones de recursos

Innovaciones técnicas

Preentrenamiento de modelo multimodal Mixture of Experts

El enfoque: ERNIE 4.5 realiza entrenamiento conjunto a través de modalidades textuales y visuales para capturar mejor las diferencias sutiles en la información multimodal, mejorando el rendimiento en generación de texto, comprensión de imágenes y tareas de razonamiento multimodal.

La innovación: Para permitir la mejora mutua entre las dos modalidades durante el aprendizaje, evitando que una modalidad obstaculice el aprendizaje de la otra, Baidu propone una estructura de modelo heterogéneo multimodal de mezcla de expertos con:

  • Enrutamiento aislado por modalidad para la asignación especializada de expertos
  • Pérdida de ortogonalidad del enrutador para mejorar la especialización de los expertos
  • Pérdida equilibrada de tokens multimodales para una utilización óptima de recursos entre modalidades

Optimización avanzada: Estas decisiones arquitectónicas aseguran que ambas modalidades estén representadas de manera efectiva, permitiendo la promoción y mejora mutua multimodal durante el entrenamiento.

Marco eficiente de entrenamiento e inferencia

Optimizaciones de entrenamiento: Para apoyar el entrenamiento eficiente de los modelos ERNIE 4.5, Baidu propone estrategias de paralelismo híbrido heterogéneo y equilibrio de carga jerárquico. A través de múltiples tecnologías avanzadas, mejoran significativamente el rendimiento del preentrenamiento:

  • Paralelismo de expertos intra-nodo: procesamiento paralelo optimizado dentro de los nodos de cómputo
  • Planificación de pipeline eficiente en memoria: gestión inteligente de la memoria durante el entrenamiento
  • Entrenamiento de precisión mixta FP8: técnicas avanzadas de precisión numérica
  • Recomputación de grano fino: recomputación estratégica para la eficiencia de memoria

Avances en inferencia: Para la optimización de la inferencia, proponen varios métodos de vanguardia:

  • Método de colaboración paralela multi-experto: procesamiento colaborativo entre expertos del modelo
  • Algoritmo de cuantificación de código convolucional: técnicas avanzadas de codificación para compresión
  • Cuantificación casi sin pérdidas: logrando cuantificación de 4 bits y cuantificación de 2 bits con una degradación mínima del rendimiento
  • Separación PD con cambio de rol dinámico: implementación adaptativa que puede utilizar los recursos de manera más completa y mejorar el rendimiento de inferencia de los modelos MoE ERNIE 4.5

Post-entrenamiento específico por modalidad

Optimización a medida: Para cumplir con diferentes requisitos en escenarios prácticos, Baidu realiza ajuste fino específico por modalidad en los modelos preentrenados:

Modelos de lenguaje grande (LLM):

  • Optimizados específicamente para comprensión y generación de lenguaje general

Modelos de lenguaje y visión (VLM):

  • Enfoque en comprensión visual-lingüística
  • Soporte tanto para modo de pensamiento como para modo de no pensamiento

Pipeline de entrenamiento multi-etapa: Cada modelo emplea post-entrenamiento multi-etapa utilizando técnicas avanzadas:

  • SFT (Supervised Fine-Tuning): aprendizaje a partir de ejemplos supervisados
  • DPO (Direct Preference Optimization): optimización directa basada en preferencias
  • UPO (Unified Preference Optimization): técnica propia de Baidu de optimización unificada de preferencias

Implementación e integración

Los modelos ERNIE-4.5 se pueden implementar usando FastDeploy, Hugging Face Transformers o vLLM. Diferentes niveles de cuantificación y marcos de servicio permiten que los modelos funcionen de manera eficiente en una variedad de configuraciones de hardware:

  • Modelos de precisión completa requieren muchas GPU (típicamente 16 GPU con al menos 80GB de VRAM cada una).
  • Modelos cuantificados (como WINT4, W4A8C8 o WINT2) reducen drásticamente las necesidades de VRAM. Por ejemplo, WINT4 o W4A8C8 pueden ejecutarse en 4–8×80GB GPU, mientras que WINT2 permite la implementación en una sola GPU si tienes al menos 141GB de VRAM.
  • Integración con Transformers permite un uso flexible pero aún requiere una VRAM sustancial para modelos grandes.
  • vLLM es ideal para inferencia de alto rendimiento con múltiples GPU. Los modelos cuantificados ayudan a ajustarse a la memoria GPU disponible.
  • Muestreo recomendado: Temperatura=0.8, Top-P=0.8

Cómo acceder a ERNIE 4.5-300B-A47B en Novita AI

Comenzar con ERNIE 4.5-300B-A47B en Novita AI es sencillo y sin riesgos. Los nuevos usuarios reciben $10 en créditos gratuitos , suficientes para explorar ERNIE 4.5-300B-A47B sin costos iniciales.

Usa el Playground (Sin necesidad de codificar)

Acceso instantáneo: Regístrate, reclama tus créditos gratuitos y comienza a experimentar con ERNIE 4.5 y otros modelos top en segundos.

UI interactiva: Prueba prompts, razonamiento de cadena de pensamiento y visualiza resultados en tiempo real.

Comparación de modelos: Cambia fácilmente entre ERNIE 4.5, Qwen 3, Llama 4, DeepSeek y más para encontrar el ajuste perfecto para tus necesidades.

Integra a través de API (Para desarrolladores)

Conecta ERNIE 4.5 sin problemas a aplicaciones, flujos de trabajo o chatbots usando la API REST unificada de Novita AI. Sin preocupaciones por la gestión de pesos del modelo o infraestructura: Novita AI proporciona SDKs multilingüe (Python, Node.js, cURL) y controles de parámetros avanzados.

Opción 1: Integración directa de API (Ejemplo en Python)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": Be a helpful assistant
        },
        {
            "role": "user",
            "content": "Hi there!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF
  
 

Opción 2: Flujos de trabajo multiagente con OpenAI Agents SDK

Construye sistemas multiagente avanzados integrando Novita AI con OpenAI Agents SDK:

  • Plug-and-play: Usa RNIE 4.5 de Novita AI en cualquier flujo de trabajo de OpenAI Agents
  • Soporta transferencias, enrutamiento y uso de herramientas: Diseña agentes que puedan delegar, clasificar o ejecutar funciones, todo potenciado por las capacidades de RNIE 4.5
  • Integración en Python: Simplemente apunta el SDK al endpoint de Novita (https://api.novita.ai/v3/openai) y usa tu clave API

Conecta la API de ERNIE 4.5 en plataformas de terceros

  • Hugging Face : Usa QERNIE 4.5 en Spaces, pipelines o con la biblioteca Transformers a través de los endpoints de Novita AI.

  • Frameworks de agentes y orquestación: Conecta fácilmente Novita AI con plataformas asociadas como Continue, AnythingLLM, LangChain, Dify y Langflow a través de conectores oficiales y guías de integración paso a paso.

  • API compatible con OpenAI: Disfruta de una migración e integración sin complicaciones con herramientas como Cline y Cursor, diseñadas para el estándar de la API de OpenAI.

Conclusión

ERNIE 4.5 es una serie de modelos de IA versátil y de código abierto que combina una arquitectura avanzada Mixture-of-Experts con aprendizaje multimodal innovador. Permite un rendimiento potente y eficiente tanto en tareas de lenguaje como de visión, lo que lo convierte en una base sólida para aplicaciones de IA de próxima generación.

¿Listo para experimentar el futuro del razonamiento de IA? Prueba ERNIE 4.5 en Novita AI.

Novita AI es una plataforma de nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA usando nuestra API simple, al mismo tiempo que proporciona la nube de GPU asequible y confiable para construir y escalar.