ERNIE 4.5, el modelo de mezcla de expertos (MoE) de peso abierto de última generación de Baidu, ahora está disponible en Novita AI!
Aquí está el precio actual de ERNIE 4.5 en Novita AI:
Baidu/ernie-4.5-vl-28b-a3b: 30k contexto, gratis
Baidu/erine-4.5–21B-a3b: 120k contexto, gratis
Baidu/erine-4.5–0.3b: 120k contexto, gratis
Baidu/erine-4.5-vl-424b-a47b: Contexto de 123k, entrada de tokens de $0.42/M, salida de tokens de $1.25/M
Baidu/ernie-4.5–300b-a47b-paleta: Contexto de 123k, entrada de tokens de $0.3/M, salida de tokens de $1/M
¿Qué es ERNIE 4.5?
ERNIE 4.5 es la última serie de modelos de código abierto de Baidu, compuesta por 10 modelos diferentes. La gama incluye modelos de Mezcla de Expertos (MoE) con 47 3 millones y 424 0.3 millones de parámetros activados (el modelo más grande alcanza un total de XNUMX XNUMX millones de parámetros), así como un modelo denso con XNUMX millones de parámetros.

Innovación arquitectónica: Estos modelos utilizan un Estructura innovadora de modelo heterogéneo multimodal Que logra la fusión de conocimiento intermodal mediante un mecanismo de intercambio de parámetros intermodales, a la vez que preserva espacios de parámetros dedicados para cada modalidad. Esta arquitectura es ideal para el paradigma de preentrenamiento continuo, desde grandes modelos lingüísticos hasta modelos multimodales, mejorando significativamente la capacidad de comprensión multimodal, manteniendo o incluso mejorando el rendimiento en tareas de texto.
Marco y formación: Todos los modelos de la serie ERNIE 4.5 se entrenan, infieren e implementan de manera eficiente utilizando Marco de aprendizaje profundo PaddlePaddleDurante el preentrenamiento del modelo de lenguaje grande, el La utilización de FLOP del modelo (MFU) alcanza el 47%.
Rendimiento y capacidades
Logro de referencia: Los resultados experimentales muestran que esta serie de modelos logra rendimiento de última generación (SOTA) en múltiples puntos de referencia textuales y multimodales, con resultados particularmente sobresalientes en:

- Instrucciones siguientes – Comprender y ejecutar comandos complejos
- Retención del conocimiento mundial – Almacenamiento y recuperación integral de conocimientos factuales
- Comprensión visual – Capacidades avanzadas de comprensión de imágenes
- Tareas de razonamiento multimodal – Razonamiento complejo a través de entradas de texto y visuales
Especificaciones del modelo (ERNIE-4.5-300B-A47B):
- Parámetros totales: 300B con 47B activados por token
- arquitectura: 54 capas, 64 encabezados de consulta / 8 encabezados clave-valor
- Configuración experta: 64 expertos en texto (8 activados) / 64 expertos en visión (8 activados)
- Contexto Longitud: Tokens 131,072
- Modalidad: Texto con capacidades de entrenamiento multimodal
Accesibilidad e implementación:
- Licencia de Apache 2.0 – Los pesos de los modelos son de código abierto tanto para la investigación académica como para aplicaciones industriales.
- Kit de herramientas de desarrollo de grado industrial – Basado en la suite completa de PaddlePaddle con soporte ERNIEKit
- Amplia compatibilidad de chips – Funciona en varias plataformas de hardware, lo que reduce las barreras para la capacitación posterior y la implementación.
- Excelente rendimiento de inferencia – Múltiples opciones de implementación, incluidas FastDeploy, Transformers y vLLM de contacto
- Cuantización flexible – Opciones de 4 bits, 2 bits y FP8 para diferentes restricciones de recursos
Innovaciones técnicas
Preentrenamiento del modelo de mezcla multimodal de expertos
El enfoque: ERNIE 4.5 se presenta Entrenamiento conjunto en modalidades textuales y visuales para capturar mejor las diferencias sutiles en la información multimodal, mejorando el rendimiento en la generación de texto, la comprensión de imágenes y las tareas de razonamiento multimodal.
La Innovación: Para permitir la mejora mutua entre las dos modalidades durante el aprendizaje y evitar que una modalidad obstaculice el aprendizaje de la otra, Baidu propone un Estructura del modelo de mezcla heterogénea multimodal de expertos con:
- Enrutamiento con aislamiento de modalidad para la asignación de expertos especializados
- Pérdida ortogonal del enrutador para mejorar la especialización de los expertos
- Pérdida equilibrada por tokens multimodales para una utilización óptima de los recursos en todas las modalidades
Optimización avanzada: Estas elecciones arquitectónicas garantizan que ambas modalidades estén representadas de manera efectiva, lo que permite Promoción y mejora mutua multimodal durante el entrenamiento.
Marco de entrenamiento e inferencia eficiente
Optimizaciones de entrenamiento: Para apoyar el entrenamiento eficiente de los modelos ERNIE 4.5, Baidu propone paralelismo híbrido heterogéneo y estrategias de equilibrio de carga jerárquicoMediante múltiples tecnologías avanzadas, mejoran significativamente el rendimiento previo al entrenamiento:
- Paralelismo de expertos intranodo – Procesamiento paralelo optimizado dentro de los nodos informáticos
- Programación de canalizaciones con uso eficiente de la memoria – Gestión inteligente de la memoria durante el entrenamiento
- Entrenamiento de precisión mixto FP8 – Técnicas avanzadas de precisión numérica
- Recálculo de grano fino – Recomputación estratégica para la eficiencia de la memoria
Avances en la inferencia: Para optimizar la inferencia, proponen varios métodos de vanguardia:
- Método de colaboración paralela entre múltiples expertos – Procesamiento colaborativo entre expertos en modelos
- Algoritmo de cuantificación de código convolucional – Técnicas de codificación avanzadas para compresión
- Cuantización casi sin pérdidas: Lograr una Cuantización de 4 bits y cuantificación de 2 bits con una degradación mínima del rendimiento
- Desagregación de PD con cambio dinámico de roles – Implementación adaptativa que puede utilizar más plenamente los recursos y mejorar el rendimiento de inferencia de los modelos ERNIE 4.5 MoE
Post-entrenamiento específico de la modalidad
Optimización personalizada: Para satisfacer diferentes requisitos en escenarios prácticos, Baidu realiza Ajuste fino específico de la modalidad en los modelos preentrenados:
Modelos de lenguaje grande (LLMs):
- Optimizado específicamente para comprensión y generación del lenguaje general
Modelos de visión-lenguaje (VLM):
- Se centra en comprensión del lenguaje visual
- Apoya a ambos modo de pensamiento y modo no pensante optimizar las operaciones
Proceso de formación en varias etapas: Cada modelo emplea post-entrenamiento de varias etapas utilizando técnicas avanzadas:
- SFT (Ajuste fino supervisado) – Aprendiendo de ejemplos supervisados
- DPO (Optimización de preferencia directa) – Optimización directa basada en preferencias
- UPO (Optimización de preferencias unificadas) – Técnica de optimización de preferencias unificada patentada de Baidu
Implementación e integración
Los modelos ERNIE-4.5 se pueden implementar utilizando FastDeploy, Hugging Face Transformers o vLLMLos diferentes niveles de cuantificación y marcos de servicio permiten que los modelos se ejecuten eficientemente en diversas configuraciones de hardware:
- Modelos de precisión total requieren muchos GPUs (normalmente 16 GPUs con al menos 80 GB de VRAM cada uno).
- Modelos cuantificados (como WINT4, W4A8C8 o WINT2) reducen drásticamente la necesidad de VRAM. Por ejemplo, WINT4 o W4A8C8 pueden funcionar con entre 4 y 8 GB de 80 GB. GPUs, mientras que WINT2 permite una solaGPU implementación si tiene al menos 141 GB de VRAM.
- Integración de transformadores Permite un uso flexible pero aún requiere una cantidad sustancial de VRAM para modelos grandes.
- vLLM es ideal para aplicaciones de alto rendimiento y multi-GPU inferencia. Los modelos cuantificados ayudan a ajustarse a los datos disponibles. GPU memoria.
- Muestreo recomendado: Temperatura=0.8, Top-P=0.8
Cómo acceder a ERNIE 4.5-300B-A47B en Novita AI
Introducción a ERNIE 4.5-300B-A47B en Novita AI es ágil y sin riesgos. Los nuevos usuarios reciben $10 en créditos gratis—suficiente para explorar ERNIE 4.5-300B-A47B sin costos iniciales.
Utilice el patio de juegos (no se requiere codificación)
Acceso instantáneo: Regístrate, reclama tus créditos gratis y comienza a experimentar con ERNIE 4.5 y otros modelos superiores en segundos.
Interfaz de usuario interactiva:Pruebe indicaciones, razonamiento en cadena de pensamiento y visualice resultados en tiempo real.
Comparación de modelos:Cambie sin esfuerzo entre ERNIE 4.5, Qwen 3, Llama 4, DeepSeek y más para encontrar el ajuste perfecto para sus necesidades.
Integrar mediante API (para desarrolladores)
Conecte sin problemas ERNIE 4.5 a aplicaciones, flujos de trabajo o chatbots usando Novita AIAPI REST unificada. Sin gestión del peso del modelo ni preocupaciones por la infraestructura.Novita AI Proporciona SDK en varios idiomas (Python, Node.js, cURL) y controles de parámetros avanzados.
Opción 1: Integración directa de API (ejemplo de Python)
rizo "https://api.novita.ai/v3/openai/chat/completions" \ -H "Content-Type: application/json" \ -H "Authorization: Bearer " \ -d @- << 'EOF' { "model": "baidu/ernie-4.5-300b-a47b-paddle", "messages": [ { "role": "system", "content": Sea un asistente útil }, { "role": "user", "content": "¡Hola!" } from openai import OpenAI client = OpenAI( base_url="https://api.novita.ai/v3/openai", api_key="", ) modelo = "baidu/ernie-4.5-300b-a47b-paddle" stream = Verdadero # o Falso máx_tokens = 6000 contenido_sistema = ""Sé un asistente útil"" temperatura = 1 p_máx = 1 p_mín = 0 k_máx = 50 penalización_presencia = 0 penalización_frecuencia = 0 penalización_repetición = 1 formato_respuesta = { "tipo": "texto" } resolución_finalización_chat = cliente.chat.completions.create( modelo=modelo, mensajes=[ { "rol": "sistema", "contenido": contenido_sistema, }, { "rol": "usuario", "contenido": "¡Hola!", } ], stream=stream, máx_tokens=máx_tokens, temperatura=temperatura, p_máx=p_máx, penalización_presencia=penalización_presencia, Frecuencia_penalización=frecuencia_penalización, Formato_respuesta=formato_respuesta, Cuerpo_adicional={ "top_k": top_k, "penalización_repetición": penalización_repetición, "min_p": min_p } ) si transmisión: para fragmento en resolución_finalización_chat: imprimir(chunk.choices[0].delta.content o "", fin="") de lo contrario: imprimir(respuesta_finalización_chat.choices[0].message.content) "formato_respuesta": { "tipo": "texto" }, "máx_tokens": 32768, "temperatura": 1, "top_p": 1, "min_p": 0, "top_k": 50, "penalización_presencia": 0, "penalización_frecuencia": 0, "penalización_repetición": 1 } EOF
Opción 2: Flujos de trabajo de múltiples agentes con el SDK de OpenAI Agents
Construya sistemas multiagente avanzados mediante la integración Novita AI con el SDK de agentes de OpenAI:
- Conecta y reproduce: Usar Novita AIRNIE 4.5 en cualquier flujo de trabajo de agentes OpenAI
- Admite transferencias, enrutamiento y uso de herramientas: Agentes de diseño que puedan delegar, clasificar o ejecutar funciones, todo ello impulsado por las capacidades de RNIE 4.5
- Integración de Python: Simplemente apunte el SDK al punto final de Novita (
https://api.novita.ai/v3/openai) y usa tu clave API
Conecte la API de ERNIE 4.5 en plataformas de terceros
- Abrazando la cara:Utilice QERNIE 4.5 en espacios, tuberías o con la biblioteca Transformers a través de Novita AI puntos finales.
- Marcos de agente y orquestación: Conectar fácilmente Novita AI con plataformas asociadas como Continuar, Cualquier cosaLLM, LangChain, Dificar y Langflow a través de conectores oficiales y guías de integración paso a paso.
- API compatible con OpenAI: Disfrute de una migración e integración sin complicaciones con herramientas como clina y Cursor, diseñado para el estándar API OpenAI.
Conclusión
ERNIE 4.5 es una serie versátil de modelos de IA de código abierto que combina una arquitectura avanzada de mezcla de expertos con un innovador aprendizaje multimodal. Permite un rendimiento potente y eficiente en tareas de lenguaje y visión, lo que la convierte en una base sólida para las aplicaciones de IA de próxima generación.
¿Estás listo para experimentar el futuro del razonamiento de IA? Prueba ERNIE 4.5 on Novita AI.
Novita AI es una plataforma de nube de IA que ofrece a los desarrolladores una manera fácil de implementar modelos de IA utilizando nuestra API simple, al mismo tiempo que proporciona un servicio asequible y confiable. GPU Nube para construir y escalar.
Descubra más de Novita
Suscríbete para recibir las últimas publicaciones en tu correo electrónico.





