Pruebe gratis la API de Baidu ERNIE 4.5: ¡ya está disponible la última versión!

ERNIE 4.5, el modelo de mezcla de expertos (MoE) de peso abierto de última generación de Baidu, ahora está disponible en Novita AI!

Aquí está el precio actual de ERNIE 4.5 en Novita AI:

Baidu/ernie-4.5-vl-28b-a3b: 30k contexto, gratis

Baidu/erine-4.5–21B-a3b: 120k contexto, gratis

Baidu/erine-4.5–0.3b: 120k contexto, gratis

Baidu/erine-4.5-vl-424b-a47b: Contexto de 123k, entrada de tokens de $0.42/M, salida de tokens de $1.25/M

Baidu/ernie-4.5–300b-a47b-paleta: Contexto de 123k, entrada de tokens de $0.3/M, salida de tokens de $1/M

Pruebe la demostración de ERNIE-4.5-300B-A47B ahora

Tabla de contenido

¿Qué es ERNIE 4.5?
Rendimiento y capacidades
Innovaciones técnicas
Implementación e integración
Cómo acceder a ERNIE 4.5-300B-A47B en Novita AI
Conclusión

¿Qué es ERNIE 4.5?

ERNIE 4.5 es la última serie de modelos de código abierto de Baidu, compuesta por 10 modelos diferentes. La gama incluye modelos de Mezcla de Expertos (MoE) con 47 3 millones y 424 0.3 millones de parámetros activados (el modelo más grande alcanza un total de XNUMX XNUMX millones de parámetros), así como un modelo denso con XNUMX millones de parámetros.

Innovación arquitectónica: Estos modelos utilizan un Estructura innovadora de modelo heterogéneo multimodal Que logra la fusión de conocimiento intermodal mediante un mecanismo de intercambio de parámetros intermodales, a la vez que preserva espacios de parámetros dedicados para cada modalidad. Esta arquitectura es ideal para el paradigma de preentrenamiento continuo, desde grandes modelos lingüísticos hasta modelos multimodales, mejorando significativamente la capacidad de comprensión multimodal, manteniendo o incluso mejorando el rendimiento en tareas de texto.

Marco y formación: Todos los modelos de la serie ERNIE 4.5 se entrenan, infieren e implementan de manera eficiente utilizando Marco de aprendizaje profundo PaddlePaddleDurante el preentrenamiento del modelo de lenguaje grande, el La utilización de FLOP del modelo (MFU) alcanza el 47%.

Rendimiento y capacidades

Logro de referencia: Los resultados experimentales muestran que esta serie de modelos logra rendimiento de última generación (SOTA) en múltiples puntos de referencia textuales y multimodales, con resultados particularmente sobresalientes en:

Instrucciones siguientes – Comprender y ejecutar comandos complejos
Retención del conocimiento mundial – Almacenamiento y recuperación integral de conocimientos factuales
Comprensión visual – Capacidades avanzadas de comprensión de imágenes
Tareas de razonamiento multimodal – Razonamiento complejo a través de entradas de texto y visuales

Especificaciones del modelo (ERNIE-4.5-300B-A47B):

Parámetros totales: 300B con 47B activados por token
arquitectura: 54 capas, 64 encabezados de consulta / 8 encabezados clave-valor
Configuración experta: 64 expertos en texto (8 activados) / 64 expertos en visión (8 activados)
Contexto Longitud: Tokens 131,072
Modalidad: Texto con capacidades de entrenamiento multimodal

Accesibilidad e implementación:

Licencia de Apache 2.0 – Los pesos de los modelos son de código abierto tanto para la investigación académica como para aplicaciones industriales.
Kit de herramientas de desarrollo de grado industrial – Basado en la suite completa de PaddlePaddle con soporte ERNIEKit
Amplia compatibilidad de chips – Funciona en varias plataformas de hardware, lo que reduce las barreras para la capacitación posterior y la implementación.
Excelente rendimiento de inferencia – Múltiples opciones de implementación, incluidas FastDeploy, Transformers y vLLM de contacto
Cuantización flexible – Opciones de 4 bits, 2 bits y FP8 para diferentes restricciones de recursos

Innovaciones técnicas

Preentrenamiento del modelo de mezcla multimodal de expertos

El enfoque: ERNIE 4.5 se presenta Entrenamiento conjunto en modalidades textuales y visuales para capturar mejor las diferencias sutiles en la información multimodal, mejorando el rendimiento en la generación de texto, la comprensión de imágenes y las tareas de razonamiento multimodal.

La Innovación: Para permitir la mejora mutua entre las dos modalidades durante el aprendizaje y evitar que una modalidad obstaculice el aprendizaje de la otra, Baidu propone un Estructura del modelo de mezcla heterogénea multimodal de expertos con:

Enrutamiento con aislamiento de modalidad para la asignación de expertos especializados
Pérdida ortogonal del enrutador para mejorar la especialización de los expertos
Pérdida equilibrada por tokens multimodales para una utilización óptima de los recursos en todas las modalidades

Optimización avanzada: Estas elecciones arquitectónicas garantizan que ambas modalidades estén representadas de manera efectiva, lo que permite Promoción y mejora mutua multimodal durante el entrenamiento.

Marco de entrenamiento e inferencia eficiente

Optimizaciones de entrenamiento: Para apoyar el entrenamiento eficiente de los modelos ERNIE 4.5, Baidu propone paralelismo híbrido heterogéneo y estrategias de equilibrio de carga jerárquicoMediante múltiples tecnologías avanzadas, mejoran significativamente el rendimiento previo al entrenamiento:

Paralelismo de expertos intranodo – Procesamiento paralelo optimizado dentro de los nodos informáticos
Programación de canalizaciones con uso eficiente de la memoria – Gestión inteligente de la memoria durante el entrenamiento
Entrenamiento de precisión mixto FP8 – Técnicas avanzadas de precisión numérica
Recálculo de grano fino – Recomputación estratégica para la eficiencia de la memoria

Avances en la inferencia: Para optimizar la inferencia, proponen varios métodos de vanguardia:

Método de colaboración paralela entre múltiples expertos – Procesamiento colaborativo entre expertos en modelos
Algoritmo de cuantificación de código convolucional – Técnicas de codificación avanzadas para compresión
Cuantización casi sin pérdidas: Lograr una Cuantización de 4 bits y cuantificación de 2 bits con una degradación mínima del rendimiento
Desagregación de PD con cambio dinámico de roles – Implementación adaptativa que puede utilizar más plenamente los recursos y mejorar el rendimiento de inferencia de los modelos ERNIE 4.5 MoE

Post-entrenamiento específico de la modalidad

Optimización personalizada: Para satisfacer diferentes requisitos en escenarios prácticos, Baidu realiza Ajuste fino específico de la modalidad en los modelos preentrenados:

Modelos de lenguaje grande (LLMs):

Optimizado específicamente para comprensión y generación del lenguaje general

Modelos de visión-lenguaje (VLM):

Se centra en comprensión del lenguaje visual
Apoya a ambos modo de pensamiento y modo no pensante optimizar las operaciones

Proceso de formación en varias etapas: Cada modelo emplea post-entrenamiento de varias etapas utilizando técnicas avanzadas:

SFT (Ajuste fino supervisado) – Aprendiendo de ejemplos supervisados
DPO (Optimización de preferencia directa) – Optimización directa basada en preferencias
UPO (Optimización de preferencias unificadas) – Técnica de optimización de preferencias unificada patentada de Baidu

Implementación e integración

Los modelos ERNIE-4.5 se pueden implementar utilizando FastDeploy, Hugging Face Transformers o vLLMLos diferentes niveles de cuantificación y marcos de servicio permiten que los modelos se ejecuten eficientemente en diversas configuraciones de hardware:

Modelos de precisión total requieren muchos GPUs (normalmente 16 GPUs con al menos 80 GB de VRAM cada uno).
Modelos cuantificados (como WINT4, W4A8C8 o WINT2) reducen drásticamente la necesidad de VRAM. Por ejemplo, WINT4 o W4A8C8 pueden funcionar con entre 4 y 8 GB de 80 GB. GPUs, mientras que WINT2 permite una solaGPU implementación si tiene al menos 141 GB de VRAM.
Integración de transformadores Permite un uso flexible pero aún requiere una cantidad sustancial de VRAM para modelos grandes.
vLLM es ideal para aplicaciones de alto rendimiento y multi-GPU inferencia. Los modelos cuantificados ayudan a ajustarse a los datos disponibles. GPU memoria.
Muestreo recomendado: Temperatura=0.8, Top-P=0.8

Cómo acceder a ERNIE 4.5-300B-A47B en Novita AI

Introducción a ERNIE 4.5-300B-A47B en Novita AI es ágil y sin riesgos. Los nuevos usuarios reciben $10 en créditos gratis—suficiente para explorar ERNIE 4.5-300B-A47B sin costos iniciales.

Utilice el patio de juegos (no se requiere codificación)

Acceso instantáneo: Regístrate, reclama tus créditos gratis y comienza a experimentar con ERNIE 4.5 y otros modelos superiores en segundos.

Interfaz de usuario interactiva:Pruebe indicaciones, razonamiento en cadena de pensamiento y visualice resultados en tiempo real.

Comparación de modelos:Cambie sin esfuerzo entre ERNIE 4.5, Qwen 3, Llama 4, DeepSeek y más para encontrar el ajuste perfecto para sus necesidades.

Integrar mediante API (para desarrolladores)

Conecte sin problemas ERNIE 4.5 a aplicaciones, flujos de trabajo o chatbots usando Novita AIAPI REST unificada. Sin gestión del peso del modelo ni preocupaciones por la infraestructura.Novita AI Proporciona SDK en varios idiomas (Python, Node.js, cURL) y controles de parámetros avanzados.

Opción 1: Integración directa de API (ejemplo de Python)

rizo "https://api.novita.ai/v3/openai/chat/completions" \ -H "Content-Type: application/json" \ -H "Authorization: Bearer " \ -d @- << 'EOF' { "model": "baidu/ernie-4.5-300b-a47b-paddle", "messages": [ { "role": "system", "content": Sea un asistente útil }, { "role": "user", "content": "¡Hola!" } from openai import OpenAI client = OpenAI( base_url="https://api.novita.ai/v3/openai", api_key="", ) modelo = "baidu/ernie-4.5-300b-a47b-paddle" stream = Verdadero # o Falso máx_tokens = 6000 contenido_sistema = ""Sé un asistente útil"" temperatura = 1 p_máx = 1 p_mín = 0 k_máx = 50 penalización_presencia = 0 penalización_frecuencia = 0 penalización_repetición = 1 formato_respuesta = { "tipo": "texto" } resolución_finalización_chat = cliente.chat.completions.create( modelo=modelo, mensajes=[ { "rol": "sistema", "contenido": contenido_sistema, }, { "rol": "usuario", "contenido": "¡Hola!", } ], stream=stream, máx_tokens=máx_tokens, temperatura=temperatura, p_máx=p_máx, penalización_presencia=penalización_presencia, Frecuencia_penalización=frecuencia_penalización, Formato_respuesta=formato_respuesta, Cuerpo_adicional={ "top_k": top_k, "penalización_repetición": penalización_repetición, "min_p": min_p } ) si transmisión: para fragmento en resolución_finalización_chat: imprimir(chunk.choices[0].delta.content o "", fin="") de lo contrario: imprimir(respuesta_finalización_chat.choices[0].message.content) "formato_respuesta": { "tipo": "texto" }, "máx_tokens": 32768, "temperatura": 1, "top_p": 1, "min_p": 0, "top_k": 50, "penalización_presencia": 0, "penalización_frecuencia": 0, "penalización_repetición": 1 } EOF

Opción 2: Flujos de trabajo de múltiples agentes con el SDK de OpenAI Agents

Construya sistemas multiagente avanzados mediante la integración Novita AI con el SDK de agentes de OpenAI:

Conecta y reproduce: Usar Novita AIRNIE 4.5 en cualquier flujo de trabajo de agentes OpenAI
Admite transferencias, enrutamiento y uso de herramientas: Agentes de diseño que puedan delegar, clasificar o ejecutar funciones, todo ello impulsado por las capacidades de RNIE 4.5
Integración de Python: Simplemente apunte el SDK al punto final de Novita (https://api.novita.ai/v3/openai) y usa tu clave API

Conecte la API de ERNIE 4.5 en plataformas de terceros

Abrazando la cara:Utilice QERNIE 4.5 en espacios, tuberías o con la biblioteca Transformers a través de Novita AI puntos finales.

Marcos de agente y orquestación: Conectar fácilmente Novita AI con plataformas asociadas como Continuar, Cualquier cosaLLM, LangChain, Dificar y Langflow a través de conectores oficiales y guías de integración paso a paso.

API compatible con OpenAI: Disfrute de una migración e integración sin complicaciones con herramientas como clina y Cursor, diseñado para el estándar API OpenAI.

Conclusión

ERNIE 4.5 es una serie versátil de modelos de IA de código abierto que combina una arquitectura avanzada de mezcla de expertos con un innovador aprendizaje multimodal. Permite un rendimiento potente y eficiente en tareas de lenguaje y visión, lo que la convierte en una base sólida para las aplicaciones de IA de próxima generación.

¿Estás listo para experimentar el futuro del razonamiento de IA? Prueba ERNIE 4.5 on Novita AI.

Novita AI es una plataforma de nube de IA que ofrece a los desarrolladores una manera fácil de implementar modelos de IA utilizando nuestra API simple, al mismo tiempo que proporciona un servicio asequible y confiable. GPU Nube para construir y escalar.

Descubra más de Novita

Suscríbete para recibir las últimas publicaciones en tu correo electrónico.

La API del modelo BaiDu ERNIE 4.5 MoE ya está disponible en Novita AI

¿Qué es ERNIE 4.5?

Rendimiento y capacidades

Innovaciones técnicas

Preentrenamiento del modelo de mezcla multimodal de expertos

Marco de entrenamiento e inferencia eficiente

Post-entrenamiento específico de la modalidad

Implementación e integración

Cómo acceder a ERNIE 4.5-300B-A47B en Novita AI

Utilice el patio de juegos (no se requiere codificación)

Integrar mediante API (para desarrolladores)

Opción 1: Integración directa de API (ejemplo de Python)

Opción 2: Flujos de trabajo de múltiples agentes con el SDK de OpenAI Agents

Conecte la API de ERNIE 4.5 en plataformas de terceros

Conclusión

Descubra más de Novita

Deja Tu ComentarioCancelar respuesta

Producto

RECURSOS

Alianzas

Empresa

¿Qué es ERNIE 4.5?

Rendimiento y capacidades

Innovaciones técnicas

Preentrenamiento del modelo de mezcla multimodal de expertos

Marco de entrenamiento e inferencia eficiente

Post-entrenamiento específico de la modalidad

Implementación e integración

Cómo acceder a ERNIE 4.5-300B-A47B en Novita AI

Utilice el patio de juegos (no se requiere codificación)

Integrar mediante API (para desarrolladores)

Opción 1: Integración directa de API (ejemplo de Python)

Opción 2: Flujos de trabajo de múltiples agentes con el SDK de OpenAI Agents

Conecte la API de ERNIE 4.5 en plataformas de terceros

Conclusión

Descubra más de Novita

Artículos Relacionados

Deja Tu ComentarioCancelar respuesta

Producto

RECURSOS

Alianzas

Empresa

Descubra más de Novita