ERNIE-4.5 Thinking : le modèle MoE de 21 milliards de paramètres de Baidu offre des performances 7 fois plus rapides avec seulement 3 milliards de paramètres actifs

ERNIE-4.5 Thinking : le modèle MoE de 21 milliards de paramètres de Baidu offre des performances 7 fois plus rapides avec seulement 3 milliards de paramètres actifs

ERNIE-4.5-21B-A3B-Thinking est désormais disponible sur la plateforme Novita AI, apportant les capacités de réflexion révolutionnaires de Baidu aux développeurs et aux entreprises via notre infrastructure conviviale pour les développeurs. Cette dernière version de Baidu représente une avancée significative dans le domaine des modèles d’IA légers, introduisant une profondeur et une qualité de raisonnement améliorées qui la distinguent des générations précédentes.

Grâce à son architecture efficace de Mélange d’Experts (MoE) n’activant que 3 milliards de paramètres par jeton à partir d’un total de 21 milliards de paramètres, ERNIE-4.5-21B-A3B-Thinking offre des performances de haut niveau avec des exigences de ressources légères.

Que vous développiez des applications de raisonnement complexes, que vous construisiez des solveurs mathématiques ou que vous exploriez des capacités d’IA avancées, ERNIE-4.5-21B-A3B-Thinking sur Novita AI simplifie le processus de développement grâce à notre infrastructure optimisée et à nos options d’intégration faciles.

Tarification actuelle sur Novita AI : 131 072 tokens de contexte, 0,07 $ par million de tokens d’entrée, 0,28 $ par million de tokens de sortie

Essayer la démo d’ERNIE-4.5-21B-A3B-Thinking

Qu’est-ce que l’ERNIE-4.5-21B-A3B-Thinking ?

ERNIE-4.5-21B-A3B-Thinking est un modèle post-entraînement textuel de Mélange d’Experts (MoE) de la série révolutionnaire ERNIE 4.5 de Baidu, qui comprend 10 modèles différents. Ce modèle représente une évolution significative des capacités de réflexion de l’IA, avec 21 milliards de paramètres au total dont seulement 3 milliards activés par jeton.

Le modèle introduit trois améliorations clés par rapport aux versions précédentes :

Amélioration des capacités de réflexion : ERNIE-4.5-21B-A3B-Thinking offre des performances considérablement améliorées sur les tâches de raisonnement, notamment le raisonnement logique, les mathématiques, les sciences, le codage, la génération de texte et les benchmarks académiques qui nécessitent généralement une expertise humaine. Le modèle présente une longueur de réflexion accrue, ce qui le rend particulièrement efficace pour les tâches de raisonnement très complexes.

Utilisation efficace des outils : Le modèle démontre des capacités exceptionnelles dans l’utilisation d’outils et l’appel de fonctions, ce qui le rend idéal pour les applications basées sur des agents. Cela permet une intégration transparente avec des systèmes et API externes pour des applications du monde réel.

Compréhension étendue du contexte : Grâce à ses capacités améliorées de compréhension de contexte long de 128K (131 072 tokens), ERNIE-4.5-21B-A3B-Thinking peut traiter des documents étendus, des bases de code et des conversations multi-tours complexes sans perdre de contexte ou de précision.

ERNIE-4.5-21B-A3B-Thinking utilise des techniques post-entraînement avancées, notamment le SFT (Supervised Fine-Tuning / Ajustement fin supervisé), le DPO (Direct Preference Optimization / Optimisation directe des préférences) et l’UPO propriétaire de Baidu (Unified Preference Optimization / Optimisation unifiée des préférences). Le modèle publie des poids de type Transformer pour s’aligner sur la communauté élargie, garantissant la compatibilité avec les écosystèmes PyTorch et PaddlePaddle, y compris vLLM et FastDeploy. Cette large compatibilité facilite l’intégration dans les flux de travail existants tout en maintenant l’efficacité computationnelle avec une exigence de seulement 80 Go × 1 GPU.

Explorer ERNIE-4.5-21B-A3B-Thinking dans le playground Novita AI →

Spécifications du modèle

ERNIE-4.5-21B-A3B-Thinking utilise une architecture sophistiquée de Mélange d’Experts optimisée pour la performance et l’efficacité. La conception du modèle permet l’activation sélective des experts les plus pertinents pour chaque jeton, atteignant un équilibre optimal entre capacité et coût computationnel.

Spécifications principales :

  • Paramètres totaux : 21 milliards
  • Paramètres activés : 3 milliards par jeton
  • Couches : 28
  • Têtes d’attention : 20 têtes de requête / 4 têtes clé-valeur
  • Experts textuels : 64 au total / 6 activés par jeton
  • Experts partagés : 2
  • Longueur de contexte : 131 072 tokens
  • Sortie maximale : 65 536 tokens
  • Capacités d’entrée/sortie : Texte
  • Étape d’entraînement : Post-entraînement
  • Fournisseur : Baidu
  • Licence : Apache 2.0
  • Quantification : FP8
  • Exigence GPU : 80 Go × 1 GPU
  • Prise en charge du raisonnement : Oui

L’architecture MoE d’ERNIE-4.5-21B-A3B-Thinking représente une avancée dans la conception d’IA efficace, héritant des innovations de la série ERNIE 4.5 élargie, notamment les techniques de routage isolé par modalité et de perte orthogonale de routeur. En n’activant que 3 milliards de paramètres par jeton tout en conservant l’accès à 21 milliards de paramètres au total, le modèle offre des performances de niveau entreprise sans la surcharge computationnelle typique.

La fenêtre de contexte de 131 072 tokens et la capacité de sortie de 65 536 tokens du modèle permettent de traiter des documents étendus et de générer des réponses complètes, ce qui le rend idéal pour des tâches analytiques complexes, la génération de contenu long et la documentation technique détaillée.

Points forts des performances

ERNIE-4.5-21B-A3B-Thinking démontre des performances exceptionnelles dans plusieurs domaines, atteignant des résultats de pointe (SOTA) dans le cadre de la famille ERNIE 4.5. Les capacités de réflexion améliorées et la profondeur de raisonnement accrue du modèle le rendent particulièrement efficace pour les tâches nécessitant une analyse multi-étapes et une résolution de problèmes complexes.

Benchmark d'ERNIE-4.5-21B-A3B-Thinking

Les points forts des performances incluent :

  • Raisonnement logique : ERNIE-4.5-21B-A3B-Thinking excelle dans les tâches de déduction logique complexes, démontrant des performances supérieures dans les énigmes, les syllogismes et les problèmes de raisonnement multi-étapes qui nécessitent une analyse minutieuse et une réflexion systématique.
  • Mathématiques : Le modèle présente des capacités avancées de résolution de problèmes mathématiques, traitant tout, des opérations arithmétiques de base au calcul complexe, à l’algèbre linéaire et aux concepts mathématiques abstraits avec une grande précision.
  • Sciences : Des capacités améliorées de raisonnement et d’analyse scientifiques permettent à ERNIE-4.5-21B-A3B-Thinking de traiter des problèmes dans les domaines de la physique, de la chimie, de la biologie et d’autres domaines scientifiques, en fournissant des explications détaillées et des solutions précises.
  • Codage : Avec des capacités améliorées de génération et de débogage de code dans plusieurs langages de programmation, le modèle peut écrire, analyser et optimiser du code tout en fournissant des explications claires des concepts de programmation et des bonnes pratiques.
  • Génération de texte : Une génération de langage naturel de haute qualité fait d’ERNIE-4.5-21B-A3B-Thinking un outil idéal pour la rédaction créative, la documentation technique et les tâches de création de contenu nécessitant une compréhension et une expression nuancées.
  • Benchmarks académiques : Le modèle atteint des performances compétitives sur les benchmarks nécessitant une expertise de niveau humain, démontrant sa préparation pour des applications professionnelles et académiques.

Tester les capacités d’ERNIE-4.5-21B-A3B-Thinking dans le playground Novita AI →

Commencer avec ERNIE-4.5-21B-A3B-Thinking sur la plateforme Novita AI

Novita AI propose plusieurs voies d’accès à ERNIE-4.5-21B-A3B-Thinking, adaptées à différents niveaux d’expertise technique et cas d’usage. Que vous soyez un utilisateur professionnel explorant les capacités de l’IA ou un développeur créant des applications de production, notre plateforme vous offre les outils et la flexibilité dont vous avez besoin.

Utiliser le playground (Disponible maintenant – Aucun code requis)

Le playground Novita AI offre le moyen le plus rapide de découvrir les capacités d’ERNIE-4.5-21B-A3B-Thinking sans aucune configuration technique :

Accès instantané : Inscrivez-vous et commencez à expérimenter avec ERNIE-4.5-21B-A3B-Thinking en quelques secondes. Aucune clé API ni configuration n’est requise pour les tests initiaux.

Interface interactive : Testez des prompts et visualisez les résultats en temps réel avec notre interface web intuitive. Ajustez des paramètres tels que la température (0,7 par défaut), le nombre maximal de tokens (jusqu’à 65 536) et les prompts système pour voir comment ils affectent le comportement du modèle.

Configuration du modèle : Affinez le format de réponse, la température, le top-p, le min-p, le top-k, la pénalité de présence, la pénalité de fréquence et la pénalité de répétition pour optimiser les résultats pour votre cas d’usage spécifique.

Le playground est parfait pour le prototypage, le test d’idées et la compréhension des capacités du modèle avant une mise en œuvre complète. Exportez vos prompts et configurations réussis directement vers du code pour une transition transparente vers la production.

Commencer à tester ERNIE-4.5-21B-A3B-Thinking dans le playground →

Intégration via API (En direct et prête – Pour les développeurs)

Pour les déploiements en production, Novita AI propose un accès API robuste à ERNIE-4.5-21B-A3B-Thinking avec une fiabilité et des performances de niveau entreprise, via des points de terminaison compatibles OpenAI.

Intégration API directe (Exemple Python)

Connectez ERNIE-4.5-21B-A3B-Thinking à vos applications en utilisant notre API compatible OpenAI :

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "baidu/ernie-4.5-21B-a3b-thinking"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

Une prise en charge supplémentaire de SDK est disponible pour TypeScript, Java, Go et Shell pour une intégration transparente dans toutes les piles technologiques.

Workflows multi-agents avec le SDK OpenAI Agents

Créez des systèmes multi-agents sophistiqués qui exploitent les capacités de réflexion améliorées d’ERNIE-4.5-21B-A3B-Thinking :

  • Intégration prête à l’emploi : Utilisez ERNIE-4.5-21B-A3B-Thinking dans tout flux de travail OpenAI Agents sans modification
  • Capacités avancées d’agents : Prise en charge complète des transferts, du routage et de l’intégration d’outils pour des flux de travail complexes
  • Appel de fonctions : Exploitez les définitions JsonSchema pour des interactions structurées et l’utilisation d’outils

Options de déploiement

Novita AI propose des options de déploiement flexibles adaptées à vos besoins et modes d’utilisation spécifiques.

API serverless

ERNIE-4.5-21B-A3B-Thinking est disponible via l’API serverless de Novita pour un accès immédiat et une tarification au token utilisé :

  • Aucune configuration requise : Commencez à utiliser le modèle instantanément sans gestion d’infrastructure
  • Tarification à l’usage : 0,07 $ par million de tokens d’entrée, 0,28 $ par million de tokens de sortie
  • Points de terminaison compatibles OpenAI : Remplacement drop-in pour les intégrations OpenAI existantes
  • Mise à l’échelle automatique : Gérez des charges de travail variables sans planification de capacité

Déploiements à la demande

Pour les applications à fort volume ou sensibles à la latence, les déploiements à la demande fournissent des ressources dédiées :

  • Pile de serving haute performance : Moteur d’inférence optimisé pour un débit maximal
  • Haute fiabilité : Des ressources GPU dédiées garantissent des performances constantes
  • Pas de limites de débit : Mettez à l’échelle selon vos besoins sans restrictions artificielles
  • Exigences GPU : 80 Go de VRAM (recommandé : NVIDIA A100 80 Go ou H100 80 Go pour des performances optimales)

Connexion avec des plateformes tierces

ERNIE-4.5-21B-A3B-Thinking sur Novita AI s’intègre de manière transparente à votre écosystème de développement existant :

Outils de développement : Intégration directe avec les IDE et environnements de développement populaires comme Cursor, Cline, Continue, Codex et Qwen Code via des API compatibles OpenAI.

Frameworks d’orchestration : Prise en charge native de LangChain, Dify, CrewAI, Langflow et d’autres plateformes d’orchestration d’IA grâce à des connecteurs officiels.

Intégration Hugging Face : En tant que fournisseur d’inférence officiel pour Hugging Face, Novita AI garantit une compatibilité large avec l’écosystème et un déploiement facile des modèles.

Conclusion

ERNIE-4.5-21B-A3B-Thinking sur Novita AI représente une avancée dans le raisonnement IA efficace, offrant aux développeurs et aux organisations l’accès aux capacités de réflexion les plus avancées de Baidu via notre plateforme fiable et évolutive.

La combinaison unique du modèle entre profondeur de raisonnement améliorée, utilisation efficace des outils et compréhension du contexte de 131K en fait le choix idéal pour les tâches de raisonnement complexes. Avec seulement 3 milliards de paramètres activés offrant des performances de modèle de 21 milliards de paramètres et nécessitant seulement 80 Go de mémoire GPU, ERNIE-4.5-21B-A3B-Thinking offre un équilibre inégalé entre capacité et efficacité.

Prêt à découvrir la puissance d’ERNIE-4.5-21B-A3B-Thinking ? Notre playground offre un accès instantané sans configuration requise – parfait pour explorer les capacités du modèle et tester vos cas d’usage. Commencez par notre interface interactive pour comprendre les points forts du modèle, puis passez de manière transparente à l’intégration API lorsque vous êtes prêt pour un déploiement en production.

Accéder à ERNIE-4.5-21B-A3B-Thinking sur le playground Novita AI maintenant →

Transformez vos projets avec un raisonnement IA avancé à seulement 0,07 $ par million de tokens d’entrée. Commencez à explorer en quelques secondes !

Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA via notre API simple, tout en fournissant un cloud GPU abordable et fiable pour la construction et la mise à l’échelle.