ERNIE 4.5 300B A47B Base est officiellement disponible sur la plateforme Novita AI, offrant aux utilisateurs l’accès à un modèle qui surpasse DeepSeek V3 671B sur 22 des 28 benchmarks. Même comparé à des applications haut de gamme comme DeepSeek R1, ERNIE 4.5 démontre des performances remarquables. Encore plus excitant : la tarification est très compétitive !
| Nom du modèle | Longueur du contexte | Prix d’entrée | Prix de sortie |
|---|---|---|---|
| ERNIE 4.5 VL 28B A3B | 30k | Gratuit | Gratuit |
| ERNIE 4.5 VL 424B A47B | 123k | 0,42 $ / 1M tokens | 1,25 $ / 1M tokens |
| ERNIE 4.5 0.3B | 120k | Gratuit | Gratuit |
| ERNIE 4.5 21B A3B | 120k | Gratuit | Gratuit |
| ERNIE 4.5 300B A47B Paddle | 123k | 0,30 $ / 1M tokens | 1,00 $ / 1M tokens |
| DeepSeek R1 0528 | 163k | 0,70 $ / 1M tokens | 2,50 $ / 1M tokens |
| DeepSeek V3 0324 | 163k | 0,28 $ / 1M tokens | 1,14 $ / 1M tokens |
Mais cette baisse de prix signifie-t-elle que les besoins matériels – en particulier la VRAM – sont également réduits ? Ou l’exécution d’un modèle aussi puissant nécessite-t-elle encore des ressources importantes ? Dans les sections suivantes, nous détaillons exactement la quantité de VRAM dont ERNIE 4.5 a besoin en local.
Famille de modèles ERNIE
| Nom du modèle | Paramètres de base | Paramètres actifs | Type de modèle | Modalité | Type d’entraînement |
|---|---|---|---|---|---|
| ERNIE 4.5 VL 424B A47B | 424B | 47B | MoE | Texte et vision | PT |
| ERNIE 4.5 VL 424B A47B Base | 424B | 47B | MoE | Texte et vision | Base |
| ERNIE 4.5 VL 28B A3B | 28B | 3B | MoE | Texte et vision | PT |
| ERNIE 4.5 VL 28B A3B Base | 28B | 3B | MoE | Texte et vision | Base |
| ERNIE 4.5 300B A47B | 300B | 47B | MoE | Texte | PT |
| ERNIE 4.5 300B A47B Base | 300B | 47B | MoE | Texte | Base |
| ERNIE 4.5 21B A3B | 21B | 3B | MoE | Texte | PT |
| ERNIE 4.5 21B A3B Base | 21B | 3B | MoE | Texte | Base |
| ERNIE 4.5 0.3B | 0.3B | - | Dense | Texte | PT |
| ERNIE 4.5 0.3B Base | 0.3B | - | Dense | Texte | Base |
Innovations de la famille ERNIE

Excellentes performances de la famille ERNIE

Performances des modèles pré-entraînés ERNIE 4.5
- Général : ERNIE 4.5 21B A3B Base et 300B A7B Base surpassent certains benchmarks comme C-Eval, CMMU, etc. Qwen3 30B A3B Base est performant sur d’autres.
- Raisonnement : Qwen3 30B A3B Base est leader sur la série ARC ; ERNIE 4.5 21B A3B Base est bon sur BBH, Drop.
- Mathématiques : ERNIE 4.5 21B A3B Base et 300B A7B Base excellent sur certains comme GSM8K, CMATH ; Qwen3 30B A3B Base a aussi des points forts.
- Connaissances : ERNIE 4.5 21B A3B Base performe bien sur SimpleQA, ChineseSimpleQA.
- Code : ERNIE 4.5 21B A3B Base et 300B A7B Base sont compétitifs sur HumanEval+, MultiPLE.

Performances des modèles multimodaux post-entraînés en mode non réflexif
Qwen2.5
- Points forts : Excellent en QA visuelle de base, raisonnement multimodal simple, tâches vidéo légères. Performant sur MMBench cn/en.
- Faiblesses : Difficultés avec les tâches complexes de documents/tableaux, le raisonnement multimodal profond et la perception visuelle détaillée. Moins performant sur la compréhension vidéo basée sur les sous-titres.
ERNIE 4.5
- Points forts : Domine les tâches complexes de documents/tableaux, le raisonnement multimodal profond, la perception visuelle précise et la compréhension vidéo sous-titrée. Globalement très fort en complexité multimodale.
- Faiblesses : Moins compétitif en QA visuelle de base et tâches vidéo simples.
Alors, de combien de VRAM ERNIE a-t-il besoin ?
🚀 Précision FP16
| Modèle | Paramètres (actifs) | VRAM nécessaire | GPU(s) idéal(aux) |
|---|---|---|---|
| ERNIE 4.5 VL 424B | 424B (47B actifs) | ~945 Go | NVIDIA H100 (80 Go) × 12 |
| ERNIE 4.5 300B | 300B (47B actifs) | ~668 Go | NVIDIA H100 (80 Go) × 9 |
| ERNIE 4.5 VL 28B | 28B (3B actifs) | ~64 Go | NVIDIA A100/H100 (80 Go) |
| ERNIE 4.5 21B | 21B (3B actifs) | ~48 Go | NVIDIA RTX 6000 Ada (48 Go) |
| ERNIE 4.5 0.3B | 300M | ~2,5 Go | NVIDIA RTX 4060 (8 Go) / RTX 3060 (12 Go) |
| Gemma 3 27B | 27B | ~65,2 Go | NVIDIA A100/H100 (80 Go) |
⚡ Précision INT4
| Modèle | Paramètres (actifs) | VRAM nécessaire | GPU(s) idéal(aux) |
|---|---|---|---|
| ERNIE 4.5 VL 424B | 424B (47B actifs) | ~237 Go | NVIDIA H100 (80 Go) × 3 |
| ERNIE 4.5 300B | 300B (47B actifs) | ~168 Go | NVIDIA H100 (80 Go) × 3 |
| ERNIE 4.5 VL 28B | 28B (3B actifs) | ~17 Go | NVIDIA RTX 4090 (24 Go) / A10G (24 Go) |
| ERNIE 4.5 21B | 21B (3B actifs) | ~13 Go | NVIDIA RTX 4080 (16 Go) / A10G (24 Go) |
| ERNIE 4.5 0.3B | 300M | ~1,8 Go | La plupart des GPU avec >4 Go de VRAM |
| Gemma 3 27B | 27B | ~14,1 Go | Tout GPU haut de gamme avec ≥16 Go de VRAM |
Les inconvénients des besoins élevés en VRAM et conseils pratiques
Des besoins élevés en VRAM posent plusieurs défis aux utilisateurs. Tout d’abord, les coûts matériels peuvent exploser – les GPU haut de gamme comme le NVIDIA H100 sont chers et nécessitent souvent des clusters multi-GPU pour faire tourner les plus gros modèles, les rendant inabordables pour les particuliers ou les petites organisations. Ensuite, la consommation électrique et la génération de chaleur augmentent avec davantage de GPU, entraînant des coûts d’exploitation plus élevés et des solutions de refroidissement plus complexes. Enfin, de telles configurations peuvent être difficiles à maintenir, nécessitant une expertise technique en matériel, calcul distribué et configuration logicielle.
Ces défis peuvent aussi limiter l’accessibilité : de nombreux chercheurs, développeurs et passionnés n’ont tout simplement pas accès à l’infrastructure nécessaire, ce qui peut freiner l’innovation et l’expérimentation.
Conseils pour surmonter les besoins élevés en VRAM :
- Utilisez des modèles quantifiés : Optez pour des versions INT4 ou autres versions compressées/quantifiées pour réduire considérablement les besoins en VRAM, souvent avec un impact minimal sur les performances pour de nombreuses tâches.
- Solutions cloud : Envisagez d’utiliser des plateformes cloud qui permettent de louer des GPU haut de gamme uniquement lorsque nécessaire, plutôt que d’investir dans du matériel coûteux.
- Déchargement et streaming de modèle : Utilisez des outils ou plateformes qui prennent en charge le déchargement, le partitionnement ou le streaming du modèle, afin que toutes les données ne résident pas simultanément dans la VRAM du GPU.
Novita AI : accédez à ERNIE avec 0 VRAM requis
Démarrer avec ERNIE 4.5 sur Novita AI est simple et sans risque.
Les nouveaux utilisateurs reçoivent 10 $ de crédits gratuits – suffisants pour explorer ERNIE 4.5 sans frais initiaux.
Essayez Novita AI dès aujourd’hui !
Utilisez le Playground (aucun codage requis)
- Accès instantané : Inscrivez-vous, réclamez vos crédits gratuits et commencez à expérimenter avec ERNIE 4.5 et d’autres modèles de premier plan en quelques secondes.
- Interface interactive : Testez des prompts, le raisonnement en chaîne de pensée et visualisez les résultats en temps réel.
- Comparaison de modèles : Basculez facilement entre ERNIE 4.5, Qwen 3, Llama 4, DeepSeek et plus encore pour trouver la solution parfaite à vos besoins.

Intégrez via l’API (pour les développeurs)
Connectez ERNIE 4.5 de manière transparente à des applications, workflows ou chatbots en utilisant l’API REST unifiée de Novita AI. Aucune gestion des poids de modèle ni préoccupation d’infrastructure – Novita AI fournit des SDK multilingues et des contrôles de paramètres avancés.
1. Intégration API directe (exemple Python)
curl "https://api.novita.ai/v3/openai/chat/completions" \
-H "Content-Type: application/json" \
-H "Authorization: Bearer " \
-d @- << 'EOF'
{
"model": "baidu/ernie-4.5-300b-a47b-paddle",
"messages": [
{
"role": "system",
"content": Be a helpful assistant
},
{
"role": "user",
"content": "Hi there!"
}
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
"response_format": { "type": "text" },
"max_tokens": 32768,
"temperature": 1,
"top_p": 1,
"min_p": 0,
"top_k": 50,
"presence_penalty": 0,
"frequency_penalty": 0,
"repetition_penalty": 1
}
EOF
2. Workflows multi-agents avec OpenAI Agents SDK
Construisez des systèmes multi-agents avancés en intégrant Novita AI au SDK OpenAI Agents :
- Prêt à l’emploi : Utilisez ERNIE 4.5 de Novita AI dans tout workflow OpenAI Agents.
- Prend en charge les transferts, le routage et l’utilisation d’outils : Concevez des agents capables de déléguer, trier ou exécuter des fonctions, le tout propulsé par les capacités d’ERNIE 4.5.
- Intégration Python : Il suffit de pointer le SDK vers le point de terminaison Novita (
https://api.novita.ai/v3/openai) et d’utiliser votre clé API.
Connectez l’API ERNIE 4.5 sur des plateformes tierces
-
Hugging Face : Utilisez ERNIE 4.5 dans Spaces, pipelines ou avec la bibliothèque Transformers via les points de terminaison Novita AI.
-
Frameworks d’agents et d’orchestration : Connectez facilement Novita AI à des plateformes partenaires comme Continue, AnythingLLM, LangChain, Dify et Langflow grâce à des connecteurs officiels et des guides d’intégration pas à pas.
-
API compatible OpenAI : Profitez d’une migration et d’une intégration sans effort avec des outils comme Cline et Cursor, conçus pour le standard de l’API OpenAI.
Même si exécuter ERNIE 4.5 sur votre propre matériel nécessiterait des GPU très puissants (et coûteux), Novita AI vous permet d’utiliser ces grands modèles facilement, avec zéro VRAM requis de votre côté. Cela rend l’IA avancée accessible à tous, des débutants aux développeurs.
Foire aux questions
ERNIE 4.5 est-il vraiment meilleur que les autres grands modèles d’IA ?
Oui, ERNIE 4.5 obtient des scores plus élevés que DeepSeek V3 671B dans la plupart des benchmarks et est très compétitif face aux autres modèles de pointe.
ERNIE 4.5 peut-il être utilisé pour des tâches de code et de mathématiques ?
Oui, les modèles ERNIE 4.5 performent bien en code (comme HumanEval+) et en benchmarks mathématiques (comme GSM8K, CMATH).
De combien de VRAM ai-je besoin pour exécuter ERNIE 4.5 ?
Exécuter les plus grandes versions d’ERNIE 4.5 (comme 424B ou 300B) nécessite une VRAM très élevée – des centaines de Go et plusieurs GPU haut de gamme. Les versions plus petites ou quantifiées nécessitent beaucoup moins de VRAM.
Novita AI est la plateforme cloud tout-en-un qui propulse vos ambitions IA. API intégrées, serverless, instances GPU – les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et donnez vie à votre vision IA.
