VRAM ERNIE : en local, il en faut beaucoup ; avec Novita AI, zéro VRAM nécessaire

Table des matières

Famille de modèles ERNIE
Alors, de combien de VRAM ERNIE a-t-il besoin ?
Les inconvénients des besoins élevés en VRAM et conseils pratiques
Novita AI : accédez à ERNIE avec 0 VRAM requis
Foire aux questions

ERNIE 4.5 300B A47B Base est officiellement disponible sur la plateforme Novita AI, offrant aux utilisateurs l’accès à un modèle qui surpasse DeepSeek V3 671B sur 22 des 28 benchmarks. Même comparé à des applications haut de gamme comme DeepSeek R1, ERNIE 4.5 démontre des performances remarquables. Encore plus excitant : la tarification est très compétitive !

Nom du modèle	Longueur du contexte	Prix d’entrée	Prix de sortie
ERNIE 4.5 VL 28B A3B	30k	Gratuit	Gratuit
ERNIE 4.5 VL 424B A47B	123k	0,42 $ / 1M tokens	1,25 $ / 1M tokens
ERNIE 4.5 0.3B	120k	Gratuit	Gratuit
ERNIE 4.5 21B A3B	120k	Gratuit	Gratuit
ERNIE 4.5 300B A47B Paddle	123k	0,30 $ / 1M tokens	1,00 $ / 1M tokens
DeepSeek R1 0528	163k	0,70 $ / 1M tokens	2,50 $ / 1M tokens
DeepSeek V3 0324	163k	0,28 $ / 1M tokens	1,14 $ / 1M tokens

Mais cette baisse de prix signifie-t-elle que les besoins matériels – en particulier la VRAM – sont également réduits ? Ou l’exécution d’un modèle aussi puissant nécessite-t-elle encore des ressources importantes ? Dans les sections suivantes, nous détaillons exactement la quantité de VRAM dont ERNIE 4.5 a besoin en local.

Famille de modèles ERNIE

Nom du modèle	Paramètres de base	Paramètres actifs	Type de modèle	Modalité	Type d’entraînement
ERNIE 4.5 VL 424B A47B	424B	47B	MoE	Texte et vision	PT
ERNIE 4.5 VL 424B A47B Base	424B	47B	MoE	Texte et vision	Base
ERNIE 4.5 VL 28B A3B	28B	3B	MoE	Texte et vision	PT
ERNIE 4.5 VL 28B A3B Base	28B	3B	MoE	Texte et vision	Base
ERNIE 4.5 300B A47B	300B	47B	MoE	Texte	PT
ERNIE 4.5 300B A47B Base	300B	47B	MoE	Texte	Base
ERNIE 4.5 21B A3B	21B	3B	MoE	Texte	PT
ERNIE 4.5 21B A3B Base	21B	3B	MoE	Texte	Base
ERNIE 4.5 0.3B	0.3B	-	Dense	Texte	PT
ERNIE 4.5 0.3B Base	0.3B	-	Dense	Texte	Base

Innovations de la famille ERNIE

Excellentes performances de la famille ERNIE

Performances des modèles pré-entraînés ERNIE 4.5

Général : ERNIE 4.5 21B A3B Base et 300B A7B Base surpassent certains benchmarks comme C-Eval, CMMU, etc. Qwen3 30B A3B Base est performant sur d’autres.
Raisonnement : Qwen3 30B A3B Base est leader sur la série ARC ; ERNIE 4.5 21B A3B Base est bon sur BBH, Drop.
Mathématiques : ERNIE 4.5 21B A3B Base et 300B A7B Base excellent sur certains comme GSM8K, CMATH ; Qwen3 30B A3B Base a aussi des points forts.
Connaissances : ERNIE 4.5 21B A3B Base performe bien sur SimpleQA, ChineseSimpleQA.
Code : ERNIE 4.5 21B A3B Base et 300B A7B Base sont compétitifs sur HumanEval+, MultiPLE.

Performances des modèles multimodaux post-entraînés en mode non réflexif

Qwen2.5

Points forts : Excellent en QA visuelle de base, raisonnement multimodal simple, tâches vidéo légères. Performant sur MMBench cn/en.
Faiblesses : Difficultés avec les tâches complexes de documents/tableaux, le raisonnement multimodal profond et la perception visuelle détaillée. Moins performant sur la compréhension vidéo basée sur les sous-titres.

ERNIE 4.5

Points forts : Domine les tâches complexes de documents/tableaux, le raisonnement multimodal profond, la perception visuelle précise et la compréhension vidéo sous-titrée. Globalement très fort en complexité multimodale.
Faiblesses : Moins compétitif en QA visuelle de base et tâches vidéo simples.

Alors, de combien de VRAM ERNIE a-t-il besoin ?

🚀 Précision FP16

Modèle	Paramètres (actifs)	VRAM nécessaire	GPU(s) idéal(aux)
ERNIE 4.5 VL 424B	424B (47B actifs)	~945 Go	NVIDIA H100 (80 Go) × 12
ERNIE 4.5 300B	300B (47B actifs)	~668 Go	NVIDIA H100 (80 Go) × 9
ERNIE 4.5 VL 28B	28B (3B actifs)	~64 Go	NVIDIA A100/H100 (80 Go)
ERNIE 4.5 21B	21B (3B actifs)	~48 Go	NVIDIA RTX 6000 Ada (48 Go)
ERNIE 4.5 0.3B	300M	~2,5 Go	NVIDIA RTX 4060 (8 Go) / RTX 3060 (12 Go)
Gemma 3 27B	27B	~65,2 Go	NVIDIA A100/H100 (80 Go)

⚡ Précision INT4

Modèle	Paramètres (actifs)	VRAM nécessaire	GPU(s) idéal(aux)
ERNIE 4.5 VL 424B	424B (47B actifs)	~237 Go	NVIDIA H100 (80 Go) × 3
ERNIE 4.5 300B	300B (47B actifs)	~168 Go	NVIDIA H100 (80 Go) × 3
ERNIE 4.5 VL 28B	28B (3B actifs)	~17 Go	NVIDIA RTX 4090 (24 Go) / A10G (24 Go)
ERNIE 4.5 21B	21B (3B actifs)	~13 Go	NVIDIA RTX 4080 (16 Go) / A10G (24 Go)
ERNIE 4.5 0.3B	300M	~1,8 Go	La plupart des GPU avec >4 Go de VRAM
Gemma 3 27B	27B	~14,1 Go	Tout GPU haut de gamme avec ≥16 Go de VRAM

Les inconvénients des besoins élevés en VRAM et conseils pratiques

Des besoins élevés en VRAM posent plusieurs défis aux utilisateurs. Tout d’abord, les coûts matériels peuvent exploser – les GPU haut de gamme comme le NVIDIA H100 sont chers et nécessitent souvent des clusters multi-GPU pour faire tourner les plus gros modèles, les rendant inabordables pour les particuliers ou les petites organisations. Ensuite, la consommation électrique et la génération de chaleur augmentent avec davantage de GPU, entraînant des coûts d’exploitation plus élevés et des solutions de refroidissement plus complexes. Enfin, de telles configurations peuvent être difficiles à maintenir, nécessitant une expertise technique en matériel, calcul distribué et configuration logicielle.

Ces défis peuvent aussi limiter l’accessibilité : de nombreux chercheurs, développeurs et passionnés n’ont tout simplement pas accès à l’infrastructure nécessaire, ce qui peut freiner l’innovation et l’expérimentation.

Conseils pour surmonter les besoins élevés en VRAM :

Utilisez des modèles quantifiés : Optez pour des versions INT4 ou autres versions compressées/quantifiées pour réduire considérablement les besoins en VRAM, souvent avec un impact minimal sur les performances pour de nombreuses tâches.
Solutions cloud : Envisagez d’utiliser des plateformes cloud qui permettent de louer des GPU haut de gamme uniquement lorsque nécessaire, plutôt que d’investir dans du matériel coûteux.
Déchargement et streaming de modèle : Utilisez des outils ou plateformes qui prennent en charge le déchargement, le partitionnement ou le streaming du modèle, afin que toutes les données ne résident pas simultanément dans la VRAM du GPU.

Novita AI : accédez à ERNIE avec 0 VRAM requis

Démarrer avec ERNIE 4.5 sur Novita AI est simple et sans risque.

Les nouveaux utilisateurs reçoivent 10 $ de crédits gratuits – suffisants pour explorer ERNIE 4.5 sans frais initiaux.

Essayez Novita AI dès aujourd’hui !

Utilisez le Playground (aucun codage requis)

Accès instantané : Inscrivez-vous, réclamez vos crédits gratuits et commencez à expérimenter avec ERNIE 4.5 et d’autres modèles de premier plan en quelques secondes.
Interface interactive : Testez des prompts, le raisonnement en chaîne de pensée et visualisez les résultats en temps réel.
Comparaison de modèles : Basculez facilement entre ERNIE 4.5, Qwen 3, Llama 4, DeepSeek et plus encore pour trouver la solution parfaite à vos besoins.

Intégrez via l’API (pour les développeurs)

Connectez ERNIE 4.5 de manière transparente à des applications, workflows ou chatbots en utilisant l’API REST unifiée de Novita AI. Aucune gestion des poids de modèle ni préoccupation d’infrastructure – Novita AI fournit des SDK multilingues et des contrôles de paramètres avancés.

1. Intégration API directe (exemple Python)

curl "https://api.novita.ai/v3/openai/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer " \
  -d @- << 'EOF'
{
    "model": "baidu/ernie-4.5-300b-a47b-paddle",
    "messages": [
        {
            "role": "system",
            "content": Be a helpful assistant
        },
        {
            "role": "user",
            "content": "Hi there!"
        }
from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "baidu/ernie-4.5-300b-a47b-paddle"
stream = True # or False
max_tokens = 6000
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
      "response_format": { "type": "text" },
    "max_tokens": 32768,
    "temperature": 1,
    "top_p": 1,
    "min_p": 0,
    "top_k": 50,
    "presence_penalty": 0,
    "frequency_penalty": 0,
    "repetition_penalty": 1
}
EOF

2. Workflows multi-agents avec OpenAI Agents SDK

Construisez des systèmes multi-agents avancés en intégrant Novita AI au SDK OpenAI Agents :

Prêt à l’emploi : Utilisez ERNIE 4.5 de Novita AI dans tout workflow OpenAI Agents.
Prend en charge les transferts, le routage et l’utilisation d’outils : Concevez des agents capables de déléguer, trier ou exécuter des fonctions, le tout propulsé par les capacités d’ERNIE 4.5.
Intégration Python : Il suffit de pointer le SDK vers le point de terminaison Novita (https://api.novita.ai/v3/openai) et d’utiliser votre clé API.

Connectez l’API ERNIE 4.5 sur des plateformes tierces

Hugging Face : Utilisez ERNIE 4.5 dans Spaces, pipelines ou avec la bibliothèque Transformers via les points de terminaison Novita AI.
Frameworks d’agents et d’orchestration : Connectez facilement Novita AI à des plateformes partenaires comme Continue, AnythingLLM, LangChain, Dify et Langflow grâce à des connecteurs officiels et des guides d’intégration pas à pas.
API compatible OpenAI : Profitez d’une migration et d’une intégration sans effort avec des outils comme Cline et Cursor, conçus pour le standard de l’API OpenAI.

Même si exécuter ERNIE 4.5 sur votre propre matériel nécessiterait des GPU très puissants (et coûteux), Novita AI vous permet d’utiliser ces grands modèles facilement, avec zéro VRAM requis de votre côté. Cela rend l’IA avancée accessible à tous, des débutants aux développeurs.

Foire aux questions

ERNIE 4.5 est-il vraiment meilleur que les autres grands modèles d’IA ?

Oui, ERNIE 4.5 obtient des scores plus élevés que DeepSeek V3 671B dans la plupart des benchmarks et est très compétitif face aux autres modèles de pointe.

ERNIE 4.5 peut-il être utilisé pour des tâches de code et de mathématiques ?

Oui, les modèles ERNIE 4.5 performent bien en code (comme HumanEval+) et en benchmarks mathématiques (comme GSM8K, CMATH).

De combien de VRAM ai-je besoin pour exécuter ERNIE 4.5 ?

Exécuter les plus grandes versions d’ERNIE 4.5 (comme 424B ou 300B) nécessite une VRAM très élevée – des centaines de Go et plusieurs GPU haut de gamme. Les versions plus petites ou quantifiées nécessitent beaucoup moins de VRAM.

Novita AI est la plateforme cloud tout-en-un qui propulse vos ambitions IA. API intégrées, serverless, instances GPU – les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et donnez vie à votre vision IA.

VRAM ERNIE : en local, il en faut beaucoup ; avec Novita AI, zéro VRAM nécessaire