Comment accéder à ERNIE-4.5-VL-A3B dans des workflows augmentés par des outils

Table des matières

Architecture de ERNIE-4.5-VL-28B-A3B
Pourquoi ERNIE-4.5-VL-28B-A3B-Thinking peut améliorer les workflows de code augmentés par des outils
Ce que fait réellement ERNIE-4.5-VL-28B-A3B-Thinking dans un workflow d'outil de code
Comment accéder à ERNIE-4.5-VL-28B-A3B-Thinking à bon prix ?

Novita AI lance sa campagne « Mois de la construction », offrant aux développeurs une réduction exclusive allant jusqu’à 20 % sur tous les produits principaux !

Participez au Mois de la construction !

Les développeurs modernes ont de plus en plus de difficultés à intégrer des entrées riches en éléments visuels tels que des diagrammes, des captures d’écran et des documents techniques dans leurs workflows de code, tout en maintenant une latence faible et des coûts maîtrisés. Les VLM traditionnels sont soit trop lents pour être intégrés dans des boucles d’outils, soit trop peu performants en raisonnement structuré pour guider de véritables décisions d’ingénierie.

Cet article explique comment ERNIE-4.5-VL-28B-A3B-Thinking comble ce manque en combinant des benchmarks de raisonnement visuel-langage performants avec une architecture A3B permettant une inférence rapide et répétée, et démontre comment ces propriétés le rendent adapté aux workflows de code augmentés par des outils.

Architecture de ERNIE-4.5-VL-28B-A3B

En n’activant que 3 milliards de paramètres par jeton à partir d’un réservoir dense de 28 milliards, le modèle atteint une intelligence de niveau flagship avec des coûts d’inférence de type edge.

Le « A3B » dans le nom du modèle signifie Active 3B, signalant une architecture de Mélange d’Experts (MoE) conçue pour une efficacité extrême.

Paramètres totaux : 28 à 30 milliards (MoE sparse)
Paramètres actifs : 3 milliards (inférence par jeton)
Fenêtre de contexte : 128k jetons
Améliorations principales :
- Raisonnement avec des images : Contrairement aux VLM standards qui traitent les images comme des jetons statiques, ce modèle peut itérativement « zoomer » et « rechercher » dans une image pour résoudre des détails fins.
- GSPO et IcePop RL : Utilise un apprentissage par renforcement avancé (Optimisation par auto-jeu basé sur des groupes) pour stabiliser l’entraînement MoE, en s’assurant que les experts sont correctement acheminés pour des logiques complexes.

Cas 1 : Raisonnement avec des images d’ERNIE-4.5-VL-28B-A3B

Quel est le texte du panneau avec un fond bleu sur le mur à côté du trottoir ?

Source : Baidu

Cas : Résolution d’un circuit en pont pour calculer la résistance équivalente

Dans cet exemple, le modèle est confronté à un circuit en pont non trivial et doit calculer la résistance équivalente entre les nœuds A et B.

Source : Baidu

Pourquoi ERNIE-4.5-VL-28B-A3B-Thinking peut améliorer les workflows de code augmentés par des outils

Les scores des benchmarks montrent une force constante en raisonnement STEM, compréhension de documents et ancrage visuel, qui correspondent directement aux étapes cognitives les plus difficiles des workflows de code du monde réel.

Sur les benchmarks de compréhension de documents et de raisonnement structuré, ERNIE-4.5-VL-A3B atteint ou dépasse fréquemment la fourchette du 95e percentile de Gemini-2.5-Pro et GPT-5-High, bien qu’il n’active qu’une fraction des paramètres par jeton.

Benchmark	ERNIE-4.5-VL-A3B	Gemini-2.5-Pro	GPT-5-High	Ce que cela signifie pour les développeurs
MathVista	82.5	82.7	81.3	Raisonnement symbolique multi-étapes fiable
MathVerse	81.0	82.9	84.1	Forte abstraction sous contraintes
MMMU	72.2	81.7	84.2	Décomposition de problèmes multimodaux
ChartQA	87.1	78.3	78.2	Extraction de données structurées
DocVQA (val)	93.6	91.2	94.2	Ancrage précis de documents
OCRBench	85.8	86.4	81.0	Reconnaissance de texte robuste à partir d’éléments visuels
CharXiv-DQ	90.3	91.2	93.5	Raisonnement technique de longue forme
CV-Bench	83.8	84.8	85.0	Cohérence logique visuelle
Average (All)	73.1	75.4	76.6	Modèle compact, raisonnement quasi flagship

Bien que le modèle dispose de 28 milliards de paramètres, seuls 3 milliards sont actifs par jeton, ce qui permet un raisonnement rapide à faible latence adapté aux appels répétés dans des boucles d’outils.

Caractéristiques clés pertinentes pour les utilisateurs :

Paramètres actifs : 3 milliards par jeton
Latence effective : Comparable à celle des modèles petits et moyens
Longueur de contexte : Jusqu’à 128k jetons, prenant en charge le raisonnement au niveau système

La conception A3B permet :

Des passes de raisonnement fréquentes sans coût prohibitif
Une latence stable dans les workflows agentiques
Un déploiement pratique en tant qu’API de raisonnement toujours disponible

Essayez ERNIE-4.5-VL-28B-A3B-Thinking dès maintenant !

Ce que fait réellement ERNIE-4.5-VL-28B-A3B-Thinking dans un workflow d’outil de code

ERNIE-4.5-VL-28B-A3B-Thinking traite la vision comme une entrée de raisonnement, et pas seulement comme un extracteur de fonctionnalités, permettant aux développeurs d’intégrer directement des captures d’écran, des diagrammes et des documents dans leurs workflows de code. Il ne s’agit pas de génération de texte par OCR. Le modèle raisonne sur la structure visuelle et l’aligne sur l’intention.

1. Compréhension des diagrammes et de l’architecture

Le modèle peut interpréter des diagrammes système et convertir la structure visuelle en relations logiques pertinentes pour les décisions de code.

Ce que la capacité VL apporte

Identifie les composants, les limites et le flux de données à partir de diagrammes
Aligne les éléments visuels avec les descriptions textuelles
Préserve les relations structurelles dans le raisonnement

Exemple

Entrée : Diagramme d’architecture microservices + note de conception courte
Sortie : Explication des dépendances des services et des chemins de communication
Impact : Les outils de code sont guidés vers les modules corrects au lieu d’analyser l’ensemble de la base de code

2. Compréhension du contexte de code à partir de captures d’écran

Le modèle peut raisonner sur des captures d’écran d’interface utilisateur ou d’EDI pour déduire la logique et l’intention sous-jacentes.

Ce que la capacité VL apporte

Lit les dispositions d’interface, les journaux et les états d’erreur à partir de captures d’écran
Connecte les états visuels aux chemins de code probables
Gère les informations textuelles incomplètes ou partielles

Exemple

Entrée : Capture d’écran d’un tableau de bord en échec avec des messages d’erreur partiels
Sortie : Hypothèse sur une incohérence frontend-backend et la couche API concernée
Impact : Débogage plus rapide sans nécessiter la reproduction complète des journaux

3. Raisonnement de code centré sur les documents

Le modèle excelle dans l’extraction de logique exploitable à partir de documents techniques qui mélangent texte, tableaux et éléments visuels.

Ce que la capacité VL apporte

Analyse des spécifications, des PDF et des documents de type recherche
Lie les figures et les tableaux à la logique d’implémentation
Maintient l’alignement sur l’ensemble de longs documents

Exemple

Entrée : PDF de spécification d’API avec des tableaux et des diagrammes de flux
Sortie : Résumé structuré des points d’accès, des contraintes et des cas limites
Impact : Les outils de génération de code partent d’une compréhension correcte et fondée

4. Raisonnement visuel pour la décomposition de problèmes

Les entrées visuelles sont utilisées pour piloter un raisonnement multi-étapes, et pas seulement pour la reconnaissance.

Ce que la capacité VL apporte

Convertit les problèmes visuels en représentations symboliques
Maintient la cohérence entre les étapes de raisonnement
Prend en charge l’abstraction avant l’implémentation

Exemple

Entrée : Diagramme de flux de pipeline de données
Sortie : Décomposition étape par étape des étapes de traitement et des points de défaillance
Impact : Permet des appels d’outils ciblés au lieu d’un débogage général

Essayez ERNIE-4.5-VL-28B-A3B-Thinking dès maintenant !

Comment accéder à ERNIE-4.5-VL-28B-A3B-Thinking à bon prix ?

Novita AI propose des API ERNIE-4.5-VL-28B-A3B-Thinking avec une fenêtre de contexte de 30K à $0.112 par entrée et $0.448 par sortie, prenant en charge les sorties structurées et l’appel de fonctions.

Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Étape 2 : Choisissez votre modèle

Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Essayez ERNIE-4.5-VL-28B-A3B-Thinking dès maintenant !

Étape 3 : Démarrez votre essai gratuit

Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Étape 4 : Récupérez votre clé API

Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. En accédant à la page « Paramètres », vous pouvez copier la clé API comme indiqué sur l’image.

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="baidu/ernie-4.5-vl-28b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=8000,
    temperature=0.7
)

print(response.choices[0].message.content)

ERNIE-4.5-VL-28B-A3B-Thinking atteint des performances de raisonnement visuel-langage quasi flagship tout en n’activant que 3 milliards de paramètres par jeton, ce qui permet un raisonnement à faible latence et haute fréquence dans les workflows d’outils. Ses forces prouvées par les benchmarks en compréhension de documents, ancrage visuel et raisonnement STEM lui permettent d’agir comme un coordinateur de raisonnement plutôt qu’un moteur de syntaxe. En conséquence, il est particulièrement adapté aux développeurs qui ont besoin d’intégrer des diagrammes, des captures d’écran et des documents techniques dans des outils de code sans sacrifier la vitesse ou l’efficacité des coûts.

Questions fréquemment posées

Pour quels types de tâches de raisonnement ERNIE-4.5-VL-28B-A3B-Thinking est-il le plus adapté ?

ERNIE-4.5-VL-28B-A3B-Thinking est le plus adapté aux tâches de raisonnement visuel-langage telles que l’interprétation de diagrammes, la compréhension de documents et la décomposition de problèmes structurés, plutôt qu’à la génération de code pur au niveau syntaxique.

ERNIE-4.5-VL-28B-A3B-Thinking peut-il remplacer un LLM spécialisé dans le code ?

Non. ERNIE-4.5-VL-28B-A3B-Thinking est conçu pour compléter les modèles spécialisés dans le code en gérant la compréhension visuelle, la planification et la validation, et non l’exécution de code de bas niveau.

Qu’est-ce qui distingue la capacité visuel-langage d’ERNIE-4.5-VL-28B-A3B-Thinking des modèles basés sur l’OCR ?

ERNIE-4.5-VL-28B-A3B-Thinking raisonne sur la structure visuelle et l’intention, permettant des tâches telles que la compréhension de systèmes basée sur des diagrammes et le débogage basé sur des captures d’écran, plutôt qu’une simple extraction de texte.

Novita AI est la plateforme cloud tout-en-un qui donne vie à vos ambitions en IA. API intégrées, serverless, instances GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et concrétisez votre vision de l’IA.

Comment accéder à ERNIE-4.5-VL-A3B dans des workflows augmentés par des outils

Architecture de ERNIE-4.5-VL-28B-A3B

Cas 1 : Raisonnement avec des images d’ERNIE-4.5-VL-28B-A3B

Cas : Résolution d’un circuit en pont pour calculer la résistance équivalente

Pourquoi ERNIE-4.5-VL-28B-A3B-Thinking peut améliorer les workflows de code augmentés par des outils

Ce que fait réellement ERNIE-4.5-VL-28B-A3B-Thinking dans un workflow d’outil de code

1. Compréhension des diagrammes et de l’architecture

2. Compréhension du contexte de code à partir de captures d’écran

3. Raisonnement de code centré sur les documents

4. Raisonnement visuel pour la décomposition de problèmes