Comment accéder à ERNIE-4.5-VL-A3B dans des workflows augmentés par des outils

Comment accéder à ERNIE-4.5-VL-A3B dans des workflows augmentés par des outils

Novita AI lance sa campagne « Mois de la construction », offrant aux développeurs une réduction exclusive allant jusqu’à 20 % sur tous les produits principaux !

Participez au Mois de la construction !

Les développeurs modernes ont de plus en plus de difficultés à intégrer des entrées riches en éléments visuels tels que des diagrammes, des captures d’écran et des documents techniques dans leurs workflows de code, tout en maintenant une latence faible et des coûts maîtrisés. Les VLM traditionnels sont soit trop lents pour être intégrés dans des boucles d’outils, soit trop peu performants en raisonnement structuré pour guider de véritables décisions d’ingénierie.

Cet article explique comment ERNIE-4.5-VL-28B-A3B-Thinking comble ce manque en combinant des benchmarks de raisonnement visuel-langage performants avec une architecture A3B permettant une inférence rapide et répétée, et démontre comment ces propriétés le rendent adapté aux workflows de code augmentés par des outils.

Architecture de ERNIE-4.5-VL-28B-A3B

En n’activant que 3 milliards de paramètres par jeton à partir d’un réservoir dense de 28 milliards, le modèle atteint une intelligence de niveau flagship avec des coûts d’inférence de type edge.

Le « A3B » dans le nom du modèle signifie Active 3B, signalant une architecture de Mélange d’Experts (MoE) conçue pour une efficacité extrême.

  • Paramètres totaux : 28 à 30 milliards (MoE sparse)

  • Paramètres actifs : 3 milliards (inférence par jeton)

  • Fenêtre de contexte : 128k jetons

  • Améliorations principales :

    • Raisonnement avec des images : Contrairement aux VLM standards qui traitent les images comme des jetons statiques, ce modèle peut itérativement « zoomer » et « rechercher » dans une image pour résoudre des détails fins.
    • GSPO et IcePop RL : Utilise un apprentissage par renforcement avancé (Optimisation par auto-jeu basé sur des groupes) pour stabiliser l’entraînement MoE, en s’assurant que les experts sont correctement acheminés pour des logiques complexes.

Cas 1 : Raisonnement avec des images d’ERNIE-4.5-VL-28B-A3B

Quel est le texte du panneau avec un fond bleu sur le mur à côté du trottoir ?

Capacité d'ERNIE-4.5-VL-28B-A3B

Source : Baidu

Cas : Résolution d’un circuit en pont pour calculer la résistance équivalente

Dans cet exemple, le modèle est confronté à un circuit en pont non trivial et doit calculer la résistance équivalente entre les nœuds A et B.

Capacité d'ERNIE-4.5-VL-28B-A3B

Source : Baidu

Pourquoi ERNIE-4.5-VL-28B-A3B-Thinking peut améliorer les workflows de code augmentés par des outils

Les scores des benchmarks montrent une force constante en raisonnement STEM, compréhension de documents et ancrage visuel, qui correspondent directement aux étapes cognitives les plus difficiles des workflows de code du monde réel.

Sur les benchmarks de compréhension de documents et de raisonnement structuré, ERNIE-4.5-VL-A3B atteint ou dépasse fréquemment la fourchette du 95e percentile de Gemini-2.5-Pro et GPT-5-High, bien qu’il n’active qu’une fraction des paramètres par jeton.

Benchmark ERNIE-4.5-VL-A3B Gemini-2.5-Pro GPT-5-High Ce que cela signifie pour les développeurs
MathVista 82.5 82.7 81.3 Raisonnement symbolique multi-étapes fiable
MathVerse 81.0 82.9 84.1 Forte abstraction sous contraintes
MMMU 72.2 81.7 84.2 Décomposition de problèmes multimodaux
ChartQA 87.1 78.3 78.2 Extraction de données structurées
DocVQA (val) 93.6 91.2 94.2 Ancrage précis de documents
OCRBench 85.8 86.4 81.0 Reconnaissance de texte robuste à partir d’éléments visuels
CharXiv-DQ 90.3 91.2 93.5 Raisonnement technique de longue forme
CV-Bench 83.8 84.8 85.0 Cohérence logique visuelle
Average (All) 73.1 75.4 76.6 Modèle compact, raisonnement quasi flagship

Bien que le modèle dispose de 28 milliards de paramètres, seuls 3 milliards sont actifs par jeton, ce qui permet un raisonnement rapide à faible latence adapté aux appels répétés dans des boucles d’outils.

Caractéristiques clés pertinentes pour les utilisateurs :

  • Paramètres actifs : 3 milliards par jeton
  • Latence effective : Comparable à celle des modèles petits et moyens
  • Longueur de contexte : Jusqu’à 128k jetons, prenant en charge le raisonnement au niveau système

La conception A3B permet :

  • Des passes de raisonnement fréquentes sans coût prohibitif
  • Une latence stable dans les workflows agentiques
  • Un déploiement pratique en tant qu’API de raisonnement toujours disponible

Essayez ERNIE-4.5-VL-28B-A3B-Thinking dès maintenant !

Ce que fait réellement ERNIE-4.5-VL-28B-A3B-Thinking dans un workflow d’outil de code

ERNIE-4.5-VL-28B-A3B-Thinking traite la vision comme une entrée de raisonnement, et pas seulement comme un extracteur de fonctionnalités, permettant aux développeurs d’intégrer directement des captures d’écran, des diagrammes et des documents dans leurs workflows de code. Il ne s’agit pas de génération de texte par OCR. Le modèle raisonne sur la structure visuelle et l’aligne sur l’intention.

1. Compréhension des diagrammes et de l’architecture

Le modèle peut interpréter des diagrammes système et convertir la structure visuelle en relations logiques pertinentes pour les décisions de code.

Ce que la capacité VL apporte

  • Identifie les composants, les limites et le flux de données à partir de diagrammes
  • Aligne les éléments visuels avec les descriptions textuelles
  • Préserve les relations structurelles dans le raisonnement

Exemple

  • Entrée : Diagramme d’architecture microservices + note de conception courte
  • Sortie : Explication des dépendances des services et des chemins de communication
  • Impact : Les outils de code sont guidés vers les modules corrects au lieu d’analyser l’ensemble de la base de code

2. Compréhension du contexte de code à partir de captures d’écran

Le modèle peut raisonner sur des captures d’écran d’interface utilisateur ou d’EDI pour déduire la logique et l’intention sous-jacentes.

Ce que la capacité VL apporte

  • Lit les dispositions d’interface, les journaux et les états d’erreur à partir de captures d’écran
  • Connecte les états visuels aux chemins de code probables
  • Gère les informations textuelles incomplètes ou partielles

Exemple

  • Entrée : Capture d’écran d’un tableau de bord en échec avec des messages d’erreur partiels
  • Sortie : Hypothèse sur une incohérence frontend-backend et la couche API concernée
  • Impact : Débogage plus rapide sans nécessiter la reproduction complète des journaux

3. Raisonnement de code centré sur les documents

Le modèle excelle dans l’extraction de logique exploitable à partir de documents techniques qui mélangent texte, tableaux et éléments visuels.

Ce que la capacité VL apporte

  • Analyse des spécifications, des PDF et des documents de type recherche
  • Lie les figures et les tableaux à la logique d’implémentation
  • Maintient l’alignement sur l’ensemble de longs documents

Exemple

  • Entrée : PDF de spécification d’API avec des tableaux et des diagrammes de flux
  • Sortie : Résumé structuré des points d’accès, des contraintes et des cas limites
  • Impact : Les outils de génération de code partent d’une compréhension correcte et fondée

4. Raisonnement visuel pour la décomposition de problèmes

Les entrées visuelles sont utilisées pour piloter un raisonnement multi-étapes, et pas seulement pour la reconnaissance.

Ce que la capacité VL apporte

  • Convertit les problèmes visuels en représentations symboliques
  • Maintient la cohérence entre les étapes de raisonnement
  • Prend en charge l’abstraction avant l’implémentation

Exemple

  • Entrée : Diagramme de flux de pipeline de données
  • Sortie : Décomposition étape par étape des étapes de traitement et des points de défaillance
  • Impact : Permet des appels d’outils ciblés au lieu d’un débogage général

Essayez ERNIE-4.5-VL-28B-A3B-Thinking dès maintenant !

Comment accéder à ERNIE-4.5-VL-28B-A3B-Thinking à bon prix ?

Novita AI propose des API ERNIE-4.5-VL-28B-A3B-Thinking avec une fenêtre de contexte de 30K à $0.112 par entrée et $0.448 par sortie, prenant en charge les sorties structurées et l’appel de fonctions.

Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Étape 2 : Choisissez votre modèle

Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Essayez ERNIE-4.5-VL-28B-A3B-Thinking dès maintenant !

Étape 3 : Démarrez votre essai gratuit

Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Commencez votre essai gratuit pour explorer les capacités du modèle sélectionné.

Étape 4 : Récupérez votre clé API

Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. En accédant à la page « Paramètres », vous pouvez copier la clé API comme indiqué sur l’image.

Récupérer la clé API

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="baidu/ernie-4.5-vl-28b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=8000,
    temperature=0.7
)

print(response.choices[0].message.content)

ERNIE-4.5-VL-28B-A3B-Thinking atteint des performances de raisonnement visuel-langage quasi flagship tout en n’activant que 3 milliards de paramètres par jeton, ce qui permet un raisonnement à faible latence et haute fréquence dans les workflows d’outils. Ses forces prouvées par les benchmarks en compréhension de documents, ancrage visuel et raisonnement STEM lui permettent d’agir comme un coordinateur de raisonnement plutôt qu’un moteur de syntaxe. En conséquence, il est particulièrement adapté aux développeurs qui ont besoin d’intégrer des diagrammes, des captures d’écran et des documents techniques dans des outils de code sans sacrifier la vitesse ou l’efficacité des coûts.

Questions fréquemment posées

Pour quels types de tâches de raisonnement ERNIE-4.5-VL-28B-A3B-Thinking est-il le plus adapté ?

ERNIE-4.5-VL-28B-A3B-Thinking est le plus adapté aux tâches de raisonnement visuel-langage telles que l’interprétation de diagrammes, la compréhension de documents et la décomposition de problèmes structurés, plutôt qu’à la génération de code pur au niveau syntaxique.

ERNIE-4.5-VL-28B-A3B-Thinking peut-il remplacer un LLM spécialisé dans le code ?

Non. ERNIE-4.5-VL-28B-A3B-Thinking est conçu pour compléter les modèles spécialisés dans le code en gérant la compréhension visuelle, la planification et la validation, et non l’exécution de code de bas niveau.

Qu’est-ce qui distingue la capacité visuel-langage d’ERNIE-4.5-VL-28B-A3B-Thinking des modèles basés sur l’OCR ?

ERNIE-4.5-VL-28B-A3B-Thinking raisonne sur la structure visuelle et l’intention, permettant des tâches telles que la compréhension de systèmes basée sur des diagrammes et le débogage basé sur des captures d’écran, plutôt qu’une simple extraction de texte.

Novita AI est la plateforme cloud tout-en-un qui donne vie à vos ambitions en IA. API intégrées, serverless, instances GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et concrétisez votre vision de l’IA.

Lectures recommandées