So greifen Sie auf ERNIE-4.5-VL-A3B in toolgestützten Workflows zu

So greifen Sie auf ERNIE-4.5-VL-A3B in toolgestützten Workflows zu

Novita AI startet seine „Build Month“-Kampagne und bietet Entwicklern einen exklusiven Rabatt von bis zu 20 % auf alle Hauptprodukte!

Nehmen Sie an Ihrer Build Month teil!

Moderne Entwickler haben zunehmend Schwierigkeiten, visuell intensive Eingaben wie Diagramme, Screenshots und technische Dokumente in Code-Workflows zu integrieren, und das bei gleichzeitig niedriger Latenz und kontrollierbaren Kosten. Traditionelle VLMs sind entweder zu langsam, um in Tool-Schleifen eingesetzt zu werden, oder zu schwach in der strukturierten Argumentation, um echte Engineering-Entscheidungen zu leiten.

Dieser Artikel erklärt, wie ERNIE-4.5-VL-28B-A3B-Thinking diese Lücke schließt, indem es starke visuell-sprachliche Argumentationsbenchmarks mit einer A3B-Architektur kombiniert, die schnelle, wiederholte Inferenzen ermöglicht, und zeigt, wie diese Eigenschaften es für toolgestützte Code-Workflows geeignet machen.

Architektur von ERNIE-4.5-VL-28B-A3B

Durch Aktivierung von nur 3 Milliarden Parametern pro Token aus einem Reservoir von 28B dichten Parametern erreicht das Modell Flaggschiff-Intelligenz mit Inferenzkosten auf Edge-Niveau.

Das „A3B“ im Modellnamen steht für Active 3B und signalisiert eine Mixture-of-Experts (MoE)-Architektur, die für extreme Effizienz ausgelegt ist.

  • Gesamtparameter: 28–30 Milliarden (Sparse MoE)
  • Aktive Parameter: 3 Milliarden (pro Token-Inferenz)
  • Kontextfenster: 128k Token
  • Kernverbesserungen:
    • Denken mit Bildern: Im Gegensatz zu Standard-VLMs, die Bilder als statische Token verarbeiten, kann dieses Modell iterativ in einem Bild „zoomen“ und „suchen“, um feingliedrige Details aufzulösen.
    • GSPO & IcePop RL: Verwendet fortschrittliches Reinforcement Learning (Group-based Self-Play Optimization), um das MoE-Training zu stabilisieren und sicherzustellen, dass Experten für komplexe Logik korrekt weitergeleitet werden.

Fall 1: ERNIE-4.5-VL-28B-A3B-Denken mit Bildern

Was steht auf dem Schild mit blauem Hintergrund an der Wand neben dem Gehweg?

ERNIE-4.5-VL-28B-A3B-Denken mit Bildern

Von Baidu

Fall: Lösen einer Brückenschaltung zur Berechnung des Äquivalentwiderstands

In diesem Beispiel wird dem Modell eine nicht triviale Brückenschaltung vorgelegt und es wird aufgefordert, den Äquivalentwiderstand zwischen den Knoten A und B zu berechnen.

ERNIE-4.5-VL-28B-A3B-Denken mit Bildern

Von Baidu

Warum ERNIE-4.5-VL-28B-A3B-Thinking toolgestützte Code-Workflows verbessern kann

Die Benchmark-Ergebnisse zeigen eine konsistente Stärke in STEM-Argumentation, Dokumentenverständnis und visueller Verankerung, die direkt den schwierigsten kognitiven Schritten in realen Code-Workflows entsprechen.

In den Benchmarks für Dokumentenverständnis und strukturierte Argumentation erreicht ERNIE-4.5-VL-A3B häufig den 95. Perzentilbereich von Gemini-2.5-Pro und GPT-5-High, obwohl es pro Token weit weniger Parameter aktiviert.

Benchmark ERNIE-4.5-VL-A3B Gemini-2.5-Pro GPT-5-High Was das für Entwickler bedeutet
MathVista 82,5 82,7 81,3 Zuverlässige mehrstufige symbolische Argumentation
MathVerse 81,0 82,9 84,1 Starke Abstraktion unter Einschränkungen
MMMU 72,2 81,7 84,2 Multimodale Problemzerlegung
ChartQA 87,1 78,3 78,2 Strukturierte Datenextraktion
DocVQA (val) 93,6 91,2 94,2 Präzise Dokumentenverankerung
OCRBench 85,8 86,4 81,0 Robuste Texterkennung aus visuellen Inhalten
CharXiv-DQ 90,3 91,2 93,5 Langformige technische Argumentation
CV-Bench 83,8 84,8 85,0 Visuelle Logikkonsistenz
Durchschnitt (Alle) 73,1 75,4 76,6 Kompaktes Modell, fast Flaggschiff-Argumentation

Obwohl das Modell 28B Parameter hat, sind nur 3B pro Token aktiv, was schnelle, latenzarme Argumentation ermöglicht, die für wiederholte Aufrufe in Tool-Schleifen geeignet ist.

Wichtige Eigenschaften für Benutzer:

  • Aktive Parameter: 3B pro Token
  • Effektive Latenz: Vergleichbar mit kleinen und mittleren Modellen
  • Kontextlänge: Bis zu 128k Token, unterstützt systemweite Argumentation

Das A3B-Design ermöglicht:

  • Häufige Argumentationsdurchläufe ohne prohibitive Kosten
  • Stabile Latenz in agentischen Workflows
  • Praktischer Einsatz als Always-on-Argumentations-API

Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!

Was ERNIE-4.5-VL-28B-A3B-Thinking tatsächlich in einem Code-Tool-Workflow tut

ERNIE-4.5-VL-28B-A3B-Thinking behandelt Vision als Argumentationseingabe, nicht nur als Merkmalsextraktor, sodass Entwickler Screenshots, Diagramme und Dokumente direkt in Code-Workflows integrieren können. Dies ist kein OCR-plus-Textgenerierung. Das Modell argumentiert über visuelle Struktur und richtet sie an der Absicht aus.

1. Diagramm- und Architekturverständnis

Das Modell kann Systemdiagramme interpretieren und visuelle Strukturen in logische Beziehungen umwandeln, die für Code-Entscheidungen relevant sind.

Was die VL-Funktion bietet

  • Identifiziert Komponenten, Grenzen und Datenflüsse aus Diagrammen
  • Richtet visuelle Elemente an textuellen Beschreibungen aus
  • Bewahrt strukturelle Beziehungen in der Argumentation

Beispiel

  • Eingabe: Microservice-Architekturdiagramm + kurze Designnotiz
  • Ausgabe: Erklärung der Service-Abhängigkeiten und Kommunikationspfade
  • Auswirkung: Code-Tools werden zu den korrekten Modulen geführt, anstatt das gesamte Codebase zu durchsuchen

2. Screenshot-basiertes Code-Kontextverständnis

Das Modell kann über UI- oder IDE-Screenshots argumentieren, um zugrunde liegende Logik und Absicht abzuleiten.

Was die VL-Funktion bietet

  • Liest UI-Layouts, Protokolle und Fehlerzustände von Screenshots
  • Verbindet visuelle Zustände mit wahrscheinlichen Codepfaden
  • Verarbeitet unvollständige oder partielle Textinformationen

Beispiel

  • Eingabe: Screenshot eines fehlerhaften Dashboards mit teilweisen Fehlermeldungen
  • Ausgabe: Hypothese zu Frontend-Backend-Fehlanpassung und relevanter API-Schicht
  • Auswirkung: Schnelleres Debugging ohne vollständige Protokollreproduktion

3. Dokumentenzentrierte Code-Argumentation

Das Modell zeichnet sich durch die Extraktion von handlungsrelevanten Logiken aus technischen Dokumenten aus, die Text, Tabellen und visuelle Inhalte mischen.

Was die VL-Funktion bietet

  • Analysiert Spezifikationen, PDFs und forschungsorientierte Dokumente
  • Verknüpft Abbildungen und Tabellen mit Implementierungslogik
  • Bewahrt die Ausrichtung über lange Dokumente hinweg

Beispiel

  • Eingabe: API-Spezifikations-PDF mit Tabellen und Flussdiagrammen
  • Ausgabe: Strukturierte Zusammenfassung von Endpunkten, Einschränkungen und Randfällen
  • Auswirkung: Code-Generierungstools starten mit einem korrekten, verankerten Verständnis

4. Visuelle Argumentation zur Problemzerlegung

Visuelle Eingaben werden verwendet, um mehrstufige Argumentation voranzutreiben, nicht nur zur Erkennung.

Was die VL-Funktion bietet

  • Wandelt visuelle Probleme in symbolische Darstellungen um
  • Bewahrt Konsistenz über Argumentationsschritte hinweg
  • Unterstützt Abstraktion vor der Implementierung

Beispiel

  • Eingabe: Datenpipeline-Flussdiagramm
  • Ausgabe: Schrittweise Aufschlüsselung der Verarbeitungsstufen und Fehlerpunkte
  • Auswirkung: Ermöglicht gezielte Tool-Aufrufe statt breites Debugging

Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!

So greifen Sie zu guten Preisen auf ERNIE-4.5-VL-28B-A3B-Thinking zu?

Novita AI bietet ERNIE-4.5-VL-28B-A3B-Thinking-APIs mit einem 30K-Kontextfenster für 0,112 $ pro Eingabe und 0,448 $ pro Ausgabe an, die strukturierte Ausgaben und Funktionsaufrufe unterstützen.

Schritt 1: Einloggen und auf die Modellbibliothek zugreifen

Melden Sie sich bei Ihrem Konto an und klicken Sie auf die Schaltfläche Modellbibliothek.

Melden Sie sich bei Ihrem Konto an und klicken Sie auf die Schaltfläche Modellbibliothek.

Schritt 2: Wählen Sie Ihr Modell

Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell, das Ihren Anforderungen entspricht.

Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell, das Ihren Anforderungen entspricht.

Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!

Schritt 3: Starten Sie Ihre kostenlose Testversion

Starten Sie Ihre kostenlose Testversion, um die Funktionen des ausgewählten Modells zu erkunden.

Starten Sie Ihre kostenlose Testversion, um die Funktionen des ausgewählten Modells zu erkunden.

Schritt 4: Holen Sie sich Ihren API-Schlüssel

Zur Authentifizierung mit der API stellen wir Ihnen einen neuen API-Schlüssel zur Verfügung. Auf der Seite „Einstellungen“ können Sie den API-Schlüssel wie in der Abbildung gezeigt kopieren.

API-Schlüssel abrufen

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="baidu/ernie-4.5-vl-28b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=8000,
    temperature=0.7
)

print(response.choices[0].message.content)

ERNIE-4.5-VL-28B-A3B-Thinking erreicht nahezu Flaggschiff-visuell-sprachliche Argumentationsleistung, während es pro Token nur 3B Parameter aktiviert, was latenzarme, hochfrequente Argumentation in Tool-Workflows ermöglicht. Seine benchmark-bewiesenen Stärken in Dokumentenverständnis, visueller Verankerung und STEM-Argumentation ermöglichen es ihm, als Argumentationskoordinator und nicht als Syntax-Engine zu agieren. Daher ist es gut für Entwickler geeignet, die Diagramme, Screenshots und technische Dokumente in Code-Tools integrieren müssen, ohne Geschwindigkeit oder Kosteneffizienz zu opfern.

Häufig gestellte Fragen

Für welche Art von Argumentationsaufgaben ist ERNIE-4.5-VL-28B-A3B-Thinking am besten geeignet?

ERNIE-4.5-VL-28B-A3B-Thinking eignet sich am besten für visuell-sprachliche Argumentationsaufgaben wie Diagramminterpretation, Dokumentenverständnis und strukturierte Problemzerlegung, nicht für reine syntaxbasierte Codegenerierung.

Kann ERNIE-4.5-VL-28B-A3B-Thinking ein auf Code spezialisiertes LLM ersetzen?

Nein. ERNIE-4.5-VL-28B-A3B-Thinking ist dafür ausgelegt, auf Code spezialisierte Modelle zu ergänzen, indem es visuelles Verständnis, Planung und Validierung übernimmt, nicht die Ausführung von Low-Level-Code.

Was unterscheidet die visuell-sprachliche Fähigkeit von ERNIE-4.5-VL-28B-A3B-Thinking von OCR-basierten Modellen?

ERNIE-4.5-VL-28B-A3B-Thinking argumentiert über visuelle Struktur und Absicht und ermöglicht so Aufgaben wie diagrammbasiertes Systemverständnis und screenshot-gesteuertes Debugging statt einfacher Textextraktion.

Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen ermöglicht. Integrierte APIs, Serverless, GPU-Instanz – die kosteneffektiven Tools, die Sie brauchen. Eliminieren Sie Infrastruktur, starten Sie kostenlos und machen Sie Ihre KI-Vision zur Realität.

Empfohlene Lektüre