So greifen Sie auf ERNIE-4.5-VL-A3B in toolgestützten Workflows zu

Inhaltsverzeichnis

Architektur von ERNIE-4.5-VL-28B-A3B
Warum ERNIE-4.5-VL-28B-A3B-Thinking toolgestützte Code-Workflows verbessern kann
Was ERNIE-4.5-VL-28B-A3B-Thinking tatsächlich in einem Code-Tool-Workflow tut
So greifen Sie zu guten Preisen auf ERNIE-4.5-VL-28B-A3B-Thinking zu?

Novita AI startet seine „Build Month“-Kampagne und bietet Entwicklern einen exklusiven Rabatt von bis zu 20 % auf alle Hauptprodukte!

Nehmen Sie an Ihrer Build Month teil!

Moderne Entwickler haben zunehmend Schwierigkeiten, visuell intensive Eingaben wie Diagramme, Screenshots und technische Dokumente in Code-Workflows zu integrieren, und das bei gleichzeitig niedriger Latenz und kontrollierbaren Kosten. Traditionelle VLMs sind entweder zu langsam, um in Tool-Schleifen eingesetzt zu werden, oder zu schwach in der strukturierten Argumentation, um echte Engineering-Entscheidungen zu leiten.

Dieser Artikel erklärt, wie ERNIE-4.5-VL-28B-A3B-Thinking diese Lücke schließt, indem es starke visuell-sprachliche Argumentationsbenchmarks mit einer A3B-Architektur kombiniert, die schnelle, wiederholte Inferenzen ermöglicht, und zeigt, wie diese Eigenschaften es für toolgestützte Code-Workflows geeignet machen.

Architektur von ERNIE-4.5-VL-28B-A3B

Durch Aktivierung von nur 3 Milliarden Parametern pro Token aus einem Reservoir von 28B dichten Parametern erreicht das Modell Flaggschiff-Intelligenz mit Inferenzkosten auf Edge-Niveau.

Das „A3B“ im Modellnamen steht für Active 3B und signalisiert eine Mixture-of-Experts (MoE)-Architektur, die für extreme Effizienz ausgelegt ist.

Gesamtparameter: 28–30 Milliarden (Sparse MoE)
Aktive Parameter: 3 Milliarden (pro Token-Inferenz)
Kontextfenster: 128k Token
Kernverbesserungen:
- Denken mit Bildern: Im Gegensatz zu Standard-VLMs, die Bilder als statische Token verarbeiten, kann dieses Modell iterativ in einem Bild „zoomen“ und „suchen“, um feingliedrige Details aufzulösen.
- GSPO & IcePop RL: Verwendet fortschrittliches Reinforcement Learning (Group-based Self-Play Optimization), um das MoE-Training zu stabilisieren und sicherzustellen, dass Experten für komplexe Logik korrekt weitergeleitet werden.

Fall 1: ERNIE-4.5-VL-28B-A3B-Denken mit Bildern

Was steht auf dem Schild mit blauem Hintergrund an der Wand neben dem Gehweg?

Von Baidu

Fall: Lösen einer Brückenschaltung zur Berechnung des Äquivalentwiderstands

In diesem Beispiel wird dem Modell eine nicht triviale Brückenschaltung vorgelegt und es wird aufgefordert, den Äquivalentwiderstand zwischen den Knoten A und B zu berechnen.

Von Baidu

Warum ERNIE-4.5-VL-28B-A3B-Thinking toolgestützte Code-Workflows verbessern kann

Die Benchmark-Ergebnisse zeigen eine konsistente Stärke in STEM-Argumentation, Dokumentenverständnis und visueller Verankerung, die direkt den schwierigsten kognitiven Schritten in realen Code-Workflows entsprechen.

In den Benchmarks für Dokumentenverständnis und strukturierte Argumentation erreicht ERNIE-4.5-VL-A3B häufig den 95. Perzentilbereich von Gemini-2.5-Pro und GPT-5-High, obwohl es pro Token weit weniger Parameter aktiviert.

Benchmark	ERNIE-4.5-VL-A3B	Gemini-2.5-Pro	GPT-5-High	Was das für Entwickler bedeutet
MathVista	82,5	82,7	81,3	Zuverlässige mehrstufige symbolische Argumentation
MathVerse	81,0	82,9	84,1	Starke Abstraktion unter Einschränkungen
MMMU	72,2	81,7	84,2	Multimodale Problemzerlegung
ChartQA	87,1	78,3	78,2	Strukturierte Datenextraktion
DocVQA (val)	93,6	91,2	94,2	Präzise Dokumentenverankerung
OCRBench	85,8	86,4	81,0	Robuste Texterkennung aus visuellen Inhalten
CharXiv-DQ	90,3	91,2	93,5	Langformige technische Argumentation
CV-Bench	83,8	84,8	85,0	Visuelle Logikkonsistenz
Durchschnitt (Alle)	73,1	75,4	76,6	Kompaktes Modell, fast Flaggschiff-Argumentation

Obwohl das Modell 28B Parameter hat, sind nur 3B pro Token aktiv, was schnelle, latenzarme Argumentation ermöglicht, die für wiederholte Aufrufe in Tool-Schleifen geeignet ist.

Wichtige Eigenschaften für Benutzer:

Aktive Parameter: 3B pro Token
Effektive Latenz: Vergleichbar mit kleinen und mittleren Modellen
Kontextlänge: Bis zu 128k Token, unterstützt systemweite Argumentation

Das A3B-Design ermöglicht:

Häufige Argumentationsdurchläufe ohne prohibitive Kosten
Stabile Latenz in agentischen Workflows
Praktischer Einsatz als Always-on-Argumentations-API

Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!

Was ERNIE-4.5-VL-28B-A3B-Thinking tatsächlich in einem Code-Tool-Workflow tut

ERNIE-4.5-VL-28B-A3B-Thinking behandelt Vision als Argumentationseingabe, nicht nur als Merkmalsextraktor, sodass Entwickler Screenshots, Diagramme und Dokumente direkt in Code-Workflows integrieren können. Dies ist kein OCR-plus-Textgenerierung. Das Modell argumentiert über visuelle Struktur und richtet sie an der Absicht aus.

1. Diagramm- und Architekturverständnis

Das Modell kann Systemdiagramme interpretieren und visuelle Strukturen in logische Beziehungen umwandeln, die für Code-Entscheidungen relevant sind.

Was die VL-Funktion bietet

Identifiziert Komponenten, Grenzen und Datenflüsse aus Diagrammen
Richtet visuelle Elemente an textuellen Beschreibungen aus
Bewahrt strukturelle Beziehungen in der Argumentation

Beispiel

Eingabe: Microservice-Architekturdiagramm + kurze Designnotiz
Ausgabe: Erklärung der Service-Abhängigkeiten und Kommunikationspfade
Auswirkung: Code-Tools werden zu den korrekten Modulen geführt, anstatt das gesamte Codebase zu durchsuchen

2. Screenshot-basiertes Code-Kontextverständnis

Das Modell kann über UI- oder IDE-Screenshots argumentieren, um zugrunde liegende Logik und Absicht abzuleiten.

Was die VL-Funktion bietet

Liest UI-Layouts, Protokolle und Fehlerzustände von Screenshots
Verbindet visuelle Zustände mit wahrscheinlichen Codepfaden
Verarbeitet unvollständige oder partielle Textinformationen

Beispiel

Eingabe: Screenshot eines fehlerhaften Dashboards mit teilweisen Fehlermeldungen
Ausgabe: Hypothese zu Frontend-Backend-Fehlanpassung und relevanter API-Schicht
Auswirkung: Schnelleres Debugging ohne vollständige Protokollreproduktion

3. Dokumentenzentrierte Code-Argumentation

Das Modell zeichnet sich durch die Extraktion von handlungsrelevanten Logiken aus technischen Dokumenten aus, die Text, Tabellen und visuelle Inhalte mischen.

Was die VL-Funktion bietet

Analysiert Spezifikationen, PDFs und forschungsorientierte Dokumente
Verknüpft Abbildungen und Tabellen mit Implementierungslogik
Bewahrt die Ausrichtung über lange Dokumente hinweg

Beispiel

Eingabe: API-Spezifikations-PDF mit Tabellen und Flussdiagrammen
Ausgabe: Strukturierte Zusammenfassung von Endpunkten, Einschränkungen und Randfällen
Auswirkung: Code-Generierungstools starten mit einem korrekten, verankerten Verständnis

4. Visuelle Argumentation zur Problemzerlegung

Visuelle Eingaben werden verwendet, um mehrstufige Argumentation voranzutreiben, nicht nur zur Erkennung.

Was die VL-Funktion bietet

Wandelt visuelle Probleme in symbolische Darstellungen um
Bewahrt Konsistenz über Argumentationsschritte hinweg
Unterstützt Abstraktion vor der Implementierung

Beispiel

Eingabe: Datenpipeline-Flussdiagramm
Ausgabe: Schrittweise Aufschlüsselung der Verarbeitungsstufen und Fehlerpunkte
Auswirkung: Ermöglicht gezielte Tool-Aufrufe statt breites Debugging

Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!

So greifen Sie zu guten Preisen auf ERNIE-4.5-VL-28B-A3B-Thinking zu?

Novita AI bietet ERNIE-4.5-VL-28B-A3B-Thinking-APIs mit einem 30K-Kontextfenster für 0,112 $ pro Eingabe und 0,448 $ pro Ausgabe an, die strukturierte Ausgaben und Funktionsaufrufe unterstützen.

Schritt 1: Einloggen und auf die Modellbibliothek zugreifen

Melden Sie sich bei Ihrem Konto an und klicken Sie auf die Schaltfläche Modellbibliothek.

Schritt 2: Wählen Sie Ihr Modell

Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell, das Ihren Anforderungen entspricht.

Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!

Schritt 3: Starten Sie Ihre kostenlose Testversion

Starten Sie Ihre kostenlose Testversion, um die Funktionen des ausgewählten Modells zu erkunden.

Schritt 4: Holen Sie sich Ihren API-Schlüssel

Zur Authentifizierung mit der API stellen wir Ihnen einen neuen API-Schlüssel zur Verfügung. Auf der Seite „Einstellungen“ können Sie den API-Schlüssel wie in der Abbildung gezeigt kopieren.

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="baidu/ernie-4.5-vl-28b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=8000,
    temperature=0.7
)

print(response.choices[0].message.content)

ERNIE-4.5-VL-28B-A3B-Thinking erreicht nahezu Flaggschiff-visuell-sprachliche Argumentationsleistung, während es pro Token nur 3B Parameter aktiviert, was latenzarme, hochfrequente Argumentation in Tool-Workflows ermöglicht. Seine benchmark-bewiesenen Stärken in Dokumentenverständnis, visueller Verankerung und STEM-Argumentation ermöglichen es ihm, als Argumentationskoordinator und nicht als Syntax-Engine zu agieren. Daher ist es gut für Entwickler geeignet, die Diagramme, Screenshots und technische Dokumente in Code-Tools integrieren müssen, ohne Geschwindigkeit oder Kosteneffizienz zu opfern.

Häufig gestellte Fragen

Für welche Art von Argumentationsaufgaben ist ERNIE-4.5-VL-28B-A3B-Thinking am besten geeignet?

ERNIE-4.5-VL-28B-A3B-Thinking eignet sich am besten für visuell-sprachliche Argumentationsaufgaben wie Diagramminterpretation, Dokumentenverständnis und strukturierte Problemzerlegung, nicht für reine syntaxbasierte Codegenerierung.

Kann ERNIE-4.5-VL-28B-A3B-Thinking ein auf Code spezialisiertes LLM ersetzen?

Nein. ERNIE-4.5-VL-28B-A3B-Thinking ist dafür ausgelegt, auf Code spezialisierte Modelle zu ergänzen, indem es visuelles Verständnis, Planung und Validierung übernimmt, nicht die Ausführung von Low-Level-Code.

Was unterscheidet die visuell-sprachliche Fähigkeit von ERNIE-4.5-VL-28B-A3B-Thinking von OCR-basierten Modellen?

ERNIE-4.5-VL-28B-A3B-Thinking argumentiert über visuelle Struktur und Absicht und ermöglicht so Aufgaben wie diagrammbasiertes Systemverständnis und screenshot-gesteuertes Debugging statt einfacher Textextraktion.

Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen ermöglicht. Integrierte APIs, Serverless, GPU-Instanz – die kosteneffektiven Tools, die Sie brauchen. Eliminieren Sie Infrastruktur, starten Sie kostenlos und machen Sie Ihre KI-Vision zur Realität.

So greifen Sie auf ERNIE-4.5-VL-A3B in toolgestützten Workflows zu

Architektur von ERNIE-4.5-VL-28B-A3B

Fall 1: ERNIE-4.5-VL-28B-A3B-Denken mit Bildern

Fall: Lösen einer Brückenschaltung zur Berechnung des Äquivalentwiderstands

Warum ERNIE-4.5-VL-28B-A3B-Thinking toolgestützte Code-Workflows verbessern kann