Novita AI startet seine „Build Month“-Kampagne und bietet Entwicklern einen exklusiven Rabatt von bis zu 20 % auf alle Hauptprodukte!
Moderne Entwickler haben zunehmend Schwierigkeiten, visuell intensive Eingaben wie Diagramme, Screenshots und technische Dokumente in Code-Workflows zu integrieren, und das bei gleichzeitig niedriger Latenz und kontrollierbaren Kosten. Traditionelle VLMs sind entweder zu langsam, um in Tool-Schleifen eingesetzt zu werden, oder zu schwach in der strukturierten Argumentation, um echte Engineering-Entscheidungen zu leiten.
Dieser Artikel erklärt, wie ERNIE-4.5-VL-28B-A3B-Thinking diese Lücke schließt, indem es starke visuell-sprachliche Argumentationsbenchmarks mit einer A3B-Architektur kombiniert, die schnelle, wiederholte Inferenzen ermöglicht, und zeigt, wie diese Eigenschaften es für toolgestützte Code-Workflows geeignet machen.
Architektur von ERNIE-4.5-VL-28B-A3B
Durch Aktivierung von nur 3 Milliarden Parametern pro Token aus einem Reservoir von 28B dichten Parametern erreicht das Modell Flaggschiff-Intelligenz mit Inferenzkosten auf Edge-Niveau.
Das „A3B“ im Modellnamen steht für Active 3B und signalisiert eine Mixture-of-Experts (MoE)-Architektur, die für extreme Effizienz ausgelegt ist.
- Gesamtparameter: 28–30 Milliarden (Sparse MoE)
- Aktive Parameter: 3 Milliarden (pro Token-Inferenz)
- Kontextfenster: 128k Token
- Kernverbesserungen:
- Denken mit Bildern: Im Gegensatz zu Standard-VLMs, die Bilder als statische Token verarbeiten, kann dieses Modell iterativ in einem Bild „zoomen“ und „suchen“, um feingliedrige Details aufzulösen.
- GSPO & IcePop RL: Verwendet fortschrittliches Reinforcement Learning (Group-based Self-Play Optimization), um das MoE-Training zu stabilisieren und sicherzustellen, dass Experten für komplexe Logik korrekt weitergeleitet werden.
Fall 1: ERNIE-4.5-VL-28B-A3B-Denken mit Bildern
Was steht auf dem Schild mit blauem Hintergrund an der Wand neben dem Gehweg?

Von Baidu
Fall: Lösen einer Brückenschaltung zur Berechnung des Äquivalentwiderstands
In diesem Beispiel wird dem Modell eine nicht triviale Brückenschaltung vorgelegt und es wird aufgefordert, den Äquivalentwiderstand zwischen den Knoten A und B zu berechnen.

Von Baidu
Warum ERNIE-4.5-VL-28B-A3B-Thinking toolgestützte Code-Workflows verbessern kann
Die Benchmark-Ergebnisse zeigen eine konsistente Stärke in STEM-Argumentation, Dokumentenverständnis und visueller Verankerung, die direkt den schwierigsten kognitiven Schritten in realen Code-Workflows entsprechen.
In den Benchmarks für Dokumentenverständnis und strukturierte Argumentation erreicht ERNIE-4.5-VL-A3B häufig den 95. Perzentilbereich von Gemini-2.5-Pro und GPT-5-High, obwohl es pro Token weit weniger Parameter aktiviert.
| Benchmark | ERNIE-4.5-VL-A3B | Gemini-2.5-Pro | GPT-5-High | Was das für Entwickler bedeutet |
|---|---|---|---|---|
| MathVista | 82,5 | 82,7 | 81,3 | Zuverlässige mehrstufige symbolische Argumentation |
| MathVerse | 81,0 | 82,9 | 84,1 | Starke Abstraktion unter Einschränkungen |
| MMMU | 72,2 | 81,7 | 84,2 | Multimodale Problemzerlegung |
| ChartQA | 87,1 | 78,3 | 78,2 | Strukturierte Datenextraktion |
| DocVQA (val) | 93,6 | 91,2 | 94,2 | Präzise Dokumentenverankerung |
| OCRBench | 85,8 | 86,4 | 81,0 | Robuste Texterkennung aus visuellen Inhalten |
| CharXiv-DQ | 90,3 | 91,2 | 93,5 | Langformige technische Argumentation |
| CV-Bench | 83,8 | 84,8 | 85,0 | Visuelle Logikkonsistenz |
| Durchschnitt (Alle) | 73,1 | 75,4 | 76,6 | Kompaktes Modell, fast Flaggschiff-Argumentation |
Obwohl das Modell 28B Parameter hat, sind nur 3B pro Token aktiv, was schnelle, latenzarme Argumentation ermöglicht, die für wiederholte Aufrufe in Tool-Schleifen geeignet ist.
Wichtige Eigenschaften für Benutzer:
- Aktive Parameter: 3B pro Token
- Effektive Latenz: Vergleichbar mit kleinen und mittleren Modellen
- Kontextlänge: Bis zu 128k Token, unterstützt systemweite Argumentation
Das A3B-Design ermöglicht:
- Häufige Argumentationsdurchläufe ohne prohibitive Kosten
- Stabile Latenz in agentischen Workflows
- Praktischer Einsatz als Always-on-Argumentations-API
Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!
Was ERNIE-4.5-VL-28B-A3B-Thinking tatsächlich in einem Code-Tool-Workflow tut
ERNIE-4.5-VL-28B-A3B-Thinking behandelt Vision als Argumentationseingabe, nicht nur als Merkmalsextraktor, sodass Entwickler Screenshots, Diagramme und Dokumente direkt in Code-Workflows integrieren können. Dies ist kein OCR-plus-Textgenerierung. Das Modell argumentiert über visuelle Struktur und richtet sie an der Absicht aus.
1. Diagramm- und Architekturverständnis
Das Modell kann Systemdiagramme interpretieren und visuelle Strukturen in logische Beziehungen umwandeln, die für Code-Entscheidungen relevant sind.
Was die VL-Funktion bietet
- Identifiziert Komponenten, Grenzen und Datenflüsse aus Diagrammen
- Richtet visuelle Elemente an textuellen Beschreibungen aus
- Bewahrt strukturelle Beziehungen in der Argumentation
Beispiel
- Eingabe: Microservice-Architekturdiagramm + kurze Designnotiz
- Ausgabe: Erklärung der Service-Abhängigkeiten und Kommunikationspfade
- Auswirkung: Code-Tools werden zu den korrekten Modulen geführt, anstatt das gesamte Codebase zu durchsuchen
2. Screenshot-basiertes Code-Kontextverständnis
Das Modell kann über UI- oder IDE-Screenshots argumentieren, um zugrunde liegende Logik und Absicht abzuleiten.
Was die VL-Funktion bietet
- Liest UI-Layouts, Protokolle und Fehlerzustände von Screenshots
- Verbindet visuelle Zustände mit wahrscheinlichen Codepfaden
- Verarbeitet unvollständige oder partielle Textinformationen
Beispiel
- Eingabe: Screenshot eines fehlerhaften Dashboards mit teilweisen Fehlermeldungen
- Ausgabe: Hypothese zu Frontend-Backend-Fehlanpassung und relevanter API-Schicht
- Auswirkung: Schnelleres Debugging ohne vollständige Protokollreproduktion
3. Dokumentenzentrierte Code-Argumentation
Das Modell zeichnet sich durch die Extraktion von handlungsrelevanten Logiken aus technischen Dokumenten aus, die Text, Tabellen und visuelle Inhalte mischen.
Was die VL-Funktion bietet
- Analysiert Spezifikationen, PDFs und forschungsorientierte Dokumente
- Verknüpft Abbildungen und Tabellen mit Implementierungslogik
- Bewahrt die Ausrichtung über lange Dokumente hinweg
Beispiel
- Eingabe: API-Spezifikations-PDF mit Tabellen und Flussdiagrammen
- Ausgabe: Strukturierte Zusammenfassung von Endpunkten, Einschränkungen und Randfällen
- Auswirkung: Code-Generierungstools starten mit einem korrekten, verankerten Verständnis
4. Visuelle Argumentation zur Problemzerlegung
Visuelle Eingaben werden verwendet, um mehrstufige Argumentation voranzutreiben, nicht nur zur Erkennung.
Was die VL-Funktion bietet
- Wandelt visuelle Probleme in symbolische Darstellungen um
- Bewahrt Konsistenz über Argumentationsschritte hinweg
- Unterstützt Abstraktion vor der Implementierung
Beispiel
- Eingabe: Datenpipeline-Flussdiagramm
- Ausgabe: Schrittweise Aufschlüsselung der Verarbeitungsstufen und Fehlerpunkte
- Auswirkung: Ermöglicht gezielte Tool-Aufrufe statt breites Debugging
Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!
So greifen Sie zu guten Preisen auf ERNIE-4.5-VL-28B-A3B-Thinking zu?
Novita AI bietet ERNIE-4.5-VL-28B-A3B-Thinking-APIs mit einem 30K-Kontextfenster für 0,112 $ pro Eingabe und 0,448 $ pro Ausgabe an, die strukturierte Ausgaben und Funktionsaufrufe unterstützen.
Schritt 1: Einloggen und auf die Modellbibliothek zugreifen
Melden Sie sich bei Ihrem Konto an und klicken Sie auf die Schaltfläche Modellbibliothek.

Schritt 2: Wählen Sie Ihr Modell
Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell, das Ihren Anforderungen entspricht.

Probieren Sie ERNIE-4.5-VL-28B-A3B-Thinking jetzt aus!
Schritt 3: Starten Sie Ihre kostenlose Testversion
Starten Sie Ihre kostenlose Testversion, um die Funktionen des ausgewählten Modells zu erkunden.

Schritt 4: Holen Sie sich Ihren API-Schlüssel
Zur Authentifizierung mit der API stellen wir Ihnen einen neuen API-Schlüssel zur Verfügung. Auf der Seite „Einstellungen“ können Sie den API-Schlüssel wie in der Abbildung gezeigt kopieren.

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="baidu/ernie-4.5-vl-28b-a3b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=8000,
temperature=0.7
)
print(response.choices[0].message.content)
ERNIE-4.5-VL-28B-A3B-Thinking erreicht nahezu Flaggschiff-visuell-sprachliche Argumentationsleistung, während es pro Token nur 3B Parameter aktiviert, was latenzarme, hochfrequente Argumentation in Tool-Workflows ermöglicht. Seine benchmark-bewiesenen Stärken in Dokumentenverständnis, visueller Verankerung und STEM-Argumentation ermöglichen es ihm, als Argumentationskoordinator und nicht als Syntax-Engine zu agieren. Daher ist es gut für Entwickler geeignet, die Diagramme, Screenshots und technische Dokumente in Code-Tools integrieren müssen, ohne Geschwindigkeit oder Kosteneffizienz zu opfern.
Häufig gestellte Fragen
Für welche Art von Argumentationsaufgaben ist ERNIE-4.5-VL-28B-A3B-Thinking am besten geeignet?
ERNIE-4.5-VL-28B-A3B-Thinking eignet sich am besten für visuell-sprachliche Argumentationsaufgaben wie Diagramminterpretation, Dokumentenverständnis und strukturierte Problemzerlegung, nicht für reine syntaxbasierte Codegenerierung.
Kann ERNIE-4.5-VL-28B-A3B-Thinking ein auf Code spezialisiertes LLM ersetzen?
Nein. ERNIE-4.5-VL-28B-A3B-Thinking ist dafür ausgelegt, auf Code spezialisierte Modelle zu ergänzen, indem es visuelles Verständnis, Planung und Validierung übernimmt, nicht die Ausführung von Low-Level-Code.
Was unterscheidet die visuell-sprachliche Fähigkeit von ERNIE-4.5-VL-28B-A3B-Thinking von OCR-basierten Modellen?
ERNIE-4.5-VL-28B-A3B-Thinking argumentiert über visuelle Struktur und Absicht und ermöglicht so Aufgaben wie diagrammbasiertes Systemverständnis und screenshot-gesteuertes Debugging statt einfacher Textextraktion.
Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen ermöglicht. Integrierte APIs, Serverless, GPU-Instanz – die kosteneffektiven Tools, die Sie brauchen. Eliminieren Sie Infrastruktur, starten Sie kostenlos und machen Sie Ihre KI-Vision zur Realität.
