Novita AI 正在推出「Build Month」活動,為開發者提供所有主要產品最高 20% 的獨家優惠!
現代開發者越來越難將圖表、截圖、技術文件等富含視覺輸入的內容整合至程式碼工作流程中,同時兼顧低延遲與可控成本。傳統視覺語言模型(VLM)要麼速度太慢無法嵌入工具循環,要麼結構化推理能力不足,無法為實際工程決策提供指引。
本文將說明 ERNIE-4.5-VL-28B-A3B-Thinking 如何透過結合優異的視覺語言推理基準成績,以及能實現快速重複推論的 A3B 架構,補足上述缺口,並展示這些特性如何使其適用於工具增強的程式碼工作流程。
ERNIE-4.5-VL-28B-A3B 的架構
模型僅從 280 億參數的密集參數庫中,為每個 token 啟動 30 億參數,即可實現旗艦級智慧,同時擁有邊緣級推論成本。
模型名稱中的「A3B」代表 Active 3B(活躍 30 億參數),代表這是一款為極致效率設計的混合專家(MoE)架構。
- 總參數數: 280-300 億(稀疏混合專家架構)
- 活躍參數數: 30 億(每 token 推論時啟動)
- 上下文視窗: 128k tokens
- 核心強化特性:
- 影像推理能力: 不同於將影像處理為靜態 token 的標準視覺語言模型,此模型可反覆在影像內「放大」與「搜尋」,解析細粒度細節。
- GSPO 與 IcePop 強化學習: 採用先進的強化學習技術(基於群體的自玩優化,GSPO)穩定混合專家訓練,確保複雜邏輯場景下專家路由正確。
案例 1:ERNIE-4.5-VL-28B-A3B 的影像推理能力
路邊牆上藍底招牌的內容是什麼?

資料來源:百度
案例:解橋式電路計算等效電阻
本示例中,模型會收到一個非平凡橋式電路,並被要求計算節點 A 與 B 之間的等效電阻。

資料來源:百度
為何 ERNIE-4.5-VL-28B-A3B-Thinking 能提升工具增強的程式碼工作流程效能
基準測試成績顯示,該模型在 STEM 推理、文件理解、視覺定位方面表現穩定優異,這些能力直接對應實際程式碼工作流程中最困難的認知步驟。
在文件理解與結構化推理基準測試中,儘管每 token 啟動的參數數遠少於競爭對手,ERNIE-4.5-VL-A3B 的成績仍頻繁達到或超過 Gemini-2.5-Pro 與 GPT-5-High 的 第 95 百分位數區間。
| 基準測試 | ERNIE-4.5-VL-A3B | Gemini-2.5-Pro | GPT-5-High | 對開發者的意義 |
|---|---|---|---|---|
| MathVista | 82.5 | 82.7 | 81.3 | 可靠的多步驟符號推理 |
| MathVerse | 81.0 | 82.9 | 84.1 | 受限條件下的強抽象能力 |
| MMMU | 72.2 | 81.7 | 84.2 | 多模態問題分解 |
| ChartQA | 87.1 | 78.3 | 78.2 | 結構化資料提取 |
| DocVQA (val) | 93.6 | 91.2 | 94.2 | 精準的文件定位 |
| OCRBench | 85.8 | 86.4 | 81.0 | 從視覺內容中穩健辨識文字 |
| CharXiv-DQ | 90.3 | 91.2 | 93.5 | 長篇技術推理 |
| CV-Bench | 83.8 | 84.8 | 85.0 | 視覺邏輯一致性 |
| Average (All) | 73.1 | 75.4 | 76.6 | 輕量模型,接近旗艦級推理能力 |
儘管模型總參數數達 280 億,每 token 僅啟動 30 億參數,因此能實現快速低延遲推理,適合在工具循環中重複呼叫。
對使用者而言的關鍵特性:
- 活躍參數數: 每 token 30 億
- 有效延遲: 與中小型模型相當
- 上下文長度: 最高 128k tokens,支援系統級推理
A3B 架構實現了以下優勢:
- 無需負擔高昂成本即可進行頻繁推理
- 智能體工作流程中的穩定延遲
- 可作為全天候推理 API 實務部署
立即試用 ERNIE-4.5-VL-28B-A3B-Thinking!
ERNIE-4.5-VL-28B-A3B-Thinking 在程式碼工具工作流程中的實際作用
ERNIE-4.5-VL-28B-A3B-Thinking 將視覺內容視為推理輸入,而不僅僅是特徵提取器,讓開發者能直接將截圖、圖表、文件整合至程式碼工作流程中。這不是 OCR 加文字生成,模型會針對視覺結構進行推理,並將其與意圖對齊。
1. 圖表與架構理解
模型可以解讀系統圖表,將視覺結構轉換為與程式碼決策相關的邏輯關係。
視覺語言能力提供的價值
- 從圖表中識別組件、邊界與資料流
- 將視覺元素與文字描述對齊
- 推理過程中保留結構關係
示例
- 輸入:微服務架構圖 + 簡短設計備註
- 輸出:服務依賴關係與通訊路徑說明
- 影響:程式碼工具會直接導向正確模組,無需掃描整個程式碼庫
2. 基於截圖的程式碼上下文理解
模型可以針對 UI 或 IDE 截圖進行推理,推斷底層邏輯與意圖。
視覺語言能力提供的價值
- 從截圖中讀取 UI 佈局、日誌與錯誤狀態
- 將視覺狀態與可能的程式碼路徑連結
- 處理不完整或部分的文字資訊
示例
- 輸入:帶有部分錯誤訊息的失敗儀表板截圖
- 輸出:前後端不符的假設與相關 API 層級
- 影響:無需完整重現日誌即可快速除錯
3. 以文件為核心的程式碼推理
模型擅長從混合文字、表格、視覺內容的技術文件中提取可執行的邏輯。
視覺語言能力提供的價值
- 解析規格文件、PDF 與研究型文件
- 將圖表與表格與實作邏輯連結
- 在長文件中維持內容對齊
示例
- 輸入:包含表格與流程圖的 API 規格 PDF
- 輸出:端點、限制條件與邊界案例的結構化摘要
- 影響:程式碼生成工具從正確、有依據的認知出發
4. 用於問題分解的視覺推理
視覺輸入用於驅動多步驟推理,而不僅僅是識別。
視覺語言能力提供的價值
- 將視覺問題轉換為符號表示
- 在推理步驟間維持一致性
- 支援實作前的抽象化步驟
示例
- 輸入:資料流程圖
- 輸出:處理階段與故障點的逐步拆解
- 影響:實現精準工具呼叫,而非大範圍除錯
立即試用 ERNIE-4.5-VL-28B-A3B-Thinking!
如何以實惠價格取得 ERNIE-4.5-VL-28B-A3B-Thinking?
Novita AI 提供 ERNIE-4.5-VL-28B-A3B-Thinking API,配備 30K 上下文視窗,輸入價格為每 token 0.112 美元,輸出價格為每 token 0.448 美元,支援結構化輸出與函數呼叫。
步驟 1:登入並進入模型庫
登入您的帳號,點擊 模型庫 按鈕。

步驟 2:選擇模型
瀏覽可用選項,選擇符合您需求的模型。

立即試用 ERNIE-4.5-VL-28B-A3B-Thinking!
步驟 3:開始免費試用
開始免費試用,探索所選模型的能力。

步驟 4:取得 API 金鑰
若要進行 API 驗證,我們會為您提供新的 API 金鑰。進入「設定」頁面,即可按照圖中指示複製 API 金鑰。

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="baidu/ernie-4.5-vl-28b-a3b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=8000,
temperature=0.7
)
print(response.choices[0].message.content)
ERNIE-4.5-VL-28B-A3B-Thinking 僅需每 token 啟動 30 億參數,即可實現接近旗艦級的視覺語言推理效能,能在工具工作流程中進行低延遲、高頻率的推理。其在文件理解、視覺定位、STEM 推理方面經基準測試驗證的優勢,使其能作為推理協調者,而非純語法引擎。因此,非常適合需要將圖表、截圖、技術文件整合至程式碼工具,同時又不願犧牲速度與成本效率的開發者。
常見問題
ERNIE-4.5-VL-28B-A3B-Thinking 最適合哪類推理任務?
ERNIE-4.5-VL-28B-A3B-Thinking 最適合圖表解讀、文件理解、結構化問題分解等視覺語言推理任務,而非純語法層級的程式碼生成。
ERNIE-4.5-VL-28B-A3B-Thinking 能否取代專注於程式碼的大型語言模型?
不能。ERNIE-4.5-VL-28B-A3B-Thinking 的設計目的是補足專注於程式碼的模型,負責處理視覺理解、規劃與驗證,而非低階程式碼執行。
ERNIE-4.5-VL-28B-A3B-Thinking 的視覺語言能力與基於 OCR 的模型有何不同?
ERNIE-4.5-VL-28B-A3B-Thinking 會針對視覺結構與意圖進行推理,能實現基於圖表的系統理解、基於截圖的除錯等任務,而非單純的文字提取。
Novita AI 是全能雲端平台,助力您實現 AI 抱負。整合式 API、無伺服器、GPU 實例——您需要的所有高性價比工具。免除基礎設施負擔,免費開始,讓您的 AI 願景成為現實。
