如何將 ERNIE-4.5-VL-A3B 整合至工具增強工作流程

如何將 ERNIE-4.5-VL-A3B 整合至工具增強工作流程

Novita AI 正在推出「Build Month」活動,為開發者提供所有主要產品最高 20% 的獨家優惠!

參與 Build Month!

現代開發者越來越難將圖表、截圖、技術文件等富含視覺輸入的內容整合至程式碼工作流程中,同時兼顧低延遲與可控成本。傳統視覺語言模型(VLM)要麼速度太慢無法嵌入工具循環,要麼結構化推理能力不足,無法為實際工程決策提供指引。

本文將說明 ERNIE-4.5-VL-28B-A3B-Thinking 如何透過結合優異的視覺語言推理基準成績,以及能實現快速重複推論的 A3B 架構,補足上述缺口,並展示這些特性如何使其適用於工具增強的程式碼工作流程。

ERNIE-4.5-VL-28B-A3B 的架構

模型僅從 280 億參數的密集參數庫中,為每個 token 啟動 30 億參數,即可實現旗艦級智慧,同時擁有邊緣級推論成本。

模型名稱中的「A3B」代表 Active 3B(活躍 30 億參數),代表這是一款為極致效率設計的混合專家(MoE)架構。

  • 總參數數: 280-300 億(稀疏混合專家架構)
  • 活躍參數數: 30 億(每 token 推論時啟動)
  • 上下文視窗: 128k tokens
  • 核心強化特性:
    • 影像推理能力: 不同於將影像處理為靜態 token 的標準視覺語言模型,此模型可反覆在影像內「放大」與「搜尋」,解析細粒度細節。
    • GSPO 與 IcePop 強化學習: 採用先進的強化學習技術(基於群體的自玩優化,GSPO)穩定混合專家訓練,確保複雜邏輯場景下專家路由正確。

案例 1:ERNIE-4.5-VL-28B-A3B 的影像推理能力

路邊牆上藍底招牌的內容是什麼?

ERNIE-4.5-VL-28B-A3B 影像推理能力示意圖

資料來源:百度

案例:解橋式電路計算等效電阻

本示例中,模型會收到一個非平凡橋式電路,並被要求計算節點 AB 之間的等效電阻。

ERNIE-4.5-VL-28B-A3B 影像推理能力示意圖

資料來源:百度

為何 ERNIE-4.5-VL-28B-A3B-Thinking 能提升工具增強的程式碼工作流程效能

基準測試成績顯示,該模型在 STEM 推理、文件理解、視覺定位方面表現穩定優異,這些能力直接對應實際程式碼工作流程中最困難的認知步驟。

在文件理解與結構化推理基準測試中,儘管每 token 啟動的參數數遠少於競爭對手,ERNIE-4.5-VL-A3B 的成績仍頻繁達到或超過 Gemini-2.5-Pro 與 GPT-5-High 的 第 95 百分位數區間

基準測試 ERNIE-4.5-VL-A3B Gemini-2.5-Pro GPT-5-High 對開發者的意義
MathVista 82.5 82.7 81.3 可靠的多步驟符號推理
MathVerse 81.0 82.9 84.1 受限條件下的強抽象能力
MMMU 72.2 81.7 84.2 多模態問題分解
ChartQA 87.1 78.3 78.2 結構化資料提取
DocVQA (val) 93.6 91.2 94.2 精準的文件定位
OCRBench 85.8 86.4 81.0 從視覺內容中穩健辨識文字
CharXiv-DQ 90.3 91.2 93.5 長篇技術推理
CV-Bench 83.8 84.8 85.0 視覺邏輯一致性
Average (All) 73.1 75.4 76.6 輕量模型,接近旗艦級推理能力

儘管模型總參數數達 280 億,每 token 僅啟動 30 億參數,因此能實現快速低延遲推理,適合在工具循環中重複呼叫。

對使用者而言的關鍵特性:

  • 活躍參數數: 每 token 30 億
  • 有效延遲: 與中小型模型相當
  • 上下文長度: 最高 128k tokens,支援系統級推理

A3B 架構實現了以下優勢:

  • 無需負擔高昂成本即可進行頻繁推理
  • 智能體工作流程中的穩定延遲
  • 可作為全天候推理 API 實務部署

立即試用 ERNIE-4.5-VL-28B-A3B-Thinking!

ERNIE-4.5-VL-28B-A3B-Thinking 在程式碼工具工作流程中的實際作用

ERNIE-4.5-VL-28B-A3B-Thinking 將視覺內容視為推理輸入,而不僅僅是特徵提取器,讓開發者能直接將截圖、圖表、文件整合至程式碼工作流程中。這不是 OCR 加文字生成,模型會針對視覺結構進行推理,並將其與意圖對齊。

1. 圖表與架構理解

模型可以解讀系統圖表,將視覺結構轉換為與程式碼決策相關的邏輯關係。

視覺語言能力提供的價值

  • 從圖表中識別組件、邊界與資料流
  • 將視覺元素與文字描述對齊
  • 推理過程中保留結構關係

示例

  • 輸入:微服務架構圖 + 簡短設計備註
  • 輸出:服務依賴關係與通訊路徑說明
  • 影響:程式碼工具會直接導向正確模組,無需掃描整個程式碼庫

2. 基於截圖的程式碼上下文理解

模型可以針對 UI 或 IDE 截圖進行推理,推斷底層邏輯與意圖。

視覺語言能力提供的價值

  • 從截圖中讀取 UI 佈局、日誌與錯誤狀態
  • 將視覺狀態與可能的程式碼路徑連結
  • 處理不完整或部分的文字資訊

示例

  • 輸入:帶有部分錯誤訊息的失敗儀表板截圖
  • 輸出:前後端不符的假設與相關 API 層級
  • 影響:無需完整重現日誌即可快速除錯

3. 以文件為核心的程式碼推理

模型擅長從混合文字、表格、視覺內容的技術文件中提取可執行的邏輯。

視覺語言能力提供的價值

  • 解析規格文件、PDF 與研究型文件
  • 將圖表與表格與實作邏輯連結
  • 在長文件中維持內容對齊

示例

  • 輸入:包含表格與流程圖的 API 規格 PDF
  • 輸出:端點、限制條件與邊界案例的結構化摘要
  • 影響:程式碼生成工具從正確、有依據的認知出發

4. 用於問題分解的視覺推理

視覺輸入用於驅動多步驟推理,而不僅僅是識別。

視覺語言能力提供的價值

  • 將視覺問題轉換為符號表示
  • 在推理步驟間維持一致性
  • 支援實作前的抽象化步驟

示例

  • 輸入:資料流程圖
  • 輸出:處理階段與故障點的逐步拆解
  • 影響:實現精準工具呼叫,而非大範圍除錯

立即試用 ERNIE-4.5-VL-28B-A3B-Thinking!

如何以實惠價格取得 ERNIE-4.5-VL-28B-A3B-Thinking?

Novita AI 提供 ERNIE-4.5-VL-28B-A3B-Thinking API,配備 30K 上下文視窗,輸入價格為每 token 0.112 美元,輸出價格為每 token 0.448 美元,支援結構化輸出與函數呼叫。

步驟 1:登入並進入模型庫

登入您的帳號,點擊 模型庫 按鈕。

登入帳號並點擊模型庫按鈕的示意圖

步驟 2:選擇模型

瀏覽可用選項,選擇符合您需求的模型。

瀏覽可用選項並選擇合適模型的示意圖

立即試用 ERNIE-4.5-VL-28B-A3B-Thinking!

步驟 3:開始免費試用

開始免費試用,探索所選模型的能力。

開始免費試用探索模型能力的示意圖

步驟 4:取得 API 金鑰

若要進行 API 驗證,我們會為您提供新的 API 金鑰。進入「設定」頁面,即可按照圖中指示複製 API 金鑰。

取得 API 金鑰的示意圖

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="baidu/ernie-4.5-vl-28b-a3b",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=8000,
    temperature=0.7
)

print(response.choices[0].message.content)

ERNIE-4.5-VL-28B-A3B-Thinking 僅需每 token 啟動 30 億參數,即可實現接近旗艦級的視覺語言推理效能,能在工具工作流程中進行低延遲、高頻率的推理。其在文件理解、視覺定位、STEM 推理方面經基準測試驗證的優勢,使其能作為推理協調者,而非純語法引擎。因此,非常適合需要將圖表、截圖、技術文件整合至程式碼工具,同時又不願犧牲速度與成本效率的開發者。

常見問題

ERNIE-4.5-VL-28B-A3B-Thinking 最適合哪類推理任務?

ERNIE-4.5-VL-28B-A3B-Thinking 最適合圖表解讀、文件理解、結構化問題分解等視覺語言推理任務,而非純語法層級的程式碼生成。

ERNIE-4.5-VL-28B-A3B-Thinking 能否取代專注於程式碼的大型語言模型?

不能。ERNIE-4.5-VL-28B-A3B-Thinking 的設計目的是補足專注於程式碼的模型,負責處理視覺理解、規劃與驗證,而非低階程式碼執行。

ERNIE-4.5-VL-28B-A3B-Thinking 的視覺語言能力與基於 OCR 的模型有何不同?

ERNIE-4.5-VL-28B-A3B-Thinking 會針對視覺結構與意圖進行推理,能實現基於圖表的系統理解、基於截圖的除錯等任務,而非單純的文字提取。

Novita AI 是全能雲端平台,助力您實現 AI 抱負。整合式 API、無伺服器、GPU 實例——您需要的所有高性價比工具。免除基礎設施負擔,免費開始,讓您的 AI 願景成為現實。

推薦閱讀