Novita AI 正在推出「Build Month」活動,為開發者提供全系列產品最高 20% 的獨家優惠!
構建多模態代理程式與複雜工作流程的開發者,經常苦於如何讓單一模型可靠地解析影像、文件與 UI 狀態、在視覺約束下進行推理、協調工具,並在長上下文環境中保持穩定。GLM-4.6V 直接解決這些痛點,提供統一的視覺-語言架構、原生多模態工具調用能力,以及強大的代理推理能力。本文將說明 GLM-4.6V 的架構設計、基準測試驗證效果、實際工作流程中的運作方式,以及開發者如何透過 API 高效存取 GLM-4.6V。
GLM-4.6V 的架構是什麼?
原生多模態工具調用
GLM-4.6V 配備原生多模態工具調用能力:
- 多模態輸入: 圖片、截圖與文件頁面可直接作為工具參數傳入,無需先轉換為文字描述,最大程度減少訊號損失。
- 多模態輸出: 模型可以視覺方式理解工具返回的結果——例如搜尋結果、統計圖表、渲染後的網頁截圖或檢索到的產品圖片——並將這些結果納入後續推理鏈中。
核心架構特性
- 統一的視覺-語言表徵 視覺特徵與文字語義對齊至共享空間,實現聯合推理。
- 長上下文互動 支援混合對話歷史、文件片段與工具輸出的工作流程。
- 結構化輸出友好 相比僅能描述的多模態視覺語言模型(VLM),更適合函數調用、JSON 結構合規與約束遵循。
根據基準測試結果,GLM-4.6V 在實際工作流程中的效能如何?
1. 視覺驅動的任務理解 將抽象任務錨定於圖表、截圖與視覺規格中
GLM-4.6V 在將原始視覺輸入轉化為結構化語義理解方面表現強勁,這是初始化代理工作流程的關鍵能力。
| Benchmark | 測量能力 | GLM-4.6V |
|---|---|---|
| MMBench v1.1 | 通用視覺問答 | 88.8 |
| MMBench v1.1 (CN) | 跨語言視覺理解 | 88.2 |
| MMStar | 細粒度多模態感知 | 75.9 |
| BLINK (val) | 視覺定位與對齊 | 65.5 |
2. 視覺約束下的多模態推理 將影像作為邏輯與數學推理的變數使用
除了感知能力外,GLM-4.6V 也展現了競爭力的多模態推理效能,這對於依賴視覺證據做決策的工作流程至關重要。
| Benchmark | 推理重點 | GLM-4.6V |
|---|---|---|
| MMMU (val) | 通用多模態推理 | 76.0 |
| MMMU-Pro | 高難度多模態推理 | 66.0 |
| MathVista | 視覺-數學推理 | 85.2 |
| AI2D | 基於圖表的推理 | 88.8 |
3. 基於截圖的狀態診斷 從視覺證據中解析 UI 狀態與執行階段條件
GLM-4.6V 可以從截圖與視覺產物推斷系統狀態,這對於代理程式的除錯與監控特別有用。
| Benchmark | 測量能力 | GLM-4.6V |
|---|---|---|
| VideoMMMU | 時間與狀態推理 | 74.7 |
| DynaMath | 動態視覺推理 | 54.5 |
| WeMath | 應用型視覺推理 | 69.8 |
4. 代理規劃與工具協調 跨步驟規劃、排程與驗證工具使用
GLM-4.6V 的代理基準測試結果顯示,它適合作為核心控制器,而非被動回應器。
| Benchmark | 代理行為 | GLM-4.6V |
|---|---|---|
| Design2Code | 視覺到動作規劃 | 88.6 |
| Flame-React-Eval | 多步驟反應式推理 | 86.3 |
| OSWorld | 基於工具的環境互動 | 37.2 |
| AndroidWorld | 行動代理推理 | 57.0 |
| WebVoyager | 網頁導航與規劃 | 81.0 |
5. 長上下文多模態對齊 在文件、影像與工具輸出間維持一致性
長上下文基準測試顯示模型在長時間互動中保留約束的能力。
| Benchmark | 上下文能力 | GLM-4.6V |
|---|---|---|
| MMLongBench-Doc | 文件級推理 | 54.9 |
| MMLongBench-128K | 超長上下文 | 64.1 |
| LVBench | 長視覺推理 | 59.5 |
6. OCR、圖表與空間定位 從文件與空間佈局中提取結構資訊
當工作流程依賴報告截圖、儀表板或掃描文件時,這些能力至關重要。
| Benchmark | 能力 | GLM-4.6V |
|---|---|---|
| OCRBench | 文字提取 | 86.5 |
| OCR-Bench v2 (EN) | 英文 OCR | 65.1 |
| ChartQAPro | 圖表理解 | 65.5 |
| OmniSpatial | 空間推理 | 52.0 |
| RefCOCO-avg (val) | 指稱表達定位 | 88.6 |
GLM-4.6V 在端到端工作流程中扮演什麼角色?
GLM-4.6V 最適合作為推理與協調層,而非單次回答生成器。它能解析多模態輸入、提取約束條件、規劃工具使用,並驗證中間結果。
| 工作流程角色 | 典型輸入 | 下游用途 |
|---|---|---|
| 推理 + 協調層(整體角色) | 影像、文件、UI 截圖、工具輸出、任務目標 | 穩定的工具增強工作流程,降低錯誤傳播 |
| 視覺驅動的任務理解 | 架構圖、時序圖、部署截圖 | 縮小程式碼庫搜尋範圍;優先排序程式碼路徑;生成針對性測試計畫 |
| 基於截圖的狀態推理 | 錯誤對話框、破損佈局、儀表板異常 | 自動化日誌檢索;針對性追蹤;事件處理手冊 |
| 文件對齊的推理 | API 文件頁面、SDK 程式碼片段、參數表格 | 與文件對齊的程式碼生成;合約測試;結構驗證 |
| 多步驟規劃與驗證 | 高階任務目標;影像;文件;中間工具輸出 | 可靠的代理循環;降低上下文漂移;更安全的多工具執行 |
https://www.youtube.com/watch?v=5gqJKZWYOB4
如何透過 API 存取 GLM-4.6V?
Novita AI 提供 ERNIE-4.5-VL-28B-A3B-Thinking 系列 API,擁有 131K 上下文視窗,輸入費用為每百萬 token $0.3,輸出為每百萬 token $0.9,支援結構化輸出與函數調用。
快取讀取費用:$0.055 / 百萬 token」表示快取命中時的讀取成本。這些 token 是先前計算並儲存的,因此無需額外進行模型推論。在多個請求共享相同提示前綴、重複使用對話歷史、工具指令或固定規則文本,或 RAG 檢索結果高度重複的系統中,可以達到很高的快取命中率,大幅降低整體推論成本。
步驟 1:登入帳號並進入模型庫
登入你的帳號後,點擊模型庫按鈕。

步驟 2:選擇模型
瀏覽可用選項,選擇符合你需求的模型。

步驟 3:開始免費試用
開始免費試用,探索所選模型的能力。

步驟 4:取得 API 金鑰
要進行 API 驗證,我們會為你提供新的 API 金鑰。進入「設定」頁面,即可按照圖片指示複製 API 金鑰。

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-4.6v",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=32768,
temperature=0.7
)
print(response.choices[0].message.content)
如何使用 OpenAIAgentsSDK 存取 GLM 4.6V
透過整合 Novita AI 與 OpenAI Agents SDK 構建進階多代理系統:
- 即插即用: 在任意 OpenAI Agents 工作流程中使用 Novita AI 的 LLM。
- 支援交接、路由與工具調用: 設計能委派、分流或執行函數的代理,全部由 Novita AI 的模型驅動。
- Python 整合: 只需將 SDK 指向 Novita 的端點(
https://api.novita.ai/v3/openai)並使用你的 API 金鑰即可。
如何在第三方平台存取 GLM 4.6V
- Hugging Face:透過 Novita AI 端點在 Spaces、管線或使用 Transformers 函式庫使用 GLM 4.6V。
- 代理與編排框架: 透過官方連接器與逐步整合指南,輕鬆將 Novita AI 與合作夥伴平台如 Continue、AnythingLLM、LangChain、Dify 與 Langflow 連接。
- OpenAI 相容 API: 享受無縫遷移與整合,支援 Cline 與 Cursor 等符合 OpenAI API 標準的工具。
GLM-4.6V 最適合作為多模態工作流程的推理與協調層,而非單純的視覺問答模型。透過統一的視覺-語言表徵、長上下文對齊與強大的工具規劃能力,GLM-4.6V 能實現更可靠、可擴展且成本更低的多模態代理系統。
常見問題
什麼讓 GLM-4.6V 的架構適合多模態工作流程? GLM-4.6V 採用統一的視覺-語言表徵與原生多模態工具調用能力,可讓影像、文件與工具輸出共同參與 GLM-4.6V 的推理過程。
GLM-4.6V 在端到端代理工作流程中扮演什麼角色? GLM-4.6V 作為推理與協調層,負責解析多模態輸入、規劃工具使用,並驗證中間結果。
開發者如何透過 API 使用 GLM-4.6V 降低成本? 透過使用 GLM-4.6V 的快取讀取定價,可重複使用重複的提示、共享前綴與重複的 RAG 輸出,大幅降低推論成本。
Novita AI 是滿足你 AI 抱負的全方位雲端平台。整合 API、無伺服器、GPU 實例——你需要的成本效益工具。免除基礎設施煩惱,免費開始,實現你的 AI 願景。
推薦閱讀
