GLM-4.5V 是智譜 AI 最新推出的開源多模態大型語言模型(LLM),專為在單一統一系統中處理語言與視覺任務而打造。它是前代 GLM-4.1V 模型的一次重大升級,採用了**混合專家(Mixture-of-Experts, MoE)**架構,總參數達 1060 億(每次輸入僅激活約 120 億參數)。
這種設計讓 GLM-4.5V 能夠透過僅在需要時激活專屬「專家」子網路,在更低的推論成本下實現更優異的性能。模型引入了3D 旋轉位置編碼(3D Rotatory Positional Encoding, 3D-RoPE),支援長達 64k 的 token 上下文長度,能輕鬆處理長文件與多維度輸入。
簡單來說,GLM-4.5V 可以**「看」並推理影像與影片**,同時進行自然語言對話,是開發者專屬的強大多模態視覺語言模型(Vision-Language Model, VLM)。
什麼是 GLM 4.5V?
-
先進視覺推理能力
- 超越基礎影像描述——能理解複雜影像、科學圖表與對比內容
- 支援空間推理:可識別物件與邊界框
- 在視覺問答基準測試(如 MMBench 與 MMBench+)中取得最高分數

來源:Hugging Face
-
多模態輸入 + 思考模式
- 支援對話中輸入文字、影像與影片
- 提供**「思考模式」**切換功能:可在最終回答前進行逐步推理
- 非常適合需要邏輯解釋的複雜任務

來源:Hugging Face
-
統一工具調用
- 專為AI 代理使用場景設計——可自主調用外部工具或 API
- 內建函數調用支援,相容 OpenAI 介面
- 採用基於演示的訓練方式實現工具使用
GLM-4.5V 是一款功能強大、對開發者友好的多模態 AI 模型,能透過統一介面處理影像理解、視覺問答、文件 OCR、程式碼生成與 GUI 自動化等任務。非常適合用於 AI 代理、生產力工具、研究等場景。
GLM 4.5V 系統需求
| 面向 | 詳細資訊 |
|---|---|
| 模型大小 | 1060 億參數(MoE 架構);每個 token 僅激活 120 億參數 |
| VRAM | 640GB |
| 基準 GPU 需求 | 8 張 NVIDIA H100(每張 80GB) |
| 精度選項 | 支援 FP16、FP8、INT8、INT4 量化格式 |
| 低 VRAM 優化配置 | 使用 2 張 80GB GPU,搭配 FP8 精度與謹慎的權重分割即可運行 |
| 平行運算支援 | 支援張量與模型平行運算(例如 4 張 40GB GPU) |
| 關鍵函式庫 | vLLM、SGLang |
如何存取 GLM 4.5V API
透過 Novita AI 存取 GLM-4.5V 提供多種路徑,適合不同技術水平與使用場景。無論您是探索 AI 能力的企業用戶,還是構建生產級應用的開發者,Novita AI 都能提供您需要的工具。
1. 使用測試平台(現已上線 - 無需編碼)
- 即時存取:註冊 後即可在幾秒內開始實驗 GLM-4.5V 模型
- 互動介面: 即時測試複雜視覺推理提示詞,可視化觀察鏈式思考輸出結果
- 模型比較: 可針對您的特定使用場景,比較 GLM-4.5V 與其他領先模型的表現
測試平台支援您直接上傳影像、測試各類提示詞,無需任何技術設定即可看到即時結果。非常適合在完整實作前進行原型驗證、想法測試與理解模型能力。
2. 透過 API 整合(已上線可用 - 適合開發者)
使用 Novita AI 的统一 REST API 將 GLM-4.5V 連接至您的應用程式。
選項 1:直接 API 整合(Python 範例)

from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
關鍵特性:
- 相容 OpenAI 的 API,無縫整合
- 彈性的參數控制,可微調回應結果
- 支援串流輸出,即時獲取回應
選項 2:使用 OpenAI Agents SDK 構建多代理工作流
使用 GLM-4.5V 構建複雜的多代理系統:
- 即插即用整合: 可在任何 OpenAI Agents 工作流 中使用 GLM-4.5V
- 先進代理能力: 支援任務交接、路由與工具整合,搭配優異的視覺推理性能
- 可擴展架構: 可設計能運用 GLM-4.5V 統一推理、編碼與視覺分析能力的代理系統
3. 連接第三方平台
開發工具: 可透過相容 OpenAI 的 API,無縫整合 Cursor、Trae、Qwen Code、Cline 等熱門 IDE 與開發環境。
編排框架: 可使用官方連接器,連接 LangChain、Dify、CrewAI、Langflow 等 AI 編排平台。
Hugging Face 整合: Novita AI 是 Hugging Face 的官方推論服務提供商,確保廣泛的生態系統相容性。
使用 GLM 4.5V 命令列介面(CLI)
對於偏好在本機運行模型、或需要對環境有更多控制權的開發者,GLM-4.5V 也可透過命令列介面使用。智譜 AI 已開源模型權重,並提供工具讓您在自己的硬體上運行模型。
模型已上架至 Hugging Face Hub,名稱為 zai-org/GLM-4.5V。您可以下載模型後,使用 Transformers 函式庫生成輸出。例如,在 Python 腳本或 Jupyter 筆記本中執行:
python3 inference/trans_infer_cli.py --model-path zai-org/GLM-4.5V --image test.jpg --question "这张图里有什么?"
| 功能 | CLI | API |
|---|---|---|
| 使用方式 | 在終端機輸入指令與參數 | 在程式碼中呼叫函式庫/發送 HTTP 請求 |
| 輸出方式 | 直接輸出至終端機 | 返回物件/JSON,易於後續處理 |
| 適用場景 | 模型測試、快速推論、小型腳本 | 應用程式開發、服務整合、大規模呼叫 |
| 靈活性 | 參數固定,組合有限 | 完全可程式化,支援複雜邏輯 |
| 依賴需求 | 僅需腳本/CLI 工具 | 需編寫程式碼並管理依賴 |
使用 MCP 與 GLM4.5V 構建簡單影像辨識工具
若您想運用 GLM 的能力,例如構建簡單的影像辨識工具來展示其視覺辨識與推理的整合能力,可使用 Novita AI 支援的 MCP 功能。以下為範例程式碼:
import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount
base_url = "https://api.novita.ai/v3"
headers = {
"Content-Type": "application/json",
"Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}
mcp = FastMCP("Novita_API")
@mcp.tool()
def list_models() -> str:
"""
List all available models from the Novita API.
"""
url = base_url + "/openai/models"
response = requests.request("GET", url, headers=headers)
data = response.json()["data"]
text = ""
for i, model in enumerate(data, start=1):
text += f"Model id: {model['id']}\
"
text += f"Model description: {model['description']}\
"
text += f"Model type: {model['model_type']}\
\
"
return text
@mcp.tool()
def get_model(model_id: str, message) -> str:
"""
Provide a model ID and a message to get a response from the Novita API.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"content": message,
"role": "user",
}
],
"max_tokens": 200,
"response_format": {
"type": "text",
},
}
response = requests.request("POST", url, json=payload, headers=headers)
content = response.json()["choices"][0]["message"]["content"]
return content
@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
"""
Use GLM-4.1V-9B-Thinking to answer a question about an image.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": image_url,
}
},
{
"type": "text",
"text": question,
}
]
}
],
"max_tokens": 500
}
response = requests.post(url, json=payload, headers=headers)
return response.json()["choices"][0]["message"]["content"]
if __name__ == "__main__":
# Run using stdio transport
mcp.run(transport="stdio")
疑難排解 GLM 4.5V 常見問題
1. 記憶體與載入錯誤(CUDA 記憶體不足 OOM) 原因: 模型過大,無法放入可用 GPU 記憶體中。 解決方案:
- 使用推薦的推論後端
- 範例:在 SGLang 中啟用
--attention-backend fa3以減少記憶體用量。
- 範例:在 SGLang 中啟用
- 使用更多 GPU,降低張量平行度大小
- 範例:設定 TP=8(8 張 GPU)而非 TP=4,讓每張 GPU 分配更小的模型區塊。
- 載入量化模型(8 位元或 4 位元)
- 例如,使用 HuggingFace Transformers 時設定
load_in_8bit=True。
- 例如,使用 HuggingFace Transformers 時設定
- 選擇 VRAM 更高的雲端運算實例
- 範例:A100(80GB)或 H200(141GB);H200 可於單張 GPU 上運行模型。
- 將長輸入分割為較小的區塊處理
- 將長影片分割為較短的片段,或關閉思考模式以減少輸出大小。
2. 影像輸入無法識別 原因: 影像格式不正確,或傳遞至模型的方式有誤。 解決方案:
- 對於 OpenAI 風格的 API,請將輸入結構化為特殊訊息格式
- 範例:
[{"type": "image_url", "image_url": {"url": "<URL>"}}, {"type": "text", "text": "您的問題"}]
- 範例:
- 使用 HuggingFace Transformers 時,請使用
AutoProcessor- 範例:推論前呼叫
processor(images=[...], text=[...])。
- 範例:推論前呼叫
- 確保影像 URL 為公開可訪問,或若支援則使用 base64 編碼
- 若模型忽略影像或表示未收到影像,代表輸入可能無效。
4. 異常的輸出格式 問題現象:
- 輸出包含原始 HTML(例如
<div>...</div>) - 出現非預期的跳脫字元(例如
<) - 回答重複或附加多餘內容 解決方案:
- 指示模型使用 Markdown 格式輸出程式碼(例如使用三個反引號)
- 套用修補程式修正 HTML 跳脫問題(官方儲存庫有提供)
- 若不需要可關閉思考模式
- 後處理輸出,移除重複內容
5. 工具呼叫殘留內容
問題現象: 模型輸出工具相關指令(例如 <|search|>)。
解決方案: 使用標準的聊天完成 API,而非代理端點,並避免提示詞模仿工具使用場景。
6. 準確度限制 已知限制:
- 在細粒度視覺任務(如計數、人臉辨識)上表現可能不佳
- 純文字問題可能更適合由專業文字模型回答
- 處理極長文件或影片時速度較慢,可能遇到逾時 建議:
- 長輸入使用串流模式,以接收部分輸出結果
- 將大型輸入分割為較小的區塊
- 檢查您的 API 提供商的實際上下文長度限制
GLM-4.5V 是視覺語言 AI 的遊戲規則改變者,將過去僅專有模型具備的能力帶到開源與自主託管的世界。我們說明了 GLM-4.5V 是什麼、為何與眾不同、運行所需的設定、常見問題的疑難排解方式,以及多種存取路徑(雲端 API 或本地 CLI)。有了這些知識,開發者可以自信地將 GLM-4.5V 整合至自己的專案中。
我應該從 Gemma 3 27B 升級到 GLM 4.5V 嗎?
GLM-4.5V 是智譜 AI 最新推出的開源多模態大型語言模型,能同時處理語言與視覺任務,包括文字、影像與影片,並具備先進的推理能力。
GLM-4.5V 能做什麼?
它支援先進視覺推理(例如科學圖表、空間推理、視覺問答)、長文件理解、程式碼生成、OCR、GUI 自動化與多模態對話等功能。
GLM-4.5V 與前代模型有何不同?
它相較 GLM-4.1V 升級為混合專家(MoE)架構,總參數達 1060 億(每次輸入僅激活 120 億參數),並搭載 3D-RoPE 技術實現 64k 上下文長度,能在更低的成本下實現更強的性能。
Novita AI 是實現您 AI 抱負的全方位雲端平台。整合 API、無伺服器運算、GPU 實例——您需要的所有高性價比工具。免除基礎設施煩惱,免費開始使用,讓您的 AI 願景成真。
