GLM-4.5V 是 GLM-4.1V 的重大升級版本,在可擴展性、多模態能力與成本效益上都有顯著提升。透過整合領域特定專家、先進視覺模組與混合專家(Mixture-of-Experts, MoE)架構,GLM-4.5V 在文件理解、即時影片 OCR、多模態內容生成等任務上表現優異,是兼具多功能性與開發者友好的解決方案。
GLM 4.5V 相較於 GLM 4.1V 的獨有功能
GLM-4.5V 相比 GLM-4.1V 展現出明顯更高的多功能性與工具整合能力。它簡化了過去需要多個專業模型才能完成的任務,能在單一系統內處理從基礎影像辨識到複雜影片分析、文件處理的所有需求。舉例來說,GLM-4.5V 可以從網頁截圖生成前端程式碼,或分析地圖影像提取地理定位線索。它將推理與外部工具整合、並輸出結構化結果的能力,使其與 GLM-4.1V 拉開差距,成為對開發者更友好、可擴展性更高的多模態 AI 平台。

GLM 4.5V 與 GLM 4.1V:架構比較
| 面向 | GLM-4.1V | GLM-4.5V |
|---|---|---|
| 規模 | 90 億參數,密集 Transformer。 | 總參數 1060 億,透過混合專家(MoE)架構僅啟用 120 億參數。 |
| 專業性 | 通用模型。 | 透過 MoE 實現領域特定專家,提升任務效能。 |
| 視覺模組 | 僅支援 2D 影像處理。 | 新增 3D 卷積,支援影片與 GUI 辨識。 |
| 上下文編碼 | 2D RoPE,支援約 64k tokens。 | 3D RoPE,支援 64k tokens 與多維度輸入 |
| 基礎模型 | 基於 GLM-4(90 億參數)。 | 建構於 GLM-4.5-Air,強化語言與多模態能力。 |
GLM 4.5V 與 GLM 4.1V:基準測試比較

來源:Hugging Face
GLM-4.1V 的成就:
- 儘管體積更小,仍擊敗 Qwen-2.5-VL(70 億參數)等更大模型,並能與 Qwen-72B 抗衡
- 在 2025 年前定義了小型模型的技術標竿
GLM-4.5V 的進步:
- 超越同參數級距的所有開源模型,並擊敗部分更大參數的模型
- 在多項關鍵基準測試中擊敗 Step-3(3210 億參數),展現出色的效能與準確率
GLM-4.5V 的關鍵優勢:
- 在通用視覺問答、STEM 推理、長文件 OCR 任務上表現優異
- 運用 MoE 架構與先進訓練優化技術,實現頂級效能
GLM 4.5V 與 GLM 4.1V:硬體需求比較
| 面向 | GLM-4.1V | GLM-4.5V |
|---|---|---|
| VRAM 需求 | 24GB(例如 NVIDIA A100 40GB、RTX 4090) | 每張 GPU 需 80GB;完整部署通常需要 8 張 80GB 規格的 GPU |
| GPU 配置 | 單張高階 GPU 即可運行 | 需要多 GPU 配置(如 8 張 GPU)或雲端 GPU 叢集 |
| CPU 相容性 | 經優化後可在 CPU 上運行(非即時) | 不適用於 CPU 運行;需要進階硬體或雲端解決方案 |
| 量化選項 | 支援 16 位、8 位甚至 4 位量化以降低記憶體需求 | 提供記憶體優化版本(如 FP8 量化)以減輕硬體負擔 |
透過提供靈活的推理模式與高效的速度-準確率調整,GLM-4.5V 降低了硬體需求,同時適合高效能與輕量級即時使用場景。
GLM 4.5V 與 GLM 4.1V:應用場景比較
GLM 4.5V
1. 文件理解
- 辨識與分析複雜文件中的文字內容
- 處理手寫文字、印章、浮水印與扭曲變形內容
- 提取關鍵資訊並生成結構化摘要
2. 表格辨識與重構
- 處理包含合併儲存格、巢狀結構的複雜表格
- 推斷缺失數據並確保內容一致性
- 將影像式表格轉換為 Excel、CSV 等格式
3. 多模態內容生成
- 根據辨識到的文字、圖表或影像生成報告與摘要
- 提供趨勢分析與可行建議
- 支援從手寫筆記或表單生成內容
4. 即時影片 OCR
- 從影片串流中提取字幕與畫面文字
- 動態追蹤移動文字,適應場景變化
- 支援多語言即時辨識
GLM 4.1V
- 教育工具
- 非常適合透過影像分析逐步展示 AI 推理過程的教學場景
- 同時輸出答案與推理過程,幫助理解 AI 的決策邏輯
- 敏感應用場景
- 適用於醫學影像分析等需要透明度與思路鏈解釋的領域
- 輕量級系統
- 可部署在後端資源極少的有簡單網頁應用程式或裝置上
- 實驗與研究
- 緊湊的模型尺寸讓計算資源有限的研究人員與開發者也能輕鬆使用
- 輔導系統
- 為互動式學習環境提供視覺-語言能力
GLM 4.5V 的成本優勢
高效能(來源:LLMOCR Test)
- 整體準確率:在 1000 份混合類型文件上達到 98.7%
- 特定優勢:
- 中文辨識:99.3%
- 英文辨識:98.9%
- 表格恢復:97.5%
- 手寫辨識:96.8%
- 處理效率:每頁文件處理耗時 0.42 秒,API 呼叫成功率達 99.95%
成本效益
- 平均成本:每頁 ¥0.015
- 節省幅度:
- 相比 GPT-4V 成本降低 73%
- 相比 Claude-3 成本降低 65%
Novita AI:更具成本效益且穩定的 GLM 4.5V API 供應商
Novita AI 的 GLM-4.5V API 提供 65.5K 上下文長度,輸入價格為每 1K tokens 0.60 美元,輸出價格為每 1K tokens 1.80 美元,支援函數呼叫與結構化輸出。
步驟 1:登入並存取模型庫
登入您的帳號後,點擊 模型庫 按鈕。

步驟 2:選擇您要使用的模型
瀏覽可用的選項,選擇符合您需求的模型。

步驟 3:開始免費試用
開始免費試用,探索所選模型的能力。

步驟 4:取得您的 API 金鑰
為了進行 API 驗證,我們會提供給您新的 API 金鑰。進入「設定」頁面後,即可按照圖中指示複製 API 金鑰。

步驟 5:安裝 API
使用對應程式語言的套件管理器安裝 API。安裝完成後,將必要的函式庫匯入您的開發環境,使用 API 金鑰初始化 API 即可開始與 Novita AI LLM 互動。以下為 Python 使用者提供的聊天完成 API 使用範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key="session_rDfpD7GWNXFvnoIbmYNFkVlStqevDItFJac__3tAuw3ZiENHe3wm498Kv9rZEc5JhZgEJ7c9To5Y3EmZZewMbw==",
)
model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
使用 MCP 與 GLM 建立簡單的影像辨識工具
如果您想發揮 GLM 的能力,例如建立簡單的影像辨識工具來展示其視覺辨識與推理的整合能力,可以使用 Novita AI 支援的 MCP 功能。以下是範例程式碼:
import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount
base_url = "https://api.novita.ai/v3"
headers = {
"Content-Type": "application/json",
"Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}
mcp = FastMCP("Novita_API")
@mcp.tool()
def list_models() -> str:
"""
List all available models from the Novita API.
"""
url = base_url + "/openai/models"
response = requests.request("GET", url, headers=headers)
data = response.json()["data"]
text = ""
for i, model in enumerate(data, start=1):
text += f"Model id: {model['id']}\
"
text += f"Model description: {model['description']}\
"
text += f"Model type: {model['model_type']}\
\
"
return text
@mcp.tool()
def get_model(model_id: str, message) -> str:
"""
Provide a model ID and a message to get a response from the Novita API.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"content": message,
"role": "user",
}
],
"max_tokens": 200,
"response_format": {
"type": "text",
},
}
response = requests.request("POST", url, json=payload, headers=headers)
content = response.json()["choices"][0]["message"]["content"]
return content
@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
"""
Use GLM-4.1V-9B-Thinking to answer a question about an image.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": image_url,
}
},
{
"type": "text",
"text": question,
}
]
}
],
"max_tokens": 500
}
response = requests.post(url, json=payload, headers=headers)
return response.json()["choices"][0]["message"]["content"]
if __name__ == "__main__":
# Run using stdio transport
mcp.run(transport="stdio")
如果您想了解詳細內容,可以參考這篇文章:如何使用 Novita AI 建立您的第一個 MCP 伺服器!
GLM-4.5V 在各方面都優於前代 GLM-4.1V:從處理複雜視覺內容與長文件的能力,到成本節省與優異的硬體優化。憑藉增強的架構與廣泛的應用範圍,它是開發者與企業尋求一站式 AI 解決方案的革命性選擇。
GLM-4.5V 的關鍵架構改進有哪些?
GLM-4.5V 引入了混合專家(MoE)架構,總參數達 1060 億(僅啟用 120 億),採用 3D RoPE 編碼與 3D 卷積技術用於影片與 GUI 辨識,超越了 GLM-4.1V 的密集 Transformer 設計。逐步提供步驟,而不僅僅是給出答案。
GLM-4.5V 如何處理多模態任務?
GLM-4.5V 整合了先進的視覺模組,支援 3D 影片與 GUI 辨識,能實現即時影片 OCR、地理定位分析、多模態內容生成等任務。
相比 GLM-4.1V,哪些任務更適合使用 GLM-4.5V?
GLM-4.5V 在文件理解(包含手寫文字、浮水印辨識)、表格重構、即時影片 OCR、多模態內容生成等任務上表現優異,這些都是 GLM-4.1V 能力有限的領域。
Novita AI 是實現您 AI 抱負的一站式雲端平台。整合 API、無伺服器、GPU 實例——您需要的所有高性價比工具。免除基礎設施煩惱,免費開始,將您的 AI 願景化為現實。
