GLM 4.5V 和 Qwen 2.5-VL 是近期來自中國 AI 社群的兩款尖端開源視覺語言模型(VLM)。兩者皆旨在推動多模態 AI 的技術前沿,結合自然語言理解與視覺內容分析。在這篇部落格文章中,我們將從對開發者重要的多個面向比較 GLM 4.5V 與 Qwen 2.5-VL。
GLM 4.5V 與 Qwen 2.5-VL:主要架構差異
| 特性 | GLM 4.5V | Qwen 2.5-VL |
|---|---|---|
| 架構類型 | 混合專家(MoE),總參數 355B,每個 token 約 32B 活躍(Air:總參數 106B / 活躍 12B) | 稠密 Transformer,每個 token 所有 72B 參數皆活躍 |
| 效率 vs 容量 | 高容量,透過部分專家激活降低推論成本 | 穩定但計算成本高,所有參數用於每個輸入 |
| 視覺編碼器 | 基於 Vision Transformer(ViT),標準實作 | ViT 搭配 Window Attention、RMSNorm 和 SwiGLU,實現更高效的高解析度處理 |
| 上下文長度 | 最高 128K tokens(某些配置可達 131K) | 最高 32K tokens |
GLM 4.5V 與 Qwen 2.5-VL:訓練資料
1. 資料規模
| 類別 | GLM 4.5V | Qwen 2.5-VL |
|---|---|---|
| 文字 tokens | 總計約 23 兆 tokens – 15T 通用 – 8T 推理/程式碼/代理任務 |
72B 版本估計約 18T+ tokens (基於先前 Qwen 系列的擴展) |
2. 資料類型
| 類別 | GLM 4.5V | Qwen 2.5-VL |
|---|---|---|
| 文字 | 多語言文字、程式碼、網路文字、推理提示、代理任務資料 | 通用多語言文字、指令、可能包含偏好對齊的提示 |
| 視覺資料 | 清理 + 重新標註的圖文對 學術圖表、圖形、數學圖片 GUI 截圖、PDF、手寫筆記、多語言 OCR |
廣泛的視覺資料 包含掃描表格、發票、簡報、邊界框標籤、OCR 文字 |
| 影片資料 | 附帶推理監督的長格式影片 | 影片支援動態解析度與畫面取樣 |
3. 額外能力與訓練技術
| 類別 | GLM 4.5V | Qwen 2.5-VL |
|---|---|---|
| 推理支援 | 使用 thinking... response 鏈式思考提示,交織視覺任務進行訓練 |
推理為內部進行;無明確的鏈式思考暴露 |
| 微調方法 | 跨多個領域(STEM、GUI、影片、文件)的課程取樣強化學習(RLCS) | 類似 RLHF/RLAIF 的微調(未完全公開),至少應用於 32B 模型,72B 可能繼承 |
| 多模態能力 | 專為代理任務訓練:對影像進行推理、執行操作(例如 GUI 互動、工具使用) | 專精於結構化輸出:JSON 格式 OCR、版面解析(QwenVL HTML)、附座標的物體偵測 |
總結來說,GLM 4.5V 的訓練強調 **品質與推理 (策展資料 + 明確推理 + 多領域 RL),而 Qwen 2.5-VL 的訓練則強調 ** 廣度與視覺(廣泛的資料覆蓋 + 動態視覺訓練 + 部分 RL 對齊)。
GLM 4.5V 與 Qwen 2.5-VL:推論延遲比較
GLM 4.5V 採用混合專家(MoE)架構,意味著推論時每個 token 僅有約 12B 參數活躍,儘管模型總規模超過 100B。
這種設計使其運行效率更高,速度接近稠密 12B–20B 模型,而非像 72B+ 稠密模型那樣有高延遲和低吞吐量。
GLM 4.5V 處理長上下文(最高 128K tokens)時延遲增長較低,特別適合涉及長文件或多輪對話的任務。
GLM 支援特殊的 /nothink 模式,可在不需要逐步推理時停用,從而產生更快、更簡潔的輸出。
總體而言,GLM 4.5V 在長上下文推論效率與擴展性方面表現出色,但需要強大的硬體和智慧部署才能發揮其全部潛力。
GLM 4.5V 與 Qwen 2.5-VL:基準測試比較

GLM-4.5V 目前在整體基準測試表現上領先,特別是在複雜與長上下文的多模態任務中,
但 Qwen2.5-VL 仍極具競爭力,且曾是業界標竿。
兩者均優於大多數其他開源 LLM,即使在視覺語言領域的封閉源碼巨頭面前也難以被忽視。
GLM 4.5V 與 Qwen 2.5-VL 的優點與弱點

GLM 4.5V vs Qwen 2.5-VL:文字摘要、聊天機器人、基於影像的 NLP 哪個更好?
文字摘要:GLM-4.5V 勝出
在摘要長文件、報告或多模態內容方面,GLM-4.5V 具有明顯優勢。其 128K 上下文視窗使其能夠處理整本書或大型對話記錄而無需截斷。由於內建鏈式思考模式,它可以在總結的同時分析或推理內容。
Qwen 2.5-VL 在摘要方面也表現出色,特別是較短文章或標準長度文件。它能產出乾淨、簡潔、格式良好的摘要,且對於中等長度的任務較快。但對於涉及文字 + 圖片的繁重摘要任務,GLM 更為勝任。
聊天機器人:取決於需求
對於需要 深度推理、長期記憶和逐步任務完成 的聊天機器人,GLM-4.5V 更強大。它支援工具使用和長時間對話而不會遺忘上下文。其結構化推理(使用 thinking 模式)能更好地處理 複雜查詢。
對於 視覺聊天機器人,特別是涉及 ** 截圖、圖片或版面解析的場景,Qwen 2.5-VL 表現出色。它對圖像理解良好,提供結構化答案(例如 JSON),並支援 ** 多輪視覺對話。此外,它「開箱即用」時對齊性略高,使得互動更順暢、更禮貌。
基於影像的 NLP 任務:Qwen2.5-VL 領先
對於涉及 從影像中提取結構化資料 的任務,例如 OCR、表單理解或版面識別,Qwen 2.5-VL 是更強的模型。
- 它支援 邊界框偵測,以 HTML 或 JSON 格式輸出結構化版面,並能解析複雜的視覺文件。
- 其 多語言 OCR 以及對圖像內容的推理能力,使其在商業導向的視覺 NLP 中非常實用。
GLM-4.5V 也能處理這些任務,但通常以自由文字形式描述視覺內容而非結構化格式,可能需要更多後處理。
Novita AI:更具成本效益且穩定的 GLM 4.5V API 提供商
Novita AI 的 GLM-4.5V API 提供 65.5K 上下文,輸入定價為每 1K tokens $0.60,輸出每 1K tokens $1.80,並支援函數呼叫與結構化輸出。
步驟 1:登入並進入模型庫
登入您的帳戶,然後點擊 模型庫 按鈕。

步驟 2:選擇您的模型
瀏覽可用選項,選擇符合需求的模型。

步驟 3:開始免費試用
開始免費試用,探索所選模型的功能。

步驟 4:取得您的 API 金鑰
為了驗證 API,我們將提供您一個新的 API 金鑰。進入「Settings」頁面,您可以複製如圖所示的 API 金鑰。

步驟 5:安裝 API
使用您程式語言的套件管理器安裝 API。
安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是 Python 使用者使用 chat completions API 的範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/openai",
api_key="session_rDfpD7GWNXFvnoIbmYNFkVlStqevDItFJac__3tAuw3ZiENHe3wm498Kv9rZEc5JhZgEJ7c9To5Y3EmZZewMbw==",
)
model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
使用 MCP 與 GLM 建立簡易影像辨識工具
如果您想利用 GLM 的能力——例如建立一個簡單的影像辨識工具來展示其視覺辨識與推理的整合——您可以使用 Novita AI 支援的 MCP 功能。以下是範例程式碼:
import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount
base_url = "https://api.novita.ai/v3"
headers = {
"Content-Type": "application/json",
"Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}
mcp = FastMCP("Novita_API")
@mcp.tool()
def list_models() -> str:
"""
List all available models from the Novita API.
"""
url = base_url + "/openai/models"
response = requests.request("GET", url, headers=headers)
data = response.json()["data"]
text = ""
for i, model in enumerate(data, start=1):
text += f"Model id: {model['id']}\
"
text += f"Model description: {model['description']}\
"
text += f"Model type: {model['model_type']}\
\
"
return text
@mcp.tool()
def get_model(model_id: str, message) -> str:
"""
Provide a model ID and a message to get a response from the Novita API.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"content": message,
"role": "user",
}
],
"max_tokens": 200,
"response_format": {
"type": "text",
},
}
response = requests.request("POST", url, json=payload, headers=headers)
content = response.json()["choices"][0]["message"]["content"]
return content
@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
"""
Use GLM-4.1V-9B-Thinking to answer a question about an image.
"""
url = base_url + "/openai/chat/completions"
payload = {
"model": model_id,
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": image_url,
}
},
{
"type": "text",
"text": question,
}
]
}
],
"max_tokens": 500
}
response = requests.post(url, json=payload, headers=headers)
return response.json()["choices"][0]["message"]["content"]
if __name__ == "__main__":
# Run using stdio transport
mcp.run(transport="stdio")
如果您想了解詳細資訊,可以查看這篇文章:How to Build Your First MCP Server with Novita AI!
在比較這些模型後,很明顯 GLM 4.5V 和 Qwen 2.5-VL 都極其強大。「更好」的模型確實取決於具體的使用案例與限制。我們將以簡短的常見問題解答來總結,回答一些剩餘的實務問題:
GLM-4.5V 的關鍵架構改進是什麼?
只有較小的版本(≤13B)可以單 GPU 運行;完整大小的模型需要多 GPU 設置或雲端推論。
這些模型是否支援英文和中文以外的語言?
它們的核心優勢在於英文和中文,但也能以變動的品質處理某些其他語言。
我可以針對我的任務微調這些模型嗎?
可以,兩者都可以使用 LoRA 等技術進行微調或適配,但大型模型需要大量的計算資源。
Novita AI 是全方位雲端平台,助力您的 AI 野心。整合 API、無伺服器、GPU 實例——您需要的成本效益工具。免除基礎設施,免費開始,讓您的 AI 願景成真。
