如何存取 GLM 4.5V 進行影像理解與視覺問答

什麼是 GLM 4.5V？
GLM 4.5V 系統需求
如何存取 GLM 4.5V API
使用 GLM 4.5V 命令列介面（CLI）
使用 MCP 與 GLM4.5V 構建簡單影像辨識工具
疑難排解 GLM 4.5V 常見問題

GLM-4.5V 是智譜 AI 最新推出的開源多模態大型語言模型（LLM），專為在單一統一系統中處理語言與視覺任務而打造。它是前代 GLM-4.1V 模型的一次重大升級，採用了**混合專家（Mixture-of-Experts, MoE）**架構，總參數達 1060 億（每次輸入僅激活約 120 億參數）。

這種設計讓 GLM-4.5V 能夠透過僅在需要時激活專屬「專家」子網路，在更低的推論成本下實現更優異的性能。模型引入了3D 旋轉位置編碼（3D Rotatory Positional Encoding, 3D-RoPE），支援長達 64k 的 token 上下文長度，能輕鬆處理長文件與多維度輸入。

簡單來說，GLM-4.5V 可以**「看」並推理影像與影片**，同時進行自然語言對話，是開發者專屬的強大多模態視覺語言模型（Vision-Language Model, VLM）。

什麼是 GLM 4.5V？

https://youtu.be/eU3u94AxuEs

先進視覺推理能力
- 超越基礎影像描述——能理解複雜影像、科學圖表與對比內容
- 支援空間推理：可識別物件與邊界框
- 在視覺問答基準測試（如 MMBench 與 MMBench+）中取得最高分數
來源：Hugging Face
多模態輸入 + 思考模式
- 支援對話中輸入文字、影像與影片
- 提供**「思考模式」**切換功能：可在最終回答前進行逐步推理
- 非常適合需要邏輯解釋的複雜任務
來源：Hugging Face
統一工具調用
- 專為AI 代理使用場景設計——可自主調用外部工具或 API
- 內建函數調用支援，相容 OpenAI 介面
- 採用基於演示的訓練方式實現工具使用

GLM-4.5V 是一款功能強大、對開發者友好的多模態 AI 模型，能透過統一介面處理影像理解、視覺問答、文件 OCR、程式碼生成與 GUI 自動化等任務。非常適合用於 AI 代理、生產力工具、研究等場景。

GLM 4.5V 系統需求

面向	詳細資訊
模型大小	1060 億參數（MoE 架構）；每個 token 僅激活 120 億參數
VRAM	640GB
基準 GPU 需求	8 張 NVIDIA H100（每張 80GB）
精度選項	支援 FP16、FP8、INT8、INT4 量化格式
低 VRAM 優化配置	使用 2 張 80GB GPU，搭配 FP8 精度與謹慎的權重分割即可運行
平行運算支援	支援張量與模型平行運算（例如 4 張 40GB GPU）
關鍵函式庫	vLLM、SGLang

如何存取 GLM 4.5V API

透過 Novita AI 存取 GLM-4.5V 提供多種路徑，適合不同技術水平與使用場景。無論您是探索 AI 能力的企業用戶，還是構建生產級應用的開發者，Novita AI 都能提供您需要的工具。

1. 使用測試平台（現已上線 - 無需編碼）

即時存取：註冊後即可在幾秒內開始實驗 GLM-4.5V 模型
互動介面： 即時測試複雜視覺推理提示詞，可視化觀察鏈式思考輸出結果
模型比較： 可針對您的特定使用場景，比較 GLM-4.5V 與其他領先模型的表現

測試平台支援您直接上傳影像、測試各類提示詞，無需任何技術設定即可看到即時結果。非常適合在完整實作前進行原型驗證、想法測試與理解模型能力。

2. 透過 API 整合（已上線可用 - 適合開發者）

使用 Novita AI 的统一 REST API 將 GLM-4.5V 連接至您的應用程式。

選項 1：直接 API 整合（Python 範例）

立即嘗試 GLM4.5V！

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

關鍵特性：

相容 OpenAI 的 API，無縫整合
彈性的參數控制，可微調回應結果
支援串流輸出，即時獲取回應

選項 2：使用 OpenAI Agents SDK 構建多代理工作流

使用 GLM-4.5V 構建複雜的多代理系統：

即插即用整合： 可在任何 OpenAI Agents 工作流中使用 GLM-4.5V
先進代理能力： 支援任務交接、路由與工具整合，搭配優異的視覺推理性能
可擴展架構： 可設計能運用 GLM-4.5V 統一推理、編碼與視覺分析能力的代理系統

3. 連接第三方平台

開發工具： 可透過相容 OpenAI 的 API，無縫整合 Cursor、Trae、Qwen Code、Cline 等熱門 IDE 與開發環境。

編排框架： 可使用官方連接器，連接 LangChain、Dify、CrewAI、Langflow 等 AI 編排平台。

Hugging Face 整合： Novita AI 是 Hugging Face 的官方推論服務提供商，確保廣泛的生態系統相容性。

使用 GLM 4.5V 命令列介面（CLI）

對於偏好在本機運行模型、或需要對環境有更多控制權的開發者，GLM-4.5V 也可透過命令列介面使用。智譜 AI 已開源模型權重，並提供工具讓您在自己的硬體上運行模型。

模型已上架至 Hugging Face Hub，名稱為 zai-org/GLM-4.5V。您可以下載模型後，使用 Transformers 函式庫生成輸出。例如，在 Python 腳本或 Jupyter 筆記本中執行：

python3 inference/trans_infer_cli.py --model-path zai-org/GLM-4.5V --image test.jpg --question "这张图里有什么？"

功能	CLI	API
使用方式	在終端機輸入指令與參數	在程式碼中呼叫函式庫/發送 HTTP 請求
輸出方式	直接輸出至終端機	返回物件/JSON，易於後續處理
適用場景	模型測試、快速推論、小型腳本	應用程式開發、服務整合、大規模呼叫
靈活性	參數固定，組合有限	完全可程式化，支援複雜邏輯
依賴需求	僅需腳本/CLI 工具	需編寫程式碼並管理依賴

立即嘗試 GLM4.5V！

使用 MCP 與 GLM4.5V 構建簡單影像辨識工具

若您想運用 GLM 的能力，例如構建簡單的影像辨識工具來展示其視覺辨識與推理的整合能力，可使用 Novita AI 支援的 MCP 功能。以下為範例程式碼：

import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount

base_url = "https://api.novita.ai/v3"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}

mcp = FastMCP("Novita_API")

@mcp.tool()
def list_models() -> str:
    """
    List all available models from the Novita API.
    """
    url = base_url + "/openai/models"
    response = requests.request("GET", url, headers=headers)
    data = response.json()["data"]

    text = ""
    for i, model in enumerate(data, start=1):
        text += f"Model id: {model['id']}\
"
        text += f"Model description: {model['description']}\
"
        text += f"Model type: {model['model_type']}\
\
"

    return text

@mcp.tool()
def get_model(model_id: str, message) -> str:
    """
    Provide a model ID and a message to get a response from the Novita API.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "content": message,
                "role": "user",
            }
        ],
        "max_tokens": 200,
        "response_format": {
            "type": "text",
        },
    }
    response = requests.request("POST", url, json=payload, headers=headers)
    content = response.json()["choices"][0]["message"]["content"]
    return content

@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
    """
    Use GLM-4.1V-9B-Thinking to answer a question about an image.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": image_url,
                        }
                    },
                    {
                        "type": "text",
                        "text": question,
                    }
                ]
            }
        ],
        "max_tokens": 500
    }
    response = requests.post(url, json=payload, headers=headers)
    return response.json()["choices"][0]["message"]["content"]

if __name__ == "__main__":
   # Run using stdio transport
   mcp.run(transport="stdio")

立即嘗試 GLM4.5V！

疑難排解 GLM 4.5V 常見問題

1. 記憶體與載入錯誤（CUDA 記憶體不足 OOM） 原因： 模型過大，無法放入可用 GPU 記憶體中。 解決方案：

使用推薦的推論後端
- 範例：在 SGLang 中啟用 --attention-backend fa3 以減少記憶體用量。
使用更多 GPU，降低張量平行度大小
- 範例：設定 TP=8（8 張 GPU）而非 TP=4，讓每張 GPU 分配更小的模型區塊。
載入量化模型（8 位元或 4 位元）
- 例如，使用 HuggingFace Transformers 時設定 load_in_8bit=True。
選擇 VRAM 更高的雲端運算實例
- 範例：A100（80GB）或 H200（141GB）；H200 可於單張 GPU 上運行模型。
將長輸入分割為較小的區塊處理
- 將長影片分割為較短的片段，或關閉思考模式以減少輸出大小。

2. 影像輸入無法識別 原因： 影像格式不正確，或傳遞至模型的方式有誤。 解決方案：

對於 OpenAI 風格的 API，請將輸入結構化為特殊訊息格式
- 範例：[{"type": "image_url", "image_url": {"url": "<URL>"}}, {"type": "text", "text": "您的問題"}]
使用 HuggingFace Transformers 時，請使用 AutoProcessor
- 範例：推論前呼叫 processor(images=[...], text=[...])。
確保影像 URL 為公開可訪問，或若支援則使用 base64 編碼
- 若模型忽略影像或表示未收到影像，代表輸入可能無效。

4. 異常的輸出格式 問題現象：

輸出包含原始 HTML（例如 <div>...</div>）
出現非預期的跳脫字元（例如 <）
回答重複或附加多餘內容 解決方案：
指示模型使用 Markdown 格式輸出程式碼（例如使用三個反引號）
套用修補程式修正 HTML 跳脫問題（官方儲存庫有提供）
若不需要可關閉思考模式
後處理輸出，移除重複內容

5. 工具呼叫殘留內容 問題現象： 模型輸出工具相關指令（例如 <|search|>）。 解決方案： 使用標準的聊天完成 API，而非代理端點，並避免提示詞模仿工具使用場景。

6. 準確度限制 已知限制：

在細粒度視覺任務（如計數、人臉辨識）上表現可能不佳
純文字問題可能更適合由專業文字模型回答
處理極長文件或影片時速度較慢，可能遇到逾時 建議：
長輸入使用串流模式，以接收部分輸出結果
將大型輸入分割為較小的區塊
檢查您的 API 提供商的實際上下文長度限制

GLM-4.5V 是視覺語言 AI 的遊戲規則改變者，將過去僅專有模型具備的能力帶到開源與自主託管的世界。我們說明了 GLM-4.5V 是什麼、為何與眾不同、運行所需的設定、常見問題的疑難排解方式，以及多種存取路徑（雲端 API 或本地 CLI）。有了這些知識，開發者可以自信地將 GLM-4.5V 整合至自己的專案中。

我應該從 Gemma 3 27B 升級到 GLM 4.5V 嗎？

GLM-4.5V 是智譜 AI 最新推出的開源多模態大型語言模型，能同時處理語言與視覺任務，包括文字、影像與影片，並具備先進的推理能力。

GLM-4.5V 能做什麼？

它支援先進視覺推理（例如科學圖表、空間推理、視覺問答）、長文件理解、程式碼生成、OCR、GUI 自動化與多模態對話等功能。

GLM-4.5V 與前代模型有何不同？

它相較 GLM-4.1V 升級為混合專家（MoE）架構，總參數達 1060 億（每次輸入僅激活 120 億參數），並搭載 3D-RoPE 技術實現 64k 上下文長度，能在更低的成本下實現更強的性能。

Novita AI 是實現您 AI 抱負的全方位雲端平台。整合 API、無伺服器運算、GPU 實例——您需要的所有高性價比工具。免除基礎設施煩惱，免費開始使用，讓您的 AI 願景成真。

如何存取 GLM 4.5V 進行影像理解與視覺問答

什麼是 GLM 4.5V？

GLM 4.5V 系統需求

如何存取 GLM 4.5V API

1. 使用測試平台（現已上線 - 無需編碼）

2. 透過 API 整合（已上線可用 - 適合開發者）

選項 1：直接 API 整合（Python 範例）

選項 2：使用 OpenAI Agents SDK 構建多代理工作流

3. 連接第三方平台

使用 GLM 4.5V 命令列介面（CLI）

使用 MCP 與 GLM4.5V 構建簡單影像辨識工具

疑難排解 GLM 4.5V 常見問題

推薦閱讀

Product

RESOURCES

Partners

Company

什麼是 GLM 4.5V？

GLM 4.5V 系統需求

如何存取 GLM 4.5V API

1. 使用測試平台（現已上線 - 無需編碼）

2. 透過 API 整合（已上線可用 - 適合開發者）

選項 1：直接 API 整合（Python 範例）

選項 2：使用 OpenAI Agents SDK 構建多代理工作流

3. 連接第三方平台

使用 GLM 4.5V 命令列介面（CLI）

使用 MCP 與 GLM4.5V 構建簡單影像辨識工具

疑難排解 GLM 4.5V 常見問題

推薦閱讀

相關文章

Product

RESOURCES

Partners

Company