如何存取 GLM 4.5V 進行影像理解與視覺問答

如何存取 GLM 4.5V 進行影像理解與視覺問答

GLM-4.5V 是智譜 AI 最新推出的開源多模態大型語言模型(LLM),專為在單一統一系統中處理語言與視覺任務而打造。它是前代 GLM-4.1V 模型的一次重大升級,採用了**混合專家(Mixture-of-Experts, MoE)**架構,總參數達 1060 億(每次輸入僅激活約 120 億參數)。

這種設計讓 GLM-4.5V 能夠透過僅在需要時激活專屬「專家」子網路,在更低的推論成本下實現更優異的性能。模型引入了3D 旋轉位置編碼(3D Rotatory Positional Encoding, 3D-RoPE),支援長達 64k 的 token 上下文長度,能輕鬆處理長文件與多維度輸入。

簡單來說,GLM-4.5V 可以**「看」並推理影像與影片**,同時進行自然語言對話,是開發者專屬的強大多模態視覺語言模型(Vision-Language Model, VLM)。

什麼是 GLM 4.5V?

https://youtu.be/eU3u94AxuEs

  1. 先進視覺推理能力

    • 超越基礎影像描述——能理解複雜影像、科學圖表與對比內容
    • 支援空間推理:可識別物件與邊界框
    • 在視覺問答基準測試(如 MMBench 與 MMBench+)中取得最高分數

    glm 4.5v 先進視覺推理

    來源:Hugging Face

  2. 多模態輸入 + 思考模式

    • 支援對話中輸入文字、影像與影片
    • 提供**「思考模式」**切換功能:可在最終回答前進行逐步推理
    • 非常適合需要邏輯解釋的複雜任務

    來源:Hugging Face

  3. 統一工具調用

    • 專為AI 代理使用場景設計——可自主調用外部工具或 API
    • 內建函數調用支援,相容 OpenAI 介面
    • 採用基於演示的訓練方式實現工具使用

GLM-4.5V 是一款功能強大、對開發者友好的多模態 AI 模型,能透過統一介面處理影像理解、視覺問答、文件 OCR、程式碼生成與 GUI 自動化等任務。非常適合用於 AI 代理、生產力工具、研究等場景。

GLM 4.5V 系統需求

面向 詳細資訊
模型大小 1060 億參數(MoE 架構);每個 token 僅激活 120 億參數
VRAM 640GB
基準 GPU 需求 8 張 NVIDIA H100(每張 80GB)
精度選項 支援 FP16、FP8INT8INT4 量化格式
低 VRAM 優化配置 使用 2 張 80GB GPU,搭配 FP8 精度與謹慎的權重分割即可運行
平行運算支援 支援張量與模型平行運算(例如 4 張 40GB GPU)
關鍵函式庫 vLLMSGLang

如何存取 GLM 4.5V API

透過 Novita AI 存取 GLM-4.5V 提供多種路徑,適合不同技術水平與使用場景。無論您是探索 AI 能力的企業用戶,還是構建生產級應用的開發者,Novita AI 都能提供您需要的工具。

1. 使用測試平台(現已上線 - 無需編碼)

  • 即時存取:註冊 後即可在幾秒內開始實驗 GLM-4.5V 模型
  • 互動介面: 即時測試複雜視覺推理提示詞,可視化觀察鏈式思考輸出結果
  • 模型比較: 可針對您的特定使用場景,比較 GLM-4.5V 與其他領先模型的表現

測試平台支援您直接上傳影像、測試各類提示詞,無需任何技術設定即可看到即時結果。非常適合在完整實作前進行原型驗證、想法測試與理解模型能力。

2. 透過 API 整合(已上線可用 - 適合開發者)

使用 Novita AI 的统一 REST API 將 GLM-4.5V 連接至您的應用程式。

選項 1:直接 API 整合(Python 範例)

步驟 3:開始免費試用

立即嘗試 GLM4.5V

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

關鍵特性:

  • 相容 OpenAI 的 API,無縫整合
  • 彈性的參數控制,可微調回應結果
  • 支援串流輸出,即時獲取回應

選項 2:使用 OpenAI Agents SDK 構建多代理工作流

使用 GLM-4.5V 構建複雜的多代理系統:

  • 即插即用整合: 可在任何 OpenAI Agents 工作流 中使用 GLM-4.5V
  • 先進代理能力: 支援任務交接、路由與工具整合,搭配優異的視覺推理性能
  • 可擴展架構: 可設計能運用 GLM-4.5V 統一推理、編碼與視覺分析能力的代理系統

3. 連接第三方平台

開發工具: 可透過相容 OpenAI 的 API,無縫整合 Cursor、Trae、Qwen Code、Cline 等熱門 IDE 與開發環境。

編排框架: 可使用官方連接器,連接 LangChain、Dify、CrewAI、Langflow 等 AI 編排平台。

Hugging Face 整合 Novita AI 是 Hugging Face 的官方推論服務提供商,確保廣泛的生態系統相容性。

使用 GLM 4.5V 命令列介面(CLI)

對於偏好在本機運行模型、或需要對環境有更多控制權的開發者,GLM-4.5V 也可透過命令列介面使用。智譜 AI 已開源模型權重,並提供工具讓您在自己的硬體上運行模型。

模型已上架至 Hugging Face Hub,名稱為 zai-org/GLM-4.5V。您可以下載模型後,使用 Transformers 函式庫生成輸出。例如,在 Python 腳本或 Jupyter 筆記本中執行:

python3 inference/trans_infer_cli.py --model-path zai-org/GLM-4.5V --image test.jpg --question "这张图里有什么?"
功能 CLI API
使用方式 在終端機輸入指令與參數 在程式碼中呼叫函式庫/發送 HTTP 請求
輸出方式 直接輸出至終端機 返回物件/JSON,易於後續處理
適用場景 模型測試、快速推論、小型腳本 應用程式開發、服務整合、大規模呼叫
靈活性 參數固定,組合有限 完全可程式化,支援複雜邏輯
依賴需求 僅需腳本/CLI 工具 需編寫程式碼並管理依賴

立即嘗試 GLM4.5V

使用 MCP 與 GLM4.5V 構建簡單影像辨識工具

若您想運用 GLM 的能力,例如構建簡單的影像辨識工具來展示其視覺辨識與推理的整合能力,可使用 Novita AI 支援的 MCP 功能。以下為範例程式碼:

import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount

base_url = "https://api.novita.ai/v3"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}

mcp = FastMCP("Novita_API")

@mcp.tool()
def list_models() -> str:
    """
    List all available models from the Novita API.
    """
    url = base_url + "/openai/models"
    response = requests.request("GET", url, headers=headers)
    data = response.json()["data"]

    text = ""
    for i, model in enumerate(data, start=1):
        text += f"Model id: {model['id']}\
"
        text += f"Model description: {model['description']}\
"
        text += f"Model type: {model['model_type']}\
\
"

    return text

@mcp.tool()
def get_model(model_id: str, message) -> str:
    """
    Provide a model ID and a message to get a response from the Novita API.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "content": message,
                "role": "user",
            }
        ],
        "max_tokens": 200,
        "response_format": {
            "type": "text",
        },
    }
    response = requests.request("POST", url, json=payload, headers=headers)
    content = response.json()["choices"][0]["message"]["content"]
    return content

@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
    """
    Use GLM-4.1V-9B-Thinking to answer a question about an image.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": image_url,
                        }
                    },
                    {
                        "type": "text",
                        "text": question,
                    }
                ]
            }
        ],
        "max_tokens": 500
    }
    response = requests.post(url, json=payload, headers=headers)
    return response.json()["choices"][0]["message"]["content"]

if __name__ == "__main__":
   # Run using stdio transport
   mcp.run(transport="stdio")

立即嘗試 GLM4.5V

疑難排解 GLM 4.5V 常見問題

1. 記憶體與載入錯誤(CUDA 記憶體不足 OOM) 原因: 模型過大,無法放入可用 GPU 記憶體中。 解決方案:

  • 使用推薦的推論後端
    • 範例:在 SGLang 中啟用 --attention-backend fa3 以減少記憶體用量。
  • 使用更多 GPU,降低張量平行度大小
    • 範例:設定 TP=8(8 張 GPU)而非 TP=4,讓每張 GPU 分配更小的模型區塊。
  • 載入量化模型(8 位元或 4 位元)
    • 例如,使用 HuggingFace Transformers 時設定 load_in_8bit=True
  • 選擇 VRAM 更高的雲端運算實例
    • 範例:A100(80GB)或 H200(141GB);H200 可於單張 GPU 上運行模型。
  • 將長輸入分割為較小的區塊處理
    • 將長影片分割為較短的片段,或關閉思考模式以減少輸出大小。

2. 影像輸入無法識別 原因: 影像格式不正確,或傳遞至模型的方式有誤。 解決方案:

  • 對於 OpenAI 風格的 API,請將輸入結構化為特殊訊息格式
    • 範例:[{"type": "image_url", "image_url": {"url": "<URL>"}}, {"type": "text", "text": "您的問題"}]
  • 使用 HuggingFace Transformers 時,請使用 AutoProcessor
    • 範例:推論前呼叫 processor(images=[...], text=[...])
  • 確保影像 URL 為公開可訪問,或若支援則使用 base64 編碼
    • 若模型忽略影像或表示未收到影像,代表輸入可能無效。

4. 異常的輸出格式 問題現象:

  • 輸出包含原始 HTML(例如 <div>...</div>
  • 出現非預期的跳脫字元(例如 <
  • 回答重複或附加多餘內容 解決方案:
  • 指示模型使用 Markdown 格式輸出程式碼(例如使用三個反引號)
  • 套用修補程式修正 HTML 跳脫問題(官方儲存庫有提供)
  • 若不需要可關閉思考模式
  • 後處理輸出,移除重複內容

5. 工具呼叫殘留內容 問題現象: 模型輸出工具相關指令(例如 <|search|>)。 解決方案: 使用標準的聊天完成 API,而非代理端點,並避免提示詞模仿工具使用場景。

6. 準確度限制 已知限制:

  • 在細粒度視覺任務(如計數、人臉辨識)上表現可能不佳
  • 純文字問題可能更適合由專業文字模型回答
  • 處理極長文件或影片時速度較慢,可能遇到逾時 建議:
  • 長輸入使用串流模式,以接收部分輸出結果
  • 將大型輸入分割為較小的區塊
  • 檢查您的 API 提供商的實際上下文長度限制

GLM-4.5V 是視覺語言 AI 的遊戲規則改變者,將過去僅專有模型具備的能力帶到開源與自主託管的世界。我們說明了 GLM-4.5V 是什麼、為何與眾不同、運行所需的設定、常見問題的疑難排解方式,以及多種存取路徑(雲端 API 或本地 CLI)。有了這些知識,開發者可以自信地將 GLM-4.5V 整合至自己的專案中。

我應該從 Gemma 3 27B 升級到 GLM 4.5V 嗎?

GLM-4.5V 是智譜 AI 最新推出的開源多模態大型語言模型,能同時處理語言與視覺任務,包括文字、影像與影片,並具備先進的推理能力。

GLM-4.5V 能做什麼?

它支援先進視覺推理(例如科學圖表、空間推理、視覺問答)、長文件理解、程式碼生成、OCR、GUI 自動化與多模態對話等功能。

GLM-4.5V 與前代模型有何不同?

它相較 GLM-4.1V 升級為混合專家(MoE)架構,總參數達 1060 億(每次輸入僅激活 120 億參數),並搭載 3D-RoPE 技術實現 64k 上下文長度,能在更低的成本下實現更強的性能。

Novita AI 是實現您 AI 抱負的全方位雲端平台。整合 API、無伺服器運算、GPU 實例——您需要的所有高性價比工具。免除基礎設施煩惱,免費開始使用,讓您的 AI 願景成真。

推薦閱讀