GLM 4.5V 對比 GLM 4.1V:多模態與推理能力的重大突破

GLM 4.5V 對比 GLM 4.1V:多模態與推理能力的重大突破

GLM-4.5VGLM-4.1V 的重大升級版本,在可擴展性、多模態能力與成本效益上都有顯著提升。透過整合領域特定專家、先進視覺模組與混合專家(Mixture-of-Experts, MoE)架構,GLM-4.5V 在文件理解、即時影片 OCR、多模態內容生成等任務上表現優異,是兼具多功能性與開發者友好的解決方案。

GLM 4.5V 相較於 GLM 4.1V 的獨有功能

GLM-4.5V 相比 GLM-4.1V 展現出明顯更高的多功能性與工具整合能力。它簡化了過去需要多個專業模型才能完成的任務,能在單一系統內處理從基礎影像辨識到複雜影片分析、文件處理的所有需求。舉例來說,GLM-4.5V 可以從網頁截圖生成前端程式碼,或分析地圖影像提取地理定位線索。它將推理與外部工具整合、並輸出結構化結果的能力,使其與 GLM-4.1V 拉開差距,成為對開發者更友好、可擴展性更高的多模態 AI 平台。

Features of GLM 4.5V not in GLM 4.1V

GLM 4.5V 與 GLM 4.1V:架構比較

面向 GLM-4.1V GLM-4.5V
規模 90 億參數,密集 Transformer。 總參數 1060 億,透過混合專家(MoE)架構僅啟用 120 億參數。
專業性 通用模型。 透過 MoE 實現領域特定專家,提升任務效能。
視覺模組 僅支援 2D 影像處理。 新增 3D 卷積,支援影片與 GUI 辨識。
上下文編碼 2D RoPE,支援約 64k tokens。 3D RoPE,支援 64k tokens 與多維度輸入
基礎模型 基於 GLM-4(90 億參數)。 建構於 GLM-4.5-Air,強化語言與多模態能力。

GLM 4.5V 與 GLM 4.1V:基準測試比較

GLM 4.5V vs GLM 4.1V: Benchmark Comparison

來源:Hugging Face

GLM-4.1V 的成就

  • 儘管體積更小,仍擊敗 Qwen-2.5-VL(70 億參數)等更大模型,並能與 Qwen-72B 抗衡
  • 在 2025 年前定義了小型模型的技術標竿

GLM-4.5V 的進步

  • 超越同參數級距的所有開源模型,並擊敗部分更大參數的模型
  • 在多項關鍵基準測試中擊敗 Step-3(3210 億參數),展現出色的效能與準確率

GLM-4.5V 的關鍵優勢

  • 在通用視覺問答、STEM 推理、長文件 OCR 任務上表現優異
  • 運用 MoE 架構與先進訓練優化技術,實現頂級效能

GLM 4.5V 與 GLM 4.1V:硬體需求比較

面向 GLM-4.1V GLM-4.5V
VRAM 需求 24GB(例如 NVIDIA A100 40GB、RTX 4090) 每張 GPU 需 80GB;完整部署通常需要 8 張 80GB 規格的 GPU
GPU 配置 單張高階 GPU 即可運行 需要多 GPU 配置(如 8 張 GPU)或雲端 GPU 叢集
CPU 相容性 經優化後可在 CPU 上運行(非即時) 不適用於 CPU 運行;需要進階硬體或雲端解決方案
量化選項 支援 16 位、8 位甚至 4 位量化以降低記憶體需求 提供記憶體優化版本(如 FP8 量化)以減輕硬體負擔

透過提供靈活的推理模式與高效的速度-準確率調整,GLM-4.5V 降低了硬體需求,同時適合高效能與輕量級即時使用場景。

GLM 4.5V 與 GLM 4.1V:應用場景比較

GLM 4.5V

1. 文件理解

  • 辨識與分析複雜文件中的文字內容
  • 處理手寫文字、印章、浮水印與扭曲變形內容
  • 提取關鍵資訊並生成結構化摘要

2. 表格辨識與重構

  • 處理包含合併儲存格、巢狀結構的複雜表格
  • 推斷缺失數據並確保內容一致性
  • 將影像式表格轉換為 Excel、CSV 等格式

3. 多模態內容生成

  • 根據辨識到的文字、圖表或影像生成報告與摘要
  • 提供趨勢分析與可行建議
  • 支援從手寫筆記或表單生成內容

4. 即時影片 OCR

  • 從影片串流中提取字幕與畫面文字
  • 動態追蹤移動文字,適應場景變化
  • 支援多語言即時辨識

GLM 4.1V

  1. 教育工具
    • 非常適合透過影像分析逐步展示 AI 推理過程的教學場景
    • 同時輸出答案與推理過程,幫助理解 AI 的決策邏輯
  2. 敏感應用場景
    • 適用於醫學影像分析等需要透明度與思路鏈解釋的領域
  3. 輕量級系統
    • 可部署在後端資源極少的有簡單網頁應用程式或裝置上
  4. 實驗與研究
    • 緊湊的模型尺寸讓計算資源有限的研究人員與開發者也能輕鬆使用
  5. 輔導系統
    • 為互動式學習環境提供視覺-語言能力

立即試用 GLM4.5VGLM 4.1V

GLM 4.5V 的成本優勢

高效能(來源:LLMOCR Test

  • 整體準確率:在 1000 份混合類型文件上達到 98.7%
  • 特定優勢
    • 中文辨識:99.3%
    • 英文辨識:98.9%
    • 表格恢復:97.5%
    • 手寫辨識:96.8%
  • 處理效率:每頁文件處理耗時 0.42 秒,API 呼叫成功率達 99.95%

成本效益

  • 平均成本:每頁 ¥0.015
  • 節省幅度
    • 相比 GPT-4V 成本降低 73%
    • 相比 Claude-3 成本降低 65%

Novita AI:更具成本效益且穩定的 GLM 4.5V API 供應商

Novita AI 的 GLM-4.5V API 提供 65.5K 上下文長度,輸入價格為每 1K tokens 0.60 美元,輸出價格為每 1K tokens 1.80 美元,支援函數呼叫與結構化輸出。

步驟 1:登入並存取模型庫

登入您的帳號後,點擊 模型庫 按鈕。

Log In and Access the Model Library

立即試用 GLM4.5VGLM 4.1V

步驟 2:選擇您要使用的模型

瀏覽可用的選項,選擇符合您需求的模型。

Step 2: Choose Your Model

步驟 3:開始免費試用

開始免費試用,探索所選模型的能力。

步驟 4:取得您的 API 金鑰

為了進行 API 驗證,我們會提供給您新的 API 金鑰。進入「設定」頁面後,即可按照圖中指示複製 API 金鑰。

get api key

步驟 5:安裝 API

使用對應程式語言的套件管理器安裝 API。安裝完成後,將必要的函式庫匯入您的開發環境,使用 API 金鑰初始化 API 即可開始與 Novita AI LLM 互動。以下為 Python 使用者提供的聊天完成 API 使用範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="session_rDfpD7GWNXFvnoIbmYNFkVlStqevDItFJac__3tAuw3ZiENHe3wm498Kv9rZEc5JhZgEJ7c9To5Y3EmZZewMbw==",
)

model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

使用 MCP 與 GLM 建立簡單的影像辨識工具

如果您想發揮 GLM 的能力,例如建立簡單的影像辨識工具來展示其視覺辨識與推理的整合能力,可以使用 Novita AI 支援的 MCP 功能。以下是範例程式碼:

import os
import sys
from mcp.server.fastmcp import FastMCP
import requests
import uvicorn
from starlette.applications import Starlette
from starlette.routing import Mount

base_url = "https://api.novita.ai/v3"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {os.environ['NOVITA_API_KEY']}"
}

mcp = FastMCP("Novita_API")

@mcp.tool()
def list_models() -> str:
    """
    List all available models from the Novita API.
    """
    url = base_url + "/openai/models"
    response = requests.request("GET", url, headers=headers)
    data = response.json()["data"]

    text = ""
    for i, model in enumerate(data, start=1):
        text += f"Model id: {model['id']}\
"
        text += f"Model description: {model['description']}\
"
        text += f"Model type: {model['model_type']}\
\
"

    return text

@mcp.tool()
def get_model(model_id: str, message) -> str:
    """
    Provide a model ID and a message to get a response from the Novita API.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "content": message,
                "role": "user",
            }
        ],
        "max_tokens": 200,
        "response_format": {
            "type": "text",
        },
    }
    response = requests.request("POST", url, json=payload, headers=headers)
    content = response.json()["choices"][0]["message"]["content"]
    return content

@mcp.tool()
def vision_chat(model_id: str, image_url: str, question: str) -> str:
    """
    Use GLM-4.1V-9B-Thinking to answer a question about an image.
    """
    url = base_url + "/openai/chat/completions"
    payload = {
        "model": model_id,
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": image_url,
                        }
                    },
                    {
                        "type": "text",
                        "text": question,
                    }
                ]
            }
        ],
        "max_tokens": 500
    }
    response = requests.post(url, json=payload, headers=headers)
    return response.json()["choices"][0]["message"]["content"]

if __name__ == "__main__":
   # Run using stdio transport
   mcp.run(transport="stdio")

如果您想了解詳細內容,可以參考這篇文章:如何使用 Novita AI 建立您的第一個 MCP 伺服器!

GLM-4.5V 在各方面都優於前代 GLM-4.1V:從處理複雜視覺內容與長文件的能力,到成本節省與優異的硬體優化。憑藉增強的架構與廣泛的應用範圍,它是開發者與企業尋求一站式 AI 解決方案的革命性選擇。

GLM-4.5V 的關鍵架構改進有哪些?

GLM-4.5V 引入了混合專家(MoE)架構,總參數達 1060 億(僅啟用 120 億),採用 3D RoPE 編碼與 3D 卷積技術用於影片與 GUI 辨識,超越了 GLM-4.1V 的密集 Transformer 設計。逐步提供步驟,而不僅僅是給出答案。

GLM-4.5V 如何處理多模態任務?

GLM-4.5V 整合了先進的視覺模組,支援 3D 影片與 GUI 辨識,能實現即時影片 OCR、地理定位分析、多模態內容生成等任務。

相比 GLM-4.1V,哪些任務更適合使用 GLM-4.5V?

GLM-4.5V 在文件理解(包含手寫文字、浮水印辨識)、表格重構、即時影片 OCR、多模態內容生成等任務上表現優異,這些都是 GLM-4.1V 能力有限的領域。

Novita AI 是實現您 AI 抱負的一站式雲端平台。整合 API、無伺服器、GPU 實例——您需要的所有高性價比工具。免除基礎設施煩惱,免費開始,將您的 AI 願景化為現實。

推薦閱讀