使用 GLM-4.5V 打造更聰明的應用：真正能看的視覺 AI

什麼是 GLM-4.5V，以及為何對您的業務至關重要
關鍵效能優勢：在 42 項標竿測試中取得 SOTA 結果
核心視覺推理能力
在 Novita AI 平台上開始使用 GLM-4.5V
企業與開發者的使用案例
為您的應用選擇合適的模型 API
結論

今天，我們很高興宣布 Novita AI 與智譜 AI（Zhipu AI）合作，作為智譜 AI 的啟動合作夥伴，在 Novita AI 平台上第一時間支援 GLM-4.5V。

GLM-4.5V 代表了多模態 AI 技術的突破，現已在 Novita AI 這個開發者友善的平台上提供。這款最先進的視覺推理模型在 42 項測試中取得領先標竿效能，同時仍讓各種規模的企業與開發者都能輕鬆使用。

GLM-4.5V 涵蓋常見任務，如圖片、影片、文件理解，以及 GUI 代理操作。無論您正在開發客服機器人、內容分析工具或自動化解決方案，Novita AI 上的 GLM-4.5V 都能簡化整個開發流程。

目前在 Novita AI 上的定價：每百萬輸入 Token $0.6 美元，每百萬輸出 Token $1.8 美元

什麼是 GLM-4.5V，以及為何對您的業務至關重要

GLM-4.5V 是智譜 AI 最新推出的多模態 AI 模型，為 GLM-4.5 基礎模型增強了全面的視覺推理能力。該模型建構於 GLM-4.5-Air 穩健的 106B 參數混合專家（MoE）架構之上，繼承了 GLM-4.1V-Thinking 的先進技術，同時實現了前所未有的擴展效率。

作為智譜 AI 官方啟動合作夥伴，Novita AI 為企業提供即時存取企業級視覺 AI 的能力，無需自行訓練或維護模型。您無需同時管理多個專用模型，只需一個統一解決方案，即可處理從基本圖片辨識到複雜影片分析與文件處理的所有工作。

關鍵效能優勢：在 42 項標竿測試中取得 SOTA 結果

GLM-4.5V 在同級開源模型中達到最先進（SOTA）的效能，並在 42 項全面標竿測試中獲得驗證。

透過高效的混合訓練技術，GLM-4.5V 能對各種視覺內容類型提供一致且可靠的結果。

在 Novita AI 最佳化的基礎架構上，開發者能體驗到最低延遲與最高吞吐量，使 GLM-4.5V 在生產應用中具備實用性。無論您是建立面對客戶的應用程式或內部自動化工具，模型的效能都能直接轉化為更好的使用者體驗。

核心視覺推理能力

GLM-4.5V 提供五項基本視覺推理能力，涵蓋幾乎所有業務使用案例：

圖片推理： 理解複雜場景、同時分析多張圖片、精準辨識地理位置。非常適合電子商務產品分析、內容審查及基於位置的服務。

影片理解： 透過分鏡分析與事件辨識能力處理長影片。非常適合內容創作者、安全應用以及需要影片理解的教育平台。

GUI 任務： 讀取螢幕、辨識圖示、協助桌面操作。對於 RPA 解決方案、無障礙工具及自動化測試框架至關重要。

圖表與文件分析： 從研究報告、財務文件與複雜視覺化圖表中提取洞察。對於商業智慧、合規性與資料自動化工作流程至關重要。

定位能力： 精準定位圖片或影片中的視覺元素。對於品質控制、擴增實境應用與詳細視覺搜尋實作非常有價值。

該模型還引入了 思考模式 開關，讓使用者能在快速回應與深度推理之間取得平衡。此開關的運作方式與 GLM-4.5 語言模型相同。

在 Novita AI 平台上開始使用 GLM-4.5V

透過 Novita AI 存取 GLM-4.5V 提供了多種途徑，適合不同的技術專業程度與使用案例。無論您是探索 AI 能力的業務使用者，還是建立生產應用的開發者，Novita AI 都能提供您所需的工具。

使用 Playground（現已開放 – 無需編碼）

即時存取： 註冊後立即開始在 GLM-4.5V 模型上進行實驗
互動式介面： 測試複雜的視覺推理提示，即時視覺化思維鏈輸出
模型比較： 針對您的特定使用案例，將 GLM-4.5V 與其他領先模型進行比較

Playground 讓您可以直接上傳圖片、測試各種提示、立即看到結果，無需任何技術設定。非常適合原型設計、測試想法以及在完整實作前了解模型能力。

透過 API 整合（即時可用 – 適用於開發者）

使用 Novita AI 的統一 REST API，將 GLM-4.5V 連接到您的應用程式。

選項 1：直接 API 整合（Python 範例）

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "zai-org/glm-4.5v"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

主要特色：

相容 OpenAI 的 API，可無縫整合
彈性的參數控制，可微調回應
支援串流，實現即時回應

選項 2：使用 OpenAI Agents SDK 建立多代理工作流程

使用 GLM-4.5V 建構精細的多代理系統：

隨插即用整合： 在任何 OpenAI Agents 工作流程中使用 GLM-4.5V
進階代理能力： 支援交接、路由與工具整合，具備卓越的視覺推理效能
可擴展架構： 設計能充分利用 GLM-4.5V 統一推理、編碼與視覺分析能力的代理

連接第三方平台

開發工具： 透過相容 OpenAI 的 API，無縫整合 Cursor、Trae、Qwen Code、Cline 等熱門 IDE 與開發環境。

編排框架： 使用官方連接器連接 LangChain、Dify、CrewAI、Langflow 及其他 AI 編排平台。

Hugging Face 整合： Novita AI 是 Hugging Face 的官方推理提供者，確保廣泛的生態系統相容性。

Novita AI 處理所有基礎架構、擴展與最佳化，讓您專注於使用 GLM-4.5V 強大的視覺能力來打造出色的應用程式。

企業與開發者的使用案例

GLM-4.5V 在各種業務場景中釋放強大的視覺 AI 能力。該模型的多功能性與準確性，使其非常適合面向客戶的應用程式以及內部自動化專案。

圖片理解

上傳任何圖片，即可獲得詳細描述、物體辨識以及深入的情境分析。GLM-4.5V 超越基本辨識——它理解上下文、關係，甚至能從視覺線索中進行看圖猜字等創意任務。

企業將其用於自動分類產品的庫存管理系統、精準偵測缺陷的品質控制流程，以及提升搜尋能力的自動內容標記。

電子商務平台利用圖片理解來產生產品描述，內容創作者則自動化替代文字產生，以改善無障礙與 SEO 最佳化。

影片理解（支援 MP4 格式）

處理 MP4 影片以提取全面洞察、識別關鍵時刻並產生詳細摘要。GLM-4.5V 擅長分析複雜的影片內容——從能識別關鍵賽事並評估團隊表現的體育賽事分析，到能即時偵測異常的監控畫面監控。

行銷團隊分析活動影片以衡量參與度並提取績效指標，教育平台則將冗長講座轉換為可搜尋、有索引的內容。

該模型理解時間序列與事件的能力，使其對於媒體公司自動生成精彩片段與內容摘要來說極具價值。

地理位置猜測與位置情報

從視覺線索中準確識別位置，甚至能辨識特定的地標、建築風格與地理座標。GLM-4.5V 可以從電影場景中精確定位地點、從街景中識別城市，甚至提供經緯度座標。

旅遊應用利用此功能進行目的地識別與行程規劃；房地產平台自動為房產標記位置上下文與附近設施；物流公司則驗證配送地點並最佳化路線。

電影外景勘查人員與旅遊推廣機構利用此能力來識別並推廣拍攝地點與旅遊景點。

物體偵測與視覺搜尋

在複雜圖片中精準識別並定位特定物體，從體育畫面中的球衣號碼到室內設計中的特定家具。GLM-4.5V 不僅能找到物體，還提供上下文資訊——識別風格、建議類似產品，甚至推薦搭配物品。

零售分析平台追蹤產品放置與顧客互動；製造產線確保組裝正確性；室內設計師則用以創建和諧的房間設計。

網頁複製與 UI 分析

高保真度分析並複製網頁介面，從螢幕截圖中產生乾淨的 HTML 與 CSS 程式碼。GLM-4.5V 理解 UI 元素、佈局結構與設計模式，使其對於快速原型設計與競爭分析極具價值。

開發團隊透過將設計稿轉換為程式碼來加速 UI 建立；QA 團隊自動化視覺回歸測試；UX 研究人員則分析競爭對手介面以獲取設計洞察。

該模型擅長建立回應式、無障礙的介面，能夠在改善程式碼品質的同時保留原始設計意圖。

為您的應用選擇合適的模型 API

Novita AI 提供針對特定使用案例最佳化的不同 GLM 模型 API。根據您的應用需求選擇合適的端點，以最大化效能與成本效益。

GLM-4.5 API – 適用於一般多模態任務

最適合： 基本圖片描述、簡單的視覺問答、標準文件分析
使用時機： 您需要快速視覺理解搭配文字處理時
理想用途： 聊天機器人、內容審查、通用 AI 助手

日常使用： 繼續像往常一樣使用 GLM-4.5——只需上傳您想要分析或討論的任何圖片或影片即可。

GLM-4.5V API – 適用於進階視覺推理

最適合： 複雜的多圖片分析、詳細的影片理解、精確的物體定位
使用時機： 視覺準確性與細節對您的應用至關重要時
理想用途： 醫學影像、監控系統、品質檢驗、專業影片分析

進階視覺探索： 選擇 GLM-4.5V 模型以存取專門的視覺推理場景，並釋放我們先進視覺能力的全部潛力。

結論

Novita AI 上的 GLM-4.5V 代表了企業與開發者處理視覺 AI 應用方式的典範轉移。透過將最先進的效能與易於使用、開發者友善的平台相結合，它消除了進階 AI 實作的傳統障礙。

無論您是建立簡單的圖片分類工具還是複雜的多模態系統，GLM-4.5V 都能提供成功所需的效能與靈活性。該模型從圖片分析到影片理解的全面視覺推理能力，能夠實現跨產業的創新解決方案。

立即在 Novita AI 上開始使用 GLM-4.5V 進行開發，讓您的應用能夠看見並理解視覺世界。

Novita AI 是一個 AI 雲端平台，為開發者提供透過簡單 API 部署 AI 模型的簡易方式，同時也提供經濟實惠且可靠的 GPU 雲端服務，用於建構與擴展應用程式。

使用 GLM-4.5V 打造更聰明的應用：真正能看的視覺 AI

什麼是 GLM-4.5V，以及為何對您的業務至關重要

關鍵效能優勢：在 42 項標竿測試中取得 SOTA 結果

核心視覺推理能力