GLM-4.6V 上線 Novita AI：具備原生工具調用能力的視覺 AI

什麼是 GLM-4.6V？
主要功能與能力
性能與架構
開始在 Novita AI 上使用 GLM-4.6V
總結

GLM-4.6V 現已上線 Novita AI 平台，搭載智譜 AI 先進的視覺語言模型，具備突破性的多模態能力。基礎版本擁有 1060 億參數，搭配 128K 標記上下文視窗，在參數規模相近的模型中，GLM-4.6V 的視覺理解性能達到業界最先進水準。

本次最新版本首次整合原生函數調用（Function Calling）能力，有效打通視覺感知與可執行操作之間的壁壘。無論您是構建多模態智能體、處理複雜文件，還是開發視覺編輯應用，GLM-4.6V 都能透過 Novita AI 對開發者友好的基礎設施，為您提供所需的能力。

試用 GLM-4.6V 演示

什麼是 GLM-4.6V？

GLM-4.6V 是智譜 AI 推出的先進視覺語言模型，提供全方位的多模態理解與生成能力。作為 GLM-V 系列的一員，它透過原生函數調用整合，在打通視覺感知與可執行智能方面實現了重大突破。

雙模型架構： GLM-4.6V 提供兩個版本：一是專為雲端與高效能叢集場景設計的 1060 億參數基礎模型，二是優化用於本地部署與低延遲應用的 9B 參數 GLM-4.6V-Flash 模型。兩個版本都提供強大的多模態能力，可根據不同部署需求彈性擴展。

擴展上下文視窗： GLM-4.6V 配備 128K 標記上下文視窗，可處理多文件或長文件輸入，並能直接將格式豐富的頁面以圖像形式解析。這項擴展的上下文能力讓模型能夠處理複雜、富含圖像的文件，無需事先轉換為純文字。

原生函數調用： GLM-4.6V 首次在 GLM-V 系列中整合原生函數調用（Function Calling）能力。這項突破性功能有效打通視覺感知與可執行操作，為真實業務場景中的多模態智能體提供統一的技術基礎。

業界最先進性能： 在各大多模態基準測試中，GLM-4.6V 在參數規模相近的模型中，視覺理解性能達到最先進（SoTA）水準，展現出卓越的視覺資訊處理與理解能力。

主要功能與能力

GLM-4.6V 引入了多項專長能力，特別適合多模態應用場景。

多模態文件理解

GLM-4.6V 可處理最高 128K 標記的多文件或長文件輸入，直接將格式豐富的頁面以圖像形式解析。模型可聯合理解文字、排版、圖表、表格與圖形，精準掌握複雜、富含圖像的文件內容。這項能力無需進行預處理或文字提取，可直接分析 PDF、報告、簡報等視覺化文件。

前端複刻與視覺編輯

模型可從 UI 截圖重建像素級精準的 HTML/CSS 程式碼，並支援自然語言驅動的編輯操作。GLM-4.6V 可視覺化偵測版面、組件與樣式，生成整潔的程式碼，並透過簡單的使用者指令進行迭代式視覺修改。這項功能非常適合用於快速原型設計、設計轉程式碼的工作流程，以及自動化 UI 生成。

交錯圖文內容生成

GLM-4.6V 支援基於複雜多模態輸入的高品質多媒體內容創作。模型可接收跨文件、使用者輸入與工具檢索圖像的多模態上下文，針對任務合成連貫的交錯圖文內容。生成過程中，模型可主動調用搜尋與檢索工具，收集並整理額外的文字與視覺素材，產出豐富且貼近視覺依據的內容。

原生工具整合

整合的函數調用（Function Calling）能力讓 GLM-4.6V 能在處理過程中自主調用外部工具。這使得模型可以根據視覺分析結果獲取即時資訊、存取資料庫、檢索圖像，或觸發對應操作。原生整合的特性讓它非常適合用於構建複雜的多模態智能體系統。

性能與架構

GLM-4.6V 在全面的多模態評估中展現優異性能。

模型架構

GLM-4.6V 採用專為多模態理解優化的先進架構，建構於 GLM-V 系列的技術基礎之上：

基礎模型（GLM-4.6V）： 共 1060 億參數，專為雲端部署與最大效能設計
輕量化模型（GLM-4.6V-Flash）： 9B 參數，優化用於邊緣部署與降低延遲
上下文長度： 128K 標記，可處理大規模多模態輸入
視覺編碼器： 空間區塊大小為 14，時間區塊大小為 2，實現高效視覺處理

開始在 Novita AI 上使用 GLM-4.6V

Novita AI 提供多種存取 GLM-4.6V 的方式，適合不同技能等級與使用場景。

使用 playground（無需編碼）

註冊後，即可透過互動式介面在幾秒內開始試用GLM-4.6V。您可以上傳圖像或文件、測試多模態提示詞，並在完整的 128K 上下文視窗中即時查看輸出結果。非常適合在構建完整實現前進行原型設計，了解模型的能力。

透過 API 整合（適合開發者）

使用 Novita AI 統一的 REST API 將 GLM-4.6V 連接至您的應用程式。

直接 API 整合（Python 範例）

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-4.6v",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

使用 OpenAI Agents SDK 構建多智能體工作流

透過即插即用整合、支援交接、路由與工具整合的功能，搭配原生函數調用與完整的 128K 上下文視窗，構建複雜的多模態智能體系統。

連接第三方平台

智能體框架： 透過官方連接器與逐步整合指南，輕鬆將 Novita AI 與合作夥伴平台如 Continue、AnythingLLM、LangChain、Dify 和 Langflow 連接。

Hugging Face： Novita AI 是 Hugging Face 的官方推理服務提供商，確保廣泛的生態系統相容性。

OpenAI 相容 API： 可無縫遷移與整合至符合 OpenAI API 標準的工具，例如 Cline、Cursor、Trae 與 Qwen Code，無需繁雜的設定。

Anthropic 相容 API： 可無縫整合 Claude Code，適用於智能體編碼工作流程及其他符合 Anthropic API 標準的工具。

總結

Novita AI 上的 GLM-4.6V 搭載智譜 AI 先進的視覺語言模型，擁有 1060 億參數與 128K 上下文視窗，在多模態理解方面達到業界最先進性能。透過原生函數調用整合，以及文件分析、UI 複刻、多媒體生成等專長能力，GLM-4.6V 為構建複雜的多模態 AI 應用提供統一的基礎。

立即透過 Novita AI 的 playground、API 或第三方整合開始探索GLM-4.6V，為您的應用程式加入先進的視覺理解、文件處理與多模態推理能力，使用 GLM-4.6V 突破性的視覺語言智能，構建下一代 AI 驅動的解決方案。

Novita AI 是領先的 AI 雲端平台，為開發者提供易於使用的 API 與實惠、可靠的 GPU 基礎設施，協助構建與擴展 AI 應用程式。

GLM-4.6V 上線 Novita AI：具備原生工具調用能力的視覺 AI

什麼是 GLM-4.6V？