GLM-4.6V 上線 Novita AI:具備原生工具調用能力的視覺 AI

GLM-4.6V 上線 Novita AI:具備原生工具調用能力的視覺 AI

GLM-4.6V 現已上線 Novita AI 平台,搭載智譜 AI 先進的視覺語言模型,具備突破性的多模態能力。基礎版本擁有 1060 億參數,搭配 128K 標記上下文視窗,在參數規模相近的模型中,GLM-4.6V 的視覺理解性能達到業界最先進水準。

本次最新版本首次整合原生函數調用(Function Calling)能力,有效打通視覺感知與可執行操作之間的壁壘。無論您是構建多模態智能體、處理複雜文件,還是開發視覺編輯應用,GLM-4.6V 都能透過 Novita AI 對開發者友好的基礎設施,為您提供所需的能力。

試用 GLM-4.6V 演示

什麼是 GLM-4.6V?

GLM-4.6V 是智譜 AI 推出的先進視覺語言模型,提供全方位的多模態理解與生成能力。作為 GLM-V 系列的一員,它透過原生函數調用整合,在打通視覺感知與可執行智能方面實現了重大突破。

雙模型架構: GLM-4.6V 提供兩個版本:一是專為雲端與高效能叢集場景設計的 1060 億參數基礎模型,二是優化用於本地部署與低延遲應用的 9B 參數 GLM-4.6V-Flash 模型。兩個版本都提供強大的多模態能力,可根據不同部署需求彈性擴展。

擴展上下文視窗: GLM-4.6V 配備 128K 標記上下文視窗,可處理多文件或長文件輸入,並能直接將格式豐富的頁面以圖像形式解析。這項擴展的上下文能力讓模型能夠處理複雜、富含圖像的文件,無需事先轉換為純文字。

原生函數調用: GLM-4.6V 首次在 GLM-V 系列中整合原生函數調用(Function Calling)能力。這項突破性功能有效打通視覺感知與可執行操作,為真實業務場景中的多模態智能體提供統一的技術基礎。

業界最先進性能: 在各大多模態基準測試中,GLM-4.6V 在參數規模相近的模型中,視覺理解性能達到最先進(SoTA)水準,展現出卓越的視覺資訊處理與理解能力。

主要功能與能力

GLM-4.6V 引入了多項專長能力,特別適合多模態應用場景。

多模態文件理解

GLM-4.6V 可處理最高 128K 標記的多文件或長文件輸入,直接將格式豐富的頁面以圖像形式解析。模型可聯合理解文字、排版、圖表、表格與圖形,精準掌握複雜、富含圖像的文件內容。這項能力無需進行預處理或文字提取,可直接分析 PDF、報告、簡報等視覺化文件。

前端複刻與視覺編輯

模型可從 UI 截圖重建像素級精準的 HTML/CSS 程式碼,並支援自然語言驅動的編輯操作。GLM-4.6V 可視覺化偵測版面、組件與樣式,生成整潔的程式碼,並透過簡單的使用者指令進行迭代式視覺修改。這項功能非常適合用於快速原型設計、設計轉程式碼的工作流程,以及自動化 UI 生成。

交錯圖文內容生成

GLM-4.6V 支援基於複雜多模態輸入的高品質多媒體內容創作。模型可接收跨文件、使用者輸入與工具檢索圖像的多模態上下文,針對任務合成連貫的交錯圖文內容。生成過程中,模型可主動調用搜尋與檢索工具,收集並整理額外的文字與視覺素材,產出豐富且貼近視覺依據的內容。

原生工具整合

整合的函數調用(Function Calling)能力讓 GLM-4.6V 能在處理過程中自主調用外部工具。這使得模型可以根據視覺分析結果獲取即時資訊、存取資料庫、檢索圖像,或觸發對應操作。原生整合的特性讓它非常適合用於構建複雜的多模態智能體系統。

性能與架構

GLM-4.6V 在全面的多模態評估中展現優異性能。

模型架構

GLM-4.6V 採用專為多模態理解優化的先進架構,建構於 GLM-V 系列的技術基礎之上:

  • 基礎模型(GLM-4.6V): 共 1060 億參數,專為雲端部署與最大效能設計
  • 輕量化模型(GLM-4.6V-Flash): 9B 參數,優化用於邊緣部署與降低延遲
  • 上下文長度: 128K 標記,可處理大規模多模態輸入
  • 視覺編碼器: 空間區塊大小為 14,時間區塊大小為 2,實現高效視覺處理

開始在 Novita AI 上使用 GLM-4.6V

Novita AI 提供多種存取 GLM-4.6V 的方式,適合不同技能等級與使用場景。

使用 playground(無需編碼)

註冊後,即可透過互動式介面在幾秒內開始試用GLM-4.6V。您可以上傳圖像或文件、測試多模態提示詞,並在完整的 128K 上下文視窗中即時查看輸出結果。非常適合在構建完整實現前進行原型設計,了解模型的能力。

透過 API 整合(適合開發者)

使用 Novita AI 統一的 REST API 將 GLM-4.6V 連接至您的應用程式。

直接 API 整合(Python 範例)

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-4.6v",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

使用 OpenAI Agents SDK 構建多智能體工作流

透過即插即用整合、支援交接、路由與工具整合的功能,搭配原生函數調用與完整的 128K 上下文視窗,構建複雜的多模態智能體系統。

連接第三方平台

智能體框架: 透過官方連接器與逐步整合指南,輕鬆將 Novita AI 與合作夥伴平台如 ContinueAnythingLLMLangChainDifyLangflow 連接。

Hugging Face: Novita AI 是 Hugging Face 的官方推理服務提供商,確保廣泛的生態系統相容性。

OpenAI 相容 API: 可無縫遷移與整合至符合 OpenAI API 標準的工具,例如 ClineCursor、Trae 與 Qwen Code,無需繁雜的設定。

Anthropic 相容 API: 可無縫整合 Claude Code,適用於智能體編碼工作流程及其他符合 Anthropic API 標準的工具。

總結

Novita AI 上的 GLM-4.6V 搭載智譜 AI 先進的視覺語言模型,擁有 1060 億參數與 128K 上下文視窗,在多模態理解方面達到業界最先進性能。透過原生函數調用整合,以及文件分析、UI 複刻、多媒體生成等專長能力,GLM-4.6V 為構建複雜的多模態 AI 應用提供統一的基礎。

立即透過 Novita AI 的 playground、API 或第三方整合開始探索GLM-4.6V,為您的應用程式加入先進的視覺理解、文件處理與多模態推理能力,使用 GLM-4.6V 突破性的視覺語言智能,構建下一代 AI 驅動的解決方案。

Novita AI 是領先的 AI 雲端平台,為開發者提供易於使用的 API 與實惠、可靠的 GPU 基礎設施,協助構建與擴展 AI 應用程式。