Novita AI 正在推出「建造月」活動,為開發者提供專屬優惠,所有主要產品最高可享 20% 的折扣!
由於基礎設施成本高昂、部署流程複雜以及效能、精度和資源消耗之間的權衡尚不明確,大規模多模態模型的部署對開發者而言仍然充滿挑戰。對於高階視覺語言模型(例如)而言,這些挑戰尤其突出。 GLM-4.6V這需要大量的顯存、長上下文支援以及視覺感知和工具執行之間的緊密整合。
本文透過系統性地解釋架構創新來解決這些痛點: GLM-4.6V其原生多模態函數呼叫機制、實用的VRAM和量化策略,以及經濟高效的部署路徑 Novita AI 雲端 GPU本文結合模型層面的洞察和具體的部署及計費指導,幫助開發者在建置、部署和擴展過程中做出明智的決策。 GLM-4.6V基於應用程式。
GLM 4.6V 具有高效率和高效能
GLM-4.6V 允許將視覺張量直接傳遞到推理層,從而觸發函數呼叫。這意味著模型能夠有效地在其潛在空間中「點擊」圖像。此功能由擴充實現。 模型上下文協定 (MCP)它規範瞭如何將視覺上下文傳遞給外部工具。
原生多模態函數呼叫機制
| 傳統流程(視覺到文字到工具) | GLM-4.6V 管線(視覺到工具) |
| 步驟 1 圖像編碼 -> 向量圖 | 步驟 1 影像編碼 -> 多模態向量 |
| 步驟 2 向量圖 -> 文字描述(「一個紅色方框」) | 步驟 2 向量 -> 直連路由器 |
| 步驟 3 文字 -> 邏輯 -> 工具調用 | 步驟 3 路由器 -> 可執行操作 |
| 潛伏: 高(文字產生開銷) | 潛伏: 減少 37% |
| 精確: 低(語意近似) | 精確: 高(座標級精度) |
| 成功率: 中度 | 成功率: 增加 18% |
視覺回饋迴路與自我修正
受智普AI的啟發 UI2Code^N 研究表明,GLM-4.6V 專門針對視覺任務實現了一個強化學習 (RL) 循環。這個過程模擬了人類「執行、檢查、修復」的工作流程:
- 行動: 該模型根據視覺提示產生程式碼(例如,網站的 HTML)。
- 觀察: 此模型呼叫渲染工具來視覺化自身的程式碼。
- 審計: 該模型使用其視覺編碼器將渲染輸出與原始目標影像進行比較。
- 更正: 此模型能夠偵測差異(例如,「按鈕邊距太小」),並迭代程式碼。
這種「視覺審核」功能使 GLM-4.6V 能夠實現像素級精確的前端複製,這使其區別於那些本質上根據文字描述「猜測」CSS 的模型。
上下文視窗動態
128,000 個令牌的上下文視窗是企業工作流程的關鍵特性。實際上,這種容量意味著:
- 文件分析: 一次處理完一份 150 頁的財務報告(包括複雜的圖表和表格)。
- 影片理解: 分析 1 小時的視訊檔案(例如,講座或監視器錄影),以提取特定事件或摘要。
- 程式碼庫理解: 擷取整個儲存庫的文件和核心檔案以執行架構重構。
與純文字模型中「長上下文」僅指詞數不同,在視覺語言模型(VLM)中,該視窗必須容納視覺嵌入的大量詞元。 GLM-4.6V 採用了一種名為「視覺語言壓縮對齊」的技術(靈感來自 Glyph),用於壓縮視覺詞元,從而確保高解析度圖像不會過早耗盡上下文視窗。
GLM 4.6V 的開發者生態系統
GLM-4.6V 是首批原生支援擴充版模型上下文協定 (MCP) 的模型之一。該協議充當 AI 模型和整合開發環境 (IDE) 之間的標準化「握手」機制。
| 權限 | 簡介 |
| 一鍵集成 | 使用少於 10 行的配置將 GLM-4.6V 連接到 VS Code 或 Cursor。 |
| 上下文意識 | 此模型會自動接收文件樹、開啟的標籤頁和終端機狀態作為上下文。 |
| 可視化拖放 | 開發者可以將螢幕截圖拖入 IDE,模型會自動產生對應的前端程式碼元件。 |
| 本地服務 | MCP 伺服器可以指向本地 vLLM 例如,將專有代碼完全離線保存。 |
GLM 4.6V 的 VRAM 需求與量化
雖然活動參數數量較少(12B), 存儲 權重需求仍然很高(106B)。要在原生精度(FP16)下使用完整上下文視窗運行完整模型,需要企業級叢集。然而,激進的量化(INT4)結合 MoE 卸載(將專家資訊儲存在系統 RAM 中並進行交換)可以有效降低模型運行速度。 GPU 按需使用顯存(VRAM)使得模型能夠在專業級工作站上運行,儘管推理速度有所降低。
| 模型變體 | 精密 | 上下文長度 | 顯存估算 | 建議硬體配置 |
| GLM-4.6V (106B) | FP16 / BF16 | 128K(完整版) | 640 GB - 720 GB | 8塊H100(80GB)或8塊A100(80GB) |
| GLM-4.6V (106B) | FP16 / BF16 | 簡短(推斷) | 96 GB - 120 GB | 2塊A6000(48GB)或4塊RTX 3090/4090 |
| GLM-4.6V (106B) | FP8(量化) | 128K | GB 320 | 4x H100 (80GB) |
| GLM-4.6V (106B) | INT4(量化) | 強化- | GB 64 | 1塊A100(80GB)或3塊RTX 3090/4090 |
| GLM-4.6V-Flash (9B) | FP16 | 128K | GB 24 | 1塊 RTX 3090/4090(24GB) |
| GLM-4.6V-Flash (9B) | INT4 | 強化- | 6 8 GB | RTX 3060 / 筆記型電腦 GPU |
使用 v 進行部署LLM 和 Docker
對於選擇自行託管的開發者而言, vLLM 由於它支援張量並行(TP)和連續批次處理,因此是建議的推理引擎。
部署配置(Docker)
在 4- 上部署 106B 模型GPU 使用 v 進行設定LLM請使用以下配置模式。請注意 GLM-4.5/4.6 架構的特定參數(--tool-call-parser, --enable-expert-parallel).
主要論點:
--tensor-parallel-size 4將模型分佈在 4 個 GPUs. 將 106B 重量放入內存中至關重要。--tool-call-parser glm45:啟動 GLM 原生函數呼叫格式的特定解析邏輯。--enable-expert-parallel:優化 MoE 專家在各個設備上的分佈,以平衡計算負載。--max-model-len:控制上下文視窗大小。將其設定為65536or128000(如果硬體允許)定義 KV 快取的記憶體緩衝區。
在雲端存取 GLM 4.6V 的更佳且更經濟的方式 GPU
Novita AI 提供四個 GPU 計費模式可適應不同的工作量模式和成本要求。
定價模式 計費方式 資源可用性 成本水平 中斷風險 典型用例 按需付費(即用即付) 依實際運轉時間計費(每秒或每小時) 高可用性執行個體可以隨時啟動或停止 媒材 無 開發和測試、模型調試、可變或不可預測的工作負載 競價實例 按運行時間計費,享受折扣價 中等,取決於可用空閒產能 價格低廉(通常比按需付費便宜約 50%) 是的,實例可能會被搶佔。 批量作業、離線推理、容錯訓練、成本敏感工作負載 訂閱/預約計劃 固定月付或年付 高素質、敬業且可預測的資源 中低價(折扣價 vs. 按需購買) 無 長期穩定的工作負載、生產系統、持續訓練或推理 無服務器 GPU 帳單地址 按每次執行實際消耗的計算量計費 根據需求自動擴展 低至中等(僅需支付實際使用的量) 無(完全由平台管理) 事件驅動推理、突發流量、基於 API 的模型服務、最小的運維開銷
1. 按需付費(即用即付)
按需消費是標準的消費模式,在這種模式下, GPU 計算資源按運行時計費,通常按秒或按小時計費,無需長期承諾或預留。這種方式提供了最大的靈活性,非常適合工作負載變化、間歇性使用和早期實驗,因為費用僅在實例處於活動狀態時產生。儲存和輔助資源(包括磁碟和網路)則按使用量計費。

2. 競價實例
競價實例利用閒置資源,提供大幅降低的每小時價格,通常比隨選實例價格低約 50%。 GPU 容量限制。這些實例可能會被平台搶佔。 Novita 透過提供一小時的保護窗口和提前終止通知來降低這種風險。此定價模式適用於容錯性強或可承受偶爾中斷的批次工作負載。

3. 訂閱/預約計劃
訂閱和預約套餐按月或按年計費,並提供專屬服務。 GPU 資源可用性可預測。與按需付費模式相比,這些方案通常以更長期的合約承諾換取更低的單位成本。它們最適合需要穩定、持續工作負載和持續運算能力的生產環境。

4. 無服務器 GPU 帳單地址
無服務器 GPU 計費透過自動擴展簡化了實例管理。 GPU 資源會根據工作負載需求進行調配。使用者只需為實際使用的運算資源付費,而不是為預置的實例付費。這種模式對於事件驅動型或高彈性工作負載非常有利,因為它在最大限度地降低營運成本的同時,提高了成本效益。

Novita AI 它還提供模板,旨在顯著降低部署過程中涉及的操作和認知成本。 GPU基於模板的 AI 工作負載。模板系統無需開發人員從頭開始手動組裝環境,而是提供預先配置的、可用於生產的鏡像,其中捆綁了操作系統、CUDA 和 cuDNN 版本、深度學習框架、推理引擎,在某些情況下甚至包括完整的模型服務堆疊。

如何在…部署 GLM 4.6V Novita AI
Step1:註冊帳戶
創建你的 Novita AI 透過我們的網站註冊帳戶。註冊後,請前往左側邊欄的「探索」部分查看我們的 GPU 產品並開始您的 AI 開發之旅。

步驟2:探索範本和 GPU 服務器
從 PyTorch、TensorFlow 或 CUDA 等範本中進行選擇,以滿足您的專案需求。然後選擇你喜歡的 GPU 配置-選項包括強大的 L40S、RTX 4090 或 A100 SXM4,每個都有不同的 VRAM、RAM 和儲存規格。

步驟 3:自訂部署並啟動實例
透過選擇您偏好的作業系統和配置選項來自訂您的環境,以確保針對您的特定 AI 工作負載和開發需求實現最佳效能。然後,您的高性能環境將得到充分發揮。 GPU 環境將在幾分鐘內準備就緒,讓您立即開始機器學習、渲染或計算專案。

步驟 4:監控部署進度
前往 實例管理 訪問控制台。此儀表板可讓您即時追蹤部署狀態。

點擊您的特定實例即可監控容器鏡像的下載進度。此過程可能需要幾分鐘,具體取決於網路狀況。

步驟 6:驗證部署是否成功
實例啟動後,它將開始拉取模型。點選“日誌”->“實例日誌監控模型下載進度。請尋找以下訊息。
"Application startup complete."在實例日誌中。這表示部署過程已成功完成。點擊“連結“,然後點擊 –> “連接到 HTTP 服務 [連接埠 8000]「。由於這是一項 API 服務,因此您需要複製地址。
若要向您的模型發出請求,請替換 “http://7a65a32b51e37482-8000.jp-tyo-1.gpu-instance.novita.ai“ 使用您的實際公開地址。複製以下程式碼即可存取您的私人模型!
GLM-4.6V 透過在單一統一架構內實現原生視覺到工具的執行、視覺回饋循環以及長上下文理解,代表了多模態推理領域的重大進展。雖然其全精度部署需要企業級硬件,但量化和 MoE 卸載技術使其能夠滿足企業級硬體的需求。 GLM-4.6V 可供更廣泛的開發者使用。 Novita AI 透過提供靈活的方式,進一步降低採用門檻。 GPU 計費模式、預先配置範本和簡化的部署工作流程。總而言之, GLM-4.6V 以及 Novita AI 為建構下一代多模態應用提供實用、可擴展且經濟高效的基礎。
常見問題(FAQ)
GLM-4.6V 支援原生多模態函數調用,無需生成中間文字即可直接執行視覺到工具的交互。
儘管活性參數 GLM-4.6V 雖然容量有限,但其 106B 儲存權重和長上下文 KV 快取顯著增加了 VRAM 需求。
GLM-4.6V 使用基於強化學習的視覺審核循環,將渲染輸出與目標影像進行比較。
Novita AI 是助力您實現 AI 抱負的一體化雲端平台。整合 API、無伺服器、 GPU 實例-您需要的經濟高效的工具。消除基礎設施,免費開始,讓您的 AI 願景成為現實。
推薦閱讀
- ERNIE-4.5-VL-A3B 顯存需求:以較低的成本執行多模態模型
- Qwen3 Embedding 8B:強大的搜尋、靈活的客製化和多語言
- MiniMax Speech 02:快速自然語音產生的最佳解決方案
探索 Novita 的更多內容
訂閱以將最新貼文發送到您的電子郵件。





