GLM 4.6V 記憶體需求:選擇 GPU用於多模態推理

glm 4.6v 顯存

Novita AI 正在推出「建造月」活動,為開發者提供專屬優惠,所有主要產品最高可享 20% 的折扣!

由於基礎設施成本高昂、部署流程複雜以及效能、精度和資源消耗之間的權衡尚不明確,大規模多模態模型的部署對開發者而言仍然充滿挑戰。對於高階視覺語言模型(例如)而言,這些挑戰尤其突出。 GLM-4.6V這需要大量的顯存、長上下文支援以及視覺感知和工具執行之間的緊密整合。

本文透過系統性地解釋架構創新來解決這些痛點: GLM-4.6V其原生多模態函數呼叫機制、實用的VRAM和量化策略,以及經濟高效的部署路徑 Novita AI 雲端 GPU本文結合模型層面的洞察和具體的部署及計費指導,幫助開發者在建置、部署和擴展過程中做出明智的決策。 GLM-4.6V基於應用程式。

GLM 4.6V 具有高效率和高效能

GLM-4.6V 允許將視覺張量直接傳遞到推理層,從而觸發函數呼叫。這意味著模型能夠有效地在其潛在空間中「點擊」圖像。此功能由擴充實現。 模型上下文協定 (MCP)它規範瞭如何將視覺上下文傳遞給外部工具。

原生多模態函數呼叫機制

傳統流程(視覺到文字到工具)GLM-4.6V 管線(視覺到工具)
步驟 1 圖像編碼 -> 向量圖步驟 1 影像編碼 -> 多模態向量
步驟 2 向量圖 -> 文字描述(「一個紅色方框」)步驟 2 向量 -> 直連路由器
步驟 3 文字 -> 邏輯 -> 工具調用步驟 3 路由器 -> 可執行操作
潛伏: 高(文字產生開銷)潛伏: 減少 37%
精確: 低(語意近似)精確: 高(座標級精度)
成功率: 中度成功率: 增加 18%

視覺回饋迴路與自我修正

受智普AI的啟發 UI2Code^N 研究表明,GLM-4.6V 專門針對視覺任務實現了一個強化學習 (RL) 循環。這個過程模擬了人類「執行、檢查、修復」的工作流程:

  1. 行動: 該模型根據視覺提示產生程式碼(例如,網站的 HTML)。
  2. 觀察: 此模型呼叫渲染工具來視覺化自身的程式碼。
  3. 審計: 該模型使用其視覺編碼器將渲染輸出與原始目標影像進行比較。
  4. 更正: 此模型能夠偵測差異(例如,「按鈕邊距太小」),並迭代程式碼。

這種「視覺審核」功能使 GLM-4.6V 能夠實現像素級精確的前端複製,這使其區別於那些本質上根據文字描述「猜測」CSS 的模型。

上下文視窗動態

128,000 個令牌的上下文視窗是企業工作流程的關鍵特性。實際上,這種容量意味著:

  • 文件分析: 一次處理完一份 150 頁的財務報告(包括複雜的圖表和表格)。
  • 影片理解: 分析 1 小時的視訊檔案(例如,講座或監視器錄影),以提取特定事件或摘要。
  • 程式碼庫理解: 擷取整個儲存庫的文件和核心檔案以執行架構重構。

與純文字模型中「長上下文」僅指詞數不同,在視覺語言模型(VLM)中,該視窗必須容納視覺嵌入的大量詞元。 GLM-4.6V 採用了一種名為「視覺語言壓縮對齊」的技術(靈感來自 Glyph),用於壓縮視覺詞元,從而確保高解析度圖像不會過早耗盡上下文視窗。

GLM 4.6V 的開發者生態系統

GLM-4.6V 是首批原生支援擴充版模型上下文協定 (MCP) 的模型之一。該協議充當 AI 模型和整合開發環境 (IDE) 之間的標準化「握手」機制。

權限簡介
一鍵集成使用少於 10 行的配置將 GLM-4.6V 連接到 VS Code 或 Cursor。
上下文意識此模型會自動接收文件樹、開啟的標籤頁和終端機狀態作為上下文。
可視化拖放開發者可以將螢幕截圖拖入 IDE,模型會自動產生對應的前端程式碼元件。
本地服務MCP 伺服器可以指向本地 vLLM 例如,將專有代碼完全離線保存。

GLM 4.6V 的 VRAM 需求與量化

雖然活動參數數量較少(12B), 存儲 權重需求仍然很高(106B)。要在原生精度(FP16)下使用完整上下文視窗運行完整模型,需要企業級叢集。然而,激進的量化(INT4)結合 MoE 卸載(將專家資訊儲存在系統 RAM 中並進行交換)可以有效降低模型運行速度。 GPU 按需使用顯存(VRAM)使得模型能夠在專業級工作站上運行,儘管推理速度有所降低。

模型變體精密上下文長度顯存估算建議硬體配置
GLM-4.6V (106B)FP16 / BF16128K(完整版)640 GB - 720 GB8塊H100(80GB)或8塊A100(80GB)
GLM-4.6V (106B)FP16 / BF16簡短(推斷)96 GB - 120 GB2塊A6000(48GB)或4塊RTX 3090/4090
GLM-4.6V (106B)FP8(量化)128KGB 3204x H100 (80GB)
GLM-4.6V (106B)INT4(量化)強化-GB 641塊A100(80GB)或3塊RTX 3090/4090
GLM-4.6V-Flash (9B)FP16128KGB 241塊 RTX 3090/4090(24GB)
GLM-4.6V-Flash (9B)INT4強化-6 8 GBRTX 3060 / 筆記型電腦 GPU

使用 v 進行部署LLM 和 Docker

對於選擇自行託管的開發者而言, vLLM 由於它支援張量並行(TP)和連續批次處理,因此是建議的推理引擎。

部署配置(Docker)

在 4- 上部署 106B 模型GPU 使用 v 進行設定LLM請使用以下配置模式。請注意 GLM-4.5/4.6 架構的特定參數(--tool-call-parser--enable-expert-parallel).

主要論點:

  • --tensor-parallel-size 4將模型分佈在 4 個 GPUs. 將 106B 重量放入內存中至關重要。
  • --tool-call-parser glm45:啟動 GLM 原生函數呼叫格式的特定解析邏輯。
  • --enable-expert-parallel:優化 MoE 專家在各個設備上的分佈,以平衡計算負載。
  • --max-model-len:控制上下文視窗大小。將其設定為 65536 or 128000 (如果硬體允許)定義 KV 快取的記憶體緩衝區。

在雲端存取 GLM 4.6V 的更佳且更經濟的方式 GPU

Novita AI 提供四個 GPU 計費模式可適應不同的工作量模式和成本要求。

定價模式計費方式資源可用性成本水平中斷風險典型用例
按需付費(即用即付)依實際運轉時間計費(每秒或每小時)高可用性執行個體可以隨時啟動或停止媒材開發和測試、模型調試、可變或不可預測的工作負載
競價實例按運行時間計費,享受折扣價中等,取決於可用空閒產能價格低廉(通常比按需付費便宜約 50%)是的,實例可能會被搶佔。批量作業、離線推理、容錯訓練、成本敏感工作負載
訂閱/預約計劃固定月付或年付高素質、敬業且可預測的資源中低價(折扣價 vs. 按需購買)長期穩定的工作負載、生產系統、持續訓練或推理
無服務器 GPU 帳單地址按每次執行實際消耗的計算量計費根據需求自動擴展低至中等(僅需支付實際使用的量)無(完全由平台管理)事件驅動推理、突發流量、基於 API 的模型服務、最小的運維開銷

1. 按需付費(即用即付)
按需消費是標準的消費模式,在這種模式下, GPU 計算資源按運行時計費,通常按秒或按小時計費,無需長期承諾或預留。這種方式提供了最大的靈活性,非常適合工作負載變化、間歇性使用和早期實驗,因為費用僅在實例處於活動狀態時產生。儲存和輔助資源(包括磁碟和網路)則按使用量計費。

按需付費(即用即付)

2. 競價實例
競價實例利用閒置資源,提供大幅降低的每小時價格,通常比隨選實例價格低約 50%。 GPU 容量限制。這些實例可能會被平台搶佔。 Novita 透過提供一小時的保護窗口和提前終止通知來降低這種風險。此定價模式適用於容錯性強或可承受偶爾中斷的批次工作負載。

競價實例

3. 訂閱/預約計劃
訂閱和預約套餐按月或按年計費,並提供專屬服務。 GPU 資源可用性可預測。與按需付費模式相比,這些方案通常以更長期的合約承諾換取更低的單位成本。它們最適合需要穩定、持續工作負載和持續運算能力的生產環境。

訂閱/預約計劃

4. 無服務器 GPU 帳單地址
無服務器 GPU 計費透過自動擴展簡化了實例管理。 GPU 資源會根據工作負載需求進行調配。使用者只需為實際使用的運算資源付費,而不是為預置的實例付費。這種模式對於事件驅動型或高彈性工作負載非常有利,因為它在最大限度地降低營運成本的同時,提高了成本效益。

novita ai的 GPU

Novita AI 它還提供模板,旨在顯著降低部署過程中涉及的操作和認知成本。 GPU基於模板的 AI 工作負載。模板系統無需開發人員從頭開始手動組裝環境,而是提供預先配置的、可用於生產的鏡像,其中捆綁了操作系統、CUDA 和 cuDNN 版本、深度學習框架、推理引擎,在某些情況下甚至包括完整的模型服務堆疊。

novita ai的模板

如何在…部署 GLM 4.6V Novita AI

Step1:註冊帳戶

創建你的 Novita AI 透過我們的網站註冊帳戶。註冊後,請前往左側邊欄的「探索」部分查看我們的 GPU 產品並開始您的 AI 開發之旅。

Novita AI 網站截圖

步驟2:探索範本和 GPU 服務器

從 PyTorch、TensorFlow 或 CUDA 等範本中進行選擇,以滿足您的專案需求。然後選擇你喜歡的 GPU 配置-選項包括強大的 L40S、RTX 4090 或 A100 SXM4,每個都有不同的 VRAM、RAM 和儲存規格。

按需付費(即用即付)

步驟 3:自訂部署並啟動實例

透過選擇您偏好的作業系統和配置選項來自訂您的環境,以確保針對您的特定 AI 工作負載和開發需求實現最佳效能。然後,您的高性能環境將得到充分發揮。 GPU 環境將在幾分鐘內準備就緒,讓您立即開始機器學習、渲染或計算專案。

自訂您的部署並啟動實例

步驟 4:監控部署進度

前往 實例管理 訪問控制台。此儀表板可讓您即時追蹤部署狀態。

 監控部署進度

步驟5:查看鏡像拉取狀態

點擊您的特定實例即可監控容器鏡像的下載進度。此過程可能需要幾分鐘,具體取決於網路狀況。

查看影像拉取狀態

步驟 6:驗證部署是否成功

實例啟動後,它將開始拉取模型。點選“日誌”->“實例日誌監控模型下載進度。請尋找以下訊息。 "Application startup complete." 在實例日誌中。這表示部署過程已成功完成。

點擊“連結“,然後點擊 –> “連接到 HTTP 服務 [連接埠 8000]「。由於這是一項 API 服務,因此您需要複製地址。

若要向您的模型發出請求,請替換 “http://7a65a32b51e37482-8000.jp-tyo-1.gpu-instance.novita.ai 使用您的實際公開地址。複製以下程式碼即可存取您的私人模型!

GLM-4.6V 透過在單一統一架構內實現原生視覺到工具的執行、視覺回饋循環以及長上下文理解,代表了多模態推理領域的重大進展。雖然其全精度部署需要企業級硬件,但量化和 MoE 卸載技術使其能夠滿足企業級硬體的需求。 GLM-4.6V 可供更廣泛的開發者使用。 Novita AI 透過提供靈活的方式,進一步降低採用門檻。 GPU 計費模式、預先配置範本和簡化的部署工作流程。總而言之, GLM-4.6V 以及 Novita AI 為建構下一代多模態應用提供實用、可擴展且經濟高效的基礎。

常見問題(FAQ)

GLM-4.6V 與傳統視覺語言模式有何不同?

GLM-4.6V 支援原生多模態函數調用,無需生成中間文字即可直接執行視覺到工具的交互。

為什麼 GLM-4.6V 在全精度下需要這麼大的顯存?

儘管活性參數 GLM-4.6V 雖然容量有限,但其 106B 儲存權重和長上下文 KV 快取顯著增加了 VRAM 需求。

GLM-4.6V是如何實現像素級的前端精度?

GLM-4.6V 使用基於強化學習的視覺審核循環,將渲染輸出與目標影像進行比較。

Novita AI 是助力您實現 AI 抱負的一體化雲端平台。整合 API、無伺服器、 GPU 實例-您需要的經濟高效的工具。消除基礎設施,免費開始,讓您的 AI 願景成為現實。


探索 Novita 的更多內容

訂閱以將最新貼文發送到您的電子郵件。

發表評論

回到頁首

探索 Novita 的更多內容

立即訂閱以繼續閱讀並存取完整檔案。

繼續閱讀