最大化 GLM 4.5 VRAM 以應對進階 AI 任務

GLM 4.5 VRAM 需求
GLM 4.5 的硬體需求是什麼？
優化 GLM 4.5 以降低 VRAM 消耗
另一種高性價比選擇：API

你是否正在考慮本地部署 GLM-4.5，但擔心需要大量的 GPU 資源？完整版 GLM-4.5 模型在 FP8 精度下需要 16 張 NVIDIA H100 或 8 張 H200 的配置，而更節省資源的 GLM-4.5-Air 版本在 FP8 精度下僅需 2 張 H100 或 1 張 H200 即可運行。這些配置能確保最佳效能，並支援模型最高達 128K tokens 的長上下文長度。

本文將深入探討 GLM-4.5 的 VRAM 需求、本地部署的可行性，以及能有效運用這款強大語言模型的替代方案。

GLM 4.5 VRAM 需求

GLM-4.5 是 GLM 系列的最新成果，採用先進的混合專家（MoE）架構，並針對代理應用場景進行了優化。模型共有兩個版本：旗艦版 GLM-4.5 總參數達 3550 億（活躍參數 320 億），高效版 GLM-4.5-Air 總參數為 1060 億（活躍參數 120 億）。

關鍵架構創新包括：採用更深層的模型結構，降低寬度、增加深度以提升推理能力；在規模達 15 萬億 tokens 的超大語料庫上進行預訓練，累積全面知識；以及開源的「slime」強化學習基礎設施，專為可擴展的大規模代理強化學習設計。

資料來源：Z.AI

GLM 4.5 推理需要多少 VRAM？

模型可在下表所列的配置下運行：

模型	精度	GPU 類型與數量	測試框架
GLM-4.5	BF16	H100 x 16 / H200 x 8	sglang
GLM-4.5	FP8	H100 x 8 / H200 x 4	sglang
GLM-4.5-Air	BF16	H100 x 4 / H200 x 2	sglang
GLM-4.5-Air	FP8	H100 x 2 / H200 x 1	sglang

在下表所列的配置下，模型可發揮完整的 128K 上下文長度：

模型	精度	GPU 類型與數量	測試框架
GLM-4.5	BF16	H100 x 32 / H200 x 16	sglang
GLM-4.5	FP8	H100 x 16 / H200 x 8	sglang
GLM-4.5-Air	BF16	H100 x 8 / H200 x 4	sglang
GLM-4.5-Air	FP8	H100 x 4 / H200 x 2	sglang

GLM 4.5 微調需要多少 VRAM？

使用 Llama Factory 時，程式碼可在下表所列的配置下運行：

模型	GPU 類型與數量	策略	單 GPU 批次大小
GLM-4.5	H100 x 16	Lora	1
GLM-4.5-Air	H100 x 4	Lora	1

使用 Swift 時，程式碼可在下表所列的配置下運行：

模型	GPU 類型與數量	策略	單 GPU 批次大小
GLM-4.5	H20 (96GiB) x 16	Lora	1
GLM-4.5-Air	H20 (96GiB) x 4	Lora	1
GLM-4.5	H20 (96GiB) x 128	SFT	1
GLM-4.5-Air	H20 (96GiB) x 32	SFT	1
GLM-4.5	H20 (96GiB) x 128	RL	1
GLM-4.5-Air	H20 (96GiB) x 32	RL	1

不同批次大小下的 GLM 4.5 VRAM 使用量

模型	精度	單 GPU 批次大小	VRAM 使用量
GLM-4.5	FP16	1	945.36GB
GLM-4.5	FP16	8	1128.49GB
GLM-4.5	FP16	16	1137.79GB
GLM-4.5	FP16	32	1756.38GB
GLM-4.5-Air	FP16	1	288.68GB
GLM-4.5-Air	FP16	8	343.58GB
GLM-4.5-Air	FP16	16	406.33GB
GLM-4.5-Air	FP16	32	531.83GB

GLM 4.5 的硬體需求是什麼？

https://www.youtube.com/watch?v=grAXN76\_-Ig

GPU：
- 推理：完整版模型需 FP8 精度下 8 張 H100/4 張 H200，或 BF16 精度下 16 張 H100/8 張 H200；Air 版本需求減半。
- 微調：需要 VRAM ≥ 80GB 的 GPU。
CPU 與系統：
- 需 ≥ 1TB RAM 以載入模型並管理卸載緩衝區。
- 需要高頻寬互連（NVLink/HPC 交換器）以實現多 GPU 張量並行。
精度：
- FP8 可最大程度降低 VRAM 使用量（需要原生支援 FP8 的 GPU）。
- 若不支援 FP8，可使用 BF16 作為替代方案。
軟體：
- 推理可使用 vLLM 或 Llama Factory；支援推測解碼與 CPU 卸載。

優化 GLM 4.5 以降低 VRAM 消耗

模型版本選擇： 若 GPU 僅有 32-64GB VRAM，建議選擇 GLM 4.5-Air（總參數 106B/活躍參數 12B）。
何時選擇 GLM-4.5-Air：
- 生成速度大幅提升：
  - GLM-4.5-Air 的輸出速率約為每秒 160 個 tokens，幾乎是完整版模型（約每秒 88 個 tokens）的兩倍，非常適合對延遲敏感的應用場景。
- 首個 token 延遲（TTFT）極低：
  - Air 版本輸出首個 token 僅需約 0.58 秒，而完整版需 0.68 秒。部分測試中，完整版包含「思考」時間的延遲可達 22-23 秒。
- 端到端回應時間更短：
  - Air 版本的端到端回應（包含輸入處理、推理與輸出）約需 16 秒，完整版則需近 29 秒，因此完整版較不適合即時互動場景。
- 複雜推理任務得分略低：
  - 在 MMLU-Pro、GPQA、AIME 等推理基準測試中，Air 版本的得分比完整版低約 2-3%，但仍維持業界領先的效能水準。
- 適用於大多數使用場景：
  - 對於大多數文字生成、摘要、基礎推理與程式碼輔助任務，完整版模型並非必需——Air 版本已能提供足夠的高效能與響應速度。

層卸載： 將部分 MoE 專家或前饋層卸載至 CPU 記憶體。
KV 快取量化： 降低快取精度以節省 VRAM，僅會造成輕微的品質損失。
批次大小設為 1： 每張 GPU 僅執行單樣本推理，以最小化活化值佔用。

另一種高性價比選擇：API

以下為透過 API 部署 GLM 4.5 與本地運行的簡單比較：

面向	API 部署	本地部署
成本	按用量付費；例如 Novita AI 上輸入 tokens 每百萬收費 0.6 美元，輸出 tokens 每百萬收費 2.2 元人民幣	硬體初期投資高（如 NVIDIA A100 GPU）；大量使用下長期成本可能更低
效能	可擴展，但可能產生網路延遲；適合可接受輕微延遲的應用	延遲低、效能穩定；適合需要即時回應的即時應用
擴展性	無需管理基礎設施即可輕鬆擴展；供應商負責擴展操作	擴展需要額外硬體與基礎設施管理
資料隱私	資料在外部處理，可能引發隱私疑慮，尤其對受監管的行業而言	資料保留在內部，提供更大的控制權，且能符合資料保護法規要求
運營複雜度	設定與維護成本低；供應商負責更新與基礎設施管理	需要技術專業知識進行設定、維護與安全管理；提供更高的自訂性
自訂性	僅能使用供應商的配置，針對特定需求的彈性較低	可完全控制模型自訂、微調，以及與現有系統的整合
適用場景	適合用量波動大、用量低、需要快速開發或技術資源有限的應用	適合用量高且穩定、有嚴格資料隱私要求，或需要大量自訂的應用

如何透過 Novita AI 使用 GLM 4.5？

Novita AI 提供的 API 支援 131K 上下文長度，費用為輸入 每百萬 0.6 美元、輸出 每百萬 2.2 美元，能充分發揮 GLM 4.5 在程式碼代理方面的潛力。

Novita AI

步驟 1：登入並進入模型庫

登入你的帳號，點擊 模型庫 按鈕。

立即嘗試 GLM 4.5！

步驟 2：選擇模型

瀏覽可用的選項，選擇符合你需求的模型。

步驟 3：開始免費試用

開始免費試用，體驗所選模型的能力。

步驟 4：取得 API 金鑰

若要透過 API 進行驗證，我們會提供你新的 API 金鑰。進入「設定」頁面後，即可按照圖片指示複製 API 金鑰。

步驟 5：安裝 API

使用對應程式語言的套件管理器安裝 API。

安裝完成後，將所需的函式庫匯入你的開發環境，使用 API 金鑰初始化 API，即可開始與 Novita AI LLM 互動。以下為 Python 使用者呼叫聊天完成 API 的範例：

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_UsudmdAIggvSInjIdO2HWaTCyXxTFOXDV8TH8UCPbA576Rs4AGqSA5ThNbelSDgdEGAWQcWXnAU2bHi5BueceA==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

GLM-4.5 及其 Air 版本為代理應用提供了強勁的解決方案，且有不同的 VRAM 需求以滿足不同的部署場景。評估你的具體需求與資源，就能判斷該選擇本地部署還是 API 方案。

常見問題

誰適合使用 GLM 4.5？

GLM-4.5 非常適合尋求進階 AI 代理能力的開發者、研究人員與企業，尤其適用於程式碼、自動化與知識相關任務。

什麼是 GLM-4.5？

GLM-4.5 是一款先進的大型語言模型，採用混合專家（MoE）架構，針對需要複雜推理與工具整合的代理應用場景進行了優化。

我沒有大量硬體可以部署 GLM-4.5 嗎？

可以，透過 API 使用 GLM-4.5 是替代方案，能減少大量硬體投資的需求，但可能需要考慮資料隱私與網路延遲相關問題。

Novita AI 是一個 AI 雲端平台，為開發者提供簡單的 API 以輕鬆部署 AI 模型，同時也提供平價且可靠的 GPU 雲端服務，用於建構與擴展 AI 應用。

最大化 GLM 4.5 VRAM 以應對進階 AI 任務