你是否正在考慮本地部署 GLM-4.5,但擔心需要大量的 GPU 資源?完整版 GLM-4.5 模型在 FP8 精度下需要 16 張 NVIDIA H100 或 8 張 H200 的配置,而更節省資源的 GLM-4.5-Air 版本在 FP8 精度下僅需 2 張 H100 或 1 張 H200 即可運行。這些配置能確保最佳效能,並支援模型最高達 128K tokens 的長上下文長度。
本文將深入探討 GLM-4.5 的 VRAM 需求、本地部署的可行性,以及能有效運用這款強大語言模型的替代方案。
GLM 4.5 VRAM 需求
GLM-4.5 是 GLM 系列的最新成果,採用先進的混合專家(MoE)架構,並針對代理應用場景進行了優化。模型共有兩個版本:旗艦版 GLM-4.5 總參數達 3550 億(活躍參數 320 億),高效版 GLM-4.5-Air 總參數為 1060 億(活躍參數 120 億)。
關鍵架構創新包括:採用更深層的模型結構,降低寬度、增加深度以提升推理能力;在規模達 15 萬億 tokens 的超大語料庫上進行預訓練,累積全面知識;以及開源的「slime」強化學習基礎設施,專為可擴展的大規模代理強化學習設計。

資料來源:Z.AI
GLM 4.5 推理需要多少 VRAM?
模型可在下表所列的配置下運行:
| 模型 | 精度 | GPU 類型與數量 | 測試框架 |
|---|---|---|---|
| GLM-4.5 | BF16 | H100 x 16 / H200 x 8 | sglang |
| GLM-4.5 | FP8 | H100 x 8 / H200 x 4 | sglang |
| GLM-4.5-Air | BF16 | H100 x 4 / H200 x 2 | sglang |
| GLM-4.5-Air | FP8 | H100 x 2 / H200 x 1 | sglang |
在下表所列的配置下,模型可發揮完整的 128K 上下文長度:
| 模型 | 精度 | GPU 類型與數量 | 測試框架 |
|---|---|---|---|
| GLM-4.5 | BF16 | H100 x 32 / H200 x 16 | sglang |
| GLM-4.5 | FP8 | H100 x 16 / H200 x 8 | sglang |
| GLM-4.5-Air | BF16 | H100 x 8 / H200 x 4 | sglang |
| GLM-4.5-Air | FP8 | H100 x 4 / H200 x 2 | sglang |
GLM 4.5 微調需要多少 VRAM?
使用 Llama Factory 時,程式碼可在下表所列的配置下運行:
| 模型 | GPU 類型與數量 | 策略 | 單 GPU 批次大小 |
|---|---|---|---|
| GLM-4.5 | H100 x 16 | Lora | 1 |
| GLM-4.5-Air | H100 x 4 | Lora | 1 |
使用 Swift 時,程式碼可在下表所列的配置下運行:
| 模型 | GPU 類型與數量 | 策略 | 單 GPU 批次大小 |
|---|---|---|---|
| GLM-4.5 | H20 (96GiB) x 16 | Lora | 1 |
| GLM-4.5-Air | H20 (96GiB) x 4 | Lora | 1 |
| GLM-4.5 | H20 (96GiB) x 128 | SFT | 1 |
| GLM-4.5-Air | H20 (96GiB) x 32 | SFT | 1 |
| GLM-4.5 | H20 (96GiB) x 128 | RL | 1 |
| GLM-4.5-Air | H20 (96GiB) x 32 | RL | 1 |
不同批次大小下的 GLM 4.5 VRAM 使用量
| 模型 | 精度 | 單 GPU 批次大小 | VRAM 使用量 |
|---|---|---|---|
| GLM-4.5 | FP16 | 1 | 945.36GB |
| GLM-4.5 | FP16 | 8 | 1128.49GB |
| GLM-4.5 | FP16 | 16 | 1137.79GB |
| GLM-4.5 | FP16 | 32 | 1756.38GB |
| GLM-4.5-Air | FP16 | 1 | 288.68GB |
| GLM-4.5-Air | FP16 | 8 | 343.58GB |
| GLM-4.5-Air | FP16 | 16 | 406.33GB |
| GLM-4.5-Air | FP16 | 32 | 531.83GB |
GLM 4.5 的硬體需求是什麼?
https://www.youtube.com/watch?v=grAXN76\_-Ig
- GPU:
- 推理:完整版模型需 FP8 精度下 8 張 H100/4 張 H200,或 BF16 精度下 16 張 H100/8 張 H200;Air 版本需求減半。
- 微調:需要 VRAM ≥ 80GB 的 GPU。
- CPU 與系統:
- 需 ≥ 1TB RAM 以載入模型並管理卸載緩衝區。
- 需要高頻寬互連(NVLink/HPC 交換器)以實現多 GPU 張量並行。
- 精度:
- FP8 可最大程度降低 VRAM 使用量(需要原生支援 FP8 的 GPU)。
- 若不支援 FP8,可使用 BF16 作為替代方案。
- 軟體:
- 推理可使用 vLLM 或 Llama Factory;支援推測解碼與 CPU 卸載。
優化 GLM 4.5 以降低 VRAM 消耗
- 模型版本選擇: 若 GPU 僅有 32-64GB VRAM,建議選擇 GLM 4.5-Air(總參數 106B/活躍參數 12B)。
- 何時選擇 GLM-4.5-Air:
- 生成速度大幅提升:
- GLM-4.5-Air 的輸出速率約為每秒 160 個 tokens,幾乎是完整版模型(約每秒 88 個 tokens)的兩倍,非常適合對延遲敏感的應用場景。
- 首個 token 延遲(TTFT)極低:
- Air 版本輸出首個 token 僅需約 0.58 秒,而完整版需 0.68 秒。部分測試中,完整版包含「思考」時間的延遲可達 22-23 秒。
- 端到端回應時間更短:
- Air 版本的端到端回應(包含輸入處理、推理與輸出)約需 16 秒,完整版則需近 29 秒,因此完整版較不適合即時互動場景。
- 複雜推理任務得分略低:
- 在 MMLU-Pro、GPQA、AIME 等推理基準測試中,Air 版本的得分比完整版低約 2-3%,但仍維持業界領先的效能水準。
- 適用於大多數使用場景:
- 對於大多數文字生成、摘要、基礎推理與程式碼輔助任務,完整版模型並非必需——Air 版本已能提供足夠的高效能與響應速度。
- 生成速度大幅提升:

- 層卸載: 將部分 MoE 專家或前饋層卸載至 CPU 記憶體。
- KV 快取量化: 降低快取精度以節省 VRAM,僅會造成輕微的品質損失。
- 批次大小設為 1: 每張 GPU 僅執行單樣本推理,以最小化活化值佔用。
另一種高性價比選擇:API
以下為透過 API 部署 GLM 4.5 與本地運行的簡單比較:
| 面向 | API 部署 | 本地部署 |
|---|---|---|
| 成本 | 按用量付費;例如 Novita AI 上輸入 tokens 每百萬收費 0.6 美元,輸出 tokens 每百萬收費 2.2 元人民幣 | 硬體初期投資高(如 NVIDIA A100 GPU);大量使用下長期成本可能更低 |
| 效能 | 可擴展,但可能產生網路延遲;適合可接受輕微延遲的應用 | 延遲低、效能穩定;適合需要即時回應的即時應用 |
| 擴展性 | 無需管理基礎設施即可輕鬆擴展;供應商負責擴展操作 | 擴展需要額外硬體與基礎設施管理 |
| 資料隱私 | 資料在外部處理,可能引發隱私疑慮,尤其對受監管的行業而言 | 資料保留在內部,提供更大的控制權,且能符合資料保護法規要求 |
| 運營複雜度 | 設定與維護成本低;供應商負責更新與基礎設施管理 | 需要技術專業知識進行設定、維護與安全管理;提供更高的自訂性 |
| 自訂性 | 僅能使用供應商的配置,針對特定需求的彈性較低 | 可完全控制模型自訂、微調,以及與現有系統的整合 |
| 適用場景 | 適合用量波動大、用量低、需要快速開發或技術資源有限的應用 | 適合用量高且穩定、有嚴格資料隱私要求,或需要大量自訂的應用 |
如何透過 Novita AI 使用 GLM 4.5?
Novita AI 提供的 API 支援 131K 上下文長度,費用為輸入 每百萬 0.6 美元、輸出 每百萬 2.2 美元,能充分發揮 GLM 4.5 在程式碼代理方面的潛力。
Novita AI
步驟 1:登入並進入模型庫
登入你的帳號,點擊 模型庫 按鈕。

步驟 2:選擇模型
瀏覽可用的選項,選擇符合你需求的模型。

步驟 3:開始免費試用
開始免費試用,體驗所選模型的能力。

步驟 4:取得 API 金鑰
若要透過 API 進行驗證,我們會提供你新的 API 金鑰。進入「設定」頁面後,即可按照圖片指示複製 API 金鑰。

步驟 5:安裝 API
使用對應程式語言的套件管理器安裝 API。
安裝完成後,將所需的函式庫匯入你的開發環境,使用 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下為 Python 使用者呼叫聊天完成 API 的範例:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="session_UsudmdAIggvSInjIdO2HWaTCyXxTFOXDV8TH8UCPbA576Rs4AGqSA5ThNbelSDgdEGAWQcWXnAU2bHi5BueceA==",
)
model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
GLM-4.5 及其 Air 版本為代理應用提供了強勁的解決方案,且有不同的 VRAM 需求以滿足不同的部署場景。評估你的具體需求與資源,就能判斷該選擇本地部署還是 API 方案。
常見問題
誰適合使用 GLM 4.5?
GLM-4.5 非常適合尋求進階 AI 代理能力的開發者、研究人員與企業,尤其適用於程式碼、自動化與知識相關任務。
什麼是 GLM-4.5?
GLM-4.5 是一款先進的大型語言模型,採用混合專家(MoE)架構,針對需要複雜推理與工具整合的代理應用場景進行了優化。
我沒有大量硬體可以部署 GLM-4.5 嗎?
可以,透過 API 使用 GLM-4.5 是替代方案,能減少大量硬體投資的需求,但可能需要考慮資料隱私與網路延遲相關問題。
Novita AI 是一個 AI 雲端平台,為開發者提供簡單的 API 以輕鬆部署 AI 模型,同時也提供平價且可靠的 GPU 雲端服務,用於建構與擴展 AI 應用。
