你是否正在考虑本地部署GLM-4.5,但又担心其需要大量的GPU资源?完整的GLM-4.5模型在FP8精度下需要16块NVIDIA H100 GPU或8块H200 GPU的配置,而更节省资源的GLM-4.5-Air变体在FP8精度下仅需2块H100 GPU或1块H200 GPU即可运行。这些配置可确保最优性能,并支持模型最长128K tokens的上下文长度。
在本文中,我们将探讨GLM-4.5的显存需求,分析本地部署的可行性,并介绍有效使用这款强大语言模型的替代方案。
GLM 4.5显存需求
GLM-4.5是GLM系列的最新成果,采用先进的混合专家(MoE)架构,针对智能体应用场景做了优化。该模型有两个变体:旗舰版GLM-4.5总参数量为3550亿(激活参数量320亿),高效版GLM-4.5-Air总参数量为1060亿(激活参数量120亿)。
核心架构创新包括:采用更深的模型结构,降低宽度、增加深度以提升推理能力;在15万亿token的超大规模语料上完成预训练,积累全面的知识储备;以及开源的“slime”强化学习基础设施,专为可扩展的大规模智能体强化学习设计。

来源:Z.AI
GLM 4.5推理需要多少显存?
模型可在下方表格所列配置下运行:
| 模型 | 精度 | GPU类型及数量 | 测试框架 |
|---|---|---|---|
| GLM-4.5 | BF16 | H100 x 16 / H200 x 8 | sglang |
| GLM-4.5 | FP8 | H100 x 8 / H200 x 4 | sglang |
| GLM-4.5-Air | BF16 | H100 x 4 / H200 x 2 | sglang |
| GLM-4.5-Air | FP8 | H100 x 2 / H200 x 1 | sglang |
在下方表格所列的配置下,模型可支持完整的128K上下文长度:
| 模型 | 精度 | GPU类型及数量 | 测试框架 |
|---|---|---|---|
| GLM-4.5 | BF16 | H100 x 32 / H200 x 16 | sglang |
| GLM-4.5 | FP8 | H100 x 16 / H200 x 8 | sglang |
| GLM-4.5-Air | BF16 | H100 x 8 / H200 x 4 | sglang |
| GLM-4.5-Air | FP8 | H100 x 4 / H200 x 2 | sglang |
GLM 4.5微调需要多少显存?
使用Llama Factory时,代码可在下方表格所列配置下运行:
| 模型 | GPU类型及数量 | 策略 | 单GPU批次大小 |
|---|---|---|---|
| GLM-4.5 | H100 x 16 | Lora | 1 |
| GLM-4.5-Air | H100 x 4 | Lora | 1 |
使用Swift时,代码可在下方表格所列配置下运行:
| 模型 | GPU类型及数量 | 策略 | 单GPU批次大小 |
|---|---|---|---|
| GLM-4.5 | H20 (96GiB) x 16 | Lora | 1 |
| GLM-4.5-Air | H20 (96GiB) x 4 | Lora | 1 |
| GLM-4.5 | H20 (96GiB) x 128 | SFT | 1 |
| GLM-4.5-Air | H20 (96GiB) x 32 | SFT | 1 |
| GLM-4.5 | H20 (96GiB) x 128 | RL | 1 |
| GLM-4.5-Air | H20 (96GiB) x 32 | RL | 1 |
不同批次大小下GLM 4.5的显存占用
| 模型 | 精度 | 单GPU批次大小 | 显存占用 |
|---|---|---|---|
| GLM-4.5 | FP16 | 1 | 945.36GB |
| GLM-4.5 | FP16 | 8 | 1128.49GB |
| GLM-4.5 | FP16 | 16 | 1137.79GB |
| GLM-4.5 | FP16 | 32 | 1756.38GB |
| GLM-4.5-Air | FP16 | 1 | 288.68GB |
| GLM-4.5-Air | FP16 | 8 | 343.58GB |
| GLM-4.5-Air | FP16 | 16 | 406.33GB |
| GLM-4.5-Air | FP16 | 32 | 531.83GB |
GLM 4.5的硬件要求是什么?
https://www.youtube.com/watch?v=grAXN76\_-Ig
- GPU:
- 推理:完整版模型需要8块H100/4块H200(FP8精度)或16块H100/8块H200(BF16精度);Air变体需求减半。
- 微调:需要显存**≥ 80GB**的GPU。
- CPU与系统:
- ≥ 1TB 内存,用于加载模型和管理卸载缓冲区。
- 高带宽互联(NVLink/HPC交换机),用于多GPU张量并行。
- 精度:
- FP8精度可最大程度降低显存占用(需要原生支持FP8的GPU)。
- 不支持FP8的GPU可使用BF16精度作为替代。
- 软件:
- 推理可使用vLLM或Llama Factory;支持推测解码和CPU卸载功能。
优化GLM 4.5以降低显存占用
- 模型变体选择: 若GPU显存为32-64GB,优先选择GLM 4.5-Air(总参数量106B,激活参数量12B)。
- GLM-4.5-Air的适用场景:
- 生成速度显著更快:
- GLM-4.5-Air的输出速率约为每秒160个token,几乎是完整版模型(约每秒88个token)的两倍,因此非常适合对延迟敏感的应用场景。
- 首Token延迟(TTFT)极低:
- Air版本输出首Token仅需约0.58秒,而完整版为0.68秒。部分测试中,完整版包含“思考”时间的延迟可达22-23秒。
- 端到端响应时间更短:
- Air版本的端到端响应(包含输入处理、推理、输出)仅需约16秒,而完整版需要近29秒,因此完整版不太适合实时交互场景。
- 复杂推理任务得分略低:
- 在MMLU-Pro、GPQA、AIME等推理基准测试中,Air版本的得分比完整版低约2-3%,但仍保持行业领先水平。
- 适用于绝大多数使用场景:
- 对于大多数文本生成、摘要、基础推理和代码辅助任务,无需使用完整版模型,Air版本即可提供高性能和高响应速度。
- 生成速度显著更快:

- 层卸载: 将部分MoE专家或前馈层卸载到CPU内存中运行。
- KV缓存量化: 降低缓存精度以节省显存,仅会带来极小的质量损失。
- 批次大小设为1: 每GPU仅运行单样本推理,最小化激活显存占用。
另一款高性价比选择:API
以下是GLM 4.5通过API部署与本地运行的简化对比:
| 维度 | API部署 | 本地部署 |
|---|---|---|
| 成本 | 按需付费;例如Novita AI上输入token单价为每百万0.6美元,输出token单价为每百万2.2元人民币 | 前期硬件投入高(如NVIDIA A100 GPU);大用量下长期成本可能更低。 |
| 性能 | 可扩展,但存在潜在网络延迟;适合对轻微延迟不敏感的应用 | 延迟更低、性能稳定;适合需要即时响应的实时应用。 |
| 可扩展性 | 无需管理基础设施即可轻松扩展,由服务商负责扩容 | 扩容需要额外硬件和基础设施管理。 |
| 数据隐私 | 数据在外部处理,可能引发隐私顾虑,尤其在受监管的行业中 | 数据留存于内部,对数据保护法规的合规性更高,控制权更强。 |
| 运维复杂度 | 搭建和维护成本极低,由服务商负责更新和基础设施管理 | 需要专业技术团队负责搭建、维护和安全防护,但定制化程度更高。 |
| 定制化能力 | 仅支持服务商提供的配置,针对特定需求的灵活性较低 | 可完全控制模型定制、微调,以及与现有系统的集成。 |
| 适用场景 | 适合用量波动大、开发周期短、技术资源有限的场景 | 适合用量高且稳定、对数据隐私要求严格、需要深度定制的场景。 |
如何通过Novita AI使用GLM 4.5?
Novita AI提供的API支持131K上下文,输入单价为0.6美元/百万token,输出单价为2.2元人民币/百万token,可充分释放GLM 4.5的代码智能体潜力。
Novita AI
步骤1:登录并进入模型库
登录你的账户,点击模型库按钮。

步骤2:选择模型
浏览可用的模型选项,选择符合你需求的模型。

步骤3:开启免费试用
开启免费试用,探索所选模型的能力。

步骤4:获取API密钥
为了完成API身份验证,我们会为你提供新的API密钥。进入“设置”页面,即可按照图中提示复制API密钥。

步骤5:安装API
使用你所用编程语言对应的包管理器安装API。
安装完成后,将所需的库导入到你的开发环境中。使用你的API密钥初始化API,即可开始与Novita AI的大语言模型交互。以下是Python用户调用聊天补全API的示例:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="session_UsudmdAIggvSInjIdO2HWaTCyXxTFOXDV8TH8UCPbA576Rs4AGqSA5ThNbelSDgdEGAWQcWXnAU2bHi5BueceA==",
)
model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
GLM-4.5及其Air变体为智能体应用场景提供了强大的解决方案,不同的显存需求可适配不同的部署场景。评估你的具体需求和资源情况,即可指导你在本地部署和API方案之间做出选择。
常见问题解答
谁适合使用GLM 4.5?
GLM-4.5非常适合追求高级AI智能体能力的开发者、研究人员和企业,尤其适用于编程、自动化和知识处理类任务。
什么是GLM-4.5?
GLM-4.5是一款采用混合专家架构的先进大语言模型,针对需要复杂推理和工具集成的智能体应用场景做了优化。
没有大量硬件是否可以部署GLM-4.5?
可以,通过API使用GLM-4.5是另一种方案,可减少大量硬件投入,但需要权衡数据隐私和网络延迟方面的因素。
Novita AI 是一个AI云平台,为开发者提供便捷的API来部署AI模型,同时提供高性价比、可靠的GPU云服务,支持AI应用的构建与扩展。
