最大化GLM 4.5显存以适配高级AI任务

GLM 4.5显存需求
GLM 4.5的硬件要求是什么？
优化GLM 4.5以降低显存占用
另一款高性价比选择：API

你是否正在考虑本地部署GLM-4.5，但又担心其需要大量的GPU资源？完整的GLM-4.5模型在FP8精度下需要16块NVIDIA H100 GPU或8块H200 GPU的配置，而更节省资源的GLM-4.5-Air变体在FP8精度下仅需2块H100 GPU或1块H200 GPU即可运行。这些配置可确保最优性能，并支持模型最长128K tokens的上下文长度。

在本文中，我们将探讨GLM-4.5的显存需求，分析本地部署的可行性，并介绍有效使用这款强大语言模型的替代方案。

GLM 4.5显存需求

GLM-4.5是GLM系列的最新成果，采用先进的混合专家（MoE）架构，针对智能体应用场景做了优化。该模型有两个变体：旗舰版GLM-4.5总参数量为3550亿（激活参数量320亿），高效版GLM-4.5-Air总参数量为1060亿（激活参数量120亿）。

核心架构创新包括：采用更深的模型结构，降低宽度、增加深度以提升推理能力；在15万亿token的超大规模语料上完成预训练，积累全面的知识储备；以及开源的“slime”强化学习基础设施，专为可扩展的大规模智能体强化学习设计。

来源：Z.AI

GLM 4.5推理需要多少显存？

模型可在下方表格所列配置下运行：

模型	精度	GPU类型及数量	测试框架
GLM-4.5	BF16	H100 x 16 / H200 x 8	sglang
GLM-4.5	FP8	H100 x 8 / H200 x 4	sglang
GLM-4.5-Air	BF16	H100 x 4 / H200 x 2	sglang
GLM-4.5-Air	FP8	H100 x 2 / H200 x 1	sglang

在下方表格所列的配置下，模型可支持完整的128K上下文长度：

模型	精度	GPU类型及数量	测试框架
GLM-4.5	BF16	H100 x 32 / H200 x 16	sglang
GLM-4.5	FP8	H100 x 16 / H200 x 8	sglang
GLM-4.5-Air	BF16	H100 x 8 / H200 x 4	sglang
GLM-4.5-Air	FP8	H100 x 4 / H200 x 2	sglang

GLM 4.5微调需要多少显存？

使用Llama Factory时，代码可在下方表格所列配置下运行：

模型	GPU类型及数量	策略	单GPU批次大小
GLM-4.5	H100 x 16	Lora	1
GLM-4.5-Air	H100 x 4	Lora	1

使用Swift时，代码可在下方表格所列配置下运行：

模型	GPU类型及数量	策略	单GPU批次大小
GLM-4.5	H20 (96GiB) x 16	Lora	1
GLM-4.5-Air	H20 (96GiB) x 4	Lora	1
GLM-4.5	H20 (96GiB) x 128	SFT	1
GLM-4.5-Air	H20 (96GiB) x 32	SFT	1
GLM-4.5	H20 (96GiB) x 128	RL	1
GLM-4.5-Air	H20 (96GiB) x 32	RL	1

不同批次大小下GLM 4.5的显存占用

模型	精度	单GPU批次大小	显存占用
GLM-4.5	FP16	1	945.36GB
GLM-4.5	FP16	8	1128.49GB
GLM-4.5	FP16	16	1137.79GB
GLM-4.5	FP16	32	1756.38GB
GLM-4.5-Air	FP16	1	288.68GB
GLM-4.5-Air	FP16	8	343.58GB
GLM-4.5-Air	FP16	16	406.33GB
GLM-4.5-Air	FP16	32	531.83GB

GLM 4.5的硬件要求是什么？

https://www.youtube.com/watch?v=grAXN76\_-Ig

GPU：
- 推理：完整版模型需要8块H100/4块H200（FP8精度）或16块H100/8块H200（BF16精度）；Air变体需求减半。
- 微调：需要显存**≥ 80GB**的GPU。
CPU与系统：
- ≥ 1TB 内存，用于加载模型和管理卸载缓冲区。
- 高带宽互联（NVLink/HPC交换机），用于多GPU张量并行。
精度：
- FP8精度可最大程度降低显存占用（需要原生支持FP8的GPU）。
- 不支持FP8的GPU可使用BF16精度作为替代。
软件：
- 推理可使用vLLM或Llama Factory；支持推测解码和CPU卸载功能。

优化GLM 4.5以降低显存占用

模型变体选择： 若GPU显存为32-64GB，优先选择GLM 4.5-Air（总参数量106B，激活参数量12B）。
GLM-4.5-Air的适用场景：
- 生成速度显著更快：
  - GLM-4.5-Air的输出速率约为每秒160个token，几乎是完整版模型（约每秒88个token）的两倍，因此非常适合对延迟敏感的应用场景。
- 首Token延迟（TTFT）极低：
  - Air版本输出首Token仅需约0.58秒，而完整版为0.68秒。部分测试中，完整版包含“思考”时间的延迟可达22-23秒。
- 端到端响应时间更短：
  - Air版本的端到端响应（包含输入处理、推理、输出）仅需约16秒，而完整版需要近29秒，因此完整版不太适合实时交互场景。
- 复杂推理任务得分略低：
  - 在MMLU-Pro、GPQA、AIME等推理基准测试中，Air版本的得分比完整版低约2-3%，但仍保持行业领先水平。
- 适用于绝大多数使用场景：
  - 对于大多数文本生成、摘要、基础推理和代码辅助任务，无需使用完整版模型，Air版本即可提供高性能和高响应速度。

层卸载： 将部分MoE专家或前馈层卸载到CPU内存中运行。
KV缓存量化： 降低缓存精度以节省显存，仅会带来极小的质量损失。
批次大小设为1： 每GPU仅运行单样本推理，最小化激活显存占用。

另一款高性价比选择：API

以下是GLM 4.5通过API部署与本地运行的简化对比：

维度	API部署	本地部署
成本	按需付费；例如Novita AI上输入token单价为每百万0.6美元，输出token单价为每百万2.2元人民币	前期硬件投入高（如NVIDIA A100 GPU）；大用量下长期成本可能更低。
性能	可扩展，但存在潜在网络延迟；适合对轻微延迟不敏感的应用	延迟更低、性能稳定；适合需要即时响应的实时应用。
可扩展性	无需管理基础设施即可轻松扩展，由服务商负责扩容	扩容需要额外硬件和基础设施管理。
数据隐私	数据在外部处理，可能引发隐私顾虑，尤其在受监管的行业中	数据留存于内部，对数据保护法规的合规性更高，控制权更强。
运维复杂度	搭建和维护成本极低，由服务商负责更新和基础设施管理	需要专业技术团队负责搭建、维护和安全防护，但定制化程度更高。
定制化能力	仅支持服务商提供的配置，针对特定需求的灵活性较低	可完全控制模型定制、微调，以及与现有系统的集成。
适用场景	适合用量波动大、开发周期短、技术资源有限的场景	适合用量高且稳定、对数据隐私要求严格、需要深度定制的场景。

如何通过Novita AI使用GLM 4.5？

Novita AI提供的API支持131K上下文，输入单价为0.6美元/百万token，输出单价为2.2元人民币/百万token，可充分释放GLM 4.5的代码智能体潜力。

Novita AI

步骤1：登录并进入模型库

登录你的账户，点击模型库按钮。

立即试用GLM 4.5！

步骤2：选择模型

浏览可用的模型选项，选择符合你需求的模型。

步骤3：开启免费试用

开启免费试用，探索所选模型的能力。

步骤4：获取API密钥

为了完成API身份验证，我们会为你提供新的API密钥。进入“设置”页面，即可按照图中提示复制API密钥。

步骤5：安装API

使用你所用编程语言对应的包管理器安装API。

安装完成后，将所需的库导入到你的开发环境中。使用你的API密钥初始化API，即可开始与Novita AI的大语言模型交互。以下是Python用户调用聊天补全API的示例：

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_UsudmdAIggvSInjIdO2HWaTCyXxTFOXDV8TH8UCPbA576Rs4AGqSA5ThNbelSDgdEGAWQcWXnAU2bHi5BueceA==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

GLM-4.5及其Air变体为智能体应用场景提供了强大的解决方案，不同的显存需求可适配不同的部署场景。评估你的具体需求和资源情况，即可指导你在本地部署和API方案之间做出选择。

常见问题解答

谁适合使用GLM 4.5？

GLM-4.5非常适合追求高级AI智能体能力的开发者、研究人员和企业，尤其适用于编程、自动化和知识处理类任务。

什么是GLM-4.5？

GLM-4.5是一款采用混合专家架构的先进大语言模型，针对需要复杂推理和工具集成的智能体应用场景做了优化。

没有大量硬件是否可以部署GLM-4.5？

可以，通过API使用GLM-4.5是另一种方案，可减少大量硬件投入，但需要权衡数据隐私和网络延迟方面的因素。

Novita AI 是一个AI云平台，为开发者提供便捷的API来部署AI模型，同时提供高性价比、可靠的GPU云服务，支持AI应用的构建与扩展。

最大化GLM 4.5显存以适配高级AI任务