最大化GLM 4.5显存以适配高级AI任务

最大化GLM 4.5显存以适配高级AI任务

你是否正在考虑本地部署GLM-4.5,但又担心其需要大量的GPU资源?完整的GLM-4.5模型在FP8精度下需要16块NVIDIA H100 GPU或8块H200 GPU的配置,而更节省资源的GLM-4.5-Air变体在FP8精度下仅需2块H100 GPU或1块H200 GPU即可运行。这些配置可确保最优性能,并支持模型最长128K tokens的上下文长度。

在本文中,我们将探讨GLM-4.5的显存需求,分析本地部署的可行性,并介绍有效使用这款强大语言模型的替代方案。

GLM 4.5显存需求

GLM-4.5是GLM系列的最新成果,采用先进的混合专家(MoE)架构,针对智能体应用场景做了优化。该模型有两个变体:旗舰版GLM-4.5总参数量为3550亿(激活参数量320亿),高效版GLM-4.5-Air总参数量为1060亿(激活参数量120亿)。

核心架构创新包括:采用更深的模型结构,降低宽度、增加深度以提升推理能力;在15万亿token的超大规模语料上完成预训练,积累全面的知识储备;以及开源的“slime”强化学习基础设施,专为可扩展的大规模智能体强化学习设计。

glm 4.5 benchmark

来源:Z.AI

GLM 4.5推理需要多少显存?

模型可在下方表格所列配置下运行:

模型 精度 GPU类型及数量 测试框架
GLM-4.5 BF16 H100 x 16 / H200 x 8 sglang
GLM-4.5 FP8 H100 x 8 / H200 x 4 sglang
GLM-4.5-Air BF16 H100 x 4 / H200 x 2 sglang
GLM-4.5-Air FP8 H100 x 2 / H200 x 1 sglang

在下方表格所列的配置下,模型可支持完整的128K上下文长度:

模型 精度 GPU类型及数量 测试框架
GLM-4.5 BF16 H100 x 32 / H200 x 16 sglang
GLM-4.5 FP8 H100 x 16 / H200 x 8 sglang
GLM-4.5-Air BF16 H100 x 8 / H200 x 4 sglang
GLM-4.5-Air FP8 H100 x 4 / H200 x 2 sglang

GLM 4.5微调需要多少显存?

使用Llama Factory时,代码可在下方表格所列配置下运行:

模型 GPU类型及数量 策略 单GPU批次大小
GLM-4.5 H100 x 16 Lora 1
GLM-4.5-Air H100 x 4 Lora 1

使用Swift时,代码可在下方表格所列配置下运行:

模型 GPU类型及数量 策略 单GPU批次大小
GLM-4.5 H20 (96GiB) x 16 Lora 1
GLM-4.5-Air H20 (96GiB) x 4 Lora 1
GLM-4.5 H20 (96GiB) x 128 SFT 1
GLM-4.5-Air H20 (96GiB) x 32 SFT 1
GLM-4.5 H20 (96GiB) x 128 RL 1
GLM-4.5-Air H20 (96GiB) x 32 RL 1

不同批次大小下GLM 4.5的显存占用

模型 精度 单GPU批次大小 显存占用
GLM-4.5 FP16 1 945.36GB
GLM-4.5 FP16 8 1128.49GB
GLM-4.5 FP16 16 1137.79GB
GLM-4.5 FP16 32 1756.38GB
GLM-4.5-Air FP16 1 288.68GB
GLM-4.5-Air FP16 8 343.58GB
GLM-4.5-Air FP16 16 406.33GB
GLM-4.5-Air FP16 32 531.83GB

GLM 4.5的硬件要求是什么?

https://www.youtube.com/watch?v=grAXN76\_-Ig

  • GPU:
    • 推理:完整版模型需要8块H100/4块H200(FP8精度)或16块H100/8块H200(BF16精度);Air变体需求减半。
    • 微调:需要显存**≥ 80GB**的GPU。
  • CPU与系统:
    • ≥ 1TB 内存,用于加载模型和管理卸载缓冲区。
    • 高带宽互联(NVLink/HPC交换机),用于多GPU张量并行。
  • 精度:
    • FP8精度可最大程度降低显存占用(需要原生支持FP8的GPU)。
    • 不支持FP8的GPU可使用BF16精度作为替代。
  • 软件:
    • 推理可使用vLLM或Llama Factory;支持推测解码和CPU卸载功能。

优化GLM 4.5以降低显存占用

  • 模型变体选择: 若GPU显存为32-64GB,优先选择GLM 4.5-Air(总参数量106B,激活参数量12B)。
  • GLM-4.5-Air的适用场景
    • 生成速度显著更快
      • GLM-4.5-Air的输出速率约为每秒160个token,几乎是完整版模型(约每秒88个token)的两倍,因此非常适合对延迟敏感的应用场景。
    • 首Token延迟(TTFT)极低
      • Air版本输出首Token仅需约0.58秒,而完整版为0.68秒。部分测试中,完整版包含“思考”时间的延迟可达22-23秒。
    • 端到端响应时间更短
      • Air版本的端到端响应(包含输入处理、推理、输出)仅需约16秒,而完整版需要近29秒,因此完整版不太适合实时交互场景。
    • 复杂推理任务得分略低
      • 在MMLU-Pro、GPQA、AIME等推理基准测试中,Air版本的得分比完整版低约2-3%,但仍保持行业领先水平。
    • 适用于绝大多数使用场景
      • 对于大多数文本生成、摘要、基础推理和代码辅助任务,无需使用完整版模型,Air版本即可提供高性能和高响应速度。

GLM 4.5 VS GLM 4.5 Air

  • 层卸载: 将部分MoE专家或前馈层卸载到CPU内存中运行。
  • KV缓存量化: 降低缓存精度以节省显存,仅会带来极小的质量损失。
  • 批次大小设为1: 每GPU仅运行单样本推理,最小化激活显存占用。

另一款高性价比选择:API

以下是GLM 4.5通过API部署与本地运行的简化对比:

维度 API部署 本地部署
成本 按需付费;例如Novita AI上输入token单价为每百万0.6美元,输出token单价为每百万2.2元人民币 前期硬件投入高(如NVIDIA A100 GPU);大用量下长期成本可能更低。
性能 可扩展,但存在潜在网络延迟;适合对轻微延迟不敏感的应用 延迟更低、性能稳定;适合需要即时响应的实时应用。
可扩展性 无需管理基础设施即可轻松扩展,由服务商负责扩容 扩容需要额外硬件和基础设施管理。
数据隐私 数据在外部处理,可能引发隐私顾虑,尤其在受监管的行业中 数据留存于内部,对数据保护法规的合规性更高,控制权更强。
运维复杂度 搭建和维护成本极低,由服务商负责更新和基础设施管理 需要专业技术团队负责搭建、维护和安全防护,但定制化程度更高。
定制化能力 仅支持服务商提供的配置,针对特定需求的灵活性较低 可完全控制模型定制、微调,以及与现有系统的集成。
适用场景 适合用量波动大、开发周期短、技术资源有限的场景 适合用量高且稳定、对数据隐私要求严格、需要深度定制的场景。

如何通过Novita AI使用GLM 4.5?

Novita AI提供的API支持131K上下文,输入单价为0.6美元/百万token,输出单价为2.2元人民币/百万token,可充分释放GLM 4.5的代码智能体潜力。

Novita AI

步骤1:登录并进入模型库

登录你的账户,点击模型库按钮。

Log In and Access the Model Library

立即试用GLM 4.5

步骤2:选择模型

浏览可用的模型选项,选择符合你需求的模型。

choose your model

步骤3:开启免费试用

开启免费试用,探索所选模型的能力。

start your free trail of glm 4.5

步骤4:获取API密钥

为了完成API身份验证,我们会为你提供新的API密钥。进入“设置”页面,即可按照图中提示复制API密钥。

get api key

步骤5:安装API

使用你所用编程语言对应的包管理器安装API。

安装完成后,将所需的库导入到你的开发环境中。使用你的API密钥初始化API,即可开始与Novita AI的大语言模型交互。以下是Python用户调用聊天补全API的示例:

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_UsudmdAIggvSInjIdO2HWaTCyXxTFOXDV8TH8UCPbA576Rs4AGqSA5ThNbelSDgdEGAWQcWXnAU2bHi5BueceA==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

GLM-4.5及其Air变体为智能体应用场景提供了强大的解决方案,不同的显存需求可适配不同的部署场景。评估你的具体需求和资源情况,即可指导你在本地部署和API方案之间做出选择。

常见问题解答

谁适合使用GLM 4.5?

GLM-4.5非常适合追求高级AI智能体能力的开发者、研究人员和企业,尤其适用于编程、自动化和知识处理类任务。

什么是GLM-4.5?

GLM-4.5是一款采用混合专家架构的先进大语言模型,针对需要复杂推理和工具集成的智能体应用场景做了优化。

没有大量硬件是否可以部署GLM-4.5?

可以,通过API使用GLM-4.5是另一种方案,可减少大量硬件投入,但需要权衡数据隐私和网络延迟方面的因素。

Novita AI 是一个AI云平台,为开发者提供便捷的API来部署AI模型,同时提供高性价比、可靠的GPU云服务,支持AI应用的构建与扩展。

推荐阅读