在 GLM-5 和 GLM-4.7 之间进行选择通常取决于一个关键的权衡:大规模智能体处理能力与成熟的编码灵活性。由 Z.ai 发布的 GLM-5 相比其前代产品有了显著的扩展——参数数量从 GLM-4.7 的 355 亿(32 亿活跃参数)跃升至 753.9 亿(40 亿活跃参数)。这种 2.1 倍的参数扩展显著提升了复杂系统工程和长周期智能体任务的性能,但 GLM-4.7 仍然是多语言编码、终端自动化和实际开发者工作流程的强大工具。
GLM-5 和 GLM-4.7 的架构比较
| 规格 | GLM-5 | GLM-4.7 |
|---|---|---|
| 总参数 | 753.9B | 355B |
| 活动参数 | 40B | 32B |
| 上下文长度 | 202,752令牌 | 202,752令牌 |
| 预训练数据 | 28.5T代币 | 23T代币 |
| 平台精度 | BF16(FP8可用) | BF16(FP8可用) |
| 多式联运支持 | 纯文本 | 纯文本 |
| 发布日期 | 2026 年 1 月 | 2025 年 12 月 |
GLM-5最实用的升级之一是其集成了 DeepSeek 稀疏注意力 (DSA)这显著降低了长时间上下文注意力的成本,同时保留了高达 的较大上下文窗口 202K 代币这使得 GLM-5 更适用于实际的长文档推理、多轮助手和智能体式工作流程。在训练后阶段,GLM-5 受益于 粘液,一种新的异步强化学习基础设施,可提高强化学习训练吞吐量,并实现更频繁、更细粒度的对齐迭代。

GLM-5 和 GLM-4.7 的基准比较

从基准角度来看, GLM-5 相较于 GLM-4.7 表现出全面且持续的改进。尤其是在工具使用、浏览和智能体场景中。在需要多步骤规划、上下文管理和实际执行的环境中,性能提升最为显著,这表明 GLM-5 针对这些场景进行了优化。 代理式工作流程 而不是孤立的推理任务。
GLM-4.7 基准测试类似于效率优化的推理/编码模型仍然在经典的数学式评估中非常强大,但在交互式工具驱动的任务中则不那么占优势。
GLM-5 和 GLM-4.7 的 VRAM 要求
GLM-5 相比 GLM-4.7 参数增加了 2.1 倍,对硬件性能提出了更高的要求。以下是显存占用情况:
首推最高性价比 GPU GLM-5 的配置
| 平台精度 | 需要 VRAM | 推荐设置 | 用例 |
|---|---|---|---|
| BF16 | 1,508 GB | 19块NVIDIA H100(80GB) | 最高质量的研究 |
| FP8 | 约800GB | 10块NVIDIA H100(80GB) | 生产部署 |
| INT4 | 约400GB | 5x H100 (80GB) | 成本效益高的推理 |
首推最高性价比 GPU GLM-4.7 的配置
| 平台精度 | 需要 VRAM | 推荐设置 | 用例 |
|---|---|---|---|
| BF16 | 717 GB | 9块NVIDIA H100(80GB) | 最高品质 |
| FP8 | 390 GB | 5x H100 (80GB) | 生产部署 |
| INT4 | 200 GB | 3x H100 (80GB) | 成本效益高的推理 |

在 FP8 部署中,GLM-5 通常需要两倍的 GPU 与 GLM-4.7 相比,计数结果如下。
对于预算有限的开发人员来说,GLM-4.7 在以编码为中心的工作负载中提供了更强的性价比,在 SWE-bench Verified 上达到了 73.8%,在 LiveCodeBench-v6 上达到了 84.9%。
对于前沿研究和智能体系统开发而言,GLM-5 更强大的工具使用能力和长远执行能力足以证明额外硬件投资的合理性。
GLM-5 和 GLM-4.7 的定价和 API 访问
| 型号 | 输入(美元/百万代币) | 缓存读取(美元/百万代币) | 输出(美元/百万代币) |
|---|---|---|---|
| GLM-4.7 | $0.60 | $0.11 | $2.20 |
| GLM-5 | $1.00 | $0.20 | $3.20 |
缓存读取 指的是读取先前存储在提示缓存中的令牌的成本。当相同的提示内容在多个请求中重复使用时,模型会直接从缓存中检索这些令牌,而不是从头开始重新处理它们。这既降低了推理延迟,也降低了成本。
步骤 1:登录并访问模型库
登录您的帐户并点击 模型库 按钮。

步骤 2:选择您的型号
浏览可用的选项并选择适合您需求的模型。

第 3 步:开始免费试用
开始免费试用,探索所选型号的功能。

步骤 4:获取您的 API 密钥
为了通过 API 进行身份验证,我们将为您提供一个新的 API 密钥。进入“设置”页面,您可以按照图中所示复制 API 密钥。

步骤 5:安装 API
使用特定于您的编程语言的包管理器安装 API。
安装完成后,将必要的库导入到你的开发环境中。使用你的 API 密钥初始化 API,即可开始与 Novita AI LLM。这是 Python 用户使用聊天完成 API 的示例。
从 openai 导入 OpenAI 客户端 = OpenAI( api_key=" ", base_url="https://api.novita.ai/openai" ) response = client.chat.completions.create( model="zai-org/glm-5 或 zai-org/glm-4.7", messages=[ {"role": "system", "content": "您是一位乐于助人的助手。"}, {"role": "user", "content": "您好,您好吗?"} ], max_tokens=131072, temperature=0.7 ) print(response.choices[0].message.content)
GLM-5 和 GLM-4.7 决策框架概要
| EventXtra XNUMX大解决方案 | 推荐型号 | 主要原因 |
|---|---|---|
| 具有工具编排的多智能体系统 | GLM-5 | MCP-Atlas 增加 15.8 个百分点,Tool-Decathlon 增加 14.2 个百分点 |
| 生产软件工程师工作台工作流程 | GLM-4.7 | 硬件成本减半,却能达到 73.8% 的效率。 |
| 网络安全与渗透测试 | GLM-5 | 43.2% CyberGym |
| 基于 IDE 的编码(Claude Code、Cline) | GLM-4.7 | 保留思维 + 更低延迟 |
| 前沿推理研究(HLE) | GLM-5 | 50.4% 使用工具(最佳开源工具) |
| UI/前端“氛围编码” | GLM-4.7 | 现代 Web UI 专业培训 |
| 终端自动化(长距离) | GLM-5 | Terminal-Bench 2.0 上涨 28.3 个百分点 |
| 数学竞赛(AIME、HMMT) | GLM-4.7 | 性能与 GLM-5 相当/更优,且成本更低 |
| 预算受限的初创企业 | GLM-4.7 | 4倍H100编码强度对比8倍H100编码强度 |
| 研究实验室正在突破通用人工智能的极限 | GLM-5 | 28.5万亿代币预训练,slime强化学习基础设施 |
GLM-5 并不会取代 GLM-4.7,它解决的是不同的问题。如果您的工作涉及需要大量工具和多步骤推理的长期智能体任务,那么 GLM-5 两倍的硬件投入将显著提高任务完成率。如果您需要向数千名开发人员提供编码助手,或者需要在 IDE 环境中实现快速迭代,那么 GLM-4.7 更精简的架构和专门的培训使其成为更佳选择。这两个模型都代表了开源语言建模领域的重大成就,它们缩小了与前沿专有模型之间的差距,同时保持了完全的透明度和本地部署的灵活性。
常見問題解答
GLM-5 的总参数量从 355B 扩展到 753.9B(32B 到 40B 活动参数),并集成了 DeepSeek 稀疏注意力 (DSA),以降低部署成本,同时保持 202K 的上下文长度。
不,GLM-5 至少需要 10 块 80GB 的 H100 存储卡。 GPU在 FP8 模式下(800GB 显存),远远超过消费者预期。 GPU 功能。
GLM-5 在 SWE-bench Verified 测试中以 77.8% 的成绩略胜 GLM-4.7 一筹(+4pp),但 GLM-4.7 的成绩为 73.8%,硬件成本只有 GLM-4.7 的一半,因此更适合生产环境。
Novita AI 是一个人工智能云平台,它为开发人员提供了一种使用我们简单的 API 轻松部署人工智能模型的方法,同时还提供经济实惠且可靠的 GPU 用于构建和扩展的云。
推荐阅读
- 如何访问 Qwen3-Coder-Next:三种方法的比较
- Kimi K2-0905 API 提供商比较:NovitaAI 为何脱颖而出
- 如何在 Cursor 中使用 GLM-4.6 来提高小型团队的生产力
探索 Novita 的更多内容
订阅即可将最新帖子发送到您的电子邮箱。





