大多数编码模型在数十次工具调用后就会遇到瓶颈。它们尝试明显的方法,思路枯竭,然后停滞不前。更多的时间也无济于事——模型已经耗尽了它所能尝试的方法。
GLM-5.1,Z.ai 的最新旗舰模型,基于一个不同的假设构建:有用的优化应该随时间累积,而不是递减。在 Z.ai 自己的基准测试中,它在向量搜索问题上运行了 655 次迭代,达到了 21.5k QPS——大约是标准会话中最佳模型表现的 6 倍。它花了 8 小时从零构建一个 Linux 桌面,并自行决定下一步要添加什么。
GLM-5.1 现已在 Novita AI 上可用,通过兼容 OpenAI 和 Anthropic 的 API,按 token 付费。
GLM-5.1 真正的新特性是什么
GLM-5.1 是一个 754B 参数的混合专家模型,每次推理时激活 40B 参数,上下文窗口为 204,800 token。
真正的变化在于它在长周期任务上的行为方式。Z.ai 称其为阶梯模式:模型在固定策略内进行优化,直到达到上限,然后切换到结构不同的方法,再次攀升。在一次单独的 VectorDBBench 运行中,发生了六次这样的转变。每一次都是由模型在分析自己的基准测试日志并识别出阻碍进一步进展的因素后自行发起的。
这与拥有更长的上下文窗口不同。这是模型主动管理自己的策略。
GLM-5.1 基准测试结果:编码和智能体任务
GLM-5.1 在编码和智能体基准测试中领先。在推理方面,Gemini 3.1 Pro 和 GPT-5.4 领先。
推理
| 基准测试 | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| HLE | 31.0 | 30.5 | 28.8 | 28.0 | 25.1 | 31.5 | 36.7 | 45.0 | 39.8 |
| HLE (使用工具) | 52.3 | 50.4 | 50.6 | — | 40.8 | 51.8 | 53.1 | 51.4 | 52.1 |
| AIME 2026 | 95.3 | 95.4 | 95.1 | 89.8 | 95.1 | 94.5 | 95.6 | 98.2 | 98.7 |
| HMMT 2025年11月 | 94.0 | 96.9 | 94.6 | 81.0 | 90.2 | 91.1 | 96.3 | 94.8 | 95.8 |
| HMMT 2026年2月 | 82.6 | 82.8 | 87.8 | 72.7 | 79.9 | 81.3 | 84.3 | 87.3 | 91.8 |
| IMOAnswerBench | 83.8 | 82.5 | 83.8 | 66.3 | 78.3 | 81.8 | 75.3 | 81.0 | 91.4 |
| GPQA-Diamond | 86.2 | 86.0 | 90.4 | 87.0 | 82.4 | 87.6 | 91.3 | 94.3 | 92.0 |
编码
| 基准测试 | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 55.1 | 56.6 | 56.2 | — | 53.8 | 57.3 | 54.2 | 57.7 |
| NL2Repo | 42.7 | 35.9 | 37.9 | 39.8 | — | 32.0 | 49.8 | 33.4 | 41.3 |
| Terminal-Bench 2.0(Terminus-2) | 63.5 | 56.2 | 61.6 | — | 39.3 | 50.8 | 65.4 | 68.5 | — |
| Terminal-Bench 2.0(最佳框架) | 69.0(Claude Code) | 56.2(Claude Code) | — | 57.0(Claude Code) | 46.4(Claude Code) | — | — | — | 75.1(Codex) |
| CyberGym | 68.7 | 48.3 | — | — | 17.3 | 41.3 | 66.6 | — | — |
智能体
| 基准测试 | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| BrowseComp | 68.0 | 62.0 | — | — | 51.4 | 60.6 | — | — | — |
| BrowseComp(含上下文管理) | 79.3 | 75.9 | — | — | 67.6 | 74.9 | 84.0 | 85.9 | 82.7 |
| τ³-Bench | 70.6 | 69.2 | 70.7 | 67.6 | 69.2 | 66.0 | 72.4 | 67.1 | 72.9 |
| MCP-Atlas(公开集) | 71.8 | 69.2 | 74.1 | 48.8 | 62.2 | 63.8 | 73.8 | 69.2 | 67.2 |
| Tool-Decathlon | 40.7 | 38.0 | 39.8 | 46.3 | 35.2 | 27.8 | 47.2 | 48.8 | 54.6 |
| Vending Bench 2 | $5,634 | $4,432 | $5,115 | — | $1,034 | $1,198 | $8,018 | $911 | $6,144 |
SWE-Bench Pro(58.4)是头条——在该比较中所有九个模型(包括开源和专有)中的最高分。CyberGym 是代际间提升最显著的一项:从 GLM-5 的 48.3 提升到 68.7。值得注意的是,在 Terminal-Bench 2.0 中,“最佳框架”一行反映了每个团队使用其首选执行环境自行报告的结果。GLM-5.1 搭配 Claude Code 达到 69.0;GPT-5.4 搭配 Codex 达到 75.1。
长周期智能体执行在实际中是什么样
单次通过的基准测试数据并不能体现让模型运行数小时会发生什么。Z.ai 运行了三个场景,反馈结构逐渐减少,以展示 GLM-5.1 的不同之处。
场景 1:向量数据库优化,600+ 次迭代
VectorDBBench 为模型提供了一个 Rust 框架,包含 HTTP 端点和空的实现存根。通过基于工具调用的智能体,它读写文件、编译、测试和性能分析——通常限制在 50 轮对话预算内。在该约束下的最佳结果:Claude Opus 4.6 达到 3,547 QPS。
Z.ai 移除了上限。在每次迭代中,GLM-5.1 可以使用任意数量的工具调用,然后提交新版本进行基准测试。它运行了 655 次迭代,超过 6,000 次工具调用,达到了 21.5k QPS——大约是单次会话最佳结果的 6 倍。
两次转变展示了它是如何达到的。大约在迭代 90 时,它从全量扫描切换到 IVF 聚类探测并配合 f16 向量压缩,QPS 跃升至 6.4k。大约在迭代 240 时,它引入了一个两阶段流水线——u8 预评分后接 f16 重排序——达到 13.4k QPS。在整个运行过程中发生了六次这样的结构性转变,每一次都是由模型在分析自己的基准测试日志并识别当前瓶颈后自行发起的。
场景 2:GPU 内核优化,1,000+ 轮
KernelBench 要求模型获取一个参考 PyTorch 实现,并生成一个输出相同的更快的 GPU 内核。Level 3 包含 50 个完整模型问题:MobileNet、VGG、MiniGPT、Mamba。基线:torch.compile 为 1.15 倍,max-autotune 为 1.49 倍。
Z.ai 在 Level 3 上运行了四个模型,追踪随工具使用轮次变化的几何平均加速比:
- GLM-5 初期提升很快但随后趋于平稳
- Claude Opus 4.5 持续更长时间,然后也衰退
- GLM-5.1 最终达到 3.6 倍,并在整个运行过程中持续进步
- Claude Opus 4.6 以 4.2 倍最强,且结束时仍有提升空间
GLM-5.1 在这方面并未超越 Claude Opus 4.6。但它明显延长了超出 GLM-5 的有效运行时长,这正是关键所在。
场景 3:构建 Linux 桌面,8 小时自主运行
前两个场景都有一个需要优化的数值。这个场景没有。提示:构建一个类似 Linux 风格的桌面环境,作为 Web 应用程序。没有起始代码,没有设计原型,没有中间反馈。
大多数模型会生成一个基本的骨架——静态任务栏、一个占位窗口——然后宣布完成。
GLM-5.1 在一个简单的框架内运行:每轮执行后,模型会审查自己的输出,识别缺少或损坏的部分,然后继续。在 8 小时内,它构建了文件浏览器、终端、文本编辑器、系统监视器、计算器和功能游戏,每个都集成到一个连贯的 UI 中。样式随着每次迭代变得更加精致。边缘情况得到了处理。模型自己决定了整个路线图。
GLM-5.1 的用途
GLM-5.1 最适合那些额外运行时间确实能产生更好结果的任务:
- 长期运行的编码智能体——多文件重构、迁移、全系统构建
- 智能体编码工具——与 Claude Code、OpenClaw、Trae、Cursor、Codex 和 Cline 配合使用
- 终端自动化——Terminal-Bench 2.0(Terminus-2)得分 63.5,相比 GLM-5 的 56.2 有所提升
- 网络安全——CyberGym 得分 68.7,在该基准测试集中最高
- 网络研究——BrowseComp 得分 68.0,同样为该集中最高
Novita AI 上的 GLM-5.1 API 定价
|价格| |—|—| |输入|$1.40 / M tokens| |缓存读取|$0.26 / M tokens| |输出|$4.40 / M tokens|
按 token 付费,无月度承诺。完整定价请参见 novita.ai/pricing。
开始使用:兼容 OpenAI 和 Anthropic SDK
Novita AI 的 API 同时兼容 OpenAI 和 Anthropic SDK。放入模型 ID,您现有的设置即可直接运行。GLM-5.1 可以直接从 Claude Code、OpenClaw、Trae、Cursor、Codex 以及任何接受兼容 OpenAI 或 Anthropic 端点的平台调用。
在 Playground 中尝试 GLM-5.1 | 查看 API 文档
Python(OpenAI SDK):
from openai import OpenAI
client = OpenAI(
api_key="<您的 Novita API 密钥>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-5.1",
messages=[
{"role": "system", "content": "您是一个乐于助人的助手。"},
{"role": "user", "content": "将该模块重构为全面使用 async/await。"}
],
max_tokens=131072,
temperature=0.7
)
print(response.choices[0].message.content)
TypeScript(OpenAI SDK):
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "<您的 Novita API 密钥>",
baseURL: "https://api.novita.ai/openai",
});
const response = await client.chat.completions.create({
model: "zai-org/glm-5.1",
messages: [
{ role: "system", content: "您是一个乐于助人的助手。" },
{ role: "user", content: "构建一个用于解析 JSON 日志的 CLI 工具。" }
],
max_tokens: 131072,
});
console.log(response.choices[0].message.content);
面向开发者的用例
GLM-5.1 在任务无法一次完成并需要迭代优化的场景中最有用:
- 自主编码智能体——分配一个仓库级任务,让模型规划、实现、测试和迭代,无需汇报。
- CI/CD 流水线自动化——函数调用使得将 GLM-5.1 集成到构建/测试/调试循环中变得简单。
- 长篇技术文档生成——204K 上下文和 131K 输出可在单次调用中处理大型、连贯的文档。
- GPU 内核和 ML 性能优化——在 KernelBench 上获得 3.6 倍加速,直接适用于 ML 基础设施工作。
- Web 应用程序脚手架——GLM-5.1 从一个自然语言提示构建了完整的桌面 UI;相同的循环适用于任何复杂的前端或后端任务。
- 安全工程——CyberGym 得分 68.7,使其成为自主安全任务中最强大的可用模型之一。
总结
开源模型已经缩小了推理基准测试上的差距。剩余的差距在于长周期执行——在数百次工具调用和数小时的自主工作中保持连贯和高效。GLM-5.1 是目前最清晰的证据,表明这个差距是可以弥合的。
如果您正在运行严肃的智能体工作负载,并希望避免专有锁定,那么它目前是编码和智能体任务中最强大的开源选项。在 Novita AI 上,您可以获得兼容 OpenAI 和 Anthropic SDK、按 token 付费的定价,且无需基础设施开销。
在 Playground 中尝试 GLM-5.1 | 查看 API 文档
Novita AI 是一个 AI 与智能体云平台,帮助开发者和初创公司以高性能、可靠性和成本效益构建、部署和扩展模型及智能体应用。
常见问题
GLM-5 和 GLM-5.1 之间有什么变化?
最大的变化在于长周期执行能力。GLM-5 在几十次迭代后就会停滞不前;而 GLM-5.1 能够在数百轮中不断找到新策略。阶梯模式——由自我分析触发的结构性转变——是造成这种差异的关键。编码基准测试分数也全面提高了。
GLM-5.1 是开源的吗?
是的,采用 MIT 许可证。权重在 Hugging Face 上。您可以将其用于商业用途、微调以及自行托管。
GLM-5.1 与 Claude Opus 4.6 相比如何?
在 SWE-Bench Pro 上,GLM-5.1 得分为 58.4,而 Claude Opus 4.6 为 57.3。在 KernelBench 长周期 GPU 优化中,Claude Opus 4.6 以 4.2 倍领先,GLM-5.1 为 3.6 倍。对于大多数智能体编码任务,两者表现接近——GLM-5.1 拥有开放权重和成本优势。
