大多數編碼模型在執行幾十次工具呼叫後就會遇到瓶頸:它們會嘗試所有顯而易見的方案,耗盡思路後表現就停滯不前。就算給予更多時間也無濟於事,因為模型已經把所有它知道的嘗試方法都用完了。
GLM-5.1,Z.ai 最新旗艦模型,的設計前提完全不同:有效的優化應該隨著時間推移持續疊加,而不是逐漸衰減。在 Z.ai 自身的基準測試中,它在一個向量搜尋問題上執行了 655 次迭代,達到了 21.5k QPS 的效能,約為標準會話中最佳模型表現的 6 倍。它還曾自主從零開始構建 Linux 桌面環境,連續執行 8 小時,全程自主決定下一步要新增的功能。
GLM-5.1 現已登陸 Novita AI,提供與 OpenAI、Anthropic 相容的 API,按 token 計費。
GLM-5.1 的實際新特性
GLM-5.1 是一個擁有 7540 億參數的混合專家(Mixture-of-Experts)模型,每次推理僅啟動 400 億活躍參數,上下文視窗長度達 204,800 token。
真正的變化在於它在長時程任務中的表現。Z.ai 將這種特性稱為「階梯模式」:模型會先在固定策略下持續優化,直到觸碰到效能天花板,隨後切換到結構完全不同的策略再次提升。在單次 VectorDBBench 測試中,這種策略切換一共發生了 6 次,每一次都是模型在分析自身的基準測試日誌、找出阻礙進一步提升的瓶頸後自主觸發的。
這和單純延長上下文視窗長度完全不同,這是模型在主動管理自身的優化策略。
GLM-5.1 基準測試結果:編碼與自主代理任務
GLM-5.1 在編碼和自主代理類基準測試中領先,推理能力則由 Gemini 3.1 Pro 和 GPT-5.4 更為出眾。
Reasoning
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| HLE | 31.0 | 30.5 | 28.8 | 28.0 | 25.1 | 31.5 | 36.7 | 45.0 | 39.8 |
| HLE (w/ Tools) | 52.3 | 50.4 | 50.6 | — | 40.8 | 51.8 | 53.1 | 51.4 | 52.1 |
| AIME 2026 | 95.3 | 95.4 | 95.1 | 89.8 | 95.1 | 94.5 | 95.6 | 98.2 | 98.7 |
| HMMT Nov. 2025 | 94.0 | 96.9 | 94.6 | 81.0 | 90.2 | 91.1 | 96.3 | 94.8 | 95.8 |
| HMMT Feb. 2026 | 82.6 | 82.8 | 87.8 | 72.7 | 79.9 | 81.3 | 84.3 | 87.3 | 91.8 |
| IMOAnswerBench | 83.8 | 82.5 | 83.8 | 66.3 | 78.3 | 81.8 | 75.3 | 81.0 | 91.4 |
| GPQA-Diamond | 86.2 | 86.0 | 90.4 | 87.0 | 82.4 | 87.6 | 91.3 | 94.3 | 92.0 |
Coding
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 55.1 | 56.6 | 56.2 | — | 53.8 | 57.3 | 54.2 | 57.7 |
| NL2Repo | 42.7 | 35.9 | 37.9 | 39.8 | — | 32.0 | 49.8 | 33.4 | 41.3 |
| Terminal-Bench 2.0 (Terminus-2) | 63.5 | 56.2 | 61.6 | — | 39.3 | 50.8 | 65.4 | 68.5 | — |
| Terminal-Bench 2.0 (best harness) | 69.0 (Claude Code) | 56.2 (Claude Code) | — | 57.0 (Claude Code) | 46.4 (Claude Code) | — | — | — | 75.1 (Codex) |
| CyberGym | 68.7 | 48.3 | — | — | 17.3 | 41.3 | 66.6 | — | — |
Agentic
| Benchmark | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| BrowseComp | 68.0 | 62.0 | — | — | 51.4 | 60.6 | — | — | — |
| BrowseComp (w/ Context Manage) | 79.3 | 75.9 | — | — | 67.6 | 74.9 | 84.0 | 85.9 | 82.7 |
| τ³-Bench | 70.6 | 69.2 | 70.7 | 67.6 | 69.2 | 66.0 | 72.4 | 67.1 | 72.9 |
| MCP-Atlas (Public Set) | 71.8 | 69.2 | 74.1 | 48.8 | 62.2 | 63.8 | 73.8 | 69.2 | 67.2 |
| Tool-Decathlon | 40.7 | 38.0 | 39.8 | 46.3 | 35.2 | 27.8 | 47.2 | 48.8 | 54.6 |
| Vending Bench 2 | $5,634 | $4,432 | $5,115 | — | $1,034 | $1,198 | $8,018 | $911 | $6,144 |
SWE-Bench Pro 的 58.4 分是最大亮點,是本次對比的所有 9 款模型(包括開源和閉源)中的最高分。CyberGym 的跨代提升最為顯著:從 GLM-5 的 48.3 分躍升至 68.7 分。關於 Terminal-Bench 2.0 需要說明的是:「最佳執行環境」一欄反映的是各團隊使用自身偏好的執行環境自行上報的結果,GLM-5.1 搭配 Claude Code 得分為 69.0,GPT-5.4 搭配 Codex 得分為 75.1。
長時程自主代理執行的實際表現
單次會話的基準測試數字無法體現模型連續運行數小時後的能力。Z.ai 運行了三個反饋結構逐步減少的場景,來展示 GLM-5.1 的差異化表現。
場景 1:向量資料庫優化,600+ 次迭代
VectorDBBench 測試會給模型提供一個帶有 HTTP 端點和空實現樁的 Rust 骨架。模型會使用基於工具呼叫的代理,自主完成檔案讀寫、編譯、測試和效能分析,通常限制在 50 輪對話的預算內。在該限制下的最佳成績是 Claude Opus 4.6 拿下的 3,547 QPS。
Z.ai 移除了輪數上限。在每次迭代中,GLM-5.1 可以根據需要使用任意數量的工具呼叫,隨後提交新版本進行基準測試。最終它執行了 655 次迭代,共使用超過 6000 次工具呼叫,達到了 21.5k QPS,約為單次會話最佳成績的 6 倍。
兩次策略切換清晰地展現了它如何達成這一成績:在第 90 次迭代左右,它從全語料庫掃描切換到搭配 f16 向量壓縮的 IVF 集簇探測,效能直接躍升至 6.4k QPS;在第 240 次迭代左右,它引入了兩階段流程——先使用 u8 預打分,再進行 f16 重排序,最終達到 13.4k QPS。整個運行過程中一共發生了 6 次這類結構性策略切換,每一次都是模型在分析自身基準測試日誌、找出當前瓶頸後自主觸發的。
場景 2:GPU 核心優化,1000+ 輪對話
KernelBench 測試要求模型拿一份參考的 PyTorch 實現,輸出一份輸出結果完全相同但速度更快的 GPU 核心。Level 3 涵蓋 50 個全模型問題,包括 MobileNet、VGG、MiniGPT、Mamba。基準線為:torch.compile 加速比 1.15 倍,max-autotune 加速比 1.49 倍。
Z.ai 在 Level 3 測試中對比了 4 款模型,追蹤它們在工具使用輪次中的幾何平均加速比:
- GLM-5 前期提升迅速,隨後很快陷入停滯
- Claude Opus 4.5 持續提升的時間更長,但隨後也開始衰減
- GLM-5.1 最終達到 3.6 倍加速比,且在運行後期仍持續提升
- Claude Opus 4.6 表現最強,達到 4.2 倍加速比,且運行結束時仍有提升空間
GLM-5.1 在該測試中的表現確實不及 Claude Opus 4.6,但它的有效運行時長明顯比 GLM-5 更長,這正是其核心優勢。
場景 3:自主構建 Linux 桌面環境,耗時 8 小時
前兩個場景都有明確的優化指標,但這個場景沒有。提示詞要求:構建一個 Linux 風格的桌面環境,以網頁應用形式呈現。沒有起始程式碼、沒有設計稿、也沒有中間階段的回饋。
大多數模型只會生成一個基礎骨架——靜態工作列、一個佔位視窗——隨後就宣告完成。
GLM-5.1 在一個簡單的測試框架中運行:每輪執行結束後,模型會Review自己的輸出,找出遺漏或錯誤的部分,然後繼續迭代。歷經 8 小時,它構建出了檔案瀏覽器、終端、文字編輯器、系統監控器、計算器以及可運行的遊戲,所有元件都整合到了一個連貫的 UI 中。每次迭代後介面樣式都更加精緻,邊界情況也得到處理,整個開發路線圖完全由模型自主決定。
GLM-5.1 的適用場景
GLM-5.1 最適合那些額外運行時間能產出更優結果的任務:
- 長時程編碼代理——多檔案重構、系統遷移、完整系統構建
- 自主編碼工具——可與 Claude Code、OpenClaw、Trae、Cursor、Codex、Cline 等工具協作
- 終端自動化——在 Terminal-Bench 2.0 (Terminus-2) 中得分 63.5,較 GLM-5 的 56.2 分有所提升
- 網路安全——在 CyberGym 中得分 68.7,是本次基準測試集中的最高分
- 網路研究——在 BrowseComp 中得分 68.0,同樣是本次測試中的最高分
Novita AI 上的 GLM-5.1 API 定價
|Price| |—|—| |Input|$1.40 / M tokens| |Cache Read|$0.26 / M tokens| |Output|$4.40 / M tokens|
按 token 計費,無月費承諾。完整定價詳見 novita.ai/pricing。
快速開始:相容 OpenAI 與 Anthropic SDK
Novita AI 的 API 同時相容 OpenAI 和 Anthropic 的 SDK,只需填入模型 ID,你現有的配置即可直接運行。GLM-5.1 可直接從 Claude Code、OpenClaw、Trae、Cursor、Codex 以及任何接受 OpenAI 或 Anthropic 相容端點的平臺呼叫。
在 Playground 體驗 GLM-5.1 | 查看 API 文件
Python(OpenAI SDK):
from openai import OpenAI
client = OpenAI(
api_key="<Your Novita API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-5.1",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Refactor this module to use async/await throughout."}
],
max_tokens=131072,
temperature=0.7
)
print(response.choices[0].message.content)
TypeScript(OpenAI SDK):
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "<Your Novita API Key>",
baseURL: "https://api.novita.ai/openai",
});
const response = await client.chat.completions.create({
model: "zai-org/glm-5.1",
messages: [
{ role: "system", content: "You are a helpful assistant." },
{ role: "user", content: "Build a CLI tool for parsing JSON logs." }
],
max_tokens: 131072,
});
console.log(response.choices[0].message.content);
開發者適用場景
GLM-5.1 最適合無法單次解決、需要反覆迭代優化的任務:
- 自主編碼代理——分配倉庫級別的任務,讓模型自主規劃、實現、測試和迭代,無需頻繁提交
- CI/CD 流程自動化——函數呼叫功能讓你可以輕鬆將 GLM-5.1 接入構建、測試、除錯循環
- 長篇技術文件生成——204K 上下文長度和 131K 輸出長度可支援單次呼叫生成大型連貫文件
- GPU 核心與 ML 效能優化——KernelBench 上 3.6 倍的加速比可直接對應到 ML 基礎設施的效能提升
- Web 應用程式骨架搭建——GLM-5.1 僅透過一條自然語言提示就構建出了完整的桌面 UI,同樣的迭代邏輯適用於任何複雜的前後端任務
- 安全工程——CyberGym 68.7 的得分讓它成為目前自主安全任務最強的可選模型之一
總結
開源模型已經在推理基準測試上追平了閉源模型,剩下的差距在於長時程執行能力——也就是在數百次工具呼叫和數小時的自主工作中保持連貫性和高效產出。GLM-5.1 是目前為止最明確的證據,證明這一看似難以跨越的差距是可以被填平的。
如果你正在運行大規模自主代理工作負載,又希望避免閉源模型的供應商鎖定,那麼 GLM-5.1 是目前編碼和代理任務能力最強的开源選擇。在 Novita AI 上,你可以獲得 OpenAI 和 Anthropic SDK 相容性、按 token 計費的定價模式,且無需承擔任何基礎設施開銷。
在 Playground 體驗 GLM-5.1 | 查看 API 文件
Novita AI 是一個 AI 與代理雲端平臺,幫助開發者和初創公司以高效能、高可靠性和高成本效益的方式構建、部署和擴展模型及自主代理應用。
常見問題
GLM-5 和 GLM-5.1 之間有哪些變化?
最大的變化在於長時程執行能力:GLM-5 在幾十次迭代後就會陷入停滯,而 GLM-5.1 可以在數百輪迭代中持續找到新策略。這種由自我分析觸發的結構性策略切換(階梯模式)是造成差異的核心原因。此外,編碼基準測試成績也全面提升。
GLM-5.1 是開源的嗎?
是的,採用 MIT 許可證。模型權重已上傳至 Hugging Face,你可以免費將其用於商業場景、進行微調,或自主部署。
GLM-5.1 和 Claude Opus 4.6 相比如何?
在 SWE-Bench Pro 測試中,GLM-5.1 得分 58.4,高於 Claude Opus 4.6 的 57.3 分;在 KernelBench 長時程 GPU 優化測試中,Claude Opus 4.6 以 4.2 倍的加速比領先,高於 GLM-5.1 的 3.6 倍。在大多數自主編碼任務中,兩款模型表現接近——GLM-5.1 的優勢在於開源權重和成本更低。
