ほとんどのコーディングモデルは、数十回のツール呼び出しを超えると壁にぶつかります。明白なアプローチを試し、アイデアが尽き、頭打ちになります。時間をかけても効果はありません――モデルはすでに試せる方法を使い果たしているからです。
Z.aiの最新フラッグシップモデルであるGLM-5.1は、異なる前提に基づいて構築されています。それは、有用な最適化は時間とともに減衰するのではなく、積み重なるべきだという考え方です。Z.ai自身のベンチマークでは、ベクトル検索問題に対して655回のイテレーションを実行し、21.5k QPSに到達しました――これは標準的なセッションで最高のモデルが達成する値の約6倍です。また、Linuxデスクトップをゼロから構築するタスクを8時間かけて実行し、次に何を追加するかを自ら判断しました。
GLM-5.1は、OpenAI互換およびAnthropic互換のAPIを介して、Novita AIで利用可能になりました。トークン単位の課金制です。
GLM-5.1で実際に新しくなったこと
GLM-5.1は、754BパラメータのMixture-of-Expertsモデルで、推論パスあたり40Bがアクティブ、コンテキストウィンドウは204,800トークンです。
真の変化は、長期的なタスクにおける動作方法にあります。Z.aiはこれを「階段パターン」と呼んでいます。モデルは固定戦略内で改良を続け、限界に達すると、構造的に異なるアプローチに切り替えて再び上昇します。単一のVectorDBBench実行で6回の移行が発生しました。それぞれの移行は、モデルが自身のベンチマークログを分析し、何がさらなる進歩を妨げているかを特定した後に開始されました。
これは単にコンテキストウィンドウが長いこととは異なります。モデルが自らの戦略を積極的に管理しているのです。
GLM-5.1ベンチマーク結果:コーディングとエージェントタスク
GLM-5.1はコーディングおよびエージェントベンチマークでトップです。推論では、Gemini 3.1 ProとGPT-5.4がリードしています。
推論
| ベンチマーク | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| HLE | 31.0 | 30.5 | 28.8 | 28.0 | 25.1 | 31.5 | 36.7 | 45.0 | 39.8 |
| HLE (ツール使用) | 52.3 | 50.4 | 50.6 | — | 40.8 | 51.8 | 53.1 | 51.4 | 52.1 |
| AIME 2026 | 95.3 | 95.4 | 95.1 | 89.8 | 95.1 | 94.5 | 95.6 | 98.2 | 98.7 |
| HMMT 2025年11月 | 94.0 | 96.9 | 94.6 | 81.0 | 90.2 | 91.1 | 96.3 | 94.8 | 95.8 |
| HMMT 2026年2月 | 82.6 | 82.8 | 87.8 | 72.7 | 79.9 | 81.3 | 84.3 | 87.3 | 91.8 |
| IMOAnswerBench | 83.8 | 82.5 | 83.8 | 66.3 | 78.3 | 81.8 | 75.3 | 81.0 | 91.4 |
| GPQA-Diamond | 86.2 | 86.0 | 90.4 | 87.0 | 82.4 | 87.6 | 91.3 | 94.3 | 92.0 |
コーディング
| ベンチマーク | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| SWE-Bench Pro | 58.4 | 55.1 | 56.6 | 56.2 | — | 53.8 | 57.3 | 54.2 | 57.7 |
| NL2Repo | 42.7 | 35.9 | 37.9 | 39.8 | — | 32.0 | 49.8 | 33.4 | 41.3 |
| Terminal-Bench 2.0 (Terminus-2) | 63.5 | 56.2 | 61.6 | — | 39.3 | 50.8 | 65.4 | 68.5 | — |
| Terminal-Bench 2.0 (最適ハーネス) | 69.0 (Claude Code) | 56.2 (Claude Code) | — | 57.0 (Claude Code) | 46.4 (Claude Code) | — | — | — | 75.1 (Codex) |
| CyberGym | 68.7 | 48.3 | — | — | 17.3 | 41.3 | 66.6 | — | — |
エージェント
| ベンチマーク | GLM-5.1 | GLM-5 | Qwen3.6-Plus | MiniMax M2.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
| BrowseComp | 68.0 | 62.0 | — | — | 51.4 | 60.6 | — | — | — |
| BrowseComp (コンテキスト管理あり) | 79.3 | 75.9 | — | — | 67.6 | 74.9 | 84.0 | 85.9 | 82.7 |
| τ³-Bench | 70.6 | 69.2 | 70.7 | 67.6 | 69.2 | 66.0 | 72.4 | 67.1 | 72.9 |
| MCP-Atlas (公開セット) | 71.8 | 69.2 | 74.1 | 48.8 | 62.2 | 63.8 | 73.8 | 69.2 | 67.2 |
| Tool-Decathlon | 40.7 | 38.0 | 39.8 | 46.3 | 35.2 | 27.8 | 47.2 | 48.8 | 54.6 |
| Vending Bench 2 | $5,634 | $4,432 | $5,115 | — | $1,034 | $1,198 | $8,018 | $911 | $6,144 |
SWE-Bench Pro (58.4) が見出しです――この比較における9モデルすべての中で最高スコアであり、オープンソース・プロプライエタリを問いません。CyberGymは世代間で最も顕著なジャンプです:GLM-5の48.3から68.7へ。Terminal-Bench 2.0で注目すべき点:「最適ハーネス」行は、各チームが好みの実行環境を使用して自己報告した結果を反映しています。GLM-5.1はClaude Codeで69.0、GPT-5.4はCodexで75.1を達成しています。
長期的エージェント実行の実際の姿
単一パスのベンチマーク数値だけでは、モデルを数時間実行した場合に何が起こるかを捉えきれません。Z.aiは、フィードバックの構造化度合いを段階的に下げた3つのシナリオを実行し、GLM-5.1の違いを示しました。
シナリオ1:ベクトルデータベース最適化、600回以上のイテレーション
VectorDBBenchは、モデルにRustのスケルトンコード(HTTPエンドポイントと空の実装スタブ)を与えます。ツール呼び出しベースのエージェントを使用して、ファイルの読み書き、コンパイル、テスト、プロファイリングを行います――通常は50ターン以内の制限です。その制約下での最良結果は、Claude Opus 4.6による3,547 QPSでした。
Z.aiは制限を撤廃しました。各イテレーションで、GLM-5.1は必要なだけツール呼び出しを使用し、新しいバージョンをベンチマークに提出できます。655回のイテレーション、6,000回以上のツール呼び出しを実行し、21.5k QPSに到達しました――これは単一セッションの最良値の約6倍です。
2つの移行が、どのようにしてそこに到達したかを示しています。約90イテレーション目で、全文書スキャンからf16ベクトル圧縮を用いたIVFクラスタープロービングに移行し、6.4k QPSにジャンプしました。約240イテレーション目で、u8事前スコアリングに続いてf16再ランキングを行う2段階パイプラインを導入し、13.4k QPSに到達しました。全実行を通じて6回の構造的移行が発生し、それぞれモデルが自身のベンチマークログを分析し、現在のボトルネックを特定した後に開始されました。
シナリオ2:GPUカーネル最適化、1,000ターン以上
KernelBenchは、モデルに参照PyTorch実装を与え、同一出力を持つより高速なGPUカーネルを生成するよう求めます。レベル3は50のフルモデル問題(MobileNet、VGG、MiniGPT、Mamba)をカバーします。ベースライン:torch.compile が1.15倍、max-autotuneが1.49倍。
Z.aiはレベル3で4モデルを実行し、ツール使用ターン全体での幾何平均スピードアップを追跡しました:
- GLM-5は初期に急速に改善するが頭打ちになる
- Claude Opus 4.5はより長く続くが、その後同様に減少する
- GLM-5.1は3.6倍で終了し、実行の後半まで進歩を続ける
- Claude Opus 4.6は4.2倍で最強であり、終了時点でもまだ余裕が見られる
GLM-5.1はここでClaude Opus 4.6に及びません。しかし、GLM-5を超えて有用な実行時間を明確に延長しており、それがポイントです。
シナリオ3:Linuxデスクトップの構築、8時間の自律実行
最初の2つのシナリオには最適化する数値がありますが、このシナリオにはありません。プロンプト:Linuxスタイルのデスクトップ環境をWebアプリケーションとして構築する。スターターコードなし、デザインモックアップなし、中間フィードバックなし。
ほとんどのモデルは基本的な骨格(静的なタスクバー、プレースホルダーウィンドウ)を生成し、完了と宣言します。
GLM-5.1はシンプルなハーネス内で実行されました。各実行ラウンド後、モデルは自身の出力をレビューし、不足している点や壊れている点を特定し、続行します。8時間かけて、ファイルブラウザ、ターミナル、テキストエディタ、システムモニタ、電卓、機能的なゲームを構築し、それぞれを一貫性のあるUIに統合しました。スタイリングはパスを重ねるごとに洗練されました。エッジケースも処理されました。モデルはロードマップ全体を自ら決定しました。
GLM-5.1が想定する用途
GLM-5.1は、実行時間が長くなるほど実際に優れた出力を生み出すタスクに最も適しています。
- 長時間実行コーディングエージェント – 複数ファイルのリファクタリング、移行、システム全体の構築
- エージェンティックコーディングツール – Claude Code、OpenClaw、Trae、Cursor、Codex、Clineで動作
- ターミナル自動化 – Terminal-Bench 2.0(Terminus-2)で63.5(GLM-5の56.2から向上)
- サイバーセキュリティ – CyberGymで68.7(このベンチマークセットで最高)
- Web調査 – BrowseCompで68.0(これも最高)
Novita AIでのGLM-5.1 API料金
| 価格 | |—|—| | 入力 | $1.40 / Mトークン | | キャッシュ読み取り | $0.26 / Mトークン | | 出力 | $4.40 / Mトークン |
トークン単位の課金制。月額契約は不要。完全な料金は novita.ai/pricing をご覧ください。
はじめに:OpenAIおよびAnthropic SDK互換
Novita AIのAPIはOpenAI SDKとAnthropic SDKの両方で動作します。モデルIDを指定するだけで、既存の設定をそのまま使用できます。GLM-5.1はClaude Code、OpenClaw、Trae、Cursor、Codex、およびOpenAI互換またはAnthropic互換のエンドポイントを受け入れる任意のプラットフォームから直接呼び出すことができます。
プレイグラウンドでGLM-5.1を試す | APIドキュメントを見る
Python(OpenAI SDK):
from openai import OpenAI
client = OpenAI(
api_key="<あなたのNovita APIキー>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-5.1",
messages=[
{"role": "system", "content": "あなたは役立つアシスタントです。"},
{"role": "user", "content": "このモジュールを全体にわたってasync/awaitを使用するようにリファクタリングしてください。"}
],
max_tokens=131072,
temperature=0.7
)
print(response.choices[0].message.content)
TypeScript(OpenAI SDK):
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "<あなたのNovita APIキー>",
baseURL: "https://api.novita.ai/openai",
});
const response = await client.chat.completions.create({
model: "zai-org/glm-5.1",
messages: [
{ role: "system", content: "あなたは役立つアシスタントです。" },
{ role: "user", content: "JSONログをパースするCLIツールを構築してください。" }
],
max_tokens: 131072,
});
console.log(response.choices[0].message.content);
開発者のためのユースケース
GLM-5.1は、タスクが1回のパスで解決できず、反復的な改良から利益を得られる場合に最も役立ちます。
- 自律型コーディングエージェント – リポジトリレベルのタスクを割り当て、モデルに計画、実装、テスト、反復をチェックインなしで任せる
- CI/CDパイプライン自動化 – 関数呼び出しにより、GLM-5.1をビルド/テスト/デバッグループに簡単に組み込める
- 長文技術ドキュメント生成 – 204Kコンテキストと131K出力により、大規模で一貫性のあるドキュメントを1回の呼び出しで処理
- GPUカーネルとMLパフォーマンス最適化 – KernelBenchでの3.6倍の高速化は、MLインフラ作業に直接適用可能
- Webアプリケーションスキャフォールディング – GLM-5.1は1つの自然言語プロンプトから完全なデスクトップUIを構築。同じループは複雑なフロントエンドまたはバックエンドタスクにも適用可能
- セキュリティエンジニアリング – CyberGymで68.7を記録。自律型セキュリティタスクにおいて利用可能な最強モデルの1つ
まとめ
オープンソースモデルは推論ベンチマークのギャップを埋めてきました。残るギャップは長期的実行、つまり数百回のツール呼び出しと数時間の自律作業にわたって一貫性と生産性を維持することです。GLM-5.1は、このギャップが埋められるという最も明確な証拠です。
本格的なエージェントワークロードを実行していて、プロプライエタリなロックインを避けたい場合、現在コーディングおよびエージェントタスクにおいて最も能力の高いオープンソースの選択肢です。Novita AIでは、OpenAIおよびAnthropic SDK互換性、トークン単位の課金制、インフラストラクチャのオーバーヘッドなしで利用できます。
プレイグラウンドでGLM-5.1を試す | APIドキュメントを見る
Novita AIは、開発者やスタートアップが高性能、信頼性、コスト効率に優れた方法でモデルやエージェントアプリケーションを構築、デプロイ、スケーリングするためのAI & エージェントクラウドプラットフォームです。
よくある質問
GLM-5とGLM-5.1で何が変わりましたか?
最大の変更点は長期的実行能力です。GLM-5は数十回のイテレーションで頭打ちになりますが、GLM-5.1は数百ラウンドにわたって新しい戦略を見つけ続けます。自己分析によって引き起こされる構造的移行、すなわち階段パターンが違いを生んでいます。コーディングベンチマークスコアも全体的に向上しています。
GLM-5.1はオープンソースですか?
はい、MITライセンスです。ウェイトはHugging Faceで公開されています。商用利用、ファインチューニング、セルフホスティングが可能です。
GLM-5.1はClaude Opus 4.6と比較してどうですか?
SWE-Bench Proでは、GLM-5.1が58.4、Claude Opus 4.6が57.3です。KernelBenchの長期的GPU最適化では、Claude Opus 4.6が4.2倍、GLM-5.1が3.6倍でリードしています。ほとんどのエージェントコーディングタスクでは、両者は拮抗しています。GLM-5.1はオープンウェイトであるという利点があります。
