エージェント型コーディングは急速にソフトウェア開発のデフォルトインターフェースになりつつあります。目標を記述すれば、モデルが計画を立て、ツールを呼び出し、ファイルを編集し、タスクが完了するまで繰り返し処理を行います。実際の開発スタックで頻繁に登場するモデルが Moonshot AIのKimi K2.5 と Z.AIのGLM-4.7 です。どちらも長いコンテキスト、ツール使用、「出荷可能」なコーディングに優れるよう設計されています。
この記事では、ベンチマーク、速度とレイテンシ、コスト(Novita AIの価格) を比較し、さらにNovita AIで両モデルをすぐに試してデプロイする方法を紹介します。
基本概要
以下が GLM-4.7 と Kimi K2.5 の比較表です:
| 特徴 | GLM-4.7 | Kimi K2.5 |
| 開発元 | Z.AI | Moonshot AI |
| リリース日 | 2025年12月22日 | 2026年1月27日 |
| アーキテクチャ | 358BパラメータのMixture-of-Experts(MoE) | 1T総パラメータのMoEモデル(トークンあたり32Bのアクティブパラメータ、384エキスパート、トークンあたり8つ活性化)、ネイティブマルチモーダルアーキテクチャ |
| コンテキストウィンドウ | 200k入力 / 128k出力 | 262,144入力 / 262,144出力 |
| 入力機能 | テキストのみ | テキスト、画像、動画 |
| 出力機能 | テキスト | テキスト |
| 主な機能 | 長いコンテキスト理解、コード生成 | マルチモーダル理解、エージェント群連携(最大100サブエージェント)、ビジュアルプログラミング、長文書処理、ツール呼び出し |
主な違いの詳細
- モデル規模: Kimi K2.5は総パラメータ数(1T vs. 358B)とトークンあたりのアクティブパラメータ数がはるかに多く、理論上より強力な知識容量とパフォーマンスを実現します。
- マルチモーダル対応: Kimi K2.5は画像や動画を理解し、ビジュアルプログラミングが可能なネイティブマルチモーダルモデルですが、GLM-4.7はテキスト機能のみに特化しています。
- コンテキストウィンドウ: Kimi K2.5の256k入力ウィンドウはGLM-4.7の200kより長く、法的契約書や学術論文などの超長文書に適しています。
ベンチマーク比較

| 能力 | ベンチマーク | Kimi K2.5 | GLM-4.7 | 結果 |
| 推論 | GDPval-AA (ELO-500/2000) | 41% | 35% | 6% |
| AA-LCR(長文脈推論) | 66% | 64% | 2% | |
| Humanity’s Last Exam | 29.40% | 25.10% | 4.3% | |
| GPQA Diamond(科学的推論) | 88% | 86% | 2% | |
| CritPt(物理推論) | 3% | 2% | 1% | |
| コーディング | SciCode | 49% | 45% | 4% |
| Terminal-Bench Hard(エージェント型コーディング) | 35% | 32% | 3% | |
| ツール / エージェント | τ²-Bench Telecom(エージェント型ツール使用) | 96% | 96% | 0%(引き分け) |
| IFBench(指示追従) | 70% | 68% | 2% | |
| AA-Omniscience 非幻覚率 | 36% | 10% | 26% | |
| 知識 | AA-Omniscience 正確性 | 33% | 28% | 5% |
💡解釈:
- 全体的: Kimi K2.5は11のベンチマーク中10でリードし、その差は**+1%から+26%**の範囲です。
- 最大のアドバンテージ:
- 非幻覚率: +26%。エージェント/ツールベースの設定ではるかに高い信頼性を示します。
- 推論とコーディング:
- ほとんどが**小〜中程度だが一貫した向上(+1%〜+6%)**であり、単一の外れ値に依存するのではなく、広範で安定した優位性を示唆します。
- ツール使用:
- 生のツール能力(τ²-Bench)はタイでしたが、行動の信頼性ではKimiが大幅に優れています。
速度とレイテンシの比較
パフォーマンスは単なる「トークン/秒」ではありません。開発ワークフローにおいて、ユーザーが感じるものは:
- 最初のトークンまでの時間(モデルが応答を開始する速さ)
- エンドツーエンドの時間(利用可能な出力チャンクを得る速さ)
- 出力スループット(開始後のストリーミング速度)
| 指標 | Kimi K2.5 | GLM-4.7 | 意味 |
| 出力速度 (トークン/秒) | 118 | 99 | Kimiは一般的に長い生成(コード、レポート、複数ファイルの差分)でより機敏に感じられます。 |
| 最初の回答トークンまでの時間(TTFA) | 合計18.3秒(約17.0秒「思考」) | 合計20.9秒(約20.2秒「思考」) | このテストではKimiの応答開始が早いです。 |
| エンドツーエンド応答時間(500トークンまで) | 22.6秒 | 26.0秒 | この実行では、Kimiが500トークンの応答をより速く完了します。 |
コスト比較

出典: Novita AI
コストのポイント: 出力トークンコストを最適化するなら、同じ入力レートでGLM-4.7の方が実質的に安くなります。より高いベンチマークの上限とより高速なスループットを重視するなら、Kimi K2.5のプレミアムが正当化される可能性があります。
クイックスタート: Playgroundで両モデルを即座に試す
Kimi K2.5 と GLM-4.7 の違いを感じる最速の方法は Novita AI Playground です。コード不要、セットアップ不要です。
Playgroundでは以下のことが可能です:
moonshotai/kimi-k2.5とzai-org/glm-4.7を瞬時に切り替え- まったく同じプロンプトを実行して、回答品質、推論スタイル、応答速度を比較
- APIに移行する前に、本番環境対応のプロンプト(例: 厳密なJSON、ツール形式の出力、書式制約)を検証

Novita AI Playground
デプロイ方法: API、SDK、サードパーティ統合
オプションA: API
Novita AIでAPIキーを取得
- ステップ1: アカウント作成またはログイン:
[https://novita.ai](https://novita.ai)にアクセスし、サインアップまたはログインします。 - ステップ2: キー管理に移動: ログイン後、「API Keys」を見つけます。
- ステップ3: 新しいキーを作成: 「Add New Key」ボタンをクリックします。
- ステップ4: すぐにキーを保存: 生成されたらすぐにコピーして保存します。一度しか表示されません。

エンドポイント経由でNovitaを呼び出す
変更するのは:
base_url:https://api.novita.ai/openaiapi_key: ご自身のNovitaキーmodel:moonshotai/kimi-k2.5またはzai-org/glm-4.7
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="moonshotai/kimi-k2.5",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=262144,
temperature=0.7
)
print(response.choices[0].message.content)
オプションB: SDK
エージェント型ワークフロー(ルーティング、ハンドオフ、ツール/関数呼び出し)を構築している場合、Novitaは最小限の変更でOpenAI互換SDKと連携します:
- ドロップイン互換: 既存のクライアントロジックはそのままに、base_url + model だけを変更
- オーケストレーション対応: ルーティング(Flashデフォルト → GLM-4.7へのエスカレーション)を簡単に実装
- セットアップ:
https://api.novita.ai/openaiを指定、NOVITA_API_KEYを設定、moonshotai/kimi-k2.5またはzai-org/glm-4.7を選択
オプションC: サードパーティプラットフォーム
Novitaでホストされたモデルは、人気のエコシステムを通じて実行することもできます:
- エージェントフレームワーク & アプリビルダー: Novitaのステップバイステップの統合ガイドに従って、Continue、AnythingLLM、LangChain、Langflow などの人気ツールと接続できます。
- Hugging Face Hub: NovitaはHugging FaceのInference Providerとしてリストされており、Hugging Faceのプロバイダワークフローとエコシステムを通じてサポート対象モデルを実行できます。
- OpenAI互換API: NovitaのLLMエンドポイントはOpenAI API 標準と互換性があるため、既存のOpenAIスタイルのアプリを移行したり、OpenAI互換の多くのツール(Cline、Cursor、Trae、Qwen Code)と接続するのが容易です。
- Anthropic互換API: NovitaはAnthropic SDK互換のアクセスも提供しているため、Novitaバックエンドのモデルを**Claude Code** スタイルのエージェント型コーディングワークフローに統合できます。
- OpenCode: Novita AIは**OpenCode** にサポート対象プロバイダとして直接統合されているため、ユーザーは手動設定なしでOpenCode内でNovitaを選択できます。
まとめ
Kimi K2.5を選ぶべき場合: このベンチマークセットで最も強力な総合能力プロファイルを求める場合、特に信頼性/非幻覚、さらに優れたスループットとより高速なエンドツーエンド生成が必要な場合に適しています。
GLM-4.7を選ぶべき場合: エージェント型コーディング向けに最適化された高性能な長文脈フラッグシップをより低い出力トークンコストで求め、ユニットエコノミクスが支配する規模で運用している場合に適しています。
いずれにせよ、Novita AI を使えば、両モデルを同じプラットフォーム、同じ課金体系でサイドバイサイドで実行し、素早くモデルを切り替えることができます。実際のワークロードデータに基づいて選択できるようになります。
Novita AI は、開発者がシンプルなAPIを使ってAIモデルを簡単にデプロイできるAIクラウドプラットフォームです。また、手頃で信頼性の高いGPUクラウドを提供し、スケーリングを支援します。
よくある質問 (FAQ)
Kimi K2.5はオープンソースですか?
Kimi K2.5は厳密な意味では完全なオープンソースではありません。Moonshot AIがMITライセンスで公開したオープンウェイトモデルです。モデルの重みと推論コードは、商用利用、ローカルデプロイ、ファインチューニングのために公開されています。ただし、Moonshot AIは完全なトレーニングコード、トレーニングデータセット、トレーニングパイプラインを公開していないため、モデルをスクラッチから完全に再現することはできません。
Kimi K2.5とは何ですか?
Kimi K2.5はMoonshot AIが開発した、改良型のマルチモーダル大規模言語モデルです。Kimi K2の後継として、テキスト、画像、動画を含むマルチモーダル入力をサポートします。対話品質、論理的推論、長文脈処理、マルチモーダル理解においてパフォーマンスが向上しており、オープンウェイトを介してローカルにモデルをデプロイおよびカスタマイズすることも可能です。
Kimi K2.5とKimi K2の違いは何ですか?
Kimi K2.5はKimi K2のアップグレード版で、マルチモーダル能力と推論能力が強化され、ローカルデプロイ用にモデル重みを公開しています。Kimi K2はオンラインAPIサービスのみを提供し、重みは公開されていません。
