代理型編碼正快速成為建構軟體的預設介面:你描述目標,模型會規劃、呼叫工具、編輯檔案,並反覆迭代直到任務完成。在實際開發堆疊中經常出現的兩款模型是 Moonshot AI 的 Kimi K2.5 與 Z.AI 的 GLM-4.7——兩者皆針對長上下文、工具使用與「可上線」編碼能力進行優化。
本文將比較基準測試表現、速度與延遲,以及成本(Novita AI 定價),並說明如何立即在 Novita AI 上試用與部署這兩款模型。
基本介紹
以下是 GLM-4.7 與 Kimi K2.5 的側面對比:
| 功能 | GLM-4.7 | Kimi K2.5 |
| 開發商 | Z.AI | Moonshot AI |
| 發布日期 | 2025 年 12 月 22 日 | 2026 年 1 月 27 日 |
| 架構 | 358B 參數混合專家(MoE) | 總參數 1T 的混合專家(MoE)模型(每 token 激活 32B 參數、384 位專家、每 token 激活 8 位),原生多模態架構 |
| 上下文視窗 | 200k 輸入 / 128k 輸出 | 262,144 輸入 / 262,144 輸出 |
| 輸入能力 | 僅文字 | 文字、圖片、影片 |
| 輸出能力 | 文字 | 文字 |
| 核心能力 | 長上下文理解、程式碼生成 | 多模態理解、代理集群協作(最多 100 個子代理)、視覺程式設計、長文件處理、工具呼叫 |
主要差異解析
- 模型規模:Kimi K2.5 的總參數數量遠高於 GLM-4.7(1T 對 358B),且每 token 激活的參數更多,理論上能提供更強的知識容量與效能。
- 多模態支援:Kimi K2.5 是原生多模態模型,可理解圖片、影片並執行視覺程式設計,而 GLM-4.7 僅專注於文字能力。
- 上下文視窗:Kimi K2.5 的 256k 輸入視窗比 GLM-4.7 的 200k 更長,更適合處理完整法律合約、學術論文這類超長文件。
基準測試對比

資料來源:Artificial Analysis
| 能力 | 基準測試 | Kimi K2.5 | GLM-4.7 | 結果 |
| 推理能力 | GDPval-AA (ELO-500/2000) | 41% | 35% | 6% |
| AA-LCR(長上下文推理) | 66% | 64% | 2% | |
| Humanity’s Last Exam | 29.40% | 25.10% | 4.3% | |
| GPQA Diamond(科學推理) | 88% | 86% | 2% | |
| CritPt(物理推理) | 3% | 2% | 1% | |
| 編碼能力 | SciCode | 49% | 45% | 4% |
| Terminal-Bench Hard(代理型編碼) | 35% | 32% | 3% | |
| 工具/代理 | τ²-Bench Telecom(代理型工具使用) | 96% | 96% | 0%(平手) |
| IFBench(指令遵循) | 70% | 68% | 2% | |
| AA-Omniscience 非幻覺率 | 36% | 10% | 26% | |
| 知識能力 | AA-Omniscience 準確率 | 33% | 28% | 5% |
💡結果解讀:
- 整體表現:Kimi K2.5 在 11 項基準測試中的 10 項領先,領先幅度介於 +1% 到 +26% 之間。
- 最大優勢:
- 非幻覺率:+26%,代表在代理/工具型場景中可靠性大幅更高。
- 推理與編碼能力:
- 多數項目有小幅到中幅但穩定的領先(+1% 到 +6%),顯示其優勢是全面且穩定的,而非依賴單一異常值。
- 工具使用能力:
- 原始工具能力(τ²-Bench)持平,但行為可靠性明顯偏向 Kimi。
速度與延遲對比
效能不只看「每秒 token 數」。對開發工作流程而言,使用者實際感受到的是以下指標:
- 首個 token 耗時(模型開始回覆的速度)
- 端到端耗時(取得可用輸出內容的速度)
- 輸出吞吐量(開始輸出後串流的速度)
| 指標 | Kimi K2.5 | GLM-4.7 | 意義 |
| 輸出速度(token/秒) | 118 | 99 | Kimi 在長篇生成(程式碼、報告、多檔案差異)時通常更流暢。 |
| 首個回答 token 耗時(TTFA) | 18.3 秒總耗時(≈17.0 秒「思考」) | 20.9 秒總耗時(≈20.2 秒「思考」) | 本次測試中 Kimi 更早開始回覆。 |
| 端到端回覆耗時(至 500 token) | 22.6 秒 | 26.0 秒 | 本次測試中 Kimi 完成 500 token 回覆的速度更快。 |
成本對比

資料來源:Novita AI
成本結論:若你優化目標是輸出 token 成本,GLM-4.7 在相同輸入費率下實惠得多;若你優化目標是更高的基準測試上限 + 更快的吞吐量,Kimi K2.5 的溢價或許值得。
快速入門:立即在 Playground 試用兩款模型
感受 Kimi K2.5 與 GLM-4.7 差異最快的方式,就是使用 Novita AI Playground——無需寫程式、無需設定。
在 Playground 中你可以:
- 可即時切換
moonshotai/kimi-k2.5與zai-org/glm-4.7兩款模型 - 輸入完全相同的提示詞,比較回答品質、推理風格與回覆速度
- 在轉用 API 前,先驗證可上線的提示詞設計(例如嚴格 JSON、工具型輸出、格式限制等)

Novita AI Playground
部署方式:API、SDK 與第三方整合
選項 A:API
在 Novita AI 取得 API 金鑰
- 步驟 1:建立帳號或登入:造訪
[https://novita.ai](https://novita.ai)註冊或登入帳號。 - 步驟 2:前往金鑰管理頁面:登入後找到「API 金鑰」選項。
- 步驟 3:建立新金鑰:點擊「新增金鑰」按鈕。
- 步驟 4:立即儲存金鑰:金鑰生成後請立即複製儲存,系統僅會顯示一次。

透過端點呼叫 Novita
只需修改以下參數:
base_url:https://api.novita.ai/openaiapi_key:你的 Novita 金鑰model:moonshotai/kimi-k2.5或zai-org/glm-4.7
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="moonshotai/kimi-k2.5",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=262144,
temperature=0.7
)
print(response.choices[0].message.content)
選項 B:SDK
若你正在建構代理型工作流程(路由、交接、工具/函式呼叫),Novita 與 OpenAI 相容的 SDK 僅需少量修改即可對接:
- 即插即用相容:保留你現有的客戶端邏輯,只需修改 base_url 與 model 參數即可
- 支援編排:可輕鬆實現路由邏輯(預設使用 Flash → 必要時升級至 GLM-4.7)
- 設定方式:將端點指向
https://api.novita.ai/openai,設定NOVITA_API_KEY,選擇moonshotai/kimi-k2.5或zai-org/glm-4.7即可
選項 C:第三方平台
你也可以透過主流生態系執行 Novita 托管的模型:
- 代理框架與應用程式建置工具:跟隨 Novita 的逐步整合指南,連接熱門工具如 Continue、AnythingLLM、LangChain 與 Langflow。
- Hugging Face Hub:Novita 在 Hugging Face 上列為推論提供者,你可以透過 Hugging Face 的提供者工作流程與生態系執行支援的模型。
- OpenAI 相容 API:Novita 的 LLM 端點相容 OpenAI API 標準,能輕鬆遷移現有的 OpenAI 風格應用,並連接眾多 OpenAI 相容工具( Cline、Cursor、Trae 與 Qwen Code )。
- Anthropic 相容 API:Novita 也提供相容 Anthropic SDK 的存取方式,可將 Novita 支援的模型整合至 Claude Code 風格的代理型編碼工作流程。
- OpenCode:Novita AI 目前已直接整合至 OpenCode 作為支援的提供者,使用者無需手動設定即可在 OpenCode 中選擇 Novita。
結論
選擇 Kimi K2.5 如果你:希望獲得本次基準測試中最強的整體能力表現——尤其是可靠性/非幻覺能力,同時還有更好的吞吐量與更快的端到端生成速度。
選擇 GLM-4.7 如果你:需要一款針對代理型編碼優化的高效能長上下文旗艦模型,且輸出 token 成本更低,同時你的業務規模較大、單位經濟效益是首要考量。
無論選擇哪款,Novita AI 都能讓你輕鬆並行執行兩款模型——同一平台、同一計費介面、快速切換模型,讓你能透過真實工作負載數據做出選擇,而非憑空猜測。
Novita AI 是 AI 雲端平台,為開發者提供簡單的 API 介面部署 AI 模型,同時也提供實惠且可靠的 GPU 雲端服務,用於建構與擴展 AI 應用。
常見問題
Kimi K2.5 是開源模型嗎?
嚴格來說,Kimi K2.5 並非完全開源。它是 Moonshot AI 以 MIT 授權釋出的開放權重模型,模型權重與推論程式碼公開可用於商業用途、本地部署與微調。但 Moonshot AI 尚未公開完整訓練程式碼、訓練資料集與訓練流程,因此無法從零開始完整複現該模型。
Kimi K2.5 是什麼?
Kimi K2.5 是由 Moonshot AI 開發的升級版多模態大型語言模型。作為 Kimi K2 的後繼者,它支援文字、圖片、影片等多模態輸入,在對話品質、邏輯推理、長上下文處理與多模態理解方面都有更優異的表現,使用者也可透過其開放權重在本地部署與自訂模型。
Kimi K2.5 與 Kimi K2 的差異是什麼?
Kimi K2.5 是 Kimi K2 的升級版本,具備更強的多模態與推理能力,且公開釋出模型權重供本地部署;Kimi K2 僅提供線上 API 服務,未公開模型權重。
