Kimi K2.5 是 Moonshot AI 的旗艦開源多模態代理模型,現已上線 Novita AI。這款突破性模型統一了視覺與文字處理、思考模式與即時模式,以及多代理執行能力於單一強大系統。Kimi K2.5 透過在約 15 兆混合視覺與文字語料上進行持續預訓練構建,效能超越多數封閉源替代方案。
Novita AI 透過 API 整合 與直覺化的 playground 介面,為使用者提供快速、實惠的 Kimi K2.5 存取服務。
什麼是 Kimi K2.5?
資料來源:Artificial Analysis
Moonshot AI 旗艦多模態代理模型
Kimi K2.5 是由 Moonshot AI 開發的開源原生多模態代理模型。該模型以 Kimi-K2-Base 為基礎,透過在約 15 兆混合視覺與文字語料上進行持續預訓練構建,無縫整合了視覺與語言理解能力,以及先進的代理執行能力。
不同於傳統多模態模型將視覺功能附加在純文字基礎上,Kimi K2.5 從零開始針對視覺-文字語料進行預訓練,在視覺知識、跨模態推理,以及基於視覺輸入的代理工具使用方面表現優異。
架構概覽
Kimi K2.5 採用成熟的混合專家(Mixture-of-Experts, MoE)架構:
- 總參數量: 1 兆
- 每 token 啟動參數量: 320 億
- 專家數量: 384 個(每 token 選擇 8 個)
- 上下文長度: 256K tokens
- 視覺編碼器: 含 4 億參數的 MoonViT
- 注意力機制: MLA(多頭潛在注意力)
這項架構透過稀疏專家啟動機制,在維持運算效率的同時支援大規模上下文處理。
主要功能與能力
雙重操作模式:思考模式與即時模式
思考模式(Thinking Mode): 專為複雜推理設計,會輸出推理過程內容。適合數學問題、策略規劃,以及需要決策透明度的場景。針對高難度問題會使用擴展的 token 預算(最高 96K tokens)。
即時模式(Instant Mode): 針對速度優化,回覆更快且不會顯示推理過程。適合即時應用、對話式介面,以及優先要求快速回覆的任務。
開發者可透過 thinking 參數切換模式,建議思考模式溫度設為 1.0,即時模式設為 0.6。
原生多模態能力:
圖像理解: 含 4 億參數的 MoonViT 視覺編碼器能實現細緻的視覺理解,範圍涵蓋文件光學字元辨識(OCR)到複雜視覺推理。
影片處理: 支援影片輸入,適用於內容分析、工作流程理解、視覺指令遵循等場景(目前為實驗性功能)。
代理蜂群(Agent Swarm)
Kimi K2.5 的代理蜂群功能實現從單一代理到協調式多代理執行的轉變,能將複雜任務分解為多個平行子任務,由動態實例化、領域專屬的代理執行。
視覺輔助編程
Kimi K2.5 擅長根據視覺規格生成程式碼:
- 將 UI 設計與模型轉換為可運作的程式碼
- 理解影片工作流程並生成自動化腳本
- 自主協調工具進行視覺資料處理
- 透過分析截圖與錯誤狀態執行複雜除錯
交錯思考與多步驟工具呼叫
該模型能將多個工具呼叫串聯起來,跨步驟維持上下文,並根據中間結果調整執行方式,是代理搜尋、資料分析流程與自動化研究工作流程的關鍵能力。
基準測試效能與結果
Kimi K2.5 在多個領域達到最先進(SOTA)效能,確立了自身在代理 AI、視覺理解與編程能力領域的領導地位。
代理基準測試全球 SOTA 效能
Kimi K2.5 在複雜代理任務上展現前所未有的效能,超越所有競爭對手,包括 GPT-5.2、Claude Opus 4.5 與 Gemini 3 Pro。
| 基準測試 | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| Humanity’s Last Exam(完整集) | 50.2% | 45.5% | 43.2% | 45.8% |
| BrowseComp | 74.9% | 65.8% | 57.8% | 59.2% |
| DeepSearchQA | 77.1% | 71.3% | 76.1% | 63.2% |
關鍵成果: Kimi K2.5 以 50.2% 的成績在 Humanity’s Last Exam(HLE)完整集、以 74.9% 的成績在 BrowseComp 上創下全球 SOTA 效能,展現優異的代理推理與網頁導航能力。
視覺理解開源 SOTA 效能
Kimi K2.5 在多模態與視覺基準測試中領先所有開源模型,在圖像與影片理解任務上表現優異。
圖像理解
| 基準測試 | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU Pro | 78.5% | 79.5% | 74.0% | 81.0% |
| MathVision | 84.2% | 83.0% | 77.1% | 86.1% |
| OmniDocBench 1.5 | 88.8% | 85.7% | 87.7% | 88.5% |
影片理解
| 基準測試 | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| VideoMMMU | 86.6% | 85.9% | 84.4% | 87.6% |
| LongVideoBench | 79.8% | 76.5% | 67.2% | 77.7% |
關鍵成果: Kimi K2.5 以 78.5% 的成績在 MMMU Pro、以 86.6% 的成績在 VideoMMMU 上達成開源 SOTA 效能,在跨圖像與影片的複雜多模態推理方面表現突出。
編程基準測試開源 SOTA 效能
Kimi K2.5 展現了具競爭力的編程效能,尤其在視覺理解與程式碼生成結合的場景下表現突出。
| 基準測試 | Kimi K2.5 | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 76.8% | 80.0% | 80.9% | 76.2% |
| SWE-bench Multilingual | 73.0% | 72.0% | 77.5% | 65.0% |
關鍵成果: Kimi K2.5 以 76.8% 的成績在 SWE-bench Verified 上達成開源 SOTA 效能,展現強大的實際軟體工程能力。
美觀程式碼:從視覺輸入生成美觀設計
除了傳統編程基準測試,Kimi K2.5 更擅長將視覺輸入轉換為美觀且實用的程式碼。該模型能將對話、圖像與影片轉換為具表現力的網站,並搭載精細的動態設計,讓開發者能從概念設計快速原型化視覺衝擊力強的介面。
代理蜂群(Beta):大規模平行處理
Kimi K2.5 的代理蜂群技術能讓自主代理以前所未有的規模平行執行:
- 最多 100 個子代理 同時執行複雜任務
- 跨平行工作流程協調 1,500 次工具呼叫
- 在複雜搜尋與研究任務上,比單一代理設定快 4.5 倍
這項突破性架構讓 Kimi K2.5 能將複雜問題分解為專業子任務,大幅提升企業級代理工作流程的速度與準確度。
如何在 Novita AI 上使用 Kimi K2.5
使用 Playground(無需編程)
可透過 Novita AI 互動式 Playground 立即體驗 Kimi K2.5。上傳圖像或影片、測試多模態提示詞,並在完整的 256K 上下文視窗中切換思考與即時模式。
透過 API 整合(適用開發者)
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="moonshotai/kimi-k2.5",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=262144,
temperature=0.7
)
print(response.choices[0].message.content)
連接第三方平台
代理框架: 透過官方連接器支援 Continue、AnythingLLM、LangChain、Dify 與 Langflow。
Hugging Face 整合: Novita AI 是官方推論供應商,實現無縫生態系統相容。
OpenAI 相容 API: 僅需少量程式碼修改即可與 Cline、Kilo Code、Cursor、Trae、OpenCode 及 Qwen Code 搭配使用。
Anthropic 相容 API: 可與 Claude Code 整合,實現代理編程工作流程。
實際應用與使用場景
氛圍編程(Vibe Coding)與視覺化開發
根據 UI 模型、線框圖或手繪草圖生成程式碼。解讀影片工作流程以建立自動化腳本,大幅縮短設計到實作的時間。
企業級代理搜尋
自主瀏覽多個網站、比較並綜合不同來源的資訊、透過交叉比對多份文件驗證事實,即使搜尋結果超過一般 token 限制也能有效管理上下文。代理蜂群模式能將廣泛查詢分解為平行子任務,非常適合競爭情報、市場研究與學術文獻回顧場景。
複雜推理任務
- 數學問題解決: 在競賽數學題目上近乎完美的表現(
- 科學推理: 研究所級別的物理、化學與生物學問題
- 策略規劃: 具透明推理過程的多步驟決策
- 法律分析: 搭配超大上下文視窗進行文件審查與判例研究
多模態內容分析
從 PDF、掃描文件與資訊圖表中擷取並分析資訊。分析影片內容以進行合規審查、品質保證或內容審核。檢查產品圖像或製造影片以識別缺陷。
自主工具協調
資料流程自動化、自主蒐集資訊並彙整報告的研究助理、處理複雜多步驟查詢的客戶支援,以及用於管理基礎設施與除錯的 DevOps 自動化。
結論
Kimi K2.5 是開源多模態 AI 的重大突破,在廣泛的基準測試中表現與甚至超越封閉源替代方案。憑藉原生多模態能力、256K 上下文視窗、雙重思考模式與代理蜂群技術,Kimi K2.5 已成為下一代 AI 應用程式的多元 versatile 基礎。
準備好體驗 Kimi K2.5 的強大效能了嗎? 立即 在 Novita AI 上開始使用 Kimi K2.5 建構應用,解鎖開源多模態 AI 的未來。
Novita AI 是領先的 AI 雲端平台,為開發者提供易於使用的 API 與實惠、可靠的 GPU 基礎設施,用於建構與擴展 AI 應用程式。

