Kimi K2.5 現已上線 Novita AI:適用視覺、編程與代理的多模態 AI

Kimi K2.5 現已上線 Novita AI:適用視覺、編程與代理的多模態 AI

Kimi K2.5 是 Moonshot AI 的旗艦開源多模態代理模型,現已上線 Novita AI。這款突破性模型統一了視覺與文字處理、思考模式與即時模式,以及多代理執行能力於單一強大系統。Kimi K2.5 透過在約 15 兆混合視覺與文字語料上進行持續預訓練構建,效能超越多數封閉源替代方案。

Novita AI 透過 API 整合 與直覺化的 playground 介面,為使用者提供快速、實惠的 Kimi K2.5 存取服務。

立即體驗 Kimi K2.5 演示

什麼是 Kimi K2.5?

Kimi K2 的人工智慧指數(Artificial Analysis)

資料來源:Artificial Analysis

Moonshot AI 旗艦多模態代理模型

Kimi K2.5 是由 Moonshot AI 開發的開源原生多模態代理模型。該模型以 Kimi-K2-Base 為基礎,透過在約 15 兆混合視覺與文字語料上進行持續預訓練構建,無縫整合了視覺與語言理解能力,以及先進的代理執行能力。

不同於傳統多模態模型將視覺功能附加在純文字基礎上,Kimi K2.5 從零開始針對視覺-文字語料進行預訓練,在視覺知識、跨模態推理,以及基於視覺輸入的代理工具使用方面表現優異。

架構概覽

Kimi K2.5 採用成熟的混合專家(Mixture-of-Experts, MoE)架構:

  • 總參數量: 1 兆
  • 每 token 啟動參數量: 320 億
  • 專家數量: 384 個(每 token 選擇 8 個)
  • 上下文長度: 256K tokens
  • 視覺編碼器: 含 4 億參數的 MoonViT
  • 注意力機制: MLA(多頭潛在注意力)

這項架構透過稀疏專家啟動機制,在維持運算效率的同時支援大規模上下文處理。

主要功能與能力

雙重操作模式:思考模式與即時模式

思考模式(Thinking Mode): 專為複雜推理設計,會輸出推理過程內容。適合數學問題、策略規劃,以及需要決策透明度的場景。針對高難度問題會使用擴展的 token 預算(最高 96K tokens)。

即時模式(Instant Mode): 針對速度優化,回覆更快且不會顯示推理過程。適合即時應用、對話式介面,以及優先要求快速回覆的任務。

開發者可透過 thinking 參數切換模式,建議思考模式溫度設為 1.0,即時模式設為 0.6。

原生多模態能力

圖像理解: 含 4 億參數的 MoonViT 視覺編碼器能實現細緻的視覺理解,範圍涵蓋文件光學字元辨識(OCR)到複雜視覺推理。

影片處理: 支援影片輸入,適用於內容分析、工作流程理解、視覺指令遵循等場景(目前為實驗性功能)。

代理蜂群(Agent Swarm)

Kimi K2.5 的代理蜂群功能實現從單一代理到協調式多代理執行的轉變,能將複雜任務分解為多個平行子任務,由動態實例化、領域專屬的代理執行。

視覺輔助編程

Kimi K2.5 擅長根據視覺規格生成程式碼:

  • 將 UI 設計與模型轉換為可運作的程式碼
  • 理解影片工作流程並生成自動化腳本
  • 自主協調工具進行視覺資料處理
  • 透過分析截圖與錯誤狀態執行複雜除錯

交錯思考與多步驟工具呼叫

該模型能將多個工具呼叫串聯起來,跨步驟維持上下文,並根據中間結果調整執行方式,是代理搜尋、資料分析流程與自動化研究工作流程的關鍵能力。

基準測試效能與結果

Kimi K2.5 在多個領域達到最先進(SOTA)效能,確立了自身在代理 AI、視覺理解與編程能力領域的領導地位。

代理基準測試全球 SOTA 效能

Kimi K2.5 在複雜代理任務上展現前所未有的效能,超越所有競爭對手,包括 GPT-5.2、Claude Opus 4.5 與 Gemini 3 Pro。

基準測試 Kimi K2.5 GPT-5.2 Claude Opus 4.5 Gemini 3 Pro
Humanity’s Last Exam(完整集) 50.2% 45.5% 43.2% 45.8%
BrowseComp 74.9% 65.8% 57.8% 59.2%
DeepSearchQA 77.1% 71.3% 76.1% 63.2%

關鍵成果: Kimi K2.5 以 50.2% 的成績在 Humanity’s Last Exam(HLE)完整集、以 74.9% 的成績在 BrowseComp 上創下全球 SOTA 效能,展現優異的代理推理與網頁導航能力。

視覺理解開源 SOTA 效能

Kimi K2.5 在多模態與視覺基準測試中領先所有開源模型,在圖像與影片理解任務上表現優異。

圖像理解

基準測試 Kimi K2.5 GPT-5.2 Claude Opus 4.5 Gemini 3 Pro
MMMU Pro 78.5% 79.5% 74.0% 81.0%
MathVision 84.2% 83.0% 77.1% 86.1%
OmniDocBench 1.5 88.8% 85.7% 87.7% 88.5%

影片理解

基準測試 Kimi K2.5 GPT-5.2 Claude Opus 4.5 Gemini 3 Pro
VideoMMMU 86.6% 85.9% 84.4% 87.6%
LongVideoBench 79.8% 76.5% 67.2% 77.7%

關鍵成果: Kimi K2.5 以 78.5% 的成績在 MMMU Pro、以 86.6% 的成績在 VideoMMMU 上達成開源 SOTA 效能,在跨圖像與影片的複雜多模態推理方面表現突出。

編程基準測試開源 SOTA 效能

Kimi K2.5 展現了具競爭力的編程效能,尤其在視覺理解與程式碼生成結合的場景下表現突出。

基準測試 Kimi K2.5 GPT-5.2 Claude Opus 4.5 Gemini 3 Pro
SWE-bench Verified 76.8% 80.0% 80.9% 76.2%
SWE-bench Multilingual 73.0% 72.0% 77.5% 65.0%

關鍵成果: Kimi K2.5 以 76.8% 的成績在 SWE-bench Verified 上達成開源 SOTA 效能,展現強大的實際軟體工程能力。

美觀程式碼:從視覺輸入生成美觀設計

除了傳統編程基準測試,Kimi K2.5 更擅長將視覺輸入轉換為美觀且實用的程式碼。該模型能將對話、圖像與影片轉換為具表現力的網站,並搭載精細的動態設計,讓開發者能從概念設計快速原型化視覺衝擊力強的介面。

代理蜂群(Beta):大規模平行處理

Kimi K2.5 的代理蜂群技術能讓自主代理以前所未有的規模平行執行:

  • 最多 100 個子代理 同時執行複雜任務
  • 跨平行工作流程協調 1,500 次工具呼叫
  • 在複雜搜尋與研究任務上,比單一代理設定快 4.5 倍

這項突破性架構讓 Kimi K2.5 能將複雜問題分解為專業子任務,大幅提升企業級代理工作流程的速度與準確度。

如何在 Novita AI 上使用 Kimi K2.5

使用 Playground(無需編程)

可透過 Novita AI 互動式 Playground 立即體驗 Kimi K2.5。上傳圖像或影片、測試多模態提示詞,並在完整的 256K 上下文視窗中切換思考與即時模式。

透過 API 整合(適用開發者)

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="moonshotai/kimi-k2.5",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=262144,
    temperature=0.7
)

print(response.choices[0].message.content)

連接第三方平台

代理框架: 透過官方連接器支援 Continue、AnythingLLM、LangChain、Dify 與 Langflow。

Hugging Face 整合: Novita AI 是官方推論供應商,實現無縫生態系統相容。

OpenAI 相容 API: 僅需少量程式碼修改即可與 Cline、Kilo Code、Cursor、Trae、OpenCode 及 Qwen Code 搭配使用。

Anthropic 相容 API: 可與 Claude Code 整合,實現代理編程工作流程。

實際應用與使用場景

氛圍編程(Vibe Coding)與視覺化開發

根據 UI 模型、線框圖或手繪草圖生成程式碼。解讀影片工作流程以建立自動化腳本,大幅縮短設計到實作的時間。

企業級代理搜尋

自主瀏覽多個網站、比較並綜合不同來源的資訊、透過交叉比對多份文件驗證事實,即使搜尋結果超過一般 token 限制也能有效管理上下文。代理蜂群模式能將廣泛查詢分解為平行子任務,非常適合競爭情報、市場研究與學術文獻回顧場景。

複雜推理任務

  • 數學問題解決: 在競賽數學題目上近乎完美的表現(
  • 科學推理: 研究所級別的物理、化學與生物學問題
  • 策略規劃: 具透明推理過程的多步驟決策
  • 法律分析: 搭配超大上下文視窗進行文件審查與判例研究

多模態內容分析

從 PDF、掃描文件與資訊圖表中擷取並分析資訊。分析影片內容以進行合規審查、品質保證或內容審核。檢查產品圖像或製造影片以識別缺陷。

自主工具協調

資料流程自動化、自主蒐集資訊並彙整報告的研究助理、處理複雜多步驟查詢的客戶支援,以及用於管理基礎設施與除錯的 DevOps 自動化。

結論

Kimi K2.5 是開源多模態 AI 的重大突破,在廣泛的基準測試中表現與甚至超越封閉源替代方案。憑藉原生多模態能力、256K 上下文視窗、雙重思考模式與代理蜂群技術,Kimi K2.5 已成為下一代 AI 應用程式的多元 versatile 基礎。

準備好體驗 Kimi K2.5 的強大效能了嗎? 立即 在 Novita AI 上開始使用 Kimi K2.5 建構應用,解鎖開源多模態 AI 的未來。

Novita AI 是領先的 AI 雲端平台,為開發者提供易於使用的 API 與實惠、可靠的 GPU 基礎設施,用於建構與擴展 AI 應用程式。