Novita AI 上的 Kimi-K2-Thinking:效能超越 GPT-5 的開源推理模型

Novita AI 上的 Kimi-K2-Thinking:效能超越 GPT-5 的開源推理模型

Moonshot AI 推出的革命性開源推理模型 Kimi-K2-Thinking 現已上線 Novita AI。這款最先進的「思考型代理」結合了深度多步驟推理與廣泛的工具編排能力,無需人工介入即可執行 200 至 300 次連續工具調用。K2-Thinking 擁有萬億總參數、320 億激活參數,以及 256,000 token 的上下文窗口,在確保全量開放權重可訪問的同時,為代理智能樹立了全新標準。

目前在 Novita AI 使用 Kimi-K2-Thinking 的價格為:每百萬輸入 token 0.60 美元,每百萬輸出 token 2.50 美元

什麼是 Kimi-K2-Thinking?

Kimi-K2-Thinking 是 Moonshot AI 最先進的開源推理模型,作為一款「思考型代理」構建,能夠逐步推理並動態調用工具。不同於傳統反射級模型,K2-Thinking 採用跨數百步的擴展鏈式思考推理,非常適合需要持續專注與工具編排的複雜問題求解場景。

深度思考與工具編排

K2-Thinking 經過端到端訓練,可將鏈式思考推理與函數調用交錯執行,支持持續數百步且不偏離目標的自動化研究、編程與寫作工作流。該模型在單次會話中可執行 200 至 300 次連續工具調用,同時在整個過程中保持連貫的推理邏輯。

原生 INT4 量化

後訓練階段採用量化感知訓練(QAT),可在低延遲模式下實現無損 2 倍加速。這項原生 INT4 量化技術讓 K2-Thinking 在保持最先進效能的同時,能支持高效推理,生成速度提升近一倍。

擴展上下文窗口

K2-Thinking 支持 256,000 token 的上下文窗口,能夠處理長篇文檔、在長時間對話中維持上下文,並處理需要大量上下文保留的複雜多輪推理任務。

技術架構與規格

Kimi-K2-Thinking 代表了混合專家架構的前沿工程成果,專為推理任務優化:

規格 數值
架構 混合專家架構(MoE)
總參數 1 萬億
激活參數 320 億
上下文長度 256,000 token
層數 61 層(含 1 層密集層)
注意力機制 MLA(多頭潛在注意力)
專家數量 384
每個 token 選擇的專家數 8
詞彙表大小 160,000
激活函數 SwiGLU
量化 搭載 QAT 的原生 INT4
推薦溫度 1.0

這款先進的架構通過智能專家選擇與原生量化支持,在實現高效處理的同時,充分發揮萬億參數模型的完整效能。

基準測試效能:領先的開源模型

Kimi-K2-Thinking 在推理、代理與編程基準測試中表現優異,多次超越 GPT-5、Claude Sonnet 4.5 等專有模型:

推理任務

Benchmark Setting K2 Thinking GPT-5 Claude Sonnet 4.5 (Thinking) K2 0905 DeepSeek-V3.2 Grok-4
HLE (Text-only) no tools 23.9 26.3 19.8* 7.9 19.8 25.4
w/ tools 44.9 41.7* 32.0* 21.7 20.3* 41.0
heavy 51.0 42.0 50.7
AIME25 no tools 94.5 94.6 87.0 51.0 89.3 91.7
w/ python 99.1 99.6 100.0 75.2 58.1* 98.8
heavy 100.0 100.0 100.0
HMMT25 no tools 89.4 93.3 74.6* 38.8 83.6 90.0
w/ python 95.1 96.7 88.8* 70.4 49.5* 93.9
heavy 97.5 100.0 96.7
IMO-AnswerBench no tools 78.6 76.0* 65.9* 45.8 76.0* 73.1
GPQA no tools 84.5 85.7 83.4 74.2 79.9 87.5

通用任務

Benchmark Setting K2 Thinking GPT-5 Claude Sonnet 4.5 (Thinking) K2 0905 DeepSeek-V3.2
MMLU-Pro no tools 84.6 87.1 87.5 81.9 85.0
MMLU-Redux no tools 94.4 95.3 95.6 92.7 93.7
Longform Writing no tools 73.8 71.4 79.8 62.8 72.5
HealthBench no tools 58.0 67.2 44.2 43.8 46.9

代理搜索任務

Benchmark Setting K2 Thinking GPT-5 Claude Sonnet 4.5 (Thinking) K2 0905 DeepSeek-V3.2
BrowseComp w/ tools 60.2 54.9 24.1 7.4 40.1
BrowseComp-ZH w/ tools 62.3 63.0* 42.4* 22.2 47.9
Seal-0 w/ tools 56.3 51.4* 53.4* 25.2 38.5*
FinSearchComp-T3 w/ tools 47.4 48.5* 44.0* 10.4 27.0*
Frames w/ tools 87.0 86.0* 85.0* 58.1 80.2*

編程任務

Benchmark Setting K2 Thinking GPT-5 Claude Sonnet 4.5 (Thinking) K2 0905 DeepSeek-V3.2
SWE-bench Verified w/ tools 71.3 74.9 77.2 69.2 67.8
SWE-bench Multilingual w/ tools 61.1 55.3* 68.0 55.9 57.9
Multi-SWE-bench w/ tools 41.9 39.3* 44.3 33.5 30.6
SciCode no tools 44.8 42.9 44.7 30.7 37.7
LiveCodeBenchV6 no tools 83.1 87.0* 64.0* 56.1* 74.1
OJ-Bench (cpp) no tools 48.7 56.2* 30.4* 25.5* 38.2*
Terminal-Bench w/ simulated tools (JSON) 47.1 43.8 51.0 44.5 37.7

註: 粗體表示該類別中的最佳效能。星號(*)表示分數直接來自模型技術報告或部落格文章。K2-Thinking 在推理、代理搜索與編程任務中均表現領先,確立了其作為頂級開源推理模型的地位。

核心功能與特性

自主多步驟推理

K2-Thinking 擅長處理需要跨數百步持續推理的複雜任務。該模型能夠自主規劃、執行、驗證並調整策略,同時在整個過程中維持任務的連貫性。

廣泛的工具編排

該模型在單次會話中可執行 200 至 300 次連續工具調用,支持以下場景:

  • 從多個來源搜索與檢索資訊
  • 執行程式碼並驗證結果
  • 瀏覽網頁以完成研究任務
  • 訪問數據庫與 API
  • 協調多種工具完成複雜工作流

獨立推理流

K2-Thinking 透過 API 響應中的獨立 reasoning_content 字段暴露其內部推理過程,開發者可以理解並檢查模型得出結論的邏輯。這種透明度對於除錯、驗證與理解模型行為非常有價值。

生產級優化

透過量化感知訓練實現的原生 INT4 量化,讓 K2-Thinking 具備以下優勢:

  • 生成速度提升 2 倍
  • 降低 GPU 記憶體需求
  • 無損量化下保持精度
  • 大規模推理成本效益高

開放權重可訪問性

K2-Thinking 採用修改版 MIT 許可證發布,完全開放權重,可用於研究、開發與商業應用。該模型支援下載、微調,可本地部署或透過 API 調用。

如何在 Novita AI 上使用 Kimi-K2-Thinking

在 Novita AI 上開始使用 Kimi-K2-Thinking 快速、簡單且實惠。

使用 playground(無需編碼)

  • 即時訪問:註冊後即可在幾秒內開始體驗 Kimi-K2-Thinking 與其他頂級模型。
  • 互動式介面:透過直觀的介面體驗模型的深度推理能力。
  • 推理透明:即時查看模型的逐步思考過程。
  • 模型對比:輕鬆在 Kimi-K2-Thinking 與其他頂級模型間切換,找到最適合您需求的選項。

立即體驗 Kimi-K2-Thinking 演示

透過 API 集成(開發者適用)

透過 Novita AI 的統一 REST API,可將 Kimi-K2-Thinking 無縫對接至您的應用、工作流或聊天機器人,無需管理模型權重或基礎設施。

選項 1:直接 API 集成(Python 範例)

開始使用只需使用下方的程式碼片段:

from openai import OpenAI

client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR_API_KEY>",
)

model = "moonshotai/kimi-k2-thinking"
stream = True  # or False
max_tokens = 262144
system_content = "You are Kimi, an AI assistant created by Moonshot AI."
temperature = 1.0
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = {"type": "text"}

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Which one is bigger, 9.11 or 9.9? Think carefully.",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
        "top_k": top_k,
        "repetition_penalty": repetition_penalty,
        "min_p": min_p
    }
)

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
    # Access the reasoning process
    print("=====Reasoning Process=====")
    print(chat_completion_res.choices[0].message.reasoning_content)

核心特性:

  • 統一端點/v3/openai 支持 OpenAI 的 Chat Completions API 格式。
  • 彈性控制:可調整 temperature、top-p、懲罰參數等,以獲得客製化結果。
  • 流式與批量處理:可選擇您偏好的響應模式。
  • 推理訪問:可透過 reasoning_content 字段查看模型的內部思考過程。

選項 2:使用 OpenAI Agents SDK 構建多代理工作流

透過將 Novita AI 與 OpenAI Agents SDK 集成,構建先進的多模態代理系統:

  • 即插即用:可在任何 OpenAI Agents 工作流中使用 Kimi-K2-Thinking。
  • 支持交接、路由與工具調用:可設計能深度推理、委派任務或執行函數的代理。
  • Python 集成:只需將 SDK 指向 Novita 的端點(https://api.novita.ai/v3/openai)並使用您的 API 金鑰,即可實現無縫代理工作流。

選項 3:在第三方平台連接 Kimi-K2-Thinking API

  • Hugging Face:可透過 Novita AI 端點,在 Spaces、pipeline 中或搭配 Transformers 函式庫使用 Kimi-K2-Thinking。
  • 代理與編排框架:透過官方連接器與逐步集成指南,可輕鬆將 Novita AI 與合作夥伴平台如 ContinueAnythingLLMLangChainDifyLangflow 連接。
  • OpenAI 相容 API:可無縫遷移與集成符合 OpenAI API 標準的工具,如 ClineCursor、Trae 和 Qwen Code
  • Anthropic 相容 API:可與 Claude Code 無縫集成,用於代理編程工作流与其他符合 Anthropic API 標準的工具。

使用場景與應用

進階問題求解

K2-Thinking 擅長處理博士級數學、複雜推理任務,以及需要深厚領域知識與跨數百步推理步驟持續分析思考的多學科問題。

自主研究代理

  • 資訊整合:從多個來源收集、分析並整合資訊
  • 事實驗證:跨文檔與數據庫交叉驗證主張
  • 文獻回顧:分析學術論文並提取關鍵發現
  • 競爭情報:研究市場趨勢與競爭對手的策略

複雜編程任務

  • 系統設計:根據需求設計完整應用架構
  • 錯誤排查:透過系統分析除錯複雜問題
  • 程式碼重構:透過架構級改進提升程式碼庫品質
  • 前端開發:構建響應式、組件豐富的網頁應用

長周期工作流

  • 文檔分析:處理與理解長篇技術規範
  • 程式碼庫探索:瀏覽與理解大型軟體項目
  • 多步驟自動化:協調跨多種工具的複雜工作流
  • 策略規劃:制定包含詳細行動計劃的全面策略

創意與技術寫作

K2-Thinking 在長篇寫作任務中表現優異,能輸出連貫、結構清晰的內容,在長篇幅輸出中保持一致性。

結論

Kimi-K2-Thinking 代表了開源 AI 發展的關鍵節點,為開發者社群帶來了前沿級別的推理能力。其深度多步驟推理、廣泛工具編排與透明思考流程的結合,使其成為構建需要持續分析思考的複雜 AI 代理與應用的理想選擇。

K2-Thinking 擁有可與 GPT-5、Claude Sonnet 4.5 等專有模型比肩甚至超越的最先進效能、用於高效推理的原生 INT4 量化技術,以及 256,000 token 的上下文窗口,為突破代理 AI 邊界的開發者提供了無與倫比的價值。

立即在 Novita AI 上體驗 Kimi-K2-Thinking 演示,感受開源推理智能的未來!

常見問題

Kimi-K2-Thinking 是什麼?

Kimi-K2-Thinking 是 Moonshot AI 最先進的開源推理模型,作為一款「思考型代理」設計,結合了深度多步驟推理與工具編排能力。它可執行 200 至 300 次連續工具調用,同時在數百步推理中保持邏輯連貫。

Kimi-K2-Thinking 與其他推理模型相比有何優勢?

Kimi-K2-Thinking 在開源模型中達到最先進的效能,在推理與代理基準測試中多次超越 GPT-5、Claude Sonnet 4.5 等專有模型。它在「人類最後考試」(HLE)中得分 44.9%,在 BrowseComp 中得分 60.2%,在 SWE-Bench Verified 中得分 71.3%。

Kimi-K2-Thinking 與 Kimi-K2-Instruct 有何不同?

Kimi-K2-Thinking 在 Novita AI 的定價為每百萬輸入 token 0.60 美元、每百萬輸出 token 2.50 美元,與專有推理模型相比性價比極高。

Kimi-K2-Thinking 是否適用於生產環境?

是的。Kimi-K2-Thinking 透過量化感知訓練實現原生 INT4 量化,在無損精度的前提下將生成速度提升 2 倍,非常適合大規模生產部署。

Novita AI 是領先的 AI 雲端平台,為開發者提供易於使用的 API 與實惠、可靠的 GPU 基礎設施,助力構建與擴展 AI 應用。