Kimi‑K2‑Instruct 現已於 Novita AI 上線

什麼是 Kimi K2？
指令模型評估結果
Kimi-K2 支援的引擎與最低硬體需求
如何在 Novita AI 上存取 Kimi‑K2‑Instruct
結論

Kimi‑K2‑Instruct 由 Moonshot AI 開發，是一款可透過 Novita AI 存取的新一代稀疏 MoE 模型。擁有 1 兆個總參數、320 億個啟用參數以及 128,000 個 token 的上下文視窗，專為代理行為、工具使用及長上下文推理而設計。

以下是 Novita AI 上 Kimi‑K2‑Instruct 的當前定價：輸入 token 每百萬 $0.57，輸出 token 每百萬 $2.3

什麼是 Kimi K2？

Moonshot AI（總部位於北京，成立於 2023 年）是 Kimi 品牌背後的推手，包括 K1.5、K2 以及多模態 Kimi‑VL 模型。他們的開放科學使命旨在讓強大的自主式智能普及化。

Kimi K2 由 Moonshot AI 開發，是一款尖端的混合專家（MoE）語言模型，擁有 320 億個啟用參數和總計 1 兆個參數。使用 Muon 最佳化器訓練，Kimi K2 在尖端知識、推理和編碼任務中表現出色，同時針對進階代理能力進行了精細調校。

主要功能

大規模訓練：在 15.5 兆個 token 上預訓練了 1 兆參數的 MoE 模型，訓練過程零不穩定性。
MuonClip 最佳化器：我們將 Muon 最佳化器應用於前所未有的規模，並開發新穎的最佳化技術來解決擴展時的不穩定性。
代理智能：專為工具使用、推理和自主問題解決而設計。

模型變體

Kimi-K2-Base：基礎模型，為研究人員和想要完全控制微調和自訂解決方案的開發者提供堅實的起點。
Kimi-K2-Instruct：後訓練模型，最適合直接、通用目的的對話和代理體驗。這是一個反射級模型，無需長時間思考。

指令模型評估結果

基準測試	指標	^{Kimi K2 Instruct}	^{DeepSeek-V3-0324}	^{Qwen3-235B-A22B (非思考)}	^{Claude Sonnet 4 (無擴展思考)}	^{Claude Opus 4 (無擴展思考)}	^GPT-4.1	^{Gemini 2.5 Flash Preview (05-20)}
編碼任務
LiveCodeBench v6 ^{(2024年8月 - 2025年5月)}	Pass@1	53.7	46.9	37.0	48.5	47.4	44.7	44.7
OJBench	Pass@1	27.1	24.0	11.3	15.3	19.6	19.5	19.5
MultiPL-E	Pass@1	85.7	83.1	78.2	88.6	89.6	86.7	85.6
SWE-bench Verified ^{(無代理式編碼)}	單個修補程式不經測試 (準確度)	51.8	36.6	39.4	50.2	53.0	40.8	32.6
SWE-bench Verified ^{(代理式編碼)}	單次嘗試 (準確度)	65.8	38.8	34.4	72.7^*	72.5^*	54.6	—
多次嘗試 (準確度)	71.6	—	—	80.2	79.4^*	—	—
SWE-bench Multilingual ^{(代理式編碼)}	單次嘗試 (準確度)	47.3	25.8	20.9	51.0	—	31.5	—
TerminalBench	內部框架 (準確度)	30.0	—	—	35.5	43.2	8.3	—
Terminus (準確度)	25.0	16.3	6.6	—	—	30.3	16.8
Aider-Polyglot	準確度	60.0	55.1	61.8	56.4	70.7	52.4	44.0
工具使用任務
Tau2 retail	Avg@4	70.6	69.1	57.0	75.0	81.8	74.8	64.3
Tau2 airline	Avg@4	56.5	39.0	26.5	55.5	60.0	54.5	42.5
Tau2 telecom	Avg@4	65.8	32.5	22.1	45.2	57.0	38.6	16.9
AceBench	準確度	76.5	72.7	70.5	76.2	75.6	80.1	74.5
數學與 STEM 任務
AIME 2024	Avg@64	69.6	59.4^*	40.1^*	43.4	48.2	46.5	61.3
AIME 2025	Avg@64	49.5	46.7	24.7^*	33.1^*	33.9^*	37.0	46.6
MATH-500	準確度	97.4	94.0^*	91.2^*	94.0	94.4	92.4	95.4
HMMT 2025	Avg@32	38.8	27.5	11.9	15.9	15.9	19.4	34.7
CNMO 2024	Avg@16	74.3	74.7	48.6	60.4	57.6	56.6	75.0
PolyMath-en	Avg@4	65.1	59.5	51.9	52.8	49.8	54.0	49.9
ZebraLogic	準確度	89.0	84.0	37.7^*	73.7	59.3	58.5	57.9
AutoLogi	準確度	89.5	88.9	83.3	89.8	86.1	88.2	84.1
GPQA-Diamond	Avg@8	75.1	68.4^*	62.9^*	70.0^*	74.9^*	66.3	68.2
SuperGPQA	準確度	57.2	53.7	50.2	55.7	56.5	50.8	49.6
Humanity’s Last Exam ^(僅文字)	-	4.7	5.2	5.7	5.8	7.1	3.7	5.6
通用任務
MMLU	EM	89.5	89.4	87.0	91.5	92.9	90.4	90.1
MMLU-Redux	EM	92.7	90.5	89.2	93.6	94.2	92.4	90.6
MMLU-Pro	EM	81.1	81.2^*	77.3	83.7	86.6	81.8	79.4
IFEval	Prompt Strict	89.8	81.1	83.2^*	87.6	87.4	88.0	84.3
Multi-Challenge	準確度	54.1	31.4	34.0	46.8	49.0	36.4	39.5
SimpleQA	正確率	31.0	27.7	13.2	15.9	22.8	42.3	23.3
Livebench	Pass@1	76.4	72.4	67.6	74.8	74.6	69.8	67.8

Kimi-K2 支援的引擎與最低硬體需求

支援的引擎

vLLM
SGLang
TensorRT-LLM
KTransformers

最低硬體需求

硬體	最低需求
GPU 類型	H200
叢集大小	16 顆 GPU（最低）
並行模式	張量並行 (TP-16) 或資料並行 + 專家並行
權重格式	FP8 權重，支援 128k seqlen

vLLM 與 SGLang 的部署範例可在模型部署指南中找到。

如何在 Novita AI 上存取 Kimi‑K2‑Instruct

在 Novita AI 上開始使用 Kimi‑K2‑Instruct 快速、簡單且經濟實惠。

使用 Playground（無需編碼）

即時存取：註冊後即可在數秒內開始體驗 Kimi‑K2‑Instruct 及其他頂尖模型。
互動式介面：透過直覺的介面體驗模型。
模型比較：輕鬆在 Kimi‑K2‑Instruct 與其他頂尖模型之間切換，找到最符合您需求的選擇。

立即探索 Kimi-K2-Instruct 示範

透過 API 整合（適用於開發者）

透過 Novita AI 的統一 REST API 無縫將 Kimi‑K2‑Instruct 連接到您的應用程式、工作流程或聊天機器人——無需管理模型權重或基礎設施。

選項 1：直接 API 整合（Python 範例）

使用以下程式碼片段即可開始：

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "moonshotai/kimi-k2-instruct"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

主要功能：

統一端點：/v3/openai 支援 OpenAI 的聊天完成 API 格式。
靈活控制： 調整 temperature、top-p、懲罰係數等，以獲得客製化結果。
串流與批次： 選擇偏好的回應模式。

選項 2：使用 OpenAI Agents SDK 的多代理工作流程

透過將 Novita AI 與 OpenAI Agents SDK 整合，建構先進的多模態代理系統：

即插即用：在任何 OpenAI Agents 工作流程中使用 Kimi‑K2‑Instruct。
支援交接、路由與工具使用：設計能夠分析視覺內容、委派任務或執行函式的代理。
Python 整合：將 SDK 指向 Novita 的端點 (https://api.novita.ai/v3/openai)，並使用您的 API 密鑰即可實現流暢的代理工作流程。

選項 3：在第三方平台上連接 Kimi‑K2‑Instruct API

Hugging Face：透過 Novita AI 端點在 Spaces、pipeline 或 Transformers 函式庫中使用 Kimi‑K2‑Instruct。
代理與編排框架： 透過官方連接器和逐步整合指南，輕鬆將 Novita AI 與合作夥伴平台（如 Continue、AnythingLLM、LangChain、Dify 及 Langflow）連接。
OpenAI 相容 API： 享受與專為 OpenAI API 標準設計的工具（如 Cline、Trae、Cursor）的無痛遷移與整合。

結論

Kimi-K2-Instruct 是一個強大、開放存取的 1 兆參數 MoE 模型，推動編碼、推理及代理式 AI 的前沿。

現已於 Novita AI 上線，它融合了大規模、工具使用智能及長上下文處理——全部可搭配高效推論基礎設施部署。對於正在建構下一世代 AI 助手、代理及推理引擎的開發者與研究人員而言，Kimi-K2-Instruct 提供了一個強大、靈活且可投入生產的尖端基礎。

立即在 Novita AI 上試用 Kimi-K2-Instruct 示範！

Novita AI 是一個 AI 雲端平台，為開發者提供透過簡單 API 輕鬆部署 AI 模型的方式，同時也提供經濟實惠且可靠的 GPU 雲端服務來建構與擴展。

Kimi‑K2‑Instruct 現已於 Novita AI 上線

什麼是 Kimi K2？

主要功能

模型變體

指令模型評估結果