KAT-Dev-32B 上線 Novita AI:開源編程能力的基準測試

KAT-Dev-32B 上線 Novita AI:開源編程能力的基準測試

Novita AI 上的 KAT-Dev-32B 正為軟體工程領域的開源 AI 樹立新標竿。這款模型擁有 320 億參數,透過多階段訓練流程,在效率與效能之間取得平衡,同時完全對研究人員與開發者開放。在 SWE-Bench Verified 測試中,它能解決 62.4% 的任務,在所有規模的開源模型中排名第五。該模型由快手的 AI 探索團隊 Kwaipilot 開發,旨在為全球開發者帶來先進的程式碼智慧。

Novita AI 目前定價: 65,536 上下文視窗,每百萬個輸入 token 0.15 美元,每百萬個輸出 token 0.40 美元

試用 DeepSeek KAT-Dev-32B 示範

什麼是 KAT-Dev-32B?

KAT-Dev-32B 是一款擁有 320 億參數的開源大型語言模型,專為軟體工程任務設計。它由快手探索前沿大型模型能力的 AI 研究團隊 Kwaipilot開發。它以 Qwen3-32B 為基礎,針對程式碼生成、錯誤修復、重構、測試與部署工作流程進行了優化。該模型在 kwaipilot 授權條款下發布,可在 Hugging Face 下載,也可透過 Novita AI Playground 直接使用。

KAT-Dev-32B 的獨特之處?

KAT-Dev-32B 的獨特之處在於其以任務為核心的訓練流程,能強化代理式推理能力與開發者工作流程的整合。與通用大型語言模型不同,它支援長多輪互動、工具使用,以及除錯、設定等開發者導向的場景。在 Novita AI 平台上,這些優勢能透過可擴展的基礎設施與易於使用的介面得到支持,使用者可以即時獲取開源編程智慧。

KAT-Dev-32B 的訓練方式是怎样的?

KAT-Dev-32B 的效能來自三個精心設計的訓練與調校階段。

中期訓練

這個階段建立基礎技能,包含在沙箱環境中使用工具、處理長多輪對話,以及理解 Git 提交/PR 資料。同時也納入了領域特定的編程知識與指令遵循能力。

監督式與強化學習微調

在這個階段,模型會以八種任務類型(如錯誤修復、優化、重構、程式碼理解)與八種編程場景(從機器學習/ AI 到安全工程)進行精心數據策劃的訓練。在強化學習之前,會先進行強化微調(RFT)階段,加入「教師軌跡」——也就是專家人類工程師的示例,提升模型的穩定度與泛化能力。

代理式強化學習擴展

最後的擴展階段使用先進技術解決強化學習中的效率挑戰:

  • 前綴快取(Prefix caching):加快機率計算速度
  • 基於熵的軌跡修剪:僅保留高價值節點
  • SeamlessFlow 架構:將訓練與代理行為解耦,最大化吞吐量

KAT-Dev-32B 在 SWE-Bench 上的表現如何?

KAT-Dev-32B 在 SWE-Bench Verified 測試中達到 62.4% 的解決率,在所有規模的開源模型中排名第五。這證明了一個經過高效訓練的 32B 模型,能達到與大得多的系統不相上下的實際編程可靠性。

開源模型在 SWE-Bench Verified 上的表現(KAT-Dev-32B 已標註)

如何在 Novita AI 上開始使用 KAT-Dev-32B?

透過 Novita AI 使用 KAT-Dev-32B 非常簡單,無論是技術背景的使用者還是開發者都能輕鬆上手。

Playground 存取

  • 即時存取:註冊後即可在幾秒內開始體驗 KAT-Dev-32B
  • 互動式介面:可即時測試編程提示、除錯應用程式、可視化回覆內容
  • 模型比較:可將 KAT-Dev-32B 與其他模型進行比較,評估是否符合需求

Playground 非常適合用於原型設計、除錯,以及無需任何設定即可探索模型行為。

API 整合

對於開發者而言,Novita AI 提供統一的 REST API,可將 KAT-Dev-32B 整合到應用程式中。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "kwaipilot/kat-dev"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

這個靈活的整合支援溫度、懲罰參數、重複控制與串流輸出,適用於生產工作流程。

第三方工具

Novita AI 確保與更廣泛的生態系統相容:

  • 支援 Cursor、Qwen Code、Codex、Cline 等 IDE
  • 可與 LangChain、Dify、CrewAI、Langflow 等編排工具連接
  • 提供 Hugging Face 推論支持,實現生態系統範圍內的部署

結論

Novita AI 上的 KAT-Dev-32B 透過開源釋出與可擴展的雲端基礎設施,讓先進的編程智慧變得觸手可及。憑藉其三階段訓練流程、代理式強化學習擴展技術,以及優異的 SWE-Bench 基準測試成績,它是研究與生產編程任務的可靠解決方案。該模型由快手的 AI 探索團隊 Kwaipilot開發,結合了前沿研究與實際軟體工程應用。

今天就開始構建更聰明的應用——在 Novita AI Playground 中探索 KAT-Dev-32B,或直接透過 API 整合,將下一代編程效能帶入您的工作流程。

Novita AI 是一個 AI 雲端平台,為開發者提供簡單的 API 來部署 AI 模型,同時也提供實惠且可靠的 GPU 雲端服務,用於構建與擴展 AI 應用。