Novita AI 上的 KAT-Dev-32B:开源编程能力基准测试

Novita AI 上的 KAT-Dev-32B:开源编程能力基准测试

Novita AI 上的 KAT-Dev-32B 正在为软件工程领域的开源 AI 树立新标准。该模型拥有 320 亿参数,采用多阶段训练流程,在保持高效和高性能的同时,完全向研究人员和开发者开放。在 SWE-Bench Verified 测试中,它解决了 62.4% 的任务,在所有规模的开源模型中排名第 5。该模型由快手 AI 探索团队 Kwaipilot 开发,旨在为全球开发者提供先进的代码智能能力。

Novita AI 当前定价: 65536 上下文窗口,输入 token 每 100 万条 0.15 美元,输出 token 每 100 万条 0.40 美元

试用 DeepSeek KAT-Dev-32B 演示

什么是 KAT-Dev-32B?

KAT-Dev-32B 是一款拥有 320 亿参数的开源大语言模型,专为软件工程任务设计。它由快手探索前沿大模型能力的 AI 研究团队 Kwaipilot开发。该模型基于 Qwen3-32B 构建,针对代码生成、Bug 修复、重构、测试和部署工作流进行了优化。模型采用 kwaipilot 许可证发布,可在 Hugging Face 获取,也可通过 Novita AI Playground 直接访问。

KAT-Dev-32B 有哪些独特优势?

KAT-Dev-32B 的独特之处在于其面向任务的训练流程,该流程强化了智能体风格推理和开发者工作流集成能力。与通用大语言模型不同,它支持长多轮交互、工具调用,以及调试、配置等面向开发者的场景。在 Novita AI 平台上,这些优势得到了可扩展基础设施和易用界面的支持,用户可即时获取开源代码智能能力。

KAT-Dev-32B 是如何训练的?

KAT-Dev-32B 的出色性能来自三个精心设计的训练与调优阶段。

中期训练

这一阶段构建基础技能,涵盖沙箱环境中的工具使用、长多轮对话处理、Git 提交/PR 数据理解,同时融入领域专属的编码知识和指令遵循能力。

监督微调与强化微调

这一阶段,模型针对 8 类任务(如 Bug 修复、性能优化、代码重构、代码理解)和 8 种编程场景(覆盖从机器学习/人工智能到安全工程的全领域)进行专项优化。在强化学习之前,会先进行强化微调(RFT)阶段,引入“专家轨迹”——即人类资深工程师的示例,以提升模型的稳定性和泛化能力。

智能体强化学习扩展

最后的扩展阶段采用先进技术解决强化学习中的效率难题:

  • 前缀缓存技术,加速概率计算
  • 基于熵的轨迹剪枝,仅保留高价值节点
  • SeamlessFlow 架构,将训练与智能体行为解耦,最大化吞吐量

KAT-Dev-32B 在 SWE-Bench 上的表现如何?

KAT-Dev-32B 在 SWE-Bench Verified 测试中达到了 62.4% 的解决率,在所有规模的开源模型中排名第 5。这表明经过高效训练的 320 亿参数模型,能够达到与远大规模系统相当的实际编码可靠性。

开源模型在 SWE-Bench Verified 上的表现(KAT-Dev-32B 已标注)

如何在 Novita AI 上开始使用 KAT-Dev-32B?

通过 Novita AI 使用 KAT-Dev-32B 非常简单,无论是非技术用户还是开发者都能轻松上手。

Playground 访问

  • 即时访问:注册后即可在数秒内开始试用 KAT-Dev-32B
  • 交互式界面:可实时测试编码提示词、调试应用、可视化模型响应
  • 模型对比:可将 KAT-Dev-32B 与其他模型对比,评估其适用性

Playground 非常适合原型开发、调试和探索模型行为,无需任何额外配置。

API 集成

对于开发者而言,Novita AI 提供了统一的 REST API,方便将 KAT-Dev-32B 集成到各类应用中。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "kwaipilot/kat-dev"
stream = True # or False
max_tokens = 32768
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

该灵活的集成方案支持温度参数、惩罚项、重复度控制以及流式输出,可满足生产工作流的需求。

第三方工具

Novita AI 确保与更广泛的生态系统兼容:

  • 支持与 Cursor、Qwen Code、Codex、Cline 等 IDE 集成
  • 可对接 LangChain、Dify、CrewAI、Langflow 等编排工具
  • 提供 Hugging Face 推理支持,便于全生态部署

总结

Novita AI 上的 KAT-Dev-32B 通过开源开放和可扩展的云基础设施,让先进的代码智能能力触手可及。凭借其三阶段训练流程、智能体强化学习扩展技术以及出色的 SWE-Bench 基准测试成绩,它是研究和生产编码任务的可靠解决方案。该模型由快手 AI 探索团队 Kwaipilot开发,将前沿研究与实际软件工程应用完美结合。

即刻开启更智能的构建之旅——在 Novita AI Playground 中探索 KAT-Dev-32B,或通过 API 直接集成,将下一代编码性能融入您的工作流。

Novita AI 是一个 AI 云平台,为开发者提供简单的 API 来部署 AI 模型,同时提供高性价比、可靠的 GPU 云服务,用于模型构建和扩展。