2026 年,项目的最佳开源 LLM 取决于任务,而非基准测试的标题。像 DeepSeek V4 Pro、Qwen 3.5、Kimi K2 和 GLM-5 这样的模型在特定基准测试上已经达到或超越封闭 API,但实际的问题更简单:你是需要自己运行模型,还是需要它在没有 GPU 运维团队的情况下可靠地投入生产?本指南涵盖了领先的开源 LLM、如何选择自托管与托管 API 访问,以及如何使用 Novita AI 将开源模型接入编码代理。
什么算作开源 LLM?
在实践中,“开源”涵盖了广泛的范围。操作上最重要的区别在于你是否能自己运行模型权重,而不是训练代码是否公开。常见的情况有:
- 完全开放权重且许可宽松(Apache 2.0、MIT): 你可以不受限制地使用、修改和商业性提供模型。例如:Qwen 3.5 (Apache 2.0)、DeepSeek R1 (MIT)、GLM-5 (MIT)。
- 开放权重但具有自定义许可: 权重可下载,但商业使用、再分发或微调可能有限制。Meta 的 Llama 4 使用自定义许可,对月活用户超过 7 亿有阈值限制。
- 仅限研究或门控权重: 权重可用,但仅限于非商业用途或需要批准。对生产团队来说参考价值较低。
对于大多数生产决策,实际过滤条件是:你能否合法地向用户提供该模型,并且许可是否允许你需要的商业用途?
2026 年最佳开源 LLM
开放权重层已经显著压缩。仅在 2026 年 4 月就有七个主要的开源模型发布。以下是值得评估的模型:
通用与推理
DeepSeek V4 Pro(685B,近似 MIT)是目前编码代理的基准领先者。它在 SWE-Bench 和函数调用基准测试上与封闭前沿模型持平或超越,使其成为需要读取大型代码库并执行多步骤工具调用的编码代理的实用选择。如果你没有运行 685B 模型的基础设施,它可作为托管 API 使用。
Qwen 3.5(397B MoE,Apache 2.0)是可用的最强完全宽松许可模型。总参数量 397B,激活参数 17B,在竞争性推理和编码得分的同时,每个 token 的成本效益很高。Apache 2.0 许可使其在许可兼容性重要时成为默认选择。
Kimi K2(约 1T MoE)来自 Moonshot AI,在开放模型中排名 Artificial Analysis Index 榜首,特别擅长工具使用和长上下文任务。如果你不想自托管一个万亿参数 MoE,可通过托管 API 使用。
DeepSeek R1(685B,MIT)仍然是数学和形式推理的最强选择 —— AIME 上 79.8%。如果你的应用涉及代码验证、形式证明或结构化推理链,R1 是基准参考点。
GLM-5(744B,MIT)来自智谱 AI,是首个在 AI Intelligence Index 上达到 50 的开放权重模型,并在 BenchLM 的开放权重排行榜上获得 85 分。在自主 bug 修复工作流中表现强劲。
编码专用
Qwen 2.5 Coder 32B(Apache 2.0)在 HumanEval 上达到 92%,可在单张 RTX 4090 上运行。如果你需要一个能在消费级硬件上自托管的编码模型,这是实用的选择。
Kimi K2 Code 是 Kimi K2 的编码变体,可通过 API 访问,专为代码生成和编码代理任务优化。在 Novita AI 上可用,支持 262K 上下文。
小型高效
微软 Phi-4 14B 可在 8GB 显存中运行,能很好地处理指令跟随、代码和轻度推理。当延迟和硬件限制比峰值质量更重要时使用它。
Meta Llama 4 Scout 支持高达 1000 万 token 上下文,可装入 16GB 显存。当你的工作负载涉及长文档处理时,这是正确的选择。
模型对比一览
| 模型 | 大小 | 许可 | 最佳用途 | 上下文 |
|---|---|---|---|---|
| DeepSeek V4 Pro | 685B | 近似 MIT | 编码代理、SWE-Bench | 1M |
| Qwen 3.5 | 397B MoE | Apache 2.0 | 推理、商业使用 | 128K |
| Kimi K2 | ~1T MoE | 自定义 | 工具使用、长上下文 | 128K |
| DeepSeek R1 | 685B | MIT | 数学、形式推理 | 163K |
| GLM-5 | 744B | MIT | Bug 修复、通用 | 128K |
| Qwen 2.5 Coder 32B | 32B | Apache 2.0 | 代码、自托管 | 128K |
| Phi-4 14B | 14B | MIT | 低显存、开发使用 | 128K |
| Llama 4 Scout | ~109B | 自定义 | 长上下文文档 | 10M |
自托管 vs. 托管 API 推理
这是一个运营决策,决定了你的实际成本和时间投入。简而言之:除非你每天处理大约 200–500 万个 token 以上且在 12 个月内流量持续,否则托管 API 推理更便宜且操作更快。
托管 API 推理胜出的情况
- 你的团队没有 GPU 运维经验
- 你仍在原型设计或迭代模型选择
- 你的 token 量低于自托管的盈亏平衡点
- 你需要随着新版本发布快速切换模型
- 可靠性和自动扩展比成本优化更重要
托管 LLM API(尤其是与 OpenAI 兼容的 API)允许你通过一行更改基本 URL 和模型 ID 来添加新模型。你无需处理冷启动管理、量化权衡、批处理配置和服务框架升级。
自托管胜出的情况
- 你的数据不能离开你的基础设施(医疗、金融、法律、受监管行业)
- 你每天处理超过 500 万个 token 且流量可预测
- 你需要提供托管提供商没有的微调或适配检查点
- 你有现有的 GPU 集群且有可用容量
在 H100 上使用 SGLang 或 vLLM 进行自托管在规模上确实具有成本效益。最近的基准测试显示,SGLang 在标准工作负载上比 vLLM 吞吐量高 29%,通过 RadixAttention 在前缀繁重的 RAG 流水线上快 6 倍。但只有在你有运维能力通过模型更新、硬件故障和流量峰值来维护服务栈时,这些收益才有意义。
混合路径
大多数团队最终采用混合方式:原型设计和灵活模型访问使用托管 API,工作负载需要专用容量时使用 GPU 实例。留在单一 AI 云平台上的实际好处是,当你从无服务器 API 迁移到专用端点再到自定义 GPU 实例时,无需重新构建认证、计费、可观测性和部署流水线。
如何通过 API 访问开源 LLM
Novita AI 提供 OpenAI 兼容的 API 访问,涵盖一系列开源模型,包括 DeepSeek V4 Pro、DeepSeek V4 Flash、Kimi K2、Qwen 3.5、GLM-5、MiniMax M3 等。端点结构与 OpenAI 相同,因此使用 openai SDK 的现有代码只需少量更改即可连接到 Novita 模型。
基本 API 调用
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="你的_NOVITA_API_KEY",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-pro",
messages=[
{"role": "system", "content": "你是一个有用的助手。"},
{"role": "user", "content": "解释 DeepSeek R1 和 V4 Pro 之间的区别。"},
],
)
print(response.choices[0].message.content)
要切换模型,更改 model 参数即可。无需其他更改。支持的模型 ID 完整列表请访问 novita.ai/docs/model-api/reference/llm/models.html。
TypeScript
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.novita.ai/v3/openai",
apiKey: process.env.NOVITA_API_KEY,
});
const response = await client.chat.completions.create({
model: "qwen/qwen3.5-397b-a17b",
messages: [{ role: "user", content: "写一个 Python 函数来解析 JSON。" }],
});
console.log(response.choices[0].message.content);
定价参考
价格因模型而异,按每百万 token 计费。DeepSeek V4 Flash 输入 $0.14/Mt,输出 $0.28/Mt,是最具成本效益的通用选项。DeepSeek V4 Pro 输入 $1.60/Mt,输出 $3.20/Mt,是编码代理工作流的首选,因为模型质量直接影响任务完成率。请查看 novita.ai/models/llm 获取当前定价,因为这会随着新模型的添加而变化。
用于编码代理的开源 LLM
2026 年最有效的编码代理设置将开源 LLM 用于推理和代码生成,与沙盒化执行环境结合用于运行代码。这是一种与简单 API 调用不同的架构:代理需要读取文件、编写代码、运行命令、检查输出并进行迭代。
需要避免的两种失败模式:
- 在开发机器或生产服务器上运行代理生成的代码 —— 如果模型生成破坏性或意外内容,这是一个错误
- 自己为每个代理会话设置一个完整的虚拟机 —— 增长迅速但扩展缓慢
Novita Agent Sandbox
Novita 的 Agent Sandbox 提供隔离的 Linux 环境,启动时间低于 200 毫秒。每个沙盒都有一个代理可以读写文件系统、一个代理可以运行命令的 shell,以及隔离性,确保模型生成的内容不会影响其他沙盒或你的基础设施。会话跨请求持久化,因此代理可以在多步骤任务中保持状态。
Python SDK 使用简单:
from novita_sandbox.code_interpreter import Sandbox
sandbox = Sandbox.create()
# 代理写入文件
sandbox.files.write("/workspace/app.py", code_content)
# 代理运行
result = sandbox.commands.run("python /workspace/app.py")
print(result.stdout)
# 清理
sandbox.kill()
将此与 Novita LLM API 上任何 OpenAI 兼容的模型配对,你就拥有了一个可以生成、运行、检查和修订代码的编码代理,而无需除 API 密钥之外的任何基础设施。
开源代理框架
有几个开源编码代理可作为即用运行时部署在 Novita 的 Agent Sandbox 上:
- OpenClaw on Novita —— 通过 Novita 沙盒部署一个持久化的 OpenClaw 代理,无会话上限。它会自动连接到 Novita 的 LLM API 和沙盒,使其适用于长时间运行的自动化任务。
- Hermes Agent —— 来自 Nous Research 的自主代理,具有持久化记忆。作为长期运行的进程而不是单个会话运行。
- Goose —— 一个开源编码代理(GitHub 星标 45K+),将 Novita 作为原生提供者,使其能够通过一个凭证访问 200 多个模型。
对于构建自定义编码代理而不是部署现有框架的团队,Novita Agent Runtime 提供了轻量级的脚手架层,处理沙盒生命周期、工具调用路由和会话持久化。
你应该使用哪个开源 LLM?
决策树很短:
对于编码和代理任务: 从通过 API 使用 DeepSeek V4 Pro 开始。它是 SWE-Bench 和多步骤工具使用的当前性能领先者。如果成本是约束,DeepSeek V4 Flash 以极低的价格处理更简单的代码任务。
对于推理和数学: DeepSeek R1 仍然是 AIME 和形式推理的基准参考。当任务涉及结构化问题解决而不是代码执行时使用它。
对于开放许可的商业使用: 当你的法律团队需要干净的许可时,Apache 2.0 下的 Qwen 3.5 是最安全的选择。397B MoE 架构尽管参数大,但每个 token 的成本较低。
对于消费级 GPU 上的自托管编码: Qwen 2.5 Coder 32B 可在单张 RTX 4090 上运行,HumanEval 得分 92%。如果你需要自托管一个编码模型而没有高端 GPU 基础设施,这是实用的选择。
对于长文档: Llama 4 Scout 拥有 1000 万 token 上下文窗口,可以处理任何其他模型需要分块的工作负载。
对于小型环境: Phi-4 14B 可装入 8GB 显存,能很好地处理指令跟随、代码生成和轻度推理。
所有这些选择的模式是:托管 API 访问消除了运维开销,并允许你随着格局演变切换模型。当数据主权或规模下的 token 经济性证明 GPU 运维投资合理时,自托管才有意义。大多数生产团队最终两者都做。
结论
2026 年的开源 LLM 格局与两年前根本不同。像 DeepSeek V4 Pro、Qwen 3.5 和 Kimi K2 这样的模型不再是“对大多数任务足够好”,而是特定工作负载(如编码代理、形式推理和长上下文文档处理)的首选。
实际决策不是哪个模型在排行榜上最好,而是哪个模型适合你的运营模式:如果需要快速推进并避免 GPU 运维,选择托管 API;如果数据不能离开你的基础设施或 token 经济性值得投资,选择自托管;如果模型需要对代码进行操作而不仅仅是生成代码,则选择沙盒执行层。
Novita AI 的 LLM API 在一个 OpenAI 兼容的端点后面覆盖了主要的开源模型,因此你可以使用相同的集成代码针对 DeepSeek、Qwen、Kimi 或 GLM 运行,而无需为每个模型发布重建你的栈。当任务需要代码执行时,将其与 Agent Sandbox 配对,你就拥有了生产就绪编码代理的核心,而无需自行管理底层基础设施。
常见问题
2026 年最佳开源 LLM 是什么?
DeepSeek V4 Pro 和 Kimi K2 在通用基准测试上领先,其中 DeepSeek V4 Pro 在编码代理和 SWE-Bench 上尤为领先。Qwen 3.5 是最强的宽松许可选项(Apache 2.0)。正确答案取决于你的任务:编码、推理、长上下文或低显存。
本地使用的最佳开源 LLM 有哪些?
Qwen 2.5 Coder 32B(单张 RTX 4090)、Phi-4 14B(8GB 显存)和 Llama 4 Scout(16GB 显存,1000 万上下文)是本地推理的实用选择。70B 以上的模型通常需要多 GPU 设置。
开源大型语言模型和封闭模型一样好吗?
对于特定任务,是的。DeepSeek V4 Pro 在 SWE-Bench 和编码基准测试上匹配或超越 GPT-4.1。对于通用的开放式任务,顶级封闭模型仍然具有优势。差距严重依赖于特定任务和基准测试。
今天有什么开源 LLM 新闻?
2026 年开源 LLM 的发布节奏大约每月一次。最近的重大发布包括 GLM-5、Kimi K2、DeepSeek V4 Pro 和 Qwen 3.5。有关最新新闻,请关注 Novita AI 博客并查看 Artificial Analysis 排行榜以获取更新的排名。
如何在不自托管的情况下访问开源 LLM 模型?
使用托管推理 API。Novita AI 提供 OpenAI 兼容的访问,支持 DeepSeek、Qwen、Kimi、GLM、MiniMax 和其他开源模型。将你的基本 URL 更改为 https://api.novita.ai/v3/openai,并将模型 ID 更改为你想要的型号;现有代码无需其他更改。
开源 LLM 和开源语言模型有什么区别?
在大多数语境下,这两个术语互换使用。技术上,“大型语言模型”特指在规模上训练的基于 Transformer 的语言模型。“开源语言模型”也可以指较小的模型或非 Transformer 架构的模型,但在当前用法中,这两个术语描述的是同一类模型。
