Qwen3 的多样性是刻意的 :它让开发者能够在 准确性、成本、内存和硬件 之间做出合适的权衡,同时保持统一的核心能力—— 混合推理。本指南帮助你了解这些差异,并找到最适合你特定需求的 Qwen3 模型——无论你是在构建聊天机器人、编程助手还是 AI 研究代理。
为什么 Qwen 3 系列有这么多模型?

来源:Qwen
Qwen3 235B A22B / Qwen3 32B
- 基座模型(Base Models)
这是训练的起点,代表原始的基座模型。 - 阶段一:长思考冷启动(Long-CoT Cold Start)
长链推理(Long-CoT)作为冷启动阶段,帮助模型获得复杂推理任务的初始能力。 - 阶段二:推理强化学习(Reasoning RL)
通过推理强化学习(Reasoning RL),进一步增强模型对任务的推理能力。 - 阶段三:思考模式融合(Thinking Mode Fusion)
融合不同的思考模式(例如逻辑推理、直觉判断),提升模型的通用性和灵活性。 - 阶段四:通用强化学习(General RL)
应用通用强化学习(General RL),使模型能够适应更广泛的任务。
Qwen3 30B A3B; Qwen3 14B/8B/4B/1.7B/0.6B
- 基座模型(Base Models)
同样,这也从基座模型开始。 - 强到弱蒸馏(Strong-to-Weak Distillation)
强到弱蒸馏将前沿模型的知识迁移到轻量级模型,确保这些模型在保持效率的同时保留强大的推理能力。
Qwen 3 模型基本介绍
Qwen 3 MoE 模型
| **特性 ** | Qwen3 235B A22B | Qwen3 30B A3B |
|---|---|---|
| 模型大小 | 235B / 22B(激活) | 30.5B / 3.3B(激活) |
| 架构 | 94 层,64 个 query 注意力头,4 个 key-value 头 | 48 层,32 个 query 注意力头,4 个 key-value 头 |
| 能力 | 支持函数调用 | 支持函数调用 |
| 上下文 | 32,768 个 token | 32,768 个 token |
| 语言支持 | 119 种语言和方言 | 119 种语言和方言 |
| 多模态能力 | 文本到文本 | 文本到文本 |
Qwen 3 Dense 模型
| **模型 ** | ** 模型大小 ** | ** 层数 ** | ** 注意力头(Q / KV)** | ** 上下文长度 ** | ** 多语言支持** |
|---|---|---|---|---|---|
| Qwen3 32B | 32.8B | 64 | 64 / 8 | 32K / 最高 128K | 119 种语言和方言 |
| Qwen3 14B | 14.8B | 40 | 40 / 8 | 32K / 最高 128K | 119 种语言和方言 |
| Qwen3 8B | 8.2B | 36 | 32 / 8 | 32K / 最高 128K | 119 种语言和方言 |
| Qwen3 4B | 4.0B | 36 | 32 / 8 | 32K | 119 种语言和方言 |
| Qwen3 1.7B | 1.7B | 28 | 16 / 8 | 32K | 119 种语言和方言 |
| Qwen3 0.6B | 0.6B | 28 | 16 / 8 | 32K | 119 种语言和方言 |
关键在于 Qwen3 系列中的所有模型——包括 Qwen3 0.6B、1.7B、4B、8B、14B、32B,以及 MoE 变体 Qwen3 30B A3B 和 Qwen3 235B A22B——都支持 混合推理模式。
- 思考模式:适用于需要深入分析的复杂问题。模型逐步推理并提供经过深思熟虑的答案。
- 非思考模式:适用于简单任务。模型提供快速、近乎即时的响应。
此外,Qwen3 模型引入了 “思考预算” 机制,允许用户在推理过程中设置最大 token 使用量。这有助于控制推理深度并管理计算资源消耗。
来源:Qwen
Qwen 3 基准测试
Qwen 3 推理基准测试
| **测试 ** | Qwen3 235B | Qwen3 32B | Qwen3 30B | Qwen3 14B | Qwen3 8B | Qwen3 7B | Qwen3 4B | Qwen3 0.6B |
|---|---|---|---|---|---|---|---|---|
| MMLU-Pro | 83% | 80% | 78% | 77% | 74% | 57% | 35% | - |
| GPQA Diamond | 70% | 67% | 62% | 60% | 59% | 36% | 24% | - |
| Humanity’s Last Exam | 11.7% | 8.3% | 6.6% | 5.7% | 5.1% | 4.3% | 4.2% | - |
| LiveCodeBench | 62% | 55% | 52% | 51% | 47% | 41% | 31% | 12% |
| SciCode | 40% | 35% | 32% | 28% | 23% | 4% | 4% | 3% |
| MATH-500 | 96% | 96% | 96% | 93% | 93% | 90% | 89% | 75% |
| AIME 2024 | 84% | 81% | 76% | 75% | 75% | 66% | 51% | 10% |
Qwen 3 非推理基准测试
| **测试 ** | Qwen3 235B | Qwen3 32B | Qwen3 30B | Qwen3 14B | Qwen3 8B | Qwen3 7B | Qwen3 4B | Qwen3 0.6B |
|---|---|---|---|---|---|---|---|---|
| MMLU-Pro | 76% | 73% | 71% | 68% | 64% | 41% | 23% | - |
| GPQA Diamond | 61% | 54% | 52% | 47% | 45% | 40% | 28% | 23% |
| Humanity’s Last Exam | 5.2% | 5.2% | 4.7% | 4.6% | 4.3% | 3.7% | 2.8% | - |
| LiveCodeBench | 34% | 32% | 29% | 28% | 23% | 20% | 13% | 7% |
| SciCode | 30% | 28% | 27% | 26% | 17% | 17% | 7% | 4% |
| MATH-500 | 90% | 87% | 87% | 86% | 84% | 83% | 72% | 52% |
| AIME 2024 | 33% | 30% | 28% | 26% | 24% | 21% | 10% | 2% |
Humanity’s Last Exam 测试极端的推理和知识。所有模型表现都不佳。
- 对于需要顶级性能的 高难度任务(例如科学研究、高级编程),Qwen3 235B 是最佳选择。
- 对于计算资源有限的 成本效益型方案,Qwen3 30B 或 Qwen3 32B 提供了良好的性能与效率平衡。
- 像 Qwen3 0.6B 这样较小的模型更适合轻量级应用,但在复杂任务上可能会遇到困难。
Qwen 3 硬件需求
| 模型名称 | 所需内存(GB) |
| Qwen3 0.6B | 3.01 GB |
| Qwen3 1.7B | 5.75 GB |
| Qwen3 4B | 10.99 GB |
| Qwen3 8B | 19.82 GB |
| Qwen3 14B | 33.48 GB |
| Qwen3 30B A3B | 74.21 GB |
| Qwen3 32B | 73.5 GB |
| Qwen3 235B A22B | 553.96 GB |
0.6B–4B:本地应用、聊天机器人、轻量级边缘场景。
8B–14B:适用于中型推理服务器的强大通用模型。
32B:需要创意输出和更深层推理的高性能用例。
235B:研究级或企业级部署,对大多数用户来说成本效益不高。
哪个 Qwen 3 满足你的需求?

| **你的目标 ** | ** 推荐模型 ** | ** 原因** |
|---|---|---|
| 本地轻量级任务 / 聊天机器人 | Qwen3-0.6B / Qwen3-1.7B | 启动快、内存低(<6GB)、可在笔记本电脑上运行,适合边缘场景 |
| 平衡的推理 + 经济实惠的硬件 | Qwen3-8B / Qwen3-14B | 能很好处理通用任务,适配 16GB–24GB GPU,强大的多语言 AI |
| 高级推理与生成 | Qwen3-32B | 无需 MoE 结构,代码、数学、长文本任务的最佳 dense 模型 |
| 研究级顶级性能 | Qwen3-235B (A22B) | 在推理基准测试中得分最高,但运行成本极高 |
| 高效但功能强大的 MoE 选项 | Qwen3-30B (A3B) | 仅约 3B 激活参数即可产出强劲结果;每 GPU 内存扩展性更佳 |
如何经济高效地访问 Qwen 3 模型?
Novita AI 是一个 AI 云平台,为开发者提供了使用简单 API 轻松部署 AI 模型的途径,同时还提供经济可靠、用于构建和扩展的 GPU 云。
除了 Qwen 3 Reranker 8B 和 Embedding 8B 外,Novita AI 还免费提供 Qwen 3(0.6B、1.7B、4B)以支持开源社区的发展!
第一步:登录并访问模型库
登录你的账户,点击 模型库(Model Library) 按钮。

第二步:选择模型并开始免费试用
浏览可用的选项,选择适合你需求的模型。

第三步:获取你的 API 密钥
为了通过 API 进行身份验证,我们将为你提供一个新的 API 密钥。进入 “设置” 页面,你可以按照图中所示复制 API 密钥。

第四步:安装 API
使用你的编程语言对应的包管理器安装 API。
安装完成后,将必要的库导入到你的开发环境中。使用你的 API 密钥初始化客户端,以开始与 Novita AI LLM 交互。以下是 Python 用户使用聊天补全 API 的示例:
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="session_nkvtuVXXxS-LlR7txjZ3Rox8GhLMuv1R8IrIySNwTPN7xHJ0SVErFx3kNwJgkUEpcSM4F8c6zmcvyfuc1h59gw==",
)
model = "qwen/qwen3-32b-fp8"
stream = True # or False
max_tokens = 2048
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
无论你是在笔记本电脑上搭建聊天机器人,还是部署大规模科学代理,Qwen3 都有适合你资源和目标的模型。较小的模型(0.6B–4B)轻量且快速;中型模型(8B–14B)平衡了性能与效率;大型模型(32B、235B)在推理基准测试中领先。对于寻求经济高效访问的开发者,Novita AI 通过 API 提供了 Qwen3 模型的无缝部署——其中一些完全免费。
常见问题
哪个 Qwen3 模型最适合本地应用?
Qwen3-0.6B 或 Qwen3-1.7B。这些模型可以在普通 PC 或 Apple Silicon 设备上运行,适合轻量级任务和聊天机器人。
在高 GPU 成本下,我该选择哪个以获得强大的推理能力?
Qwen3-8B 或 Qwen3-14B。它们提供了出色的推理能力,并适用于 16–24GB VRAM 的 GPU。
什么时候应该使用 Qwen3-32B?
当你需要高级逻辑、编程和长文本生成,而不想依赖 MoE 结构时,可以选择 Qwen3-32B。
Novita AI 是一个 AI 云平台,为开发者提供了使用简单 API 轻松部署 AI 模型的途径,同时还提供经济可靠、用于构建和扩展的 GPU 云。

来源: