Qwen3 的多元性是刻意設計的 :它讓開發者在 準確度、成本、記憶體與硬體 之間選擇合適的取捨,同時維持一致的核心能力—— 混合推理。本指南將協助你瞭解各型號差異,找出最符合你特定需求的 Qwen3 模型——無論你正在打造聊天機器人、程式碼助手或 AI 研究代理。
為什麼 Qwen 3 系列有這麼多模型?

來源:Qwen
Qwen3 235B A22B/Qwen3 32B
- 基礎模型
這是訓練的起點,代表原始基礎模型。 - 階段 1:長 CoT 冷啟動
使用長鏈推理(Long-CoT)作為冷啟動階段,幫助模型獲得處理複雜推理任務的初始能力。 - 階段 2:推理強化學習
透過推理強化學習(Reasoning RL)進一步增強模型對任務的推理能力。 - 階段 3:思考模式融合
融合不同的思考模式(例如邏輯推理、直覺判斷)以提升模型的通用性與靈活性。 - 階段 4:通用強化學習
應用通用強化學習(General RL),使模型能夠適應更廣泛的任務。
Qwen3 30B A3B;Qwen3 14B/8B/4B/1.7B/0.6B
- 基礎模型
同樣從基礎模型開始。 - 強到弱蒸餾
強到弱蒸餾(Strong-to-Weak Distillation)將前沿模型的知識轉移至輕量模型,確保這些模型在保持效率的同時仍具備強大的推理能力。
Qwen 3 模型基本介紹
Qwen 3 MoE 模型
| **特色 ** | Qwen3 235B A22B | Qwen3 30B A3B |
|---|---|---|
| 模型大小 | 235B/22B(激活參數) | 30.5B/3.3B(激活參數) |
| 架構 | 94 層,64 個查詢注意力頭與 4 個鍵值注意力頭 | 48 層,32 個查詢注意力頭與 4 個鍵值注意力頭 |
| 能力 | 支援函式呼叫 | 支援函式呼叫 |
| 上下文長度 | 32,768 tokens | 32,768 tokens |
| 語言支援 | 119 種語言及方言 | 119 種語言及方言 |
| 多模態能力 | 文字對文字 | 文字對文字 |
Qwen 3 密集模型
| **模型 ** | ** 模型大小 ** | ** 層數 ** | ** 注意力頭(Q / KV)** | ** 上下文長度 ** | ** 多語言支援** |
|---|---|---|---|---|---|
| Qwen3 32B | 32.8B | 64 | 64 / 8 | 32K / 最高 128K | 119 種語言及方言 |
| Qwen3 14B | 14.8B | 40 | 40 / 8 | 32K / 最高 128K | 119 種語言及方言 |
| Qwen3 8B | 8.2B | 36 | 32 / 8 | 32K / 最高 128K | 119 種語言及方言 |
| Qwen3 4B | 4.0B | 36 | 32 / 8 | 32K | 119 種語言及方言 |
| Qwen3 1.7B | 1.7B | 28 | 16 / 8 | 32K | 119 種語言及方言 |
| Qwen3 0.6B | 0.6B | 28 | 16 / 8 | 32K | 119 種語言及方言 |
重點是 Qwen3 系列中的所有模型——包括 Qwen3 0.6B、1.7B、4B、8B、14B、32B,以及 MoE 變體 Qwen3 30B A3B 和 Qwen3 235B A22B——均支援 「混合推理模式」。
- 思考模式:適用於需要深入分析的複雜問題。模型會逐步推理並提供經仔細斟酌的答案。
- 非思考模式:適合簡單任務。模型提供快速、近乎即時的回應。
此外,Qwen3 模型引入了 「思考預算」 機制,讓使用者在推理過程中設定最大 token 使用量。這有助於控制推理深度並管理計算資源消耗。
來源:Qwen
Qwen 3 基準測試
Qwen 3 推理基準測試
| **測試 ** | Qwen3 235B | Qwen3 32B | Qwen3 30B | Qwen3 14B | Qwen3 8B | Qwen3 7B | Qwen3 4B | Qwen3 0.6B |
|---|---|---|---|---|---|---|---|---|
| MMLU-Pro | 83% | 80% | 78% | 77% | 74% | 57% | 35% | - |
| GPQA Diamond | 70% | 67% | 62% | 60% | 59% | 36% | 24% | - |
| **人類最後考試 ** | 11.7% | 8.3% | 6.6% | 5.7% | 5.1% | 4.3% | 4.2% | - |
| LiveCodeBench | 62% | 55% | 52% | 51% | 47% | 41% | 31% | 12% |
| SciCode | 40% | 35% | 32% | 28% | 23% | 4% | 4% | 3% |
| MATH-500 | 96% | 96% | 96% | 93% | 93% | 90% | 89% | 75% |
| AIME 2024 | 84% | 81% | 76% | 75% | 75% | 66% | 51% | 10% |
Qwen 3 無推理基準測試
| **測試 ** | Qwen3 235B | Qwen3 32B | Qwen3 30B | Qwen3 14B | Qwen3 8B | Qwen3 7B | Qwen3 4B | Qwen3 0.6B |
|---|---|---|---|---|---|---|---|---|
| MMLU-Pro | 76% | 73% | 71% | 68% | 64% | 41% | 23% | - |
| GPQA Diamond | 61% | 54% | 52% | 47% | 45% | 40% | 28% | 23% |
| **人類最後考試 ** | 5.2% | 5.2% | 4.7% | 4.6% | 4.3% | 3.7% | 2.8% | - |
| LiveCodeBench | 34% | 32% | 29% | 28% | 23% | 20% | 13% | 7% |
| SciCode | 30% | 28% | 27% | 26% | 17% | 17% | 7% | 4% |
| MATH-500 | 90% | 87% | 87% | 86% | 84% | 83% | 72% | 52% |
| AIME 2024 | 33% | 30% | 28% | 26% | 24% | 21% | 10% | 2% |
人類最後考試(Humanity’s Last Exam)測試極端推理與知識。所有模型表現皆不佳。
- 對於需要頂尖效能的 高風險任務(例如科學研究、進階程式碼),Qwen3 235B 是最佳選擇。
- 對於計算資源有限的 成本效益方案,Qwen3 30B 或 Qwen3 32B 在效能與效率之間取得良好平衡。
- 較小的模型如 Qwen3 0.6B 更適合輕量級應用,但在複雜任務上可能表現吃力。
Qwen 3 硬體需求
| 模型名稱 | 所需記憶體(GB) |
| Qwen3 0.6B | 3.01GB |
| Qwen3 1.7B | 5.75GB |
| Qwen3 4B | 10.99GB |
| Qwen3 8B | 19.82GB |
| Qwen3 14B | 33.48GB |
| Qwen3 30B A3B | 74.21GB |
| Qwen3 32B | 73.5GB |
| Qwen3 235B A22B | 553.96GB |
0.6B–4B:本地應用、聊天機器人、輕量邊緣用途。
8B–14B:適合中型推理伺服器的強大通才模型。
32B:需要創意輸出與更深推理的高效能使用案例。
235B:研究等級或企業級部署,對多數使用者不具成本效益。
哪個 Qwen 3 符合你的需求?

| **你的目標 ** | ** 建議模型 ** | ** 原因** |
|---|---|---|
| 本地輕量任務 / 聊天機器人 | Qwen3-0.6B / Qwen3-1.7B | 啟動快速、低記憶體(<6GB),可在筆電上執行,適合邊緣應用 |
| 平衡推理 + 平價硬體 | Qwen3-8B / Qwen3-14B | 良好處理一般任務,適用於 16GB–24GB GPU,強大的多語言 AI |
| 進階推理與生成 | Qwen3-32B | 在程式碼、數學、長篇任務上表現最佳的密集模型,無須 MoE 開銷 |
| 研究級頂尖效能 | Qwen3-235B(A22B) | 在多項推理基準中取得最佳分數,但執行成本極高 |
| 高效且具能力的 MoE 選項 | Qwen3-30B(A3B) | 使用約 3B 激活參數提供強大輸出;每 GPU 記憶體擴展性更佳 |
如何以成本效益的方式存取 Qwen 3 模型?
Novita AI 是一個 AI 雲端平台,為開發者提供透過簡單 API 部署 AI 模型的簡便方式,同時也提供平價可靠的 GPU 雲端用於建置與擴展。
除了 Qwen 3 Reranker 8B 與 Embedding 8B 之外,Novita AI 也提供免費的 Qwen 3(0.6B、1.7B、4B),以支援開源社群的開發!
步驟 1:登入並存取模型庫
登入你的帳戶,然後點選 模型庫 按鈕。

步驟 2:選擇你的模型並開始免費試用
瀏覽可用的選項,然後選擇符合你需求的模型。

步驟 3:取得 API 金鑰
為了驗證 API,我們將為你提供一組新的 API 金鑰。進入「設定」頁面,你可以依照圖片指示複製 API 金鑰。

步驟 4:安裝 API
使用你程式語言專屬的套件管理器來安裝 API。
安裝完成後,將必要的函式庫匯入你的開發環境。使用你的 API 金鑰初始化 API,以開始與 Novita AI LLM 互動。以下是針對 Python 使用者使用聊天補全 API 的範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="session_nkvtuVXXxS-LlR7txjZ3Rox8GhLMuv1R8IrIySNwTPN7xHJ0SVErFx3kNwJgkUEpcSM4F8c6zmcvyfuc1h59gw==",
)
model = "qwen/qwen3-32b-fp8"
stream = True # or False
max_tokens = 2048
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
無論你是在筆電上建立聊天機器人,還是部署大規模科學代理,Qwen3 都有一個專為你的資源與目標量身打造的模型。較小的模型(0.6B–4B)輕量且快速;中型模型(8B–14B)在效能與效率之間取得平衡;而較大的模型(32B、235B)則在推理基準中領先。對於尋求成本效益存取方式的開發者,Novita AI 透過 API 提供 Qwen3 模型的無縫部署——其中部分模型完全免費。
常見問題
哪個 Qwen3 模型最適合本地應用?
Qwen3-0.6B 或 Qwen3-1.7B。這些模型可在基本 PC 或 Apple Silicon 上執行,非常適合輕量任務與聊天機器人。
在沒有高 GPU 成本的情況下,我應該選擇哪個模型以獲得強大推理能力?
Qwen3-8B 或 Qwen3-14B。它們提供優秀的推理能力,且適用於 16–24GB VRAM 的 GPU。
何時應該使用 Qwen3-32B?
當你需要進階邏輯、程式碼與長篇生成——且不想依賴 MoE 架構時,請使用 Qwen3-32B。
Novita AI 是一個 AI 雲端平台,為開發者提供透過簡單 API 部署 AI 模型的簡便方式,同時也提供平價可靠的 GPU 雲端用於建置與擴展。

來源: