Qwen3 的多樣性是有意為之:它讓開發人員在 準確性、成本、記憶體和硬件,同時保持統一的核心能力——混合推理本指南可協助您了解差異並找到最適合您特定需求的 Qwen3 模型—無論您是建立聊天機器人、編碼助理還是 AI 研究代理。
Qwen 3系列為什麼有這麼多型號?

Qwen3 235B A22B/Q文3 32B
- 基本型號
這是訓練的起點,代表原始的基礎模型。 - 第一階段:長期CoT冷啟動
採用長鏈推理(Long-CoT)作為冷啟動階段,幫助模型獲得複雜推理任務的初始能力。 - 第二階段:推理強化學習
透過推理強化學習(Reasoning RL),進一步增強模型對於任務的推理能力。 - 第三階段:思維模式融合
融合不同的思考模式(如邏輯推理、直覺判斷),提升模型的一般性和彈性。 - 第四階段:通用強化學習
應用通用強化學習(General RL)使模型能夠適應更廣泛的任務。
Qwen3 30B A3B;Qwen3 14B/8B/4B/1.7億/0.6億
- 基本型號
同樣,這也是從基礎模型開始的。 - 強至弱蒸餾
強到弱蒸餾將知識從前沿模型轉移到輕量級模型,確保這些模型在保持強大的推理能力的同時保持效率。
Qwen 3 模型基本介紹
Qwen 3 MOE 模型
| 獨特之處 | Qwen3 235B A22B | Qwen3 30B A3B |
|---|---|---|
| 型號尺寸 | 235B/22B(已啟動) | 30.5B/3.3B(已啟動) |
| 卓越的建築 | 94 個層,64 個用於查詢的注意頭,以及 4 個用於鍵值 | 48 個層,32 個用於查詢的注意頭,以及 4 個用於鍵值 |
| 能力 | 支援函數調用 | 支援函數調用 |
| 語境 | 32,768令牌 | 32,768令牌 |
| 語言支援 | 119種語言和方言 | 119種語言和方言 |
| 多式聯運能力 | 文本到文本 | 文本到文本 |
Qwen 3 密集模型
| 型號 | 型號尺寸 | 層 | 注意力 (Q / KV) | 上下文長度 | 支持多種語言 |
|---|---|---|---|---|---|
| Qwen3 32B | 32.8B | 64 | 64 / 8 | 32K / 最高 128K | 119種語言和方言 |
| Qwen3 14B | 14.8B | 40 | 40 / 8 | 32K / 最高 128K | 119種語言和方言 |
| Qwen3 8B | 8.2B | 36 | 32 / 8 | 32K / 最高 128K | 119種語言和方言 |
| Qwen3 4B | 4.0B | 36 | 32 / 8 | 32K | 119種語言和方言 |
| Qwen3 1.7B | 1.7B | 28 | 16 / 8 | 32K | 119種語言和方言 |
| Qwen3 0.6B | 0.6B | 28 | 16 / 8 | 32K | 119種語言和方言 |
重點是 Qwen3 系列的所有型號(包括 Qwen3 0.6B、1.7B、4B、8B、14B、32B,以及 MoE 變體 Qwen3 30B A3B 和 Qwen3 235B A22B)都支援「混合推理模式」。
- 思維模式:專為需要深入分析的複雜問題而設計。這個模型循序漸進地推理,並提供經過深思熟慮的答案。
- 非思考模式:適用於簡單任務。該模型提供快速、幾乎即時的響應。
此外,Qwen3 型號還引入了 “思考預算” 機制,允許使用者設定推理過程中的最大令牌使用量。這有助於控制推理深度並管理計算資源消耗。
起 奎文
Qwen 3 基準測試
Qwen 3 推理基準
| 測試 | Qwen3 235B | Qwen3 32B | Qwen3 30B | Qwen3 14B | Qwen3 8B | Qwen3 7B | Qwen3 4B | Qwen3 0.6B |
|---|---|---|---|---|---|---|---|---|
| MMLU-專業版 | 83% | 80% | 78% | 77% | 74% | 57% | 35% | - |
| GPQA 鑽石級 | 70% | 67% | 62% | 60% | 59% | 36% | 24% | - |
| 人類的最後考試 | 11.7% | 8.3% | 6.6% | 5.7% | 5.1% | 4.3% | 4.2% | - |
| 即時代碼平台 | 62% | 55% | 52% | 51% | 47% | 41% | 31% | 12% |
| 科學程式碼 | 40% | 35% | 32% | 28% | 23% | 4% | 4% | 3% |
| 數學500 | 96% | 96% | 96% | 93% | 93% | 90% | 89% | 75% |
| 愛美2024 | 84% | 81% | 76% | 75% | 75% | 66% | 51% | 10% |
Qwen 3 無推理基準
| 測試 | Qwen3 235B | Qwen3 32B | Qwen3 30B | Qwen3 14B | Qwen3 8B | Qwen3 7B | Qwen3 4B | Qwen3 0.6B |
|---|---|---|---|---|---|---|---|---|
| MMLU-專業版 | 76% | 73% | 71% | 68% | 64% | 41% | 23% | - |
| GPQA 鑽石級 | 61% | 54% | 52% | 47% | 45% | 40% | 28% | 23% |
| 人類的最後考試 | 5.2% | 5.2% | 4.7% | 4.6% | 4.3% | 3.7% | 2.8% | - |
| 即時代碼平台 | 34% | 32% | 29% | 28% | 23% | 20% | 13% | 7% |
| 科學程式碼 | 30% | 28% | 27% | 26% | 17% | 17% | 7% | 4% |
| 數學500 | 90% | 87% | 87% | 86% | 84% | 83% | 72% | 52% |
| 愛美2024 | 33% | 30% | 28% | 26% | 24% | 21% | 10% | 2% |
人類的最後考試 測試極端推理和知識。所有模型表現不佳。
- 對於 高風險任務 需要頂級表現(例如,科學研究、高階編碼), Qwen3 235B 是最好的選擇。
- 對於 經濟高效的解決方案 在計算資源有限的情況下, Qwen3 30B or Qwen3 32B 提供性能和效率的良好平衡。
- 較小的模型,例如 Qwen3 0.6B 更適合輕量級應用程序,但可能難以完成複雜的任務。
Qwen 3 硬體需求
| 型號名稱 | 所需記憶體 (GB) |
| Qwen3 0.6B | 3.01GB |
| Qwen3 1.7B | 5.75GB |
| Qwen3 4B | 10.99GB |
| Qwen3 8B | 19.82GB |
| Qwen3 14B | 33.48GB |
| Qwen3 30B A3B | 74.21GB |
| Qwen3 32B | 73.5GB |
| Qwen3 235B A22B | 553.96GB |
0.6億至4億:本機應用程式、聊天機器人、輕量級邊緣使用。
8億至14億:適用於中型推理伺服器的強大通用模型。
32B:需要創造性輸出和更深層推理的高效能用例。
235B:研究級或企業規模的部署,對大多數使用者來說並不划算。
哪款 Qwen 3 能滿足您的需求?

| 你的目標 | 推薦型號 | 為什麼 |
|---|---|---|
| 本地輕量級任務/聊天機器人 | Qwen3-0.6B / Qwen3-1.7B | 啟動速度快,記憶體低(<6GB),可在筆記型電腦上運行,非常適合邊緣使用 |
| 平衡推理+經濟實惠的硬件 | Qwen3-8B / Qwen3-14B | 能夠很好地處理一般任務,適合 16GB–24GB GPUs,堅實的多語言人工智慧 |
| 高階推理與生成 | Qwen3-32B | 無需 MoE 開銷,是程式碼、數學、長格式任務的最佳密集模型 |
| 頂尖研究表現 | Qwen3-235B (A22B) | 在推理基準測試中得分最高,但運行成本很高 |
| 高效且功能強大的 MoE 選項 | Qwen3-30B (A3B) | 使用約 3B 個活動參數實現強勁輸出;每個參數的縮放效果更佳 GPU 記憶 |
如何以經濟有效的方式存取 Qwen 3 模型?
Novita AI 是一個 AI 雲端平台,它為開發人員提供了一種使用我們簡單的 API 輕鬆部署 AI 模型的方法,同時也提供經濟實惠且可靠的 GPU 用於建置和擴展的雲端。
除了 Qwen 3 Reranker 8B 和 Embedding 8B 之外, Novita AI 也免費提供Qwen 3(0.6B、1.7B、4B)支援開源社群發展!
步驟 1:登入並存取模型庫
登入您的帳戶並點擊 模型庫 按鈕。

第 2 步:選擇型號並開始免費試用
瀏覽可用的選項並選擇適合您需求的型號。

步驟 3:取得您的 API 金鑰
為了透過 API 進行身份驗證,我們將為您提供一個新的 API 金鑰。進入「設定」頁面,您可以按照圖中所示複製API金鑰。

步驟 4:安裝 API
使用特定於您的程式語言的套件管理器安裝 API。
安裝後,將必要的庫匯入到您的開發環境中。使用您的 API 金鑰初始化 API 以開始與 Novita AI LLM。這是 Python 使用者使用聊天完成 API 的範例。
從 openai 導入 OpenAI 客戶端 = OpenAI(base_url="https://api.novita.ai/v3/openai", api_key="session_nkvtuVXXxS-LlR7txjZ3Rox8GhLMuv1R8IrIySNwTPN7xHJ0SVErFx3kNwJgkUEpcSM4F8c6zmcvyfuc1h59gw=", wJgkUEpcSM3F32c8zmcvyfuc2048h1gw=, wen/j1F0c50zmc或 False max_tokens = 0 system_content = "成為有用的助手"" temperature = 0 top_p = 1 min_p = 0 top_k = 0 presence_penalty = XNUMX frequency_penalty = XNUMX repetition_penalty = XNUMX XNUMX setype"p; client.chat.completions。 presence_penalty=presence_penalty, frequency_penalty=frequency_penalty, respond_format=response_format, extra_body={ “top_k”:top_k, “repetition_penalty”:repetition_penalty 「top_k」:mink, “repetition_penalty”:repetition_penalty “pple_penalty”中的區塊:列印(chunk.choices[XNUMX].delta.content 或“”,end="”)否則:列印(chat_completion_res.choices[XNUMX].message.content)
無論您是在筆記型電腦上建立聊天機器人,還是部署大型科學代理,Qwen3 都能根據您的資源和目標量身定制模型。小型模型(0.6B-4B)輕量級且快速;中型模型(8B-14B)兼顧功耗和效率;大型模型(32B、235B)在推理基準測試中領先。對於尋求經濟高效存取的開發者, Novita AI 透過 API 提供 Qwen3 模型的無縫部署——其中一些是完全免費的。
常見問題(FAQ)
Qwen3-0.6B 或 Qwen3-1.7B。這些型號可在基礎 PC 或 Apple Silicon 上運行,非常適合輕量級任務和聊天機器人。
Qwen3-8B 或 Qwen3-14B。它們具有出色的推理能力,並且適合 GPU配備 16–24GB VRAM。
當您需要高階邏輯、編碼和長格式產生時,請使用 Qwen3-32B—而不依賴 MoE 結構。
諾維t和人工智慧 是一個 AI 雲端平台,它為開發人員提供了一種使用我們簡單的 API 輕鬆部署 AI 模型的方法,同時也提供經濟實惠且可靠的 GPU 用於建置和擴展的雲端。
推薦閱讀
探索 Novita 的更多內容
訂閱以將最新貼文發送到您的電子郵件。






