如何在本機或透過 API 存取 Qwen 3：完整指南

什麼是 Qwen 3？
Qwen 3 系列架構
Qwen 3 系列基準測試
如何在本機存取 Qwen 3？
如何透過 API 存取 Qwen 3
哪種方法適合您？

推薦您的朋友使用 Novita AI，你們雙方都將獲得 $10 的 LLM API 額度——最高可累積 $500 的總獎勵。

為了支援開發者社群，Qwen2.5-7B、Qwen 3 0.6B、Qwen 3 1.7B、Qwen 3 4B 目前在 Novita AI 上可免費使用。

Qwen 3 是由阿里巴巴建構的通用且強大的開源語言模型系列。憑藉先進的架構與雙模式推理能力，它旨在同時滿足邊緣裝置與大規模企業需求。本文將探討其能力、模型類型以及如何使用——無論是透過本機部署或 API。

什麼是 Qwen 3？

Qwen 3 是阿里巴巴於 2025 年推出的開源大型語言模型系列，具備可切換的「思考」與「非思考」模式，能增強推理能力與多語言表現，涵蓋 119 種以上語言。Qwen 3 模型陣容 包含：

密集模型（Dense models）：
混合專家（Mixture-of-Experts, MoE）模型：
- Qwen 3 30B A3B
- Qwen 3 235B A22B

開源且商用友善

採用 Apache 2.0 授權，權重可自由用於研究與商業用途。 ### 高效 Transformer 核心

純解碼器架構，搭配分組查詢注意力（Grouped-Query-Attention），可為長上下文 KV 快取節省記憶體，最高支援 128K token。 ### 雙重「思考 / 非思考」模式

需要時提供詳細的思維鏈，重視速度時則給出簡潔的直接答案。 ### 龐大 36T token 語料庫

119 種語言，並擴充 STEM 與程式碼資料，以強化推理與程式設計能力。 ### 三階段預訓練

基礎技能 → STEM 強化 → 32K token 長上下文適應。 ### 四階段後訓練

長思維鏈 SFT → 推理強化學習 → 模式融合 → 通用 RLHF 對齊。 ### 多語言指令遵循

在英文與中文上表現優異，並在超過 100 種語言中表現穩健，適合全球應用。 ### 工具 / 代理就緒

內建函式呼叫架構，可決定外部工具呼叫的格式與時機。 ### 文字輸入 / 文字輸出形式

目前針對語言任務最佳化；未來版本預計推出視覺變體。

Qwen 3 系列架構

Qwen 3 系列基準測試

高參數模型（如 Qwen-23B 與 Qwen-14B）能始終遵循規則，較大的模型與啟用推理的版本得分更高。低參數模型中的這些差異可能源於其推理能力的限制，因為它們缺乏充分利用推理機制的容量，導致表現次佳。

如何在本機存取 Qwen 3？

硬體需求

模型	建議 GPU	VRAM	vCPU	RAM	儲存空間
Qwen3-0.6B	RTX 3060 / T4	8 GB	4	8 GB	20 GB
Qwen3-1.7B	RTX 3060 / A5000	12–24 GB	6–8	16 GB	30 GB
Qwen3-4B	A100 40GB / RTX 3090	24–40 GB	12+	24 GB	40 GB
Qwen3-8B	A100 80GB / H100	40–80 GB	16+	48 GB	60 GB
Qwen3-14B	2× A100 80GB / 1× H100	80 GB+	24+	64 GB	80 GB
Qwen3-30B (MoE)	2× H100 / 4× A100	160 GB	48+	128 GB	160 GB
Qwen3-32B	2× H100 / 4× A100	160 GB	64	160 GB	200 GB
Qwen3-235B (MoE)	8× H100 / 8× A100	640 GB	128+	512 GB	500+ GB

逐步安裝指南

# 步驟 1：安裝 Python 並建立虛擬環境
# 確保已安裝 Python（>=3.8）。然後建立並啟用虛擬環境。
python3 -m venv llama_env
source llama_env/bin/activate  # 在 Windows 上使用 `llama_env\Scripts\activate`

# 步驟 2：安裝所需函式庫
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118  # 為 GPU 最佳化
pip install bitsandbytes  # 高效 GPU 記憶體使用

# 步驟 3：安裝 Hugging Face CLI 並登入
pip install huggingface-cli
huggingface-cli login  # 依照提示進行驗證

# 步驟 4：請求存取 Llama-3.3 70B
# 前往 Llama-3.3 70B 的 Hugging Face 模型頁面並請求存取。
# URL: https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct

# 步驟 5：下載模型檔案
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instruct

# 步驟 6：在本機載入模型
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 模型 ID 與本機目錄路徑
model_id = "meta-llama/Llama-3.3-70B-Instruct"
local_model_dir = "./Llama-3.3-70B-Instruct"

# 以 GPU 最佳化載入模型
model = AutoModelForCausalLM.from_pretrained(
    local_model_dir,
    device_map="auto",          # 自動將模型層對應到 GPU
    torch_dtype=torch.bfloat16  # 使用 bfloat16 以節省記憶體
)

# 載入分詞器
tokenizer = AutoTokenizer.from_pretrained(local_model_dir)

# 步驟 7：執行推論
# 定義輸入文字
input_text = "Explain the theory of relativity in simple terms."

# 對輸入進行分詞
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")  # 將輸入送到 GPU

# 生成回應
with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_length=100,  # 設定回應最大長度
        temperature=0.7,  # 調整創意程度（越低越保守，越高越有創意）
        top_k=50,         # Top-k 取樣以增加多樣性
    )

# 解碼輸出 token
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Response:", response)

如何透過 API 存取 Qwen 3

Novita AI 提供實惠、可靠且簡單的推論平台，搭配可擴展的 Llama 3.3 70b API，賦能開發者建構 AI 應用。立即試用 Novita AI Llama 3.3 70b API Demo！

選項 1：直接 API 整合（Python 範例）

立即以超低價格試用 Qwen3！

主要特色：

統一端點：/v3/openai 支援 OpenAI 的聊天完成 API 格式。
彈性控制： 可調整 temperature、top-p、懲罰等參數，以獲得客製化結果。
串流與批次： 選擇您偏好的回應模式。

選項 2：搭配 OpenAI Agents SDK 的多代理工作流程

透過將 Novita AI 與 OpenAI Agents SDK 整合，建構進階的多代理系統：

即插即用： 在任何 OpenAI Agents 工作流程中使用 Novita AI 的 LLM。
支援移交、路由與工具使用： 設計能夠委派、分類或執行功能的代理，全部由 Novita AI 的模型驅動。
Python 整合： 只需將 SDK 指向 Novita 的端點 (https://api.novita.ai/v3/openai) 並使用您的 API 金鑰即可。

在第三方平台上連接 Qwen 3 API

Hugging Face：透過 Novita AI 端點，在 Spaces、pipeline 或 Transformers 函式庫中使用 Qwen 3。

代理與編排框架： 透過官方連接器與逐步整合指南，輕鬆將 Novita AI 與合作夥伴平台如 Continue、AnythingLLM、LangChain、Dify 和 Langflow 連接。
相容 OpenAI 的 API： 透過專為 OpenAI API 標準設計的工具（如 Cline 與 Cursor），享受無痛遷移與整合。

哪種方法適合您？

本機與 API 存取比較


面向	本機存取	API 存取
可擴展性	有限；需要手動升級。	自動且高效擴展。
彈性	高彈性；完全掌控設定。	較不彈性；依賴提供者的配置。
易用性	需要技術專業知識。	較易使用，無需複雜設定。
成本效益	初期成本高，後續成本低。最適合長期使用。	按用量付費，適合小規模或偶爾使用。

不同使用者群組的建議

研究人員 ** → 偏好 本機存取**以獲得完整控制與實驗彈性。
開發者 ** → 使用 API 進行快速測試與建構應用程式；需要自訂訓練時則選擇 ** 本機。
企業 ** → API 適合輕鬆整合； 本機**適合需求穩定的團隊。
**小型團隊與個人 ** → API 更符合預算且易於入門。
**非技術使用者 ** → 絕對選擇 API——無需複雜設定。

無論您是研究人員、開發者還是企業團隊，Qwen 3 都能滿足您的需求。本機存取提供控制與客製化，而 API 則提供即時可擴展性與低進入門檻。Qwen 3 的設計確保其具備強大的多語言、推理與工具增強能力，適用於真實世界的任務。

常見問題

Qwen 3 與其他 LLM 有何不同？

它支援雙重思考模式、強大的多語言指令遵循與長上下文（128k token），同時具備開源權重與商用友善授權。

我可以在個人電腦上執行 Qwen 3 嗎？

只有最小的模型（例如 0.6B）適合消費級 GPU。較大的模型需要 A100/H100 配置。

API 存取比較簡單嗎？

是的！Novita AI 與 Hugging Face 提供低成本、即插即用的 Qwen 3 API——非常適合快速整合與低延遲使用。

Novita AI 是一站式雲端平台，助您實現 AI 願景。整合 API、無伺服器、GPU 實例——您所需的經濟高效工具。免除基礎設施煩惱，免費開始，讓您的 AI 願景成真。

如何在本機或透過 API 存取 Qwen 3：完整指南