重點摘要
DeepSeek R1: 以其卓越的推理能力聞名,透過強化學習(RL)結合監督式微調(SFT)開發而成。包含特殊變體如 DeepSeek-R1-Zero,僅使用大規模 RL 訓練(無 SFT),展現自我驗證、反思推理及長鏈思維生成等能力。
Qwen 2.5 72B: 在程式設計、數學問題解決與指令遵循任務上表現出色。能有效生成超過 8K tokens 的長篇內容,準確處理結構化資料(例如表格),並產生如 JSON 等格式的結構化輸出。此外,支援超過 29 種語言的強大多語言能力。
Novita AI 推出 Turbo 版本,吞吐量提升 3 倍,並提供限時 20% 折扣!您可以在 Novita AI Playground 上開始免費試用!

大型語言模型(LLMs)持續快速演進,目前處於前沿的模型如 DeepSeek-R1 與 Qwen 2.5 72B 備受矚目。本文將深入技術比較 DeepSeek-R1 與 Qwen 2.5 72B,探討其架構、效能特性及實際應用案例。
模型基本介紹
在開始比較之前,我們先了解每個模型的基本特徵。
DeepSeek R1
- 發布日期:2025 年 1 月 21 日
- 模型規模:
- 主要特點:
- 模型大小:671B 參數(每個 token 啟動 37B)
- 分詞器:增強型分詞器,包含自我反思標記
- 支援語言:多語言,並具備文化適應能力
- 多模態:僅文字
- 上下文視窗:128K tokens
- 儲存格式:支援 Q8/Q5 量化
- 架構:混合專家(MoE)+ RL 強化訓練流程
- 訓練方法:基於 V3 基礎模型,採用 RL 流程(SFT → RL → SFT → RL)
- 訓練資料:V3 基礎資料 + RL 最佳化資料
Qwen 2.5 72B
- 發布日期:2024 年 9 月 19 日(Qwen 2.5 系列)
- 模型規模:
- 主要特點:
- 模型大小:72B 參數
- 支援語言:強大的多語言支援,涵蓋超過 29 種語言
- 多模態:僅文字
- **上下文視窗 **:支援高達 128K tokens,並可生成最多 8K tokens
- 架構:混合專家(MoE)+ 多頭潛在注意力(Multi-Head Latent Attention)
- 訓練資料:使用 18 兆 tokens 的龐大資料集進行訓練
- 訓練方法:根據不同資料進行預訓練
DeepSeek R1 與 Qwen 2.5 72B 的主要差異在於訓練方法。DeepSeek R1 廣泛使用強化學習(RL)(SFT → RL → SFT → RL),增強推理能力。相比之下,Qwen 2.5 72B 主要依賴監督式微調(SFT)與大量預訓練,沒有明確的 RL 最佳化,專注於多語言與通用效能。
速度比較
如果您想親自測試,可以在 Novita AI 網站上開始免費試用。

立即試用成本效益高且完整的 DeepSeek R1 Turbo 版本!
速度比較


資料來源:artificial analysis
成本比較
| 模型 | 上下文 | 輸入價格($/M Tokens) | 輸出價格($/M Tokens) |
|---|---|---|---|
| deepseek/deepseek-r1-turbo | 64000 | $0.7 | $2.5 |
| deepseek/deepseek_r1 | 64000 | $4 | $4 |
| qwen/qwen-2.5-72b-instruct | 32000 | $0.38 | $0.4 |
Qwen 2.5 72B 在輸出速度與延遲方面優於 DeepSeek R1。DeepSeek R1 的輸入與輸出價格明顯高於 Qwen 2.5 72B。
基準測試比較
在了解每個模型的基本特性後,讓我們深入探討它們在各項基準測試中的表現。此比較有助於說明它們在不同領域的優勢。
| 基準測試 | DeepSeek-R1 (%) | Qwen 2.5 72B (%) |
|---|---|---|
| LiveCodeBench(程式碼) | 62 | 28 |
| GPQA Diamond | 71 | 49 |
| MATH-500 | 96 | 86 |
| MMLU-Pro | 84 | 72 |
這些結果顯示,DeepSeek R1 以機器驅動的迭代強化學習方法,可能特別適合發展在需要精確推理與結構化問題解決技能的專業技術領域中的更強能力。
如果您想看更多比較,可以參考以下文章:
- Deepseek V3 vs Llama 3.3 70b:語言任務 vs 程式碼與數學
- DeepSeek R1 vs OpenAI o1:GRPO 與 PPO 的不同架構
- DeepSeek V3 vs. Qwen 2.5 72B:精確度 vs 多語言效率
硬體需求
| **模型 ** | ** 參數大小 ** | GPU 配置 |
|---|---|---|
| DeepSeek-R1-Distill-Llama-8B | 4.9B | 1 x NVIDIA RTX 4090(24GB VRAM)搭配模型分片 |
| DeepSeek-R1-Distill-Qwen-14B | 9.0B | 1 x NVIDIA A100(40GB VRAM)或 2 x RTX 4090(24GB VRAM)搭配張量並行 |
| DeepSeek-R1-Distill-Qwen-32B | 32B | 2 x NVIDIA A100(40GB VRAM)或 1 x NVIDIA H100(80GB VRAM)或 4 x RTX 4090(24GB VRAM)搭配張量並行 |
| DeepSeek-R1-Distill-Llama-70B | 70B | 4 x NVIDIA A100(40GB VRAM)或 2 x NVIDIA H100(80GB VRAM)或 8 x RTX 4090(24GB VRAM)搭配高度並行 |
| DeepSeek-R1:671B | 671B(370 億活躍參數) | 16 x NVIDIA A100(40GB VRAM)或 8 x NVIDIA H100(80GB VRAM),需配備 InfiniBand 的分散式 GPU 叢集 |
| Qwen 2.5 72B | 72B | 8x RTX4090 或 4 x A100 或 2 x H100 |
應用與使用案例
DeepSeek R1
- 針對複雜推理、邏輯推論與數學計算進行最佳化。
- 透過強化學習(RL)增強,顯著提升推理任務的準確性。
- 在程式碼任務、演算法問題解決與技術內容生成方面非常有效。
Qwen 2.5 72B
- 擅長多語言應用,熟練支援超過 29 種語言。
- 能生成連貫的長篇內容,上下文視窗可達 128K tokens。
- 非常適合結構化資料處理任務,包括聊天機器人互動、資料分析、摘要與資訊提取。
透過 Novita AI 的存取與部署
Novita AI 是一個 AI 雲端平台,為開發者提供使用簡單 API 部署 AI 模型的簡便方式,同時也提供經濟實惠且可靠的 GPU 雲端服務,用於建置與擴展。
步驟 1:登入並存取模型庫
登入您的帳戶,然後點擊 Model Library 按鈕。

步驟 2:選擇您的模型
瀏覽可用的選項,並選擇適合您需求的模型。

步驟 3:開始免費試用
開始免費試用,探索所選模型的能力。

步驟 4:取得您的 API 金鑰
為了透過 API 進行驗證,我們將提供您一個新的 API 金鑰。進入 “Settings” 頁面,如圖所示複製 API 金鑰。

步驟 5:安裝 API
根據您的程式語言使用相應的套件管理器安裝 API。

安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是使用 Python 進行聊天補全 API 的範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "deepseek/deepseek_r1"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
註冊 Novita AI 後,您將獲得 $0.5 的額度供您開始使用!
如果免費額度用完,您可以付費繼續使用。
DeepSeek-R1 與 Qwen 2.5 72B 都是強大的大型語言模型,各自具有獨特的優勢。DeepSeek-R1 專精於複雜推理與問題解決任務,而 Qwen 2.5 72B 則展現更廣泛的能力,在多語言應用、長上下文處理與結構化資料處理方面表現出色。
常見問答
DeepSeek-R1-Zero 的訓練方法有何獨特之處?
DeepSeek-R1-Zero 的獨特之處在於,它是首批驗證 LLM 可以僅透過強化學習來激發強大推理能力的模型之一。
我可以在哪裡存取並使用這些模型?
DeepSeek-R1 與 Qwen2.5 系列模型均可透過 Novita AI 以極具成本效益的價格存取。
在 DeepSeek-R1 的背景下,「蒸餾」是什麼意思?
蒸餾(Distillation)指的是將較大模型(如 DeepSeek-R1)的推理能力轉移到較小模型中的過程。
Novita AI 是一站式雲端平台,助力您的 AI 抱負。整合 API、無伺服器、GPU 實例 — 您需要的成本效益工具。無需管理基礎設施,免費開始,讓您的 AI 願景成真。
