DeepSeek V3 與 R1：分階段訓練與迭代 SFT-RL 循環

模型基本介紹
模型比較
速度比較
基準測試比較
應用與使用案例
透過 Novita AI 的存取與部署

重點摘要

訓練
DeepSeek V3：遵循傳統流程：預訓練（14.8T tokens）→ 監督微調（SFT）→ 強化學習（RL）。
DeepSeek R1：專注於以 RL 為核心的訓練方式，從冷啟動微調開始，並整合多個 RL 階段以優化推理能力。

基準表現
DeepSeek V3：在各項基準測試中表現優異，MMLU 達到 87.4%，MATH-500 達到 90.0%。
DeepSeek R1：在推理密集型任務中表現出色，Codeforces 達到 96.3%，MATH-500 達到 97.3%，在特定領域挑戰中優於 V3。

應用場景
DeepSeek V3：通用多用途模型，適用於自然語言理解、程式碼撰寫與文字生成，廣泛應用於教育、內容創作及商業自動化。
DeepSeek R1：針對邏輯推理、多步驟問題解決等進階推理任務進行最佳化，非常適合醫療、金融、法律服務及其他行業特定用途。

如果您想在自己的使用案例中評估 DeepSeek V3 與 R1，註冊後 Novita A I 將提供 $0.5 額度讓您輕鬆入門！

人工智慧領域因 DeepSeek V3 與 R1 模型的推出而掀起革命。這些先進的語言模型象徵著自然語言處理與推理能力的重要里程碑。本文將詳細比較 DeepSeek V3 與 DeepSeek R1，探討其功能、表現與實際應用。

模型基本介紹

在開始比較之前，我們先了解每個模型的基本特性。

DeepSeek V3

發布日期：2024 年 12 月 27 日
模型規模：
- deepseek/deepseek_v3
主要特點：
- 模型大小：671B 參數（每個 token 啟用 37B）
- 分詞器：基於 SentencePiece 的多語言分詞器
- 支援語言：專注於中文、英文及日文
- 多模態：僅文字
- 上下文視窗：128K tokens
- 儲存格式：FP8/BF16 推理
- 架構：混合專家（MoE）+ 多頭潛在注意力
- 訓練方式：預訓練 → 監督微調（SFT）→ 強化學習（RL）
- 訓練資料：預訓練使用 14.8T tokens

DeepSeek R1

發布日期：2025 年 1 月 21 日
模型規模：
主要特點：
- 模型大小：671B 參數（每個 token 啟用 37B）
- 分詞器：強化分詞器，具備自我反思標籤
- 支援語言：多語言並具文化適應性
- 多模態：僅文字
- 上下文視窗：128K tokens
- 儲存格式：支援 Q8/Q5 量化
- 架構：混合專家（MoE）+ 強化學習增強訓練流程
- 訓練方式：基於 V3 基礎，採用 RL 流程（SFT → RL → SFT → RL）
- 訓練資料：V3 基礎 + RL 優化資料

來源

模型比較

相似之處：

兩者模型大小相同（671B 參數，每個 token 啟用 37B）。
兩者皆採用混合專家（MoE）架構。
均為多語言模型，擅長英文與中文。

主要差異：

訓練方法：V3 使用傳統流程，包括預訓練、監督微調（SFT）與強化學習（RL）。而 R1 則側重於以 RL 為核心的方法，引入冷啟動微調與獎勵機制以增強推理能力。

速度比較

如果您想親自測試，可在 Novita AI 網站上開始免費試用。

立即試用 DeepSeek V3 示範！

速度比較

來源：artificialanalysis

成本比較

來源：artificialanalysis

DeepSeek R1 在輸出速度上超越 DeepSeek V3，但總回應時間較長。DeepSeek R1 的輸入與輸出價格明顯高於 DeepSeek V3。

基準測試比較

在了解每個模型的基本特性之後，讓我們深入探討它們在各項基準測試中的表現。此比較有助於說明它們在不同領域的優勢。

基準測試	DeepSeek-R1 (%)	DeepSeek-V3 (%)
Codeforces	96.3	63.6
GPQA Diamond	71.5	62.1
MATH-500	97.3	90.0
MMLU	90.8	87.4

這些結果顯示，DeepSeek-R1 在推理密集型與特定領域任務（如 Codeforces 和 MATH-500）上經過更佳的最佳化，而 DeepSeek-V3 在各項基準測試中表現強勁，但略低一些。

如果您想查看更多比較，可以參考以下文章：

應用與使用案例

DeepSeek V3

適用於廣泛的任務，包括自然語言理解、程式碼撰寫及基礎問題解決。
可應用於教育、內容創作與商業自動化等行業。
在文字生成、程式碼補全及數學推理等領域表現出色。
是一個多用途、通用型的模型，適合各種應用。

DeepSeek R1

專為需要進階推理、邏輯推斷及數學問題解決的任務而設計。
非常適合處理醫療、金融及法律服務等領域中複雜的行業特定挑戰。
對於需要延伸思維鏈（CoT）推理的任務特別有效，例如診斷複雜問題、分析多步驟情境及從大型資料集中綜合見解。

透過 Novita AI 的存取與部署

Novita AI 是一個 AI 雲端平台，為開發者提供簡單的 API 以輕鬆部署 AI 模型，同時提供價格實惠且可靠的 GPU 雲端服務，用於建置與擴展。

第一步：登入並存取模型庫

登入您的帳戶，然後點選 模型庫 按鈕。

第二步：選擇您的模型

瀏覽可用的選項，選擇符合您需求的模型。

第三步：開始免費試用

開始免費試用，探索所選模型的功能。

第四步：取得 API 金鑰

為了驗證 API 使用，我們將提供一組新的 API 金鑰。進入「設定」頁面，您即可複製圖中所示的 API 金鑰。

第五步：安裝 API

使用您程式語言特有的套件管理器來安裝 API。

安裝完成後，將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API，即可開始與 Novita AI LLM 互動。以下是 Python 使用者使用聊天補全 API 的範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "deepseek/deepseek_v3"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=&#91;
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices&#91;0].delta.content or "", end="")
else:
    print(chat_completion_res.choices&#91;0].message.content)

註冊後，Novita AI 將提供 $0.5 額度讓您輕鬆入門！

如果免費額度用完，您可以付費繼續使用。

DeepSeek V3 和 DeepSeek R1 是功能強大的 LLM，各有優勢。DeepSeek V3 是一款多用途、通用型的模型，以高效能在各項任務中表現優異。而 DeepSeek R1 則是專為進階推理最佳化的專業模型。選擇哪一款取決於應用程式的特定需求。這兩個模型都是該領域的重大進展，以其效能、效率及開源可及性挑戰現有模型。

常見問題

DeepSeek V3 和 R1 之間的主要差異是什麼？

DeepSeek V3 是通用型模型，而 R1 是專為進階推理任務設計的模型。

這些模型需要特殊的硬體嗎？

是的，這兩個模型都很大，需要高效能硬體，特別是具備大量 VRAM 的 GPU。

這些模型是如何訓練的？

DeepSeek V3 在 14.8 兆個 token 上進行預訓練。DeepSeek R1 基於 DeepSeek V3，使用微調與強化學習來獲得推理能力。

Novita AI 是全方位雲端平台，助您實現 AI 抱負。整合 API、無伺服器、GPU 實例——您所需的經濟實惠工具。消除基礎架構負擔，免費開始，讓您的 AI 願景成真。

DeepSeek V3 與 R1：分階段訓練與迭代 SFT-RL 循環

重點摘要

模型基本介紹

DeepSeek V3

DeepSeek R1

模型比較

速度比較

速度比較

成本比較

基準測試比較

應用與使用案例

DeepSeek V3

DeepSeek R1

透過 Novita AI 的存取與部署

第一步：登入並存取模型庫

第二步：選擇您的模型

第三步：開始免費試用

第四步：取得 API 金鑰

第五步：安裝 API

常見問題

推薦閱讀

Product

RESOURCES

Partners

Company

重點摘要

模型基本介紹

DeepSeek V3

DeepSeek R1

模型比較

速度比較

速度比較

成本比較

基準測試比較

應用與使用案例

DeepSeek V3

DeepSeek R1

透過 Novita AI 的存取與部署

第一步：登入並存取模型庫

第二步：選擇您的模型

第三步：開始免費試用

第四步：取得 API 金鑰

第五步：安裝 API

常見問題

推薦閱讀

相關文章

Product

RESOURCES

Partners

Company