DeepSeek V3 與 R1:分階段訓練與迭代 SFT-RL 循環

DeepSeek V3 與 R1:分階段訓練與迭代 SFT-RL 循環

重點摘要

訓練
DeepSeek V3:遵循傳統流程:預訓練(14.8T tokens)→ 監督微調(SFT)→ 強化學習(RL)。
DeepSeek R1:專注於以 RL 為核心的訓練方式,從冷啟動微調開始,並整合多個 RL 階段以優化推理能力。

基準表現
DeepSeek V3:在各項基準測試中表現優異,MMLU 達到 87.4%,MATH-500 達到 90.0%。
DeepSeek R1:在推理密集型任務中表現出色,Codeforces 達到 96.3%,MATH-500 達到 97.3%,在特定領域挑戰中優於 V3。

應用場景
DeepSeek V3:通用多用途模型,適用於自然語言理解、程式碼撰寫與文字生成,廣泛應用於教育、內容創作及商業自動化。
DeepSeek R1:針對邏輯推理、多步驟問題解決等進階推理任務進行最佳化,非常適合醫療、金融、法律服務及其他行業特定用途。

如果您想在自己的使用案例中評估 DeepSeek V3 與 R1,註冊後 Novita AI 將提供 $0.5 額度讓您輕鬆入門!

人工智慧領域因 DeepSeek V3 與 R1 模型的推出而掀起革命。這些先進的語言模型象徵著自然語言處理與推理能力的重要里程碑。本文將詳細比較 DeepSeek V3 與 DeepSeek R1,探討其功能、表現與實際應用。

模型基本介紹

在開始比較之前,我們先了解每個模型的基本特性。

DeepSeek V3

  • 發布日期:2024 年 12 月 27 日
  • 模型規模
  • 主要特點
    • 模型大小:671B 參數(每個 token 啟用 37B)
    • 分詞器:基於 SentencePiece 的多語言分詞器
    • 支援語言:專注於中文、英文及日文
    • 多模態:僅文字
    • 上下文視窗:128K tokens
    • 儲存格式:FP8/BF16 推理
    • 架構:混合專家(MoE)+ 多頭潛在注意力
    • 訓練方式:預訓練 → 監督微調(SFT)→ 強化學習(RL)
    • 訓練資料:預訓練使用 14.8T tokens

DeepSeek R1

  • 發布日期:2025 年 1 月 21 日
  • 模型規模
  • 主要特點
    • 模型大小:671B 參數(每個 token 啟用 37B)
    • 分詞器:強化分詞器,具備自我反思標籤
    • 支援語言:多語言並具文化適應性
    • 多模態:僅文字
    • 上下文視窗:128K tokens
    • 儲存格式:支援 Q8/Q5 量化
    • 架構:混合專家(MoE)+ 強化學習增強訓練流程
    • 訓練方式:基於 V3 基礎,採用 RL 流程(SFT → RL → SFT → RL)
    • 訓練資料:V3 基礎 + RL 優化資料

r1 創建

來源

模型比較

deepseek v3 vs deepseek r1

相似之處

  • 兩者模型大小相同(671B 參數,每個 token 啟用 37B)。
  • 兩者皆採用混合專家(MoE)架構。
  • 均為多語言模型,擅長英文與中文。

主要差異

  • 訓練方法:V3 使用傳統流程,包括預訓練、監督微調(SFT)與強化學習(RL)。而 R1 則側重於以 RL 為核心的方法,引入冷啟動微調與獎勵機制以增強推理能力。

rl vs v3

速度比較

如果您想親自測試,可在 Novita AI 網站上開始免費試用。

開始免費試用

立即試用 DeepSeek V3 示範!

速度比較

v3 與 r1 的輸出速度

v3 與 r1 的延遲

v3 與 r1 的 TRT

來源:artificialanalysis

成本比較

v3 與 r1 的價格

來源:artificialanalysis

DeepSeek R1 在輸出速度上超越 DeepSeek V3,但總回應時間較長。DeepSeek R1 的輸入與輸出價格明顯高於 DeepSeek V3。

基準測試比較

在了解每個模型的基本特性之後,讓我們深入探討它們在各項基準測試中的表現。此比較有助於說明它們在不同領域的優勢。

基準測試 DeepSeek-R1 (%) DeepSeek-V3 (%)
Codeforces 96.3 63.6
GPQA Diamond 71.5 62.1
MATH-500 97.3 90.0
MMLU 90.8 87.4

這些結果顯示,DeepSeek-R1 在推理密集型與特定領域任務(如 Codeforces 和 MATH-500)上經過更佳的最佳化,而 DeepSeek-V3 在各項基準測試中表現強勁,但略低一些。

如果您想查看更多比較,可以參考以下文章:

應用與使用案例

DeepSeek V3

  • 適用於廣泛的任務,包括自然語言理解、程式碼撰寫及基礎問題解決。
  • 可應用於教育、內容創作與商業自動化等行業。
  • 在文字生成、程式碼補全及數學推理等領域表現出色。
  • 是一個多用途、通用型的模型,適合各種應用。

DeepSeek R1

  • 專為需要進階推理、邏輯推斷及數學問題解決的任務而設計。
  • 非常適合處理醫療、金融及法律服務等領域中複雜的行業特定挑戰。
  • 對於需要延伸思維鏈(CoT)推理的任務特別有效,例如診斷複雜問題、分析多步驟情境及從大型資料集中綜合見解。

透過 Novita AI 的存取與部署

Novita AI 是一個 AI 雲端平台,為開發者提供簡單的 API 以輕鬆部署 AI 模型,同時提供價格實惠且可靠的 GPU 雲端服務,用於建置與擴展。

第一步:登入並存取模型庫

登入您的帳戶,然後點選 模型庫 按鈕。

登入並存取模型庫

第二步:選擇您的模型

瀏覽可用的選項,選擇符合您需求的模型。

選擇模型

第三步:開始免費試用

開始免費試用,探索所選模型的功能。

免費試用

第四步:取得 API 金鑰

為了驗證 API 使用,我們將提供一組新的 API 金鑰。進入「設定」頁面,您即可複製圖中所示的 API 金鑰。

獲取 API 金鑰

第五步:安裝 API

使用您程式語言特有的套件管理器來安裝 API。

安裝 API

安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下是 Python 使用者使用聊天補全 API 的範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "deepseek/deepseek_v3"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=&#91;
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices&#91;0].delta.content or "", end="")
else:
    print(chat_completion_res.choices&#91;0].message.content)
  
  

註冊後,Novita AI 將提供 $0.5 額度讓您輕鬆入門!

如果免費額度用完,您可以付費繼續使用。

DeepSeek V3 和 DeepSeek R1 是功能強大的 LLM,各有優勢。DeepSeek V3 是一款多用途、通用型的模型,以高效能在各項任務中表現優異。而 DeepSeek R1 則是專為進階推理最佳化的專業模型。選擇哪一款取決於應用程式的特定需求。這兩個模型都是該領域的重大進展,以其效能、效率及開源可及性挑戰現有模型。

常見問題

DeepSeek V3 和 R1 之間的主要差異是什麼?

DeepSeek V3 是通用型模型,而 R1 是專為進階推理任務設計的模型。

這些模型需要特殊的硬體嗎?

是的,這兩個模型都很大,需要高效能硬體,特別是具備大量 VRAM 的 GPU。

這些模型是如何訓練的?

DeepSeek V3 在 14.8 兆個 token 上進行預訓練。DeepSeek R1 基於 DeepSeek V3,使用微調與強化學習來獲得推理能力。

Novita AI 是全方位雲端平台,助您實現 AI 抱負。整合 API、無伺服器、GPU 實例——您所需的經濟實惠工具。消除基礎架構負擔,免費開始,讓您的 AI 願景成真。

推薦閱讀