DeepSeek R1 與 OpenAI o1：GRPO 與 PPO 的迥異架構

模型基本介紹
模型關鍵差異
速度比較
基準測試比較
應用與使用場景
透過 Novita AI 存取與部署

重點摘要

架構差異
DeepSeek R1：採用混合專家（MoE）與 GRPO，提供透明的鏈式思考推理，且為開源。
OpenAI o1：可能使用帶有 PPO 的 Transformer，推理過程不透明，且為閉源。

成本比較
DeepSeek R1：在 Novita AI 上，輸入價格為每百萬 tokens 4 美元，輸出價格為每百萬 tokens 4 美元，便宜許多。
OpenAI o1：價格高昂，輸入每百萬 tokens 15 美元，輸出每百萬 tokens 60 美元。

效能與使用場景
DeepSeek R1：擅長需要深度推理的任務，如數學、程式碼編寫及特定領域分析（例如醫療、金融）。
OpenAI o1：在通用型任務中表現強勁，如創意內容生成、多語言應用及廣泛推理。

如果您想針對自己的使用場景評估 DeepSeek R1，註冊後 Novita A I 會提供 0.5 美元的儲值金，讓您輕鬆開始！

大型語言模型（LLM）領域正迅速發展，新模型不斷重新定義效能標竿。DeepSeek 的 R1 模型已成為強勁的競爭者，尤其在推理任務方面，對 OpenAI 的 o1 系列構成挑戰。本文將從實務與技術角度比較這兩個模型，聚焦於功能、效能、成本、硬體需求及使用場景。

模型基本介紹

在開始比較之前，我們先了解每個模型的基本特徵。

DeepSeek R1

發佈日期：2025 年 1 月 21 日
模型規模：
主要特點：
- 模型大小：671B 參數（每次 token 活躍 37B）
- 分詞器：增強型分詞器，具備自我反思標記
- 支援語言：多語言，含文化適配
- 多模態：僅文字
- 上下文視窗：128K tokens
- 儲存格式：支援 Q8/Q5 量化
- 架構：混合專家（MoE）+ 強化學習增強訓練管線
- 訓練方法：基於 V3 基礎，結合 RL 管線（SFT → RL → SFT → RL）
- 訓練資料：V3 基礎資料 + RL 優化資料

OpenAI o1

發佈日期：2024 年 12 月 5 日
主要特點：
- **模型大小 **：2000 億參數，
- 分詞器：Tiktoken（基於 BPE），與 GPT-4o 共用，支援大型上下文。
- 支援語言：英文表現優異，主要語言（中文、德文等）表現良好
- 多模態：僅文字
- 上下文視窗：128K tokens
- 架構：混合專家（MoE）+ 強化學習增強訓練管線
- 訓練方法：RLHF 優化推理，迭代式 CoT 精煉，安全對齊輸出。
- 訓練資料：公開資料（網路、科學）、專屬合作資料、自訂資料集；經過品質/安全過濾。

模型關鍵差異

OpenAI 的強化學習方法：

主要基於 PPO（近端策略優化） 演算法。
在 GPT-4 等模型中應用了改良的 PPO-Clip 變體。
與 RLHF（人類回饋強化學習） 框架整合。

DeepSeek-R1 的演算法創新：

採用專有的 GRPO（分組相對策略優化） 演算法。
核心創新：
- 分組對比學習：將策略優化分解為多個子任務群組。
- **多目標動態加權 **：支援 8 個獨立獎勵訊號 的協同優化。
- **混合離線-在線訓練 ：資料利用效率提升 ** 約 40%。

速度比較

如果您想親自測試，可以在 Novita AI 網站上開始免費試用。

立即試用 DeepSeek R1 示範！

速度比較

資料來源：artificialanalysis

成本比較

資料來源：artificialanalysis

總體而言，OpenAI o1 在延遲和輸出速度上表現較佳，而 DeepSeek-R1 模型在價格上具有優勢。

基準測試比較

在了解每個模型的基本特徵後，我們來深入比較它們在各項基準測試中的表現。這項比較有助於說明它們在不同領域的優勢。

基準測試	DeepSeek-R1 (%)	OpenAI-o1 (%)
Codeforces	96.3	96.6
GPQA Diamond	71.5	75.7
MATH-500	97.3	96.4
MMLU	90.8	91.8

這些數據顯示 DeepSeek-R1 和 OpenAI-o1 都是高效能模型，但它們各有所長：

OpenAI-o1 在 **通用任務 （GPQA Diamond）和 ** 多任務語言理解（MMLU）上略勝一籌。
DeepSeek-R1 在 **專業推理任務 ，例如 ** 數學問題解決（MATH-500）上表現更佳。
兩者在 程式挑戰（Codeforces）上的表現幾乎相同，顯示雙方在問題解決和演算法推理方面都很強大。

如果您想看更多比較，可以查閱以下文章：

應用與使用場景

DeepSeek R1：
專為需要進階推理的任務而設計：
- 診斷複雜問題
- 多步驟情境分析
- 數學問題求解
- 程式碼編寫任務
- 特定領域如醫療、金融與法律服務
OpenAI o1：
專為更廣泛的通用型應用而設計：
- 創意內容生成
- 多語言任務
- 跨多樣情境的複雜推理

透過 Novita AI 存取與部署

Novita AI 是一個 AI 雲端平台，為開發者提供透過簡單 API 部署 AI 模型的簡易方式，同時也提供經濟實惠且可靠的 GPU 雲端，用於建置與擴展。

步驟 1：登入並存取模型庫

登入您的帳戶，然後點選 模型庫 按鈕。

步驟 2：選擇您的模型

瀏覽可用選項，選擇符合您需求的模型。

步驟 3：開始免費試用

開始免費試用，探索所選模型的功能。

步驟 4：取得 API 金鑰

為了對 API 進行身分驗證，我們會提供您一組新的 API 金鑰。進入「設定」頁面，您可以依照圖片指示複製 API 金鑰。

步驟 5：安裝 API

使用您程式語言特有的套件管理員安裝 API。

安裝完成後，將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API，開始與 Novita AI LLM 互動。以下是以 Python 使用者為例的聊天補全 API 使用範例。

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "deepseek/deepseek_r1"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=&#91;
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices&#91;0].delta.content or "", end="")
else:
    print(chat_completion_res.choices&#91;0].message.content)

註冊時，Novita AI 會提供 0.5 美元的儲值金，讓您輕鬆開始！

如果免費儲值金用完，您可以付費繼續使用。

DeepSeek R1 與 OpenAI o1 分別迎合 AI 領域中不同的優先考量。DeepSeek R1 強調開源可及性、成本效益與專門的推理能力，使其非常適合特定領域的任務。相反地，OpenAI o1 作為一款功能全面的通用型模型，在多語言支援方面表現出色。選擇取決於具體的使用場景——是重視透明性與經濟性，還是更看重廣泛的適應性。

常見問題

DeepSeek R1 比 OpenAI o1 更好嗎？

這取決於您的需求。DeepSeek R1 在較低成本下擅長推理任務，而 OpenAI o1 提供更廣泛的功能。

哪些任務最適合 DeepSeek R1？

需要大量推理的任務，例如數學求解、程式碼編寫以及特定行業的應用。

這些模型是如何訓練的？

DeepSeek R1 的訓練成本遠低於 OpenAI 的 o1 模型。

Novita AI 是整合型雲端平台，助您實現 AI 抱負。整合 API、無伺服器、GPU 實例——您所需的經濟高效工具。無需管理基礎設施，免費開始，讓您的 AI 願景成真。

DeepSeek R1 與 OpenAI o1：GRPO 與 PPO 的迥異架構

重點摘要