重點摘要
架構差異:DeepSeek R1 的混合專家(MoE)設計優化了邏輯密集型任務的效能,而 Claude 3.5 的專有架構則強調多功能性與多語言能力。
任務專業化:DeepSeek R1 在程式設計(Codeforces 96.3%)與數學(AIME 79.8%)方面表現出色,而 Claude 3.5 則擅長多語言理解、視覺推理及更廣泛的對話情境。
成本效益 vs. 速度:DeepSeek R1 更經濟實惠且為開源,適合需要自訂化的開發者。Claude 3.5 輸出速度更快但成本較高。Novita AI 推出 Turbo 版本,吞吐量提升 3 倍,並享有限時 60% 折扣!
在快速發展的人工智慧領域中,Anthropic 的 Claude 3.5 Sonnet 與 DeepSeek 的 R1 已成為關鍵角色。兩款模型在不同時間發布,皆展現了先進的能力,並以其獨特的功能與效能表現獲得了廣泛關注。
DeepSeek R1 與 Claude 3.5:基本介紹
| **功能 ** | DeepSeek R1 | Claude 3.5 Sonnet |
|---|---|---|
| 發布日期 | 2025 年 1 月 20 日 | 2024 年 10 月 22 日 |
| 模型大小 | 6710 億參數(總計),每個 Token 啟動 370 億 | 約 1000 億參數 |
| 支援語言 | 主要為中文與英文 | 多語言 |
| 模型架構 | 混合專家(MoE),透過大規模強化學習訓練,極少使用監督式微調 | 專有架構 |
| 上下文視窗 | 128k 個 Token | 200k 個 Token |
| 量化精度 | BF16、F8_E4M3、F32(依 Hugging Face 資料) | 來源未明確指定 |
| 開放原始碼 | 是 | 否 |
| 開發者 | DeepSeek | Anthropic |
| 多模態能力 | 僅文字 | 支援解讀圖表與圖形 |
Deepseek R1
- DeepSeek R1 專為需要進階推理與程式設計輔助的任務而設計。它採用混合專家(MoE)架構,僅針對每個 Token 啟動其龐大參數中的一部分,從而優化運算效率。透過大規模強化學習(RL)訓練,並極少使用監督式微調(SFT),DeepSeek R1 強調邏輯與問題解決能力。
Claude 3.5 Sonnet
- Claude 3.5 Sonnet 是 Anthropic 最先進的模型,結合了卓越效能與更快的速度。它擁有大型上下文視窗,擅長理解細微且複雜的指令。作為 Claude 3.5 模型系列的一員,它在程式碼編寫與工具使用等方面較前代有顯著提升。
您可以在 Novita AI 上免費試用 Deepseek R1 系列!
DeepSeek R1 與 Claude 3.5:基準測試
| **基準測試 ** | ** 描述 ** | DeepSeek R1 | Claude 3.5 Sonnet |
|---|---|---|---|
| Codeforces(百分位數) | 程式設計問題解決的百分位數。 | 96.3% | 20.3% |
| Codeforces(評分) | 程式設計競賽評分。 | 2029 | 717 |
| SWE Verified(已解決) | 軟體工程問題解決率。 | 49.2% | 50.8% |
| LiveCodeBench(Pass@1-COT) | 使用鏈式思考推理的程式碼撰寫成功率。 | 65.9% | 33.8% |
| AIME 2024(Pass@1) | 進階數學問題解決率。 | 79.8% | 16.0% |
| MMLU-Pro(EM) | 專業級任務準確率。 | 84.0% | 78.0% |
| GPQA-Diamond(Pass@1) | 通用問答能力。 | 71.5% | 65.0% |
| AlpacaEval2.0(LC-winrate) | 語言理解與對話任務。 | 87.6% | 52.0% |
| ArenaHard(GPT-4-1106) | 與 GPT-4 比較的困難推理任務。 | 92.3% | 85.2% |
| 除錯準確率 | 識別並修復程式碼錯誤的能力。 | 90% | 75% |
Deepseek R1
DeepSeek R1 在程式設計、除錯與進階數學推理方面表現出色,非常適合技術性與邏輯密集型的任務。其在 Codeforces、AIME 與除錯準確率等基準測試中的強勁表現,彰顯了它在這些領域的能力。
Claude 3.5 Sonnet
Claude 3.5 Sonnet 雖然在程式設計與數學方面較弱,但在語言理解與通用知識任務中表現良好,更適合多語言與對話類應用。
DeepSeek R1 與 Claude 3.5:速度與成本
Deepseek R1 與 Claude 3.5 速度比較


Deepseek R1 與 Claude 3.5 成本比較

以上數據來自 artificial analysis
Claude 在效能指標上表現更佳(更快的輸出速度與更低的延遲),但價格也高出許多。DeepSeek R1 更為經濟,但回應與生成速度較慢。選擇取決於特定使用案例中,速度與反應性還是成本效益哪個優先。
不過,Novita AI 推出 Turbo 版本,吞吐量提升 3 倍,並享有限時 60% 折扣!
DeepSeek R1 與 Claude 3.5:任務測試
任務一:邏輯推理
提示詞: 「你走進一個房間,看到一張床。床上有一隻樹懶、四隻貓、一隻長頸鹿、五頭牛和一隻鴨子。房間裡還有三張椅子和一張桌子。地板上有多少條腿?」
Deepseek R1 結果

Claude 3.5 結果

評析:
- 推理深度:DeepSeek R1 展現了更深入、更全面的推理過程,考慮了問題的各個面向。
- 準確性:DeepSeek R1 最終得出正確答案(22),而 Claude 3.5 錯誤地得出 20。
- 自我驗證能力:DeepSeek R1 持續回顧並檢查其推理,而 Claude 3.5 缺乏此自我驗證機制。
- 模糊性處理:DeepSeek R1 能夠處理問題中的模糊之處(例如床是否有腿),而 Claude 3.5 則未加說明地做出簡單假設。
- 思考透明度:DeepSeek R1 的思考過程更加透明,讓人能夠理解其推理路徑。
任務二:科學推理
提示詞: 「你有一個強力雷射和一面完美反射的鏡子。如何瞄準雷射,使反射光束永遠不會回到你身邊?」
Deepseek R1 結果

Claude 3.5 結果

評析:
- DeepSeek R1 展現出明顯更強的科學推理能力:
- 物理準確性:DeepSeek R1 的答案在物理上是正確的,遵循既有的光學原理,而 Claude 3.5 的答案包含根本性的誤解。
- 邏輯一致性:DeepSeek R1 在整個解釋中保持邏輯一致,而 Claude 3.5 的回應存在內部矛盾。
- 問題解決:DeepSeek R1 正確解決了問題,提供了有效的解決方案範圍,而 Claude 3.5 提出了一個不可能的解決方案。
- 科學素養:DeepSeek R1 展現了對反射定律的正確理解,而 Claude 3.5 似乎混淆了基本的光學概念。
任務三:問題解決能力
提示詞: 「撰寫一個可以解決數獨謎題的程式」
Deepseek R1 結果
def find_empty(grid):
for row in range(9):
for col in range(9):
if grid[row][col] == 0:
return (row, col) # Return empty cell position
return None # No empty cells left
def is_valid(grid, num, pos):
row, col = pos
# Check row
for i in range(9):
if grid[row][i] == num and i != col:
return False
# Check column
for i in range(9):
if grid[i][col] == num and i != row:
return False
# Check 3x3 subgrid
start_row = (row // 3) * 3
start_col = (col // 3) * 3
for i in range(start_row, start_row + 3):
for j in range(start_col, start_col + 3):
if grid[i][j] == num and (i, j) != pos:
return False
return True
def solve(grid):
empty = find_empty(grid)
if not empty:
return True # Puzzle solved
row, col = empty
for num in range(1, 10):
if is_valid(grid, num, (row, col)):
grid[row][col] = num # Place number
if solve(grid):
return True # Continue solving
grid[row][col] = 0 # Backtrack if invalid
return False # Trigger backtracking
def print_grid(grid):
for row in grid:
print(row)
# Example Sudoku puzzle (0 represents empty cells)
grid = [
[5,3,0,0,7,0,0,0,0],
[6,0,0,1,9,5,0,0,0],
[0,9,8,0,0,0,0,6,0],
[8,0,0,0,6,0,0,0,3],
[4,0,0,8,0,3,0,0,1],
[7,0,0,0,2,0,0,0,6],
[0,6,0,0,0,0,2,8,0],
[0,0,0,4,1,9,0,0,5],
[0,0,0,0,8,0,0,7,9]
]
if solve(grid):
print("Solved Sudoku:")
print_grid(grid)
else:
print("No solution exists")
Claude 3.5 結果
def print_board(board):
for i in range(9):
if i % 3 == 0 and i != 0:
print("- - - - - - - - - - - -")
for j in range(9):
if j % 3 == 0 and j != 0:
print("|", end=" ")
if j == 8:
print(board[i][j])
else:
print(str(board[i][j]) + " ", end="")
def find_empty(board):
for i in range(9):
for j in range(9):
if board[i][j] == 0:
return (i, j)
return None
def valid(board, num, pos):
# Check row
for j in range(9):
if board[pos[0]][j] == num and pos[1] != j:
return False
# Check column
for i in range(9):
if board[i][pos[1]] == num and pos[0] != i:
return False
# Check box
box_x = pos[1] // 3
box_y = pos[0] // 3
for i in range(box_y * 3, box_y * 3 + 3):
for j in range(box_x * 3, box_x * 3 + 3):
if board[i][j] == num and (i, j) != pos:
return False
return True
def solve(board):
empty = find_empty(board)
if not empty:
return True
row, col = empty
for num in range(1, 10):
if valid(board, num, (row, col)):
board[row][col] = num
if solve(board):
return True
board[row][col] = 0
return False
# Example puzzle (0 represents empty cells)
board = [
[5, 3, 0, 0, 7, 0, 0, 0, 0],
[6, 0, 0, 1, 9, 5, 0, 0, 0],
[0, 9, 8, 0, 0, 0, 0, 6, 0],
[8, 0, 0, 0, 6, 0, 0, 0, 3],
[4, 0, 0, 8, 0, 3, 0, 0, 1],
[7, 0, 0, 0, 2, 0, 0, 0, 6],
[0, 6, 0, 0, 0, 0, 2, 8, 0],
[0, 0, 0, 4, 1, 9, 0, 0, 5],
[0, 0, 0, 0, 8, 0, 0, 7, 9]
]
print("Original Sudoku:")
print_board(board)
print("\
Solving...\
")
if solve(board):
print("Solved Sudoku:")
print_board(board)
else:
print("No solution exists")
評析:
- 演算法實作:兩者不相上下,都正確實作了數獨求解演算法。
- 程式碼可讀性:Claude 3.5 生成的程式碼稍好,特別是提供了更友善的列印功能。
- 使用者體驗:Claude 3.5 提供了更完整的用戶體驗,包括處理階段的回饋。
- 程式碼風格:兩者都保持了良好且一致的 Python 程式碼風格。
- 實用性:Claude 3.5 生成的程式碼由於輸出格式更清晰,在實際使用中可能略勝一籌。
如何透過 API 使用 DeepSeek R1?
Novita AI 是一個 AI 雲端平台,提供開發者透過簡單的 API 輕鬆部署 AI 模型,同時也提供平價且可靠的 GPU 雲端服務,用於建置與擴展。
步驟 1:登入並進入模型庫
登入您的帳戶,然後點選 模型庫 按鈕。

步驟 2:選擇您的模型
瀏覽可用選項,選擇符合您需求的模型。

步驟 3:開始免費試用
開始免費試用,探索所選模型的能力。

步驟 4:取得您的 API 金鑰
為了驗證 API 身分,我們將提供您一組新的 API 金鑰。進入「設定」頁面,您可以按照圖片指示複製 API 金鑰。

步驟 5:安裝 API
使用您程式語言專屬的套件管理器安裝 API。

安裝完成後,將必要的函式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是以 Python 使用者為例的聊天補全 API 使用範例。
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "deepseek/deepseek_r1"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
DeepSeek R1 與 Claude 3.5 Sonnet 各有其獨特優勢。DeepSeek R1 在數學、程式碼撰寫與邏輯問題解決方面表現優異,作為開源模型,它兼具成本效益與自訂性,非常適合開發者、研究人員或預算有限的組織。
Claude 3.5 Sonnet 則在多語言任務、程式碼生成、視覺推理與處理大型上下文視窗方面表現出色。其透過 API 的無縫整合,使其成為研究、內容創作與進階聊天機器人的多功能選擇。
選擇取決於任務需求與使用者的優先考量,例如成本、領域專業性或易用性。
常見問題
哪個模型更具成本效益?
DeepSeek R1 的價格明顯低於 Claude 3.5 Sonnet,特別是在輸入與輸出 Token 方面。同時,Novita AI 提供 DeepSeek R1 Turbo,這是 DeepSeek R1 的最佳化版本,擁有 **3 倍吞吐量 **、完整支援函式呼叫,並享有限時 60% 折扣!
每個模型的上下文視窗大小為何?
DeepSeek R1 的上下文視窗為 128k 個 Token,而 Claude 3.5 Sonnet 提供更大的 200k 個 Token 上下文視窗。
DeepSeek R1 是開源的嗎?
是的,DeepSeek R1 是完全開源的,允許本地部署與自訂。
Novita AI 是一個一站式雲端平台,助力您的 AI 抱負。整合 API、無伺服器、GPU 實例——您所需的成本效益工具。消除基礎設施負擔,免費開始,實現您的 AI 願景。


