啟動雲端實例時,開發人員經常要在On-Demand 實例和Spot 實例。 On-Demand 實例以固定價格提供可靠的運算能力,而 Spot 實例則以大幅折扣提供相同硬體,但代價是可能遇到中斷。
本指南將深入解析 Spot 與 On-Demand 實例的根本差異、比較效能、討論適用場景(如機器學習與測試)、透過實例評估成本,並提供在真實場景中使用 Spot 實例的最佳實踐。
Spot 與 On-Demand 實例的差異
🟩 可用性與中斷風險
- On-Demand 實例
- 持續運行,直到您手動停止或終止為止
- 除極罕見的容量錯誤外,保證可用性
- Spot 實例
- 來自閒置容量,可能隨時被回收
- 範例:部分服務供應商(如 Novita AI)針對 Spot GPU 實例提供1 小時中斷預警與1 小時最低運行保障
- 核心取捨:On-Demand 保證持續可用性,Spot 則不保證。
🟩 計費模式
- On-Demand 計費
- 針對特定實例類型與區域的固定費率(按秒或按小時計費)
- 價格穩定可預測,無非自願關機風險
- Spot 計費
- 動態定價且折扣力度大(通常比 On-Demand 低 50%–90%)
- 範例:Novita AI 的 Spot GPU 實例約打 5 折(如 RTX 4090 每小時約 $0.18,On-Demand 則為每小時 $0.35)
- 費率可能隨時間波動,若需要容量時實例可能被終止
- 核心取捨:On-Demand 穩定可靠;Spot 價格更低但波動較大。
🟩 適用場景
- On-Demand 實例
- 最適合需要不間斷服務的工作負載
- 生產環境應用、資料庫、關鍵任務系統
- 執行時長無法預測的短期任務(無需預先承諾)
- Spot 實例
- 最適合能承受中斷的彈性、容錯型工作負載
- 範例:批次處理、資料分析、大數據流程、CI/CD 執行器、渲染、背景任務
- 常見適合 Spot 的工作負載:無狀態網頁伺服器、容器化環境、高效能運算(HPC)任務、測試/開發環境
- 核心取捨:On-Demand 保證正常運行時間;若可承受中斷,Spot 可節省成本。
Spot 與 On-Demand Iinstance 效能基準測試
對於相同類型的實例,開發人員可以預期 Spot 與 On-Demand 實例具有相同的效能。請規劃好中斷應對方案,但不用擔心 CPU 速度或記憶體差異——Spot 是計費模式,而非效能分級。

來源:66 Degrees
機器學習或測試場景下的 On-Demand 與 Spot 實例對比

1. 機器學習訓練 / 批次任務
建議:搭配檢查點機制的 Spot 實例
原因:
- 訓練任務本質上具有容錯性(尤其是搭配已儲存的檢查點時)。
- Spot 可提供高達 90% 的成本節省。
- 非常適合大規模模型訓練、超參數調整或資料處理場景。
2. 機器學習推論 / 生產環境服務
建議:基礎容量使用 On-Demand 實例,額外容量使用 Spot 實例
原因:
- 即時推論需要高可用性。
- On-Demand 保證穩定性;Spot 則可為非關鍵任務提供高性價比的擴展能力。
- 僅當服務可容忍延遲或備有故障轉移機制時,才使用 Spot。
3. 測試 / 開發環境
建議:Spot 實例,但前提是您已實現環境設定的自動化
原因:
- 開發/測試工作負載是臨時且可重新啟動的。
- Spot 非常適合用於 CI/CD 執行器、預備環境或沙盒,成本效益極高。
- 對於長期運行或有狀態的開發服務,您需要基礎設施即程式碼(IaC)或容器化技術,才能從中斷中快速恢復。
Spot 與 On-Demand 實例成本對比
| 實例(GPU) | On-Demand 價格 | Spot 價格 |
|---|---|---|
| RTX 5090 | 每小時 $0.50 | 每小時 $0.25 |
| RTX 4090 | 每小時 $0.35 | 每小時 $0.18 |
| 高頻 RTX 4090 | 每小時 $0.69 | 每小時 $0.35 |
| H200 SXM | 每小時 $3.25 | 每小時 $1.63 |
| A100 SXM | / | 每小時 $1.60 |
| B200 | 每小時 $3.84 | 每小時 $1.92 |
| H100 SXM | 每小時 $1.00 | 每小時 $0.90 |

成本差異可視化:如果您連續一個月(720 小時)運行 10 台此類實例,On-Demand 成本為:10 * $0.096 * 720 ≈ $691。相同場景下 Spot 成本(按 $0.028 計算)為:10 * $0.028 * 720 ≈ $202。

當然,成本並非唯一考量——若未做好應對,實例中斷可能導致任務延遲或停機。但對許多工作負載而言,這樣的成本取捨非常划算。關鍵是在最大化節省的同時降低風險,這就引出了 Spot 實例是否適用於資料庫等更敏感工作負載的問題。
Spot 實例適合用於我的資料庫工作負載嗎?
請勿將類似 Spot 的實例用於任何關鍵任務、有狀態或單一實例的資料庫。
僅可將其用於高可用性叢集、副本或非關鍵環境,以平衡成本與可靠性。
可接受的使用場景
僅在滿足以下條件時,才可使用類似 Spot 的運算資源:
- 資料庫是分散式且具備複寫機制
- 系統可容忍節點損失
- 工作負載為非關鍵或用於測試目的
範例:
- 將主要節點放在穩定運算資源上,僅對讀取副本使用 Spot
- 可容忍節點故障的分散式資料庫,如 CockroachDB 或 Cassandra
- 資料損失不重要的快取系統(如 Redis)
降低風險的最佳實踐
| 策略 | 說明 |
|---|---|
| 複寫與自動恢復 | 使用可自動替換遺失節點的多節點叢集 |
| 定期快照 | 定期備份以在故障後快速恢復 |
| 隔離主要工作負載 | 將主要資料庫節點運行在穩定基礎設施上,僅將 Spot 用於次要角色 |
| 自動化節點替換 | 使用編排工具(如 Kubernetes)快速重建遺失的資料庫節點 |
Spot 實例最佳實踐
如果您使用 Novita AI 這類平台進行 GPU 運算,切換到 Spot 通常只需按一下 UI 切換開關即可。
步驟 1:存取您的控制台

步驟 2:切換至 Spot 計費
在右側邊欄的篩選選項中,將計費方式改為**「Spot」**即可查看折扣價格

步驟 3:部署
選擇您的 GPU 配置,然後點擊**「部署」**
完成!您的 Spot 實例將啟動,並享有以下保障:
- 1 小時保護期
- 最高 50% 的成本節省
- 1 小時中斷預警
專業提示:在應用程式中實現檢查點機制,優雅處理潛在的中斷情況。。
對開發人員和團隊而言,Spot 實例是強大的成本節省工具——本質上讓您能以極低的價格租用雲端運算資源。核心取捨非常明確:您用絕對的正常運行時間保證,換取低得多的價格。On-Demand 實例仍然是對連續性要求極高的關鍵任務、有狀態或執行時長無法預測的工作負載的首選。而 Spot 實例則能為可承受一兩次重啟的任務釋放巨大價值。只要理解可用性與計費的差異、仔細挑選適合 Spot 的工作負載,並遵循檢查點、混合實例部署等最佳實踐,您就可以放心將 Spot 實例整合到您的基礎設施中。
常見問題
Spot 與 On-Demand 實例的主要差異是什麼?
On-Demand 實例以固定價格提供穩定、有保證的正常運行時間。
Spot 實例價格低得多,但可能隨時被中斷。
什麼時候應該選擇 Spot 實例?
當您的工作負載符合以下條件時,選擇 Spot: 容錯 可中斷 時間安排有彈性(如訓練、測試、批次任務)
Spot 實例比 On-Demand 慢嗎?
不會。對於相同類型的實例,Spot 與 On-Demand 提供完全相同的效能。
差異僅在於計費與可用性,硬體規格完全一致。
Novita AI 是全方位雲端平台,助力您實現 AI 抱負。整合 API、無伺服器、GPU 實例——您所需的高性價比工具。免除基礎設施管理負擔,免費開始使用,讓您的 AI 願景成為現實。
推薦閱讀
運行 DeepSeek R1 0528 需要多少成本?透過 Novita AI 探索高性價比解決方案
