クラウドインスタンスを起動する際、開発者は多くの場合、オンデマンドインスタンスとスポットインスタンス. オンデマンドインスタンスは固定価格で信頼性の高いコンピューティング能力を提供するのに対し、スポットインスタンスは同じハードウェアを潜在的な中断と引き換えに大幅な割引価格で提供します。
本ガイドでは、スポットインスタンスとオンデマンドインスタンスの基本的な違いを解説し、パフォーマンスを比較し、ユースケース(機械学習やテストなど)を説明し、具体例を用いてコストを評価し、実際のシナリオでスポットインスタンスを利用するためのベストプラクティスを紹介します。
スポットインスタンスとオンデマンドインスタンスの違い
🟩 可用性と中断
- オンデマンドインスタンス
- 停止または終了するまで連続して実行される
- 非常に稀な容量エラーを除き、可用性が保証されている
- スポットインスタンス
- 余剰容量から割り当てられ、短時間の通知で回収される可能性がある
- 例:一部のプロバイダー(例:Novita AI)はスポットGPUインスタンスに対して1時間の中断通知と1時間以上の最小実行保証を提供している
- 主要なトレードオフ:オンデマンドは継続的な可用性を保証するのに対し、スポットは保証されない。
🟩 料金モデル
- オンデマンド料金
- 特定のインスタンスタイプとリージョンに対して固定レート(秒単位または時間単位)
- 強制シャットダウンのリスクがなく、安定した予測可能な料金
- スポット料金
- 動的で大幅な割引(通常オンデマンドより50%~90%安い)
- 例:Novita AIのスポットGPUインスタンスは約50%割引(例:RTX 4090は時間あたり約0.18ドルで、オンデマンドの0.35ドルに対して)
- 料金は時間とともに変動する可能性があり、容量が必要な場合はインスタンスが終了されることがある
- 主要なトレードオフ:オンデマンド=安定して信頼性が高い、スポット=安いが変動が大きい
🟩 ユースケース
- オンデマンドインスタンス
- 中断のないサービスを必要とするワークロードに最適
- 本番アプリケーション、データベース、ミッションクリティカルなシステム
- 期間が予測できない短期間のジョブ(初期コミットメント不要)
- スポットインスタンス
- 中断に対応できる柔軟でフォールトトレラントなワークロードに最適
- 例:バッチ処理、データ分析、ビッグデータパイプライン、CI/CDランナー、レンダリング、バックグラウンドタスク
- スポットインスタンスと相性の良い一般的なワークロード:ステートレスなWebサーバー、コンテナ環境、HPCジョブ、テスト/開発環境
- 主要なトレードオフ:オンデマンド=アップタイムが保証されている、スポット=中断が許容できる場合はコスト削減可能
スポットインスタンス vs オンデマンドインスタンス パフォーマンスベンチマーク
同じインスタンスタイプの場合、スポットインスタンスとオンデマンドインスタンスで同等のパフォーマンスが得られることが開発者には期待できます。中断の計画は立てる必要がありますが、CPU速度やメモリの違いを心配する必要はありません。スポットインスタンスは料金モデルであり、パフォーマンスの階層ではないからです。

機械学習・テストにおけるオンデマンドインスタンス vs スポットインスタンス

1. MLトレーニング / バッチジョブ
推奨: チェックポイント機能を利用したスポットインスタンス
理由:
- トレーニングジョブは本質的にフォールトトレラントであり、(特に保存されたチェックポイントがある場合は)中断に対応できる。
- スポットインスタンスは最大90%のコスト削減を実現する。
- 大規模なモデルトレーニング、ハイパーパラメータチューニング、データ処理に最適な選択肢である。
2. ML推論 / 本番サービス
推奨: 基本分はオンデマンドインスタンス、追加容量分はスポットインスタンスを利用する
理由:
- リアルタイム推論には高可用性が求められる。
- オンデマンドは安定性を保証し、スポットは非重要タスクのコスト効率の良いスケーリングを追加する。
- サービスが遅延を許容できるか、フェイルオーバー機構を備えている場合にのみスポットインスタンスを利用すること。
3. テスト / 開発環境
推奨: 環境構築を自動化できる場合にのみ、スポットインスタンスを利用する
理由:
- 開発/テストのワークロードは一時的で再起動可能である。
- スポットインスタンスはCI/CDランナー、ステージング環境、サンドボックスに対して非常にコスト効率が良い。
- 長期実行されるかステートフルな開発サービスでは、中断から迅速に復旧するためにIaC(Infrastructure as Code)またはコンテナ化が必要である。
スポットインスタンスとオンデマンドインスタンスのコスト比較
| インスタンス(GPU) | オンデマンド料金 | スポット料金 |
|---|---|---|
| RTX 5090 | 1時間あたり0.50ドル | 1時間あたり0.25ドル |
| RTX 4090 | 1時間あたり0.35ドル | 1時間あたり0.18ドル |
| 高周波数RTX 4090 | 1時間あたり0.69ドル | 1時間あたり0.35ドル |
| H200 SXM | 1時間あたり3.25ドル | 1時間あたり1.63ドル |
| A100 SXM | / | 1時間あたり1.60ドル |
| B200 | 1時間あたり3.84ドル | 1時間あたり1.92ドル |
| H100 SXM | 1時間あたり1.00ドル | 1時間あたり0.90ドル |

コスト差の可視化:このようなインスタンスを10台、1か月(720時間)連続で実行した場合、オンデマンドのコストは以下の通りです:10 * 0.096ドル * 720 ≈ 691ドル。同じ条件でのスポットインスタンスのコスト(0.028ドルの場合)は:10 * 0.028ドル * 720 ≈ 202ドル。

もちろん、コストだけがすべてではありません。中断されたインスタンスは、適切に対応されない場合、ジョブの遅延やダウンタイムの原因となる可能性があります。しかし多くのワークロードでは、コストのトレードオフは十分に価値があります。重要なのは、リスクを軽減しながら節約を最大化することです。これは、データベースのようなより敏感なワークロードに対するスポットインスタンスの利用可否という問題につながります。
スポットインスタンスはデータベースワークロードに適しているか?
ミッションクリティカル、ステートフル、またはシングルインスタンスのデータベースには、スポットインスタンスのようなインスタンスの利用を避けてください。
コストと信頼性のバランスを取るには、レジリエントなクラスター、レプリカ、または非重要環境でのみ利用してください。
利用が許容されるケース 以下の条件をすべて満たす場合にのみ、スポットインスタンスのようなコンピューティングリソースを利用してください:
- データベースが分散・レプリケーションされている
- システムがノード損失に耐えられる
- ワークロードが非重要であるか、テスト目的である
例:
- プライマリを安定したコンピューティングリソースで実行しつつ、リードレプリカにスポットインスタンスを利用する
- CockroachDBやCassandraなどのノード故障に耐えられる分散データベース
- データ損失が重要ではないキャッシュシステム(例:Redis)
リスクを軽減するためのベストプラクティス
| 戦略 | 説明 |
|---|---|
| レプリケーションと自動復旧 | 失われたノードを自動的に置き換えられるマルチノードクラスターを利用する |
| 頻繁なスナップショット | 故障後に迅速に復旧するため、定期的にバックアップを取得する |
| 主要ワークロードの分離 | プライマリDBノードは安定したインフラで実行し、スポットインスタンスはセカンダリの役割でのみ利用する |
| ノード置換の自動化 | オーケストレーション(例:Kubernetes)を利用して、失われたデータベースノードを迅速に再作成する |
スポットインスタンスのベストプラクティス
GPUコンピューティングにNovita AIのようなプラットフォームを利用している場合、スポットインスタンスへの切り替えはUIのトグル操作だけで済むことが多いです。
ステップ1: コンソールにアクセスする Novita AI GPUコンソールにログインしてください

ステップ2:スポット課金に切り替える 右サイドバーのフィルター下にある課金方法を**「スポット」**に変更すると、割引価格を確認できます

ステップ3:デプロイ GPUの設定を選択し、**「デプロイ」**をクリックしてください
以上です!スポットインスタンスは以下の条件で起動します:
- 1時間の保護期間
- 最大50%のコスト削減
- 1時間前の中断通知
プロのヒント:アプリケーションにチェックポイント機能を実装して、潜在的な中断をスムーズに処理できるようにしましょう。。
開発者やチームにとって、スポットインスタンスは強力なコスト削減ツールです。基本的には、クラウドコンピューティングをドルに対してペニーの価格で借りられるようなものです。基本的なトレードオフは明確です:アップタイムの絶対的な保証と引き換えに、はるかに低い価格で利用できるということです。オンデマンドインスタンスは、継続性が最も重要とされる重要な、ステートフル、または予測不能なワークロードの主力として依然として利用されています。一方、スポットインスタンスは、1回や2回の再起動に対応できるジョブに対して、非常に大きな価値を生み出すことができます。可用性と料金の違いを理解し、スポットインスタンスに適したワークロードを慎重に選択し、チェックポイント機能や混合インスタンスデプロイなどのベストプラクティスに従うことで、自信を持ってスポットインスタンスをインフラに統合できます。
よくある質問
スポットインスタンスとオンデマンドインスタンスの主な違いは何ですか?
オンデマンドインスタンスは固定価格で安定した保証されたアップタイムを提供します。
スポットインスタンスははるかに安価ですが、いつでも中断される可能性があります。
いつスポットインスタンスを選ぶべきですか? 以下の条件を満たすワークロードの場合にスポットインスタンスを選択してください:
- フォールトトレラントである
- 中断可能である
- 実行タイミングが柔軟である(例:トレーニング、テスト、バッチジョブ)
スポットインスタンスはオンデマンドインスタンスより遅いですか?
いいえ。同じインスタンスタイプの場合、スポットインスタンスとオンデマンドインスタンスは同等のパフォーマンスを提供します。
違いは料金と可用性のみで、ハードウェアに違いはありません。
Novita AIは、AIの野望を実現するオールインワンのクラウドプラットフォームです。統合API、サーバーレス、GPUインスタンス——必要なコスト効率の良いツールを全て提供します。インフラの管理を不要にし、無料で始めて、あなたのAIビジョンを現実にしましょう。
おすすめの記事
DeepSeek R1 0528の実行コストはいくら?Novita AIでコスト効率の高いソリューションを見つけましょう
