클라우드 인스턴스를 시작할 때 개발자들은 종종 온디맨드 인스턴스와 스팟 인스턴스 중에서 선택해야 합니다. 온디맨드 인스턴스는 고정 가격으로 안정적인 컴퓨팅 용량을 제공하는 반면, 스팟 인스턴스는 잠재적인 중단 가능성에 대한 대가로 동일한 하드웨어를 큰 할인된 가격으로 제공합니다.
이 가이드는 스팟 인스턴스와 온디맨드 인스턴스의 근본적인 차이점을 분석하고, 성능을 비교하며, 사용 사례(머신러닝 및 테스트 등)를 논의하고, 예시를 통해 비용을 평가하며, 실제 시나리오에서 스팟 인스턴스를 사용하기 위한 모범 사례를 제공합니다.
스팟 인스턴스와 온디맨드 인스턴스의 차이점
🟩 가용성 및 중단
- 온디맨드 인스턴스
- 사용자가 중지하거나 종료할 때까지 계속 실행됩니다
- 매우 드문 용량 오류를 제외하고 가용성이 보장됩니다
- 스팟 인스턴스
- 여유 용량에서 할당되며 단기 통지로 회수될 수 있습니다
- 예시: 일부 제공업체(예: Novita AI)는 스팟 GPU 인스턴스에 대해 1시간 중단 통지 및 1시간 최소 실행 보장을 제공합니다
- 핵심 트레이드오프: 온디맨드는 지속적인 가용성을 보장하지만, 스팟은 그렇지 않습니다.
🟩 요금 모델
- 온디맨드 요금
- 특정 인스턴스 유형 및 리전별 고정 요금 (초당 또는 시간당)
- 강제 종료 위험 없이 안정적이고 예측 가능한 요금
- 스팟 요금
- 동적이며 대폭 할인된 (일반적으로 온디맨드보다 50%~90% 저렴)
- 예시: Novita AI 스팟 GPU 인스턴스는 약 50% 할인됩니다 (예: RTX 4090의 경우 시간당 약 $0.18로 온디맨드의 시간당 $0.35와 비교)
- 요금은 시간이 지남에 따라 변동될 수 있으며, 용량이 필요할 경우 인스턴스가 종료될 수 있습니다
- 핵심 트레이드오프: 온디맨드 = 안정적이고 신뢰성 높음; 스팟 = 저렴하지만 변동성이 큽니다.
🟩 사용 사례
- 온디맨드 인스턴스
- 중단 없는 서비스가 필요한 워크로드에 가장 적합합니다
- 프로덕션 애플리케이션, 데이터베이스, 미션 크리티컬 시스템
- 실행 시간이 예측 불가능한 단기 작업 (사전 약정 없음)
- 스팟 인스턴스
- 중단을 처리할 수 있는 유연하고 내결함성이 있는 워크로드에 가장 적합합니다
- 예시: 배치 처리, 데이터 분석, 빅데이터 파이프라인, CI/CD 러너, 렌더링, 백그라운드 작업
- 일반적으로 스팟에 적합한 워크로드: 스테이트리스 웹 서버, 컨테이너화된 환경, HPC 작업, 테스트/개발 환경
- 핵심 트레이드오프: 온디맨드 = 가동 시간 보장; 스팟 = 중단이 허용되는 경우 비용 절감.
스팟 vs 온디맨드 인스턴스 성능 벤치마크
개발자들은 동일한 인스턴스 유형의 스팟 인스턴스와 온디맨드 인스턴스에서 동등한 성능을 기대할 수 있습니다. 중단을 계획하되, CPU 속도나 메모리 차이는 걱정하지 마세요 – 스팟은 성능 등급이 아닌 요금 모델입니다.

출처: 66 Degrees
머신러닝 및 테스트를 위한 온디맨드 vs 스팟 인스턴스

1. ML 학습 / 배치 작업
권장: 체크포인팅이 적용된 스팟 인스턴스
이유:
- 학습 작업은 본질적으로 내결함성이 있습니다(특히 저장된 체크포인트가 있는 경우).
- 스팟 인스턴스는 최대 90% 비용 절감 효과를 제공합니다.
- 대규모 모델 학습, 하이퍼파라미터 튜닝 또는 데이터 처리에 최적의 선택입니다.
2. ML 추론 / 프로덕션 서비스
권장: 기본 용량은 온디맨드 인스턴스로, 추가 용량은 스팟 인스턴스로 구성
이유:
- 실시간 추론에는 높은 가용성이 필요합니다.
- 온디맨드는 안정성을 보장하고, 스팟은 비중요 작업에 비용 효율적인 확장을 추가합니다.
- 서비스가 지연을 허용하거나 장애 조치 메커니즘이 있는 경우에만 스팟을 사용하세요.
3. 테스트 / 개발 환경
권장: 환경 설정을 자동화하는 경우에만 스팟 인스턴스를 사용하세요
이유:
- 개발/테스트 워크로드는 일시적이며 재시작이 가능합니다.
- 스팟은 CI/CD 러너, 스테이징 환경 또는 샌드박스에 매우 비용 효율적입니다.
- 수명이 길거나 상태를 유지하는 개발 서비스의 경우 중단에서 빠르게 복구하려면 IaC(코드형 인프라) 또는 컨테이너화가 필요합니다.
스팟 인스턴스와 온디맨드 인스턴스 비용 비교
| 인스턴스 (GPU) | 온디맨드 가격 | 스팟 가격 |
|---|---|---|
| RTX 5090 | 시간당 $0.50 | 시간당 $0.25 |
| RTX 4090 | 시간당 $0.35 | 시간당 $0.18 |
| 고주파 RTX 4090 | 시간당 $0.69 | 시간당 $0.35 |
| H200 SXM | 시간당 $3.25 | 시간당 $1.63 |
| A100 SXM | / | 시간당 $1.60 |
| B200 | 시간당 $3.84 | 시간당 $1.92 |
| H100 SXM | 시간당 $1.00 | 시간당 $0.90 |

비용 차이 시각화: 만약 10대의 인스턴스를 한 달(720시간) 동안 계속 실행한다고 가정하면, 온디맨드 비용은 10 * $0.096 * 720 ≈ $691이 됩니다. 동일한 조건에서 스팟 비용($0.028 기준)은 10 * $0.028 * 720 ≈ $202입니다.

물론 비용이 전부는 아닙니다 – 중단된 인스턴스는 작업을 지연시키거나 제대로 처리되지 않으면 다운타임을 유발할 수 있습니다. 하지만 많은 워크로드의 경우 비용 트레이드오프는 충분히 가치가 있습니다. 핵심은 위험을 완화하면서 절감 효과를 극대화하는 것이며, 이는 데이터베이스와 같은 더 민감한 워크로드에 대한 스팟 인스턴스 사용 문제로 이어집니다.
스팟 인스턴스가 내 데이터베이스 워크로드에 적합한가요?
미션 크리티컬, 상태 유지형 또는 단일 인스턴스 데이터베이스에는 스팟 유형의 인스턴스를 사용하지 마세요.
비용과 안정성을 균형 있게 유지하려면 복원력 있는 클러스터, 복제본 또는 비중요 환경에만 사용하세요.
사용이 허용될 수 있는 경우
다음 조건을 모두 만족하는 경우에만 스팟 유형의 컴퓨팅 리소스를 사용하세요:
- 데이터베이스가 분산되어 있고 복제됨
- 시스템이 노드 손실에 복원력이 있음
- 워크로드가 비중요하거나 테스트 목적임
예시:
- 기본 인스턴스는 안정적인 컴퓨팅 리소스에서 실행하면서 스팟을 읽기 복제본에 사용
- 노드 장애를 허용하는 CockroachDB나 Cassandra와 같은 분산 데이터베이스
- 데이터 손실이 중요하지 않은 캐싱 시스템(예: Redis)
위험을 줄이기 위한 모범 사례
| 전략 | 설명 |
|---|---|
| 복제 및 자동 복구 | 손실된 노드를 자동으로 교체할 수 있는 다중 노드 클러스터 사용 |
| 정기 스냅샷 | 장애 후 빠른 복구를 위해 정기적으로 백업 수행 |
| 기본 워크로드 분리 | 기본 DB 노드는 안정적인 인프라에서 실행하고, 스팟은 보조 역할에만 사용 |
| 노드 교체 자동화 | 오케스트레이션(예: Kubernetes)을 사용해 손실된 데이터베이스 노드를 빠르게 재생성 |
스팟 인스턴스 모범 사례
GPU 컴퓨팅에 Novita AI와 같은 플랫폼을 사용하는 경우 스팟으로 전환하는 것이 UI 토글만큼 쉽습니다.
1단계: 콘솔에 접속하세요
Novita AI GPU 콘솔에 로그인하세요

2단계: 스팟 요금으로 전환
오른쪽 사이드바의 필터 아래에서 결제 방식을 **“스팟”**으로 변경하여 할인된 가격을 확인하세요

3단계: 배포
GPU 구성을 선택한 후 **“배포”**를 클릭하세요
이제 끝입니다! 스팟 인스턴스는 다음 기능과 함께 실행됩니다:
- 1시간 보호 기간
- 최대 50% 비용 절감
- 1시간 사전 중단 통지
프로 팁: 애플리케이션에 체크포인팅을 구현하여 잠재적인 중단을 우아하게 처리하세요.
개발자와 팀에게 스팟 인스턴스는 강력한 비용 절감 도구입니다 – essentially 달러의 몇 푼으로 클라우드 컴퓨팅을 임대할 수 있게 해줍니다. 근본적인 트레이드오프는 명확합니다: 가동 시간의 절대적 보장을 훨씬 낮은 가격과 교환하는 것입니다. 온디맨드 인스턴스는 연속성이 가장 중요한 중요, 상태 유지형 또는 예측 불가능한 워크로드의 기본 작업horse로 남아 있습니다. 반면 스팟 인스턴스는 한두 번의 재시작을 처리할 수 있는 작업에 엄청난 가치를 제공할 수 있습니다. 가용성과 요금의 차이점을 이해하고, 스팟에 적합한 워크로드를 신중하게 선택하며, 체크포인팅 및 혼합 인스턴스 배포와 같은 모범 사례를 따르면 스팟 인스턴스를 인프라에 자신 있게 통합할 수 있습니다.
자주 묻는 질문
스팟 인스턴스와 온디맨드 인스턴스의 주요 차이점은 무엇인가요?
온디맨드 인스턴스는 고정 가격으로 안정적이고 보장된 가동 시간을 제공합니다.
스팟 인스턴스는 훨씬 저렴하지만 언제든지 중단될 수 있습니다.
스팟 인스턴스를 선택해야 하는 경우는 언제인가요?
다음 조건의 워크로드인 경우 스팟을 선택하세요:
- 내결함성이 있는 경우
- 중단이 허용되는 경우
- 실행 시간이 유연한 경우 (예: 학습, 테스트, 배치 작업)
스팟 인스턴스가 온디맨드보다 느린가요?
아닙니다. 스팟과 온디맨드는 동일한 인스턴스 유형에 대해 동일한 성능을 제공합니다. 차이점은 하드웨어가 아닌 요금과 가용성에만 있습니다.
Novita AI는 AI 야망을 실현할 수 있는 올인원 클라우드 플랫폼입니다. 통합 API, 서버리스, GPU 인스턴스 – 필요한 비용 효율적인 도구를 제공합니다. 인프라를 제거하고, 무료로 시작하여 AI 비전을 현실로 만드세요.
추천 읽기
DeepSeek R1 0528 실행 비용은 얼마인가요? Novita AI로 비용 효율적인 솔루션을 알아보세요
