Deepseek V3나 Qwen3 Coder 같은 오픈소스 모델은 폐쇄형 모델을 단순히 따라가는 수준을 넘어, 6~10배의 비용 효율성으로 최고 수준의 성능을 제공하고 있습니다. 하지만 이 놀라운 잠재력에는 숨겨진 난제가 따릅니다: 오픈소스 모델은 거의 호스팅되지 않는 반면, 폐쇄형 모델은 거의 항상 호스팅되기 때문입니다.
대부분의 팀에게 자체적으로 이 모델을 배포하는 것은 세 가지 주요 이유로 어려운 일입니다.
- 비용 부담이 큽니다: Llama 3.3 70B 같은 모델을 실행하려면 H100 GPU 2대가 필요할 것으로 보이며, 이는 막대한 선투자 비용입니다. 더욱 문제인 것은 수요가 적은 기간에는 이 고가의 하드웨어가 유휴 상태로 방치되어 활용률이 낮고 투자 낭비로 이어진다는 점입니다.
- 복잡합니다: LLM을 배포하고 유지하려면 추론 최적화 및 GPU 운영에 대한 깊은 전문 지식이 필요하며, 대부분의 기업에서 전체 MLOps 팀을 고용하는 것은 현실적이지 않습니다.
- 번거롭습니다: 새 모델이 자주 출시되지만, 자체 구축 환경은 경직되어 있어 새 모델을 테스트하거나 갑작스러운 수요 변동에 대응해 확장하는 것이 느리고 어렵습니다.
Novita AI에서는 오픈소스의 강력한 기능과 관리형 서비스의 완성도 중 하나를 포기해야 한다고 생각하지 않습니다. 우리 플랫폼은 프리미엄 폐쇄형 모델에서 기대할 수 있는 안정성, 성능, 개발자 경험을 오픈 생태계의 비용 효율성과 함께 제공하도록 설계되었습니다. 우리는 오픈소스 LLM의 프로덕션 등급 호스팅을 제공합니다.
이를 가능하게 하기 위해 우리가 하는 일을 비하인드 스토리로 살펴보겠습니다.
모델 호스팅 비하인드 스토리
Novita AI에서 커스텀 모델을 호스팅하거나 오픈소스 LLM API를 호출할 때, 수많은 과정이 백그라운드에서 이루어집니다. 대규모로 모델을 호스팅하는 것은 오케스트레이션, 최적화, 지속적인 모니터링의 복잡한 프로세스를 포함하며, 모든 요청이 빠르고 안정적으로 처리되도록 보장합니다.
모델 스토리지 및 하드웨어
우리는 Llama, Qwen, DeepSeek 등 인기 오픈소스 모델의 웜 라이브러리를 유지하고 있으며, 이는 수십억 개의 파라미터를 가진 이 모델들을 저장하는 것을 의미합니다. 이러한 LLM을 실행하려면 전문 하드웨어가 필요하므로, 전 세계 데이터 센터와 파트너십을 맺어 모든 지역의 사용자에게 빠르고 안정적인 서비스를 제공하기 위해 다음을 관리합니다:
- 추론 워크로드를 처리할 수 있을 만큼 강력한 서버
- 요청과 응답을 빠르게 전송할 수 있는 네트워킹
- 24시간 365일 가동하기 위한 전원
우리는 하드웨어 비용을 부담하고 다음을 제공합니다:
- 웜 모델 라이브러리: 수백 개의 웜 스타트된 모델을 유지하고 있습니다. 이를 통해 사용 사례에 맞는 최신 LLM을 즉시 테스트하고 검증할 수 있습니다.
- 종량제 서버리스 엔드포인트: 사용한 토큰에 대해서만 비용을 지불합니다. 이 토큰 기반 요금 모델은 챗봇, 텍스트 생성 등 수요가 변동하는 애플리케이션에 최적화되어 있어 유휴 용량에 대한 비용을 지불할 필요가 없습니다.
- 온디맨드 커스텀 배포: 더 많은 제어가 필요할 경우 NVIDIA H100 같은 강력한 GPU를 시간당 최저 $1.85에 대여할 수 있습니다. 이를 통해 필요에 따라 리소스를 확장할 수 있어 막대한 자본 지출을 예측 가능한 운영 비용으로 전환할 수 있습니다.
- 개발자 친화적 통합: 기반의 복잡성을 추상화한 통합 API를 준비했습니다. 이 API는 OpenAI API 같은 인기 프레임워크와 호환되도록 설계되어 있어 제공업체를 쉽게 전환할 수 있습니다: 기본 URL과 키만 변경하면 라이브러리의 모든 오픈소스 모델에 접근할 수 있습니다. 또한 LangChain, LiteLLM, LlamaIndex 같은 프레임워크와도 원활하게 통합되므로, 새 모델로 전환하거나 테스트해도 기존 워크플로우가 깨지지 않습니다.
추론 최적화
원시 모델 실행은 시작에 불과합니다. 최저 비용으로 최고의 성능을 제공하기 위해 여러 기법을 사용해 추론을 최적화합니다:
- 양자화: 모델 가중치의 정밀도를 낮춰 크기는 작아지고 실행 속도는 빨라지면서 성능은 유지하는 기법
- 배치 처리: 여러 사용자 요청을 동시에 처리해 GPU 활용률을 최대화하는 기법
- 로드 밸런싱: 요청을 여러 서버에 분산시켜 단일 서버에 과부하가 걸리지 않도록 하고, 낮은 지연 시간을 유지하는 기법
우리는 기반의 복잡성을 처리해 누구나 오픈소스 AI를 쉽게 사용할 수 있도록 세련되고 개발자 친화적인 경험을 제공합니다.
- 함수 호출(Function Calling), 구조화된 출력(Structured Outputs), 배치 추론(Batch Inference) 같은 핵심 기능에 대한 기본 지원을 제공합니다. 이를 통해 복잡한 시스템을 직접 구축할 필요가 없어 제품 출시 시간을 단축할 수 있습니다.
- 모든 워크로드에 대한 탄력적 확장: 우리 인프라는 완전히 탄력적으로 설계되었습니다. 서버리스 엔드포인트는 자동으로 확장되어 첫 토큰 생성 시간(TTFT) 300ms 미만으로 높은 동시성을 처리합니다. 커스텀 및 엔터프라이즈 배포는 성능과 데이터 격리를 보장하면서 모든 수요를 충족할 수 있도록 GPU 자동 확장을 제공합니다.
미션 크리티컬한 애플리케이션의 경우 “제로옵스(Zero-Ops)” 솔루션을 제공합니다. 요구사항(모델 이름, 입출력 길이, 성능 SLA)을 제출하면 우리의 LLM 옵티마이저 엔진이 가장 비용 효율적인 맞춤 솔루션을 설계해 드립니다. 전문 팀이 모델을 배포하고 관리해 드리며, 99.5%의 SLA, 보장된 성능, 직접 기술 지원을 바탕으로 서비스를 제공합니다.
자체 호스팅 vs 호스팅 모델 사용
일부 개발자는 최대한의 제어를 위해 자체 모델을 호스팅하는 것을 선호합니다. 그렇다면 Novita AI를 통해 시간 단위로 GPU를 대여해 원하는 대로 스택을 튜닝할 수 있도록 지원합니다.
하지만 자체 호스팅에는 상당한 trade-off가 따릅니다: 설정과 유지보수에 시간과 전문 지식이 필요하고, 확장이 까다로우며, 비용과 성능의 균형을 맞추는 것이 지속적인 과제가 될 수 있습니다.
Novita 같은 호스팅 오픈소스 LLM API를 사용하면 이러한 부담이 사라져 예측 가능한 성능과 최소한의 운영 부담으로 프로덕션 준비가 완료된 솔루션을 제공받을 수 있습니다. 우리는 최저 비용으로 최고의 경험을 제공하기 위해 Novita AI의 인프라를 최적화했습니다. 대규모로 모델을 운영함으로써 개인이나 소규모 기업이 자체 호스팅으로 달성할 수 있는 가격보다 더 낮은 가격을 제공할 수 있습니다. 처리된 토큰 수에 따라 요금을 부과하므로 사용한 만큼만 지불하면 됩니다.
AI 여정의 모든 단계에 완벽하게 맞는 세 가지 서비스 등급을 설계했습니다.
| 서버리스 엔드포인트 | 커스텀 배포 | 엔터프라이즈 배포 | |
| 모델 지원 | Qwen3, DeepSeek, LLaMA3 등 최신 LLM | 수백 개의 웜 스타트 모델 + 커스텀 모델 업로드 | 수백 개의 웜 스타트 모델 + 커스텀 모델 업로드 |
| 요금제 | 종량제 토큰 기반 | 온디맨드 GPU/시간 | 성능 기반 토큰 요금제 |
| 통합 | 셀프 서비스, 원라인 통합 | 셀프 서비스 GPU 배포, 원라인 통합 | 전문가 배포 및 엔터프라이즈 서비스 |
| 탄력적 확장 | 사용 제한 내 탄력적 확장 | 전용 엔드포인트: 사용량 기반 GPU 자동 확장 | 성능 기반 탄력적 확장 |
| 최적 사용 사례 | 인프라 관리 없이 새 모델에 빠르게 접근 | 모델에 대한 더 많은 제어와 커스텀 설정이 필요한 경우 | 보장된 성능의 완전 관리형 배포 |
참고: 전용 엔드포인트의 최대 GPU 수는 8개입니다. 더 많은 GPU가 필요한 경우 영업팀에 문의하시면 엔터프라이즈 서비스를 안내해 드립니다.
마무리
틈새 사용 사례를 위한 파인튜닝 모델을 운영하거나 최신 오픈소스 LLM을 테스트해보는 경우, Novita AI는 오픈소스 가격으로 폐쇄형 모델의 편의성을 제공합니다. 커스텀 솔루션에 관심이 있거나 설정에 대해 상담하고 싶으시다면 여기에서 엔지니어와의 상담을 예약하세요.
감사의 말: 이 글에 기여하고 통찰을 제공해 준 Novita의 LLM 프로젝트 매니저 Charles에게 특별히 감사드립니다.
