30배 더 큰 모델을 능가하는 8B 파라미터 모델을 실행할 수 있다면 어떨까요?
DeepSeek-R1-0528-Qwen3-8B는 단일 RTX 4090에서 효율적으로 실행되면서 복잡한 수학 작업에서 235B 파라미터 모델과 일치하는 획기적인 추론 성능을 제공합니다.
이 가이드는 Novita AI에서 몇 분 안에 이 게임 체인저 모델을 배포하는 방법을 보여줍니다.
DeepSeek-R1-0528-Qwen3-8B란?
DeepSeek-R1-0528-Qwen3-8B는 DeepSeek-R1-0528의 사고 사슬(chain-of-thought) 능력을 Qwen3 8B Base 모델에 증류하여 만든 정교한 추론 모델입니다. 이 혁신적인 접근 방식은 AIME 2024를 포함한 수학 및 추론 벤치마크에서 뛰어난 성능을 달성하여 Qwen3 8B보다 +10.0% 높은 성능을 보이고 훨씬 더 큰 Qwen3-235B-thinking 모델의 성능과 일치하는 최첨단 오픈소스 모델을 탄생시켰습니다.
이 모델은 AIME 24에서 86.0, AIME 25에서 76.3, HMMT Feb 25에서 61.5를 기록하며 다양한 평가 지표에서 탁월한 능력을 보여줍니다. 이 모델이 특히 가치 있는 점은 8B 파라미터 모델의 효율성과 배포 가능성을 유지하면서 훨씬 더 큰 모델과 견줄 만한 추론 성능을 제공한다는 것입니다.

왜 Novita AI GPU 인스턴스에서 DeepSeek-R1-0528-Qwen3-8B를 실행해야 할까요?
1. 상당한 가격 우위와 유연한 가격 모델
Novita AI는 GPU 컴퓨팅 시장에서 경쟁력 있는 가격을 제공하여 DeepSeek-R1-0528-Qwen3-8B와 같은 고급 AI 모델을 연구자, 비즈니스 및 모든 규모의 개발자가 이용할 수 있도록 합니다.
사용 패턴에 따라 On-Demand 및 Subscription 가격 중에서 선택하세요. DeepSeek-R1-0528-Qwen3-8B를 RTX 4090에서 실행하는 경우:
- On-Demand: $0.35/시간 - 테스트 및 변동 워크로드에 적합
- 1-5개월: $226.80/월 (10% 할인) - 중기 프로젝트
- 6-11개월: $206.64/월 (18% 할인) - 장기 개발 주기
- 12개월: $189.00/월 (25% 할인) - 장기 약정 시 더 큰 할인
연간 구독은 보장된 리소스 가용성을 보장하면서 수백 달러를 절약할 수 있습니다. 가격 모델에 대해 자세히 알아보기.
2. 성능 최적화를 위한 다양한 GPU 선택
Novita AI는 컴퓨팅 요구 사항과 예산에 맞는 포괄적인 GPU 옵션을 제공합니다:
- RTX 3090 24GB: 개발 및 테스트에 비용 효율적
- RTX 4090 24GB: DeepSeek-R1-0528-Qwen3-8B에 권장 - 균형 잡힌 성능과 비용
- RTX 5090 32GB
- RTX 6000 Ada 48GB: 더 큰 컨텍스트 길이를 위한 향상된 VRAM
- L40S 48GB: 확장된 메모리 용량의 전문가급 성능
- A100 SXM 80GB: 상당한 메모리 대역폭의 고성능 컴퓨팅
- H100 SXM 80GB: 프로덕션 배포를 위한 엔터프라이즈급 성능
3. 바로 사용 가능한 템플릿과 맞춤형 유연성
사전 구성된 템플릿(예: DeepSeek-R1-0528-Qwen3-8B)은 최적화된 컨테이너 구성, 환경 변수, 테스트된 배포 매개변수를 포함하여 수동 설정의 복잡성을 없애줍니다. 고급 사용자는 완전히 맞춤형 템플릿을 특수 구성과 개인화된 배포 스크립트로 생성할 수 있어 초보자에게는 사용 편의성을, 경험 많은 개발자에게는 완전한 맞춤 설정을 보장합니다.
4. 글로벌 배포 네트워크
Novita AI의 전 세계 네트워크를 통해 사용자와 더 가까운 곳에 GPU 인스턴스를 배포하세요. 미주(미국, 캐나다, 브라질), 아시아 태평양(일본, 싱가포르, 인도, UAE, 홍콩), 유럽(독일, 영국)의 15개 지역을 제공합니다. 이 글로벌 인프라는 DeepSeek-R1-0528-Qwen3-8B 배포에 대해 지연 시간을 줄이고 안정적인 성능을 보장하여 사용자 위치에 관계없이 안정적인 액세스를 제공합니다.
Novita AI에서 DeepSeek-R1-0528-Qwen3-8B 배포 방법
1단계: 템플릿 선택
모델 라이브러리에서 DeepSeek-R1-0528-Qwen3-8B 템플릿을 선택합니다. GPU 유형으로 RTX 4090 하나를 선택하고 배포 를 클릭합니다.

2단계: 매개변수 확인
구성 화면에 표시된 배포 매개변수를 검토합니다. 모든 설정이 올바른지 확인하고 다음 을 클릭하여 진행합니다.

3단계: 인스턴스 배포
배포 를 클릭하여 인스턴스 생성 프로세스를 시작합니다. 시스템이 GPU 인스턴스 프로비저닝을 시작합니다.

4단계: 배포 진행 상황 모니터링
인스턴스 관리 로 이동하여 제어 콘솔에 액세스합니다. 이 대시보드에서 배포 상태를 실시간으로 추적할 수 있습니다.

5단계: 이미지 가져오기 상태 확인
특정 인스턴스를 클릭하여 컨테이너 이미지 다운로드 진행 상황을 모니터링합니다. 이 프로세스는 네트워크 상태에 따라 몇 분 정도 걸릴 수 있습니다.

6단계: 모델 다운로드 추적
인스턴스가 시작되면 모델을 가져오기 시작합니다. “로그 ” –> “ 인스턴스 로그”를 클릭하여 모델 다운로드 진행 상황을 모니터링합니다.

7단계: 배포 성공 확인
인스턴스 로그에서 "Application startup complete." 메시지를 찾습니다. 이는 배포 프로세스가 성공적으로 완료되었음을 나타냅니다.

8단계: 액세스 URL 얻기
“**연결 **”을 클릭한 다음 –> “HTTP 서비스 연결 [포트 8000]”을 클릭합니다. API 서비스이므로 주소를 복사해야 합니다.


9단계: 배포된 모델에 액세스
모델에 요청을 보내려면 실제 노출된 주소로 “http://7a65a32b51e37482-8000.jp-tyo-1.gpu-instance.novita.ai” 를 바꾸십시오. 다음 코드를 복사하여 개인 모델에 액세스하세요!
# Call the server using curl:
curl -X POST "http://7a65a32b51e37482-8000.jp-tyo-1.gpu-instance.novita.ai/v1/chat/completions" \
-H "Content-Type: application/json" \
--data '{
"model": "deepseek-ai/DeepSeek-R1-0528-Qwen3-8B",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
]
}'
{"id":"chatcmpl-56d12c91edbb46fcb93ccbbc0ecddd2c","object":"chat.completion","created":1748588145,"model":"deepseek-ai/DeepSeek-R1-0528-Qwen3-8B","choices":[{"index":0,"message":{"role":"assistant","reasoning_content":null,"content":"thinking\
Okay, the user is asking for the capital of France. Let me start by recalling the basic answer. Paris is definitely the correct response, so I'll start with that.\
\
But why is the user asking this? They might be a student preparing for a test, or maybe someone traveling who needs to know the main city for planning. Alternatively, they could be testing my knowledge. But since it's a straightforward question, I'll focus on providing accurate information.\
\
Wait, maybe they need more context. Should I mention some points of interest to add value? Like Eiffel Tower or Louvre. That could help if they're interested in tourism or education. \
\
I should check if there's any recent political changes or administrative updates but nothing seems off with Paris' status as a capital. Alright, keep it simple but informative. Let me structure the answer first, then decide on the optional details. \
\
Also, considering the user might not want a long answer. But including key landmarks might make it more engaging. They didn't ask for historical info, so maybe just stick to the status and one or two unique facts. \
\
Yes, \"city of love\" is a common nickname, so that adds a nice touch. Alright, final answer will confirm Paris, mention the nicknames, and list two landmarks to cover possible interests without being overwhelming.\
response\
The capital of France is **Paris**.","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":10,"total_tokens":294,"completion_tokens":284,"prompt_tokens_details":null},"prompt_logprobs":null}
Chatbox와 같은 애플리케이션에서 API 주소를 구성하면 나만의 개인 비서를 갖게 됩니다!
Novita AI는 개발자에게 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있는 방법을 제공하고, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.
