Qwen 3.5 Medium 시리즈(27B, 35B-A3B, 122B-A10B)는 다양한 VRAM 요구 사항을 가진 엔터프라이즈급 언어 모델을 제공합니다:
- 27B: 17-54 GB (Q4_K_M ~ BF16)
- 35B-A3B: 22-69 GB (Q4_K_M ~ BF16)
- 122B-A10B: 77-244 GB (Q4_K_M ~ BF16)
Novita AI에서 유연한 GPU 옵션(H100, RTX 5090, RTX 4090) 또는 인프라 관리가 전혀 필요 없는 서버리스 API로 배포하세요.
Qwen 3.5 Medium 시리즈란?
Qwen 3.5 Medium 시리즈는 프로덕션 등급 애플리케이션을 위해 설계된 세 가지 고성능 언어 모델로 구성됩니다:
- Qwen3.5-27B: 270억 파라미터, 일반 작업에 대한 균형 잡힌 성능
- Qwen3.5-35B-A3B: 총 350억 파라미터, 토큰당 30억 활성 (MoE 아키텍처)
- Qwen3.5-122B-A10B: 총 1220억 파라미터, 토큰당 100억 활성 (MoE 아키텍처)
이 모델들은 추론, 코딩, 다국어 이해 및 긴 컨텍스트 처리에서 뛰어납니다.
VRAM 요구 사항을 이해하는 것은 전용 GPU에서 실행하든 서버리스 인프라를 활용하든 비용 효율적인 배포에 매우 중요합니다.
모델 및 정밀도별 VRAM 요구 사항
VRAM 필요량은 양자화 정밀도에 따라 크게 달라집니다. 아래는 Hugging Face 하드웨어 호환성 데이터를 기반으로 한 메모리 요구 사항입니다.
⚠️ 참고: 이 수치는 모델 가중치 크기를 나타냅니다. 실제 추론 중 VRAM 사용량은 배치 크기, 컨텍스트 길이 및 KV 캐시 오버헤드에 따라 10-30% 더 높아집니다. 최소 10-20%의 여유 공간이 있는 GPU를 선택하는 것이 좋습니다.
Qwen3.5-27B-GGUF
| 양자화 | VRAM (GB) | 권장 하드웨어 |
| BF16 | 54 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
| Q8_0 | 29 | CPU: Intel Sapphire Rapids 16× vCPU · 32 GB RAM GPU: A100 40GB / RTX 4090 24GB (더 빠른 추론) |
| Q4_K_M | 17 | CPU: Intel Sapphire Rapids 16× vCPU · 32 GB RAM GPU: RTX 4090 24GB / L40S 48GB (더 빠른 추론) |
💡 CPU vs GPU: Q8_0 및 Q4_K_M 정밀도에서 모델은 최신 CPU RAM 한도(32-64 GB) 내에 들어갑니다. 그러나 GPU 추론은 배치 크기에 따라 10-50배 더 빠릅니다. 낮은 지연 시간 또는 높은 처리량이 필요한 프로덕션 워크로드의 경우 GPU 배포를 강력히 권장합니다.
Qwen3.5-35B-A3B-GGUF
| 양자화 | VRAM (GB) | 권장 하드웨어 |
| BF16 | 69 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
| Q8_0 | 37 | GPU: L40S × 1 (48GB) / A100 40GB |
| Q4_K_M | 22 | CPU: Intel Sapphire Rapids 16× vCPU · 32 GB RAM GPU: RTX 4090 24GB / L40S 48GB (더 빠른 추론) |
Qwen3.5-122B-A10B-GGUF
| 양자화 | VRAM (GB) | 권장 하드웨어 |
| BF16 | 244 | GPU: A100 × 4 (320GB) / H100 × 4 (320GB) |
| Q8_0 | 130 | GPU: A100 × 2 (160GB) / H100 × 2 (160GB) |
| Q4_K_M | 77 | GPU: A100 × 1 (80GB) / H100 × 1 (80GB) |
💡 참고: 122B 모델은 크기 때문에 공격적인 양자화를 사용하더라도 고급 GPU가 필요합니다. 멀티 GPU 설정은 BF16 및 Q8_0 정밀도에 필수적입니다.
Novita AI에 배포하기
Novita AI는 Qwen 3.5 Medium 시리즈에 대해 성능, 비용 및 사용 편의성의 균형을 제공하는 유연한 배포 옵션을 제공합니다.
GPU 배포 (VRAM 중심 사용자에게 권장)
Novita AI는 유연한 과금 옵션과 함께 Qwen 3.5 모델 배포에 최적화된 고성능 GPU를 제공합니다:
권장 GPU 구성
| 모델 | 양자화 | 필요 VRAM | 권장 GPU | 사용 사례 |
| 27B | BF16 | 54 GB | H100 80GB / RTX 5090 32GB × 2 | 프로덕션, 최고 품질 |
| 27B | Q8_0 | 29 GB | RTX 5090 32GB / RTX 4090 24GB × 2 | 균형 잡힌 성능 |
| 27B | Q4_K_M | 17 GB | RTX 4090 24GB | 비용 효율적인 추론 |
| 35B-A3B | BF16 | 69 GB | H100 80GB | 프로덕션, 최고 품질 |
| 35B-A3B | Q8_0 | 37 GB | RTX 5090 32GB × 2 / H100 80GB | 균형 잡힌 성능 |
| 35B-A3B | Q4_K_M | 22 GB | RTX 4090 24GB | 비용 효율적인 추론 |
| 122B-A10B | BF16 | 244 GB | H100 80GB × 4 | 엔터프라이즈, 최고 품질 |
| 122B-A10B | Q8_0 | 130 GB | H100 80GB × 2 | 균형 잡힌 성능 |
| 122B-A10B | Q4_K_M | 77 GB | H100 80GB | 비용 효율적인 추론 |
Novita AI GPU 배포가 좋은 이유는?
Novita AI는 워크로드와 예산에 맞게 여러 성능 계층의 GPU 옵션을 제공합니다:
- 엔터프라이즈급 GPU: BF16 및 Q8_0 정밀도를 위한 높은 VRAM 구성
- 고성능 컨슈머 GPU: 중간 규모 모델을 위한 균형 잡힌 가격/성능
- 비용 효율적인 옵션: 양자화된 모델(Q4_K_M)을 위한 저렴한 구성
- 멀티 GPU 설정: 1x에서 8x GPU 구성까지 원활하게 확장
- 유연한 과금: 온디맨드, 스팟 인스턴스 및 서버리스 GPU (초당 지불)
- 즉시 배포: 빠른 설정을 위한 사전 구성된 템플릿
서버리스 API (인프라 제로 대안)
인프라 관리를 전혀 원하지 않는 사용자를 위해 Novita AI는 OpenAI 호환 인터페이스를 갖춘 서버리스 API 엔드포인트를 제공합니다.
지원되는 모델
| 모델 | 모델 ID |
| Qwen3.5-27B | qwen/qwen3.5-27b |
| Qwen3.5-35B-A3B | qwen/qwen3.5-35b-a3b |
| Qwen3.5-122B-A10B | qwen/qwen3.5-122b-a10b |
- Base URL: https://api.novita.ai/openai
API 키 얻는 방법
- Novita AI에 가입하세요.
- 대시보드에서 API Keys 섹션으로 이동하세요.
- Create New Key를 클릭하고 API 키를 복사하세요.
- 계정에 크레딧을 추가하여 API 사용을 시작하세요.

빠른 예시:
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="qwen/qwen3.5-35b-a3b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=65536,
temperature=0.7
)
print(response.choices[0].message.content)
올바른 정밀도 선택
BF16 (전체 정밀도)
- 사용 사례: 최고 품질이 필요한 프로덕션 환경
- 트레이드오프: 가장 높은 VRAM 요구 사항
- 최적 대상: 엔터프라이즈 애플리케이션, 연구 벤치마크
Q8_0 (8비트 양자화)
- 사용 사례: 균형 잡힌 성능과 효율성
- 트레이드오프: 약 1-2% 품질 손실, 50% VRAM 감소
- 최적 대상: 높은 처리량 추론, 비용에 민감한 프로덕션
Q4_K_M (4비트 양자화)
- 사용 사례: 컨슈머 GPU에서 비용 효율적인 배포
- 트레이드오프: 약 3-5% 품질 손실, 70-75% VRAM 감소
- 최적 대상: 개발, 테스트, 예산이 제한된 배포
결론
Qwen 3.5 Medium 시리즈는 다양한 엔터프라이즈 요구 사항에 맞는 강력한 언어 모델을 제공하며, VRAM 요구 사항은 17GB(27B Q4_K_M)에서 244GB(122B BF16)까지 다양합니다.
주요 내용:
- 품질 대 비용 트레이드오프에 따라 양자화를 선택하세요.
- GPU 추론은 프로덕션 워크로드에서 CPU보다 10-50배 빠릅니다.
- Novita AI는 유연한 배포를 제공합니다: GPU 임대(온디맨드/스팟) 또는 서버리스 API.
다음 단계:
***Novita AI*는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 하면서, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.
자주 묻는 질문
VRAM이란 무엇인가요?
VRAM(비디오 랜덤 액세스 메모리)은 추론 중 모델 가중치, 활성화 값 및 중간 계산을 저장하는 데 사용되는 GPU 전용 메모리입니다. LLM(Qwen 3.5 등)의 경우 VRAM 요구 사항은 모델 크기와 정밀도에 비례합니다. 모델이 크고 정밀도가 높을수록(BF16 등) 양자화된 버전(Q4_K_M 등)보다 더 많은 VRAM이 필요합니다. VRAM이 부족하면 메모리 부족 오류가 발생하거나 CPU 추론을 강제로 사용해야 하며, 이는 훨씬 느립니다.
Qwen 3.5 Medium 모델을 CPU에서 실행할 수 있나요?
네, 더 작은 양자화된 모델(Q8_0 및 Q4_K_M)은 32-64 GB RAM이 있는 CPU에서 실행할 수 있습니다. 그러나 CPU 추론은 GPU보다 10-50배 느리므로 프로덕션 워크로드나 실시간 애플리케이션에는 비실용적입니다. 최상의 성능을 위해 양자화된 모델에서도 GPU 배포를 적극 권장합니다.
BF16, Q8_0, Q4_K_M의 차이점은 무엇인가요?
BF16(16비트)은 최고 품질의 전체 정밀도이지만 VRAM 사용량이 가장 높습니다. Q8_0(8비트)은 약 1-2%의 미미한 품질 손실로 VRAM을 약 50% 줄입니다. Q4_K_M(4비트)은 VRAM을 70-75% 줄이지만 3-5%의 품질 저하가 발생할 수 있습니다. 약간의 정확도 트레이드오프가 허용되는 비용 민감한 배포에 이상적입니다.
