개발자 커뮤니티를 지원하기 위해 Novita AI에서 Qwen2.5-7B를 현재 무료로 제공하고 있습니다.
Qwen 2.5 VL 72B vs Qwen 2.5 72B: VRAM 요구 사항
Hugging Face에 따르면, Qwen 2.5VL 72B는 최소 384GB의 VRAM 이 필요한 반면, Qwen 2.5 72B는 146.77GB 만 있으면 됩니다!

Qwen 2.5 VL 72B 배포를 위한 권장 GPU
| 구성 | 총 VRAM | 비고 |
|---|---|---|
| 8× A100 80GB | 640 GB | 대규모 모델 추론을 위한 표준 설정 |
| 8× H100 80GB | 640 GB | A100보다 뛰어난 성능 |
| 8× L40S 48GB | 384 GB | NVIDIA의 최신 엔터프라이즈 GPU. 비용 효율적이지만, 모델을 완전히 수용하려면 최적화된 파이프라인이나 8비트 양자화가 필요할 수 있음 |
8× L40S = 총 384 GB VRAM 으로, Qwen2.5-VL-72B의 문서상 최소 요구 사항 에 딱 맞습니다.
안정성을 보장하려면 모델 병렬화와 vLLM, DeepSpeed, 또는 Hugging Face
accelerate최적화가 필요할 수 있습니다.FP16이 메모리에 맞지 않는 경우 8비트 또는 4비트 양자화 를 고려하세요.
Qwen 2.5 VL 72B 배포 비용
1. 훨씬 높은 배포 비용
- 더 많은 GPU(예: 8×A100 80GB 또는 여러 H100) 또는 고급 GPU 노드가 필요합니다.
- 텍스트 전용 버전에 비해 클라우드 배포 비용이 크게 증가합니다.
2. 더 높은 하드웨어 장벽
- 많은 개발자가 VL-72B를 로컬에서 실행할 수 없습니다. 멀티 GPU 설정과 효율적인 모델 병렬화가 필요합니다.
- 또한 안정적인 추론을 위해 높은 메모리 대역폭과 최적화된 인프라가 필요합니다.
3. 더 비싼 추론
- API 제공업체는 리소스 소비 증가를 반영하여 더 높은 요금을 부과합니다.
- 동일한 파라미터 크기의 순수 텍스트 모델보다 추론 비용이 2~3배(또는 그 이상) 비쌀 수 있습니다.
4. 느린 추론 속도
- 시각 인코더와 멀티모달 융합 레이어가 복잡성을 추가합니다.
- 이미지 처리는 토큰 처리량에 오버헤드를 추가하여 지연 시간을 증가시킵니다.
동일한 크기의 LLM보다 Qwen 2.5 VL 72B에 더 많은 VRAM이 필요한 이유
Qwen2.5-VL-72B 는 알리바바 클라우드가 개발한 최첨단 멀티모달 대규모 언어 모델로, 시각적(이미지 및 비디오) 입력과 텍스트 입력 모두에서 콘텐츠를 이해하고 생성하도록 설계되었습니다.
720억 개의 파라미터를 갖추고 있어 문서 파싱, 차트 분석, 시각적 질의응답, 장시간 비디오 이해와 같은 작업에서 뛰어난 성능을 발휘하며, AI 에이전트 및 엔터프라이즈 자동화 같은 복잡한 애플리케이션에 적합합니다.

1. 동적 해상도 및 프레임 레이트 샘플링
기능: Qwen2.5-VL-72B는 동적 해상도 및 **시간적 프레임 샘플링 ** 을 도입하여 다양한 프레임 레이트로 비디오를 처리할 수 있습니다. 즉, 모델이 다양한 동작 속도에 적응하고, 주요 이벤트를 식별하며, 장면에서 "무언가가 언제 발생했는지"와 같은 시간적 추론을 수행할 수 있습니다. 이를 지원하기 위해 모델은 멀티모달 회전 위치 임베딩(mRoPE) 을 절대 시간 및 프레임 ID 정보로 업데이트합니다.
VRAM에 미치는 영향: 동적 샘플링이 효율적으로 보이지만, 가변 해상도와 프레임 레이트를 지원하려면 모델이 여러 시간적 패턴에 대한 용량을 확보해야 합니다. 이는 특히 고해상도 또는 장시간 비디오를 처리할 때 메모리 요구 사항을 증가시킵니다. 또한 mRoPE를 시간 차원으로 확장하면 더 많은 토큰, 더 많은 임베딩, 더 많은 어텐션 레이어가 필요해져 VRAM 사용량이 증가합니다.
2. 간소화된 Vision Transformer (ViT)
기능: 모델의 비전 인코더는 윈도우 어텐션을 사용하는 Vision Transformer 를 기반으로 하며, 이미지를 한 번에 모두 처리하지 않고 지역화된 패치로 처리하여 연산을 줄입니다. Qwen2.5-VL은 또한 SwiGLU 와 RMSNorm 을 사용하여 수렴 속도와 수치적 안정성을 개선하면서 기본 Qwen2.5 언어 모델과의 호환성을 유지합니다.
VRAM에 미치는 영향: 윈도우 어텐션은 전체 어텐션에 비해 메모리를 절약하는 데 도움이 되며, 특히 고해상도 이미지에서 효과적입니다. 그러나 비주얼 인코더 자체는 특히 72B 모델에서 여전히 상당한 오버헤드를 추가합니다. SwiGLU와 RMSNorm 자체가 큰 VRAM 소모자는 아니지만, 추가 레이어와 연산을 추가합니다. 그 결과, 일부 모델보다는 효율적이지만, 특히 큰 배치 크기나 긴 컨텍스트와 함께 사용할 때 수십 기가바이트의 추가 VRAM 이 필요합니다.
Qwen2.5-VL-72B는 성능에 최적화되어 있지만, 그 아키텍처는 본질적으로 멀티모달이며 메모리 집약적 입니다. 단어뿐만 아니라 복잡한 시각적 및 시간적 패턴을 이해하도록 설계되었습니다.
이러한 기능은 상당한 VRAM 트레이드오프를 수반하므로, 아키텍처 효율성이 최우선인 경우에도 표준 72B 텍스트 전용 모델보다 훨씬 더 많은 리소스를 요구합니다.
Qwen2.5 VL 72B 로컬 배포는 쉽지 않습니다
Qwen2.5-VL-72B를 로컬에 배포하는 것은 최대 384GB의 VRAM이라는 방대한 메모리 요구 사항 때문에 부담스러울 수 있습니다. 부담을 줄이는 여러 방법이 있지만, 각각 복잡성이 따릅니다:
- 양자화 는 모델을 8비트 또는 4비트 정밀도로 압축하여 메모리 사용량을 최대 75%까지 줄입니다. 그러나 GPTQ 또는 AWQ와 같은 도구가 필요하며, 정확도나 호환성에 영향을 줄 수 있습니다.
- 모델 병렬화 는 모델을 여러 GPU에 분할하여 단일 GPU에 충분한 메모리가 없어도 실행할 수 있게 합니다. 하지만 NVLink와 같은 고속 상호 연결과 세심한 설정이 필요하므로 초보자에게는 적합하지 않습니다.
- vLLM과 같은 효율적인 추론 엔진 은 메모리 재사용과 처리량을 최적화할 수 있지만, 프로덕션에 통합하려면 견고한 인프라와 일부 엔지니어링 작업이 필요합니다.
- 클라우드 기반 배포 는 하드웨어 장벽을 제거하지만, 확장, 가동 시간, 비용을 관리해야 하며, 종종 사용자 정의 컨테이너 설정이 필요합니다.
요약하자면: **이 모든 해결책이 작동하지만, 시간, 비용, 또는 둘 다 소모됩니다 . 그렇기 때문에 많은 개발자, 연구자, 팀이 Qwen2.5-VL-72B의 멀티모달 능력에 빠르게 접근하려는 경우 가장 좋은 옵션은 종종 가장 간단한 방법인 ** 잘 최적화된 API 서비스를 사용하는 것입니다.
대신 API 사용하기
API를 사용하면 하드웨어 설정, 메모리 관리, 호환성 문제를 건너뛸 수 있습니다. 인프라 부담 없이 Qwen2.5-VL-72B의 전체 기능(비전, 언어, 비디오 이해)에 즉시 액세스할 수 있습니다. 요청을 보내고 응답을 받고, 빌드에 집중하면 됩니다.
1단계: 로그인 및 모델 라이브러리 액세스
계정에 로그인하고 Model Library 버튼을 클릭하세요.

2단계: 모델 선택
사용 가능한 옵션을 탐색하고 필요에 맞는 모델을 선택하세요.

3단계: 무료 체험 시작
선택한 모델의 기능을 탐색하려면 무료 체험을 시작하세요.

4단계: API 키 받기
API 인증을 위해 새 API 키를 제공합니다. Settings 페이지로 이동하여 이미지에 표시된 대로 API 키를 복사하세요.

5단계: API 설치
프로그래밍 언어에 맞는 패키지 관리자를 사용하여 API를 설치합니다.
설치 후, 필요한 라이브러리를 개발 환경으로 가져옵니다. API 키로 API를 초기화하여 Novita AI LLM과 상호 작용을 시작합니다. 다음은 Python 사용자를 위한 채팅 완성 API 사용 예시입니다.
from openai import OpenAI
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Qwen2.5-VL-72B는 최첨단이지만 리소스 요구 사항이 높습니다. 멀티 GPU 설정이나 양자화 조정을 탐색하는 대신, 대부분의 사용자는 고성능 API를 사용하는 것이 더 유리합니다. 더 빠르고 간단하며, 스마트 애플리케이션 구축에 집중할 수 있습니다.
Qwen2.5-VL-72B를 단일 GPU에서 실행할 수 있나요?
아니요, 심하게 양자화(예: 4비트)하고 H100 120GB와 같은 매우 고급 GPU를 사용하지 않는 한 불가능하며, 그 경우에도 성능이 저하될 수 있습니다.
Qwen-VL의 경량 버전이 있나요?
네, Qwen2.5-VL-7B와 Qwen2.5-VL-3B는 더 낮은 하드웨어 비용으로 유사한 멀티모달 기능을 제공합니다.
이미지 + 텍스트 프롬프트에 API를 사용할 수 있나요?
물론입니다. Novita AI Qwen 2.5 VL 72B API는 긴 비디오 프레임, 다이어그램, 이미지 기반 Q&A를 포함한 완전한 멀티모달 입력을 지원합니다.
*Novita AI *는 개발자에게 간단한 API를 통해 AI 모델을 쉽게 배포할 수 있는 기능을 제공하면서, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드도 제공하는 AI 클라우드 플랫폼입니다.
