주요 하이라이트
텍스트-이미지 분석 : Qwen2.5-VL은 이미지에서 텍스트, 차트, 아이콘, 레이아웃을 추출하고 분석하는 데 뛰어납니다.
에이전트 기능 : 시각적 에이전트로 작동하여 스마트폰 및 컴퓨터 관리와 같은 작업을 지원합니다.
비디오 이해 : 긴 동영상(1시간 이상)을 처리하고 정확한 이벤트 위치를 파악합니다.
효율적인 액세스 : Novita AI는 높은 하드웨어 비용을 피할 수 있는 저렴한 API 옵션을 제공합니다.
Qwen2.5-VL은 Qwen 시리즈의 최신 플래그십 비전-언어 모델로, 이전 모델인 Qwen2-VL에서 한 단계 더 발전했습니다. Qwen2.5-VL-72B-Instruct 모델은 720억 개의 파라미터를 가진 명령어 튜닝 버전으로, 개발자들의 소중한 피드백을 바탕으로 더 효과적이고 실용적인 비전-언어 모델로 설계되었습니다.
Qwen2.5-VL-72B-Instruct란?
Qwen2.5-VL-72B-Instruct는 720억 개의 파라미터를 가진 대규모 비전-언어 모델(LVLM) 로, 명령 기반 작업에 맞게 미세 조정되었습니다. 시각(이미지/비디오) 및 텍스트 입력을 모두 이해하고 분석하여 다양한 작업을 수행할 수 있습니다. Qwen2-VL 대비 주요 개선 사항은 다음과 같습니다.
- 향상된 시각적 이해 : 이미지 내의 일반 객체 인식, 텍스트, 차트, 아이콘, 그래픽, 레이아웃 분석에 능숙합니다.

출처: Qwen
- 에이전트 기능 : 추론하고 컴퓨터 및 휴대폰 사용을 위한 도구를 동적으로 지시할 수 있는 시각적 에이전트 역할을 합니다.

출처: Qwen
- 개선된 비디오 이해 ** : 1시간 이상의 비디오를 이해하고 관련 비디오 세그먼트를 정확히 찾아낼 수 있으며, 더 나은 시간적 이해를 위한 ** 동적 FPS 학습 ** 및 ** 절대 시간 인코딩을 지원합니다.

출처: Qwen
- 정밀한 객체 위치 파악 : 바운딩 박스/포인트를 사용하여 이미지에서 객체를 정확하게 감지하고 좌표 및 속성에 대한 안정적인 JSON 출력을 제공합니다.
- 구조화된 출력 생성 : 스캔된 인보이스 및 테이블에 대한 구조화된 출력을 지원하여 금융 및 상거래 애플리케이션에 유용합니다.

출처: Qwen
Qwen2-VL-72B-Instruct 벤치마크

출처: Qwen
Qwen2.5-VL-72B-Instruct는 다양한 벤치마크에서 경쟁력 있거나 우수한 성능을 보여주며, 이미지 작업(예: MMMUval, MathVista_MINI, DocVQA_VAL), 비디오 작업(예: VideoMME, MVBench, EgoSchema), 에이전트 기반 작업(예: ScreenSpot, Android Control, MobileMiniWob++_SR)에서 탁월합니다. Qwen2-VL-72B를 자주 능가하고 GPT4o, Claude3.5 Sonnet, Gemini 2.0과 같은 선도적인 모델과 경쟁합니다. 또한 Qwen2.5-VL-7B는 여러 작업에서 GPT-4o-mini를 능가하며, Qwen2.5-VL-3B는 Qwen2-VL의 7B 버전을 능가합니다.
Qwen2-VL-72B-Instruct 하드웨어 요구 사항
| **GPU 모델 ** | GPU당 VRAM | ** 사용 GPU 수 ** | ** 총 VRAM** | ** 예상 비용** |
|---|---|---|---|---|
| Nvidia A100 (80 GB) | 80 GB | 8개 GPU | 640 GB | 약 $205,496 |
| Nvidia H100 (80 GB) | 80 GB | 8개 GPU | 640 GB | 약 $200,000 - $320,000 |
| Nvidia RTX 4090 | 24 GB | 24개 GPU | 576 GB | 약 $57,600 - $66,120 |
| Nvidia L40S | 48 GB | 8개 GPU | 384 GB | 약 $46,799.60 - $83,712.80 |
Qwen2-VL-72B-Instruct 실행을 위해 Nvidia A100 (80 GB) 는 비용, VRAM 및 성능의 균형을 갖춘 최고의 종합 옵션입니다. H100 (80 GB) 은 성능을 우선시하는 조직에 적합하며, RTX 4090 및 L40S 는 예산이 부족한 환경에서 사용할 수 있지만 복잡성과 VRAM 측면에서 절충이 따릅니다.
Qwen2-VL-72B-Instruct 테스트
입력: 쿼리 제공: ‘사용자가 이미지 생성 기능을 사용하고 있습니다’ 설명된 내용이 비디오에서 언제 발생합니까? 시간 형식은 초를 사용하세요.
출력: 설명된 내용은 비디오의 28초에서 50초 사이에 발생합니다. 이 세그먼트 동안 사용자는 이미지 생성 기능과 상호 작용하여 주간 및 야간 산의 예술적인 이중 장면 그림을 요청하고 받습니다. 그런 다음 사용자는 생성된 이미지에 새를 추가하여 이미지 생성 도구의 기능을 보여줍니다.
Qwen2-VL-72B-Instruct에 액세스하는 방법
Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 하면서, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.
1단계: 로그인 및 모델 라이브러리 액세스
계정에 로그인하고 모델 라이브러리 버튼을 클릭하세요.

지금 Qwen2-VL-72B-Instruct 데모 체험하기!
2단계: 무료 체험 시작
선택한 모델의 기능을 살펴보기 위해 무료 체험을 시작하세요.

3단계: API 키 받기
API 인증을 위해 새로운 API 키를 제공해 드립니다. “설정” 페이지로 이동하여 이미지에 표시된 대로 API 키를 복사하세요.

4단계: API 설치
프로그래밍 언어에 맞는 패키지 관리자를 사용하여 API를 설치합니다.

설치 후 개발 환경에 필요한 라이브러리를 가져옵니다. API 키로 API를 초기화하여 Novita AI LLM과 상호 작용을 시작합니다. 다음은 Python 사용자를 위한 채팅 완성 API 사용 예제입니다.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
Qwen2.5-VL-72B-Instruct는 비전-언어 모델의 주요 발전을 나타내며, 시각적 이해, 비디오 이해, 에이전트 기능, 위치 파악 및 구조화된 출력 생성을 향상시킵니다. 동적 해상도 학습과 효율적인 시각적 인코더를 통해 이미지, 비디오 및 에이전트 작업 전반에서 뛰어난 벤치마크 성능을 달성합니다.
자주 묻는 질문
Qwen2.5-VL-instruct는 시각적 이해를 어떻게 개선하나요?
다국어(세로 쓰기 포함), 차트, 아이콘, 레이아웃의 텍스트를 분석하고 주요 정보를 추출하며 문서를 HTML과 같은 구조화된 형식으로 변환합니다.
Qwen2.5-VL-instruct의 새로운 비디오 기능은 무엇인가요?
1시간 이상의 비디오 처리, 초 단위의 이벤트 위치 파악, 시간적 근거 찾기, 구조화된 캡션 생성, 내용 요약을 수행합니다.
Qwen2.5-VL-instruct 실행에 권장되는 하드웨어는 무엇인가요?
로컬 사용을 위해서는 최소 384GB VRAM을 갖춘 GPU 를 권장합니다. 또는 Novita AI와 같은 효과적인 API를 선택하여 사용할 수 있습니다!
Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 하면서, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.
