Llama 4 Maverick 사용법 — 로컬, API, 클라우드 GPU에서 활용하기

Llama 4 Maverick 사용법 — 로컬, API, 클라우드 GPU에서 활용하기

주요 하이라이트

**방대한 컨텍스트 윈도우 **: 최대 100만 토큰 지원 — 긴 문서, 코드베이스, 책에 이상적입니다.

**멀티모달 지원 : ** 텍스트와 이미지 입력을 동시에 처리합니다.

**다국어 강점 **: 200개 언어 로 사전 학습되었으며, 다국어 MMLU 점수(84.6)가 높아 글로벌 환경에 적합한 모델입니다.

**비용 효율성 : GPT-4o의 가격(토큰당 $4.38) 대비 훨씬 저렴한 비용(Novita AI에서 토큰당 $0.2)으로 ** 최첨단 성능을 제공합니다.

Llama 4 Maverick 은 2025년 4월 5일에 출시된 Meta의 최신 오픈소스 대규모 언어 모델입니다. 128-Experts 혼합(MoE) 아키텍처로 구축되었고 22조 토큰의 멀티모달 데이터로 학습되어 **성능, 유연성, 글로벌 규모 ** 에 최적화되었습니다. **최대 1천만 토큰의 컨텍스트 길이 , ** 텍스트 및 이미지 입력 ** 지원, ** 다국어 및 추론 벤치마크에서 뛰어난 성능을 자랑합니다.

Llama 4 Maverick이란?

https://www.youtube.com/watch?v=8G-GI4bvWZU

Llama 4 Maverick 개요

**카테고리 ** ** 세부 사항**
출시일 2025년 4월 5일
모델 크기 400B 파라미터 (토큰당 활성 17B)
오픈소스
아키텍처 128 Mixture-of-Experts (MoE)
컨텍스트 길이 최대 1M 토큰 (1,000,000 토큰)
언어 지원 아랍어, 영어, 프랑스어, 독일어, 힌디어, 인도네시아어, 이탈리아어, 포르투갈어, 스페인어, 타갈로그어, 태국어, 베트남어 등 200개 언어 사전 학습
멀티모달 기능 텍스트와 이미지 입력을 결합하여 텍스트 및 시각적 콘텐츠 처리 지원
학습 데이터 약 22조 토큰의 멀티모달 데이터 (일부는 Instagram 및 Facebook에서 수집)
사전 학습 MetaP (중간 학습 최적화를 통한 적응형 전문가 구성)
후처리 단계 1. SFT (쉬운 데이터에 대한 지도 미세 조정)
2. RL (어려운 데이터에 대한 강화 학습)
3. DPO (직접 선호도 최적화)

Llama 4 Maverick 벤치마크

Llama 4 MaverickGemini 2.0 Flash, DeepSeek v3.1, GPT-4o 보다 여러 주요 벤치마크, 특히 **이미지 추론 **, ** 이미지 이해 , ** 다국어 작업에서 뛰어난 성능을 보입니다.

llama-4-maverick benchmark

로컬에서 Llama 4 Maverick에 액세스하는 방법

Llama 4 Maverick 하드웨어 요구 사항

**컨텍스트 길이 ** INT4 VRAM GPU 필요 (INT4) FP16 VRAM GPU 필요 (FP16)
4K 토큰 ~318 GB 4×H100/A100 ~1.22 TB 16×H100
128K 토큰 ~552 GB 8×H100 ~1.45 TB ~16×H100

로컬에서 Llama 4 Maverick 설치

1단계: 환경 준비

  • Python(가급적 3.9 이상)을 설치합니다.
  • 종속성 관리를 위해 가상 환경을 사용합니다:textpython -m venv llama_env source llama_env/bin/activate

2단계: 필요한 Python 라이브러리 설치

다음 명령을 실행하여 종속성을 설치합니다:

bash<code>pip install -U transformers==4.51.0
pip install torch
pip install huggingface-hub
pip install hf_xet

이 라이브러리는 모델을 로드하고 실행하는 데 필수적입니다.

3단계: 모델 다운로드

  1. Hugging Face Hub에서 Llama 4 Maverick 페이지를 방문합니다.
  2. 다음 Python 코드를 사용하여 모델을 다운로드합니다:
from transformers import AutoProcessor, Llama4ForConditionalGeneration

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16)

이렇게 하면 모델이 다운로드되고 추론을 위한 준비가 완료됩니다.

Novita API를 통해 Llama 4 Maverick에 액세스하는 방법

1단계: 로그인 및 모델 라이브러리 액세스

계정에 로그인하고 Model Library 버튼을 클릭합니다.

Log In and Access the Model Library

지금 Llama 4 Maverick 사용해보기!

2단계: 모델 선택

사용 가능한 옵션을 살펴보고 필요에 맞는 모델을 선택합니다.

choose your model

3단계: 무료 체험 시작

선택한 모델의 기능을 살펴보기 위해 무료 체험을 시작합니다.

start your free trail

4단계: API 키 받기

API를 인증하기 위해 새 API 키를 제공합니다. “Settings” 페이지로 이동하여 이미지에 표시된 대로 API 키를 복사할 수 있습니다.

get api key

5단계: API 설치

프로그래밍 언어에 맞는 패키지 관리자를 사용하여 API를 설치합니다.

설치 후 개발 환경에 필요한 라이브러리를 가져옵니다. API 키로 클라이언트를 초기화하여 Novita AI LLM과 상호작용을 시작합니다. 다음은 Python 사용자를 위한 채팅 완성 API 사용 예시입니다.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-maverick-17b-128e-instruct-fp8"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  

클라우드 GPU를 통해 Llama 4 Scout 사용하기

1단계: 계정 등록

Novita AI를 처음 사용하시는 경우, 웹사이트에서 계정을 생성합니다. 등록이 완료되면 “GPUs” 탭으로 이동하여 사용 가능한 리소스를 확인하고 여정을 시작하세요.

Novita AI website screenshot

2단계: 템플릿 및 GPU 서버 탐색

프로젝트 요구 사항에 맞는 템플릿(예: PyTorch, TensorFlow, CUDA)을 선택합니다. 필요한 버전(예: PyTorch 2.2.1 또는 CUDA 11.8.0)을 선택합니다. 그런 다음 강력한 성능을 제공하며 충분한 VRAM, RAM 및 디스크 용량을 갖춘 A100 GPU 서버 구성을 선택합니다.

novita ai website screenshot using cloud gpu

Novita AI의 고성능 GPU 사용해보기

3단계: 배포 맞춤 설정

템플릿과 GPU를 선택한 후 운영 체제 버전(예: CUDA 11.8)과 같은 매개변수를 조정하여 배포 설정을 사용자 지정합니다. 또한 다른 구성을 조정하여 프로젝트의 특정 요구 사항에 맞게 환경을 조정할 수 있습니다.

novita ai website screenshot using cloud gpu

4단계: 인스턴스 실행

템플릿 및 배포 설정을 최종 확인한 후 “Launch Instance” 를 클릭하여 GPU 인스턴스를 설정합니다. 그러면 환경 설정이 시작되어 AI 작업에 GPU 리소스를 사용할 수 있습니다.

novita ai website screenshot using cloud gpu

강력하고 저렴하며 개발자 친화적인 LLM을 찾고 있다면 Llama 4 Maverick 이 최고의 선택입니다. **이미지 추론, 다국어 지원, 장문 컨텍스트 이해, 추론 비용 ** 등의 주요 영역에서 GPT-4o 및 Gemini 2.0 Flash와 같은 선도적인 모델을 능가합니다. 로컬에서 실행하든 Novita AI의 고성능 API 를 통해 실행하든 시작은 빠르고 쉽습니다. 지금 사용해 보고 차이를 확인하세요.

자주 묻는 질문

Llama 4 Maverick이란 무엇인가요?

Llama 4 Maverick은 Meta에서 개발한 오픈소스 대규모 언어 모델로, **텍스트 및 이미지 입력 ** 을 처리할 수 있으며, 최대 **10M 토큰 컨텍스트 ** 를 지원하고 200개 언어 로 학습되었습니다.

강력한 로컬 GPU 없이 Llama 4 Maverick을 사용할 수 있나요?

네! Novita AI의 API 또는 ** 클라우드 GPU 플랫폼**을 통해 Llama 4 Maverick에 쉽게 액세스할 수 있으며, 무료 체험도 가능합니다.

Llama 4 Maverick이 대규모 문서나 책에 적합한가요?

물론입니다. 최대 100만 토큰 을 지원하므로 긴 텍스트, 복잡한 문서 및 컨텍스트 기억 작업을 처리하는 데 이상적입니다.

Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있는 AI 클라우드 플랫폼이며, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공합니다.

추천 자료