가이드: Llama 4 Scout를 로컬, API 또는 클라우드 GPU에서 사용하는 방법

가이드: Llama 4 Scout를 로컬, API 또는 클라우드 GPU에서 사용하는 방법

주요 특징

1,000만 토큰 컨텍스트: 대부분의 모델보다 훨씬 뛰어납니다.

멀티모달 지원: 텍스트와 이미지를 모두 입력으로 처리합니다.

다국어 지원: 12개 언어를 지원하여 글로벌 애플리케이션에 활용 가능합니다.

오픈 소스: 무료로 사용 및 커스터마이징이 가능합니다.

Novita AI API를 통해 무료 체험 을 지금 시작해보세요—빠르고, 간편하며, 번거로움이 없습니다!

Llama 4 Scout1,000만 개의 토큰 컨텍스트 를 제공하여 대부분의 제한된 컨텍스트 윈도우를 가진 AI 모델과 차별화됩니다. 이 높은 용량은 긴 문서 분석, 다국어 통합 또는 멀티모달 입력 처리와 같은 대규모 작업에 이상적입니다.

Llama 4 Scout란?

https://www.youtube.com/watch?v=MwHol73Cw\_I

Llama 4 Scout 개요

**속성 ** ** 값**
출시일 2025년 4월 5일
모델 크기 109B 파라미터(활성화 17B/토큰)
오픈 소스 공개
아키텍처 16 Mixture-of-Experts (MoE)
컨텍스트 1,000만 (10,000k)
지원 언어 아랍어, 영어, 프랑스어, 독일어, 힌디어, 인도네시아어, 이탈리아어, 포르투갈어, 스페인어, 타갈로그어, 태국어, 베트남어
멀티모달 입력: 다국어 텍스트 및 이미지
출력: 다국어 텍스트 및 코드
훈련 데이터 약 40조 토큰
사전 훈련 MetaP (Adaptive Expert Configuration + 중간 훈련)
후 훈련 SFT (Easy Data) → RL (Hard Data) → DPO
텐서 타입 BF16

Llama 4 Scout 벤치마크

llama 4 scout benchmark

출처: Meta

Llama 4 Scout를 로컬에서 사용하는 방법

Llama 4 Scout 하드웨어 요구 사항

**컨텍스트 길이 ** Int4 VRAM GPU 필요 (Int4) FP16 VRAM GPU 필요 (FP16)
4K 토큰 ~99.5 GB / ~76.2 GB 1×H100 ~345 GB 8×H100
128K 토큰 ~334 GB 8×H100 ~579 GB 8×H100
1,000만 토큰 ~18.8 TB (KV 캐시가 대부분) 240×H100 Int4와 동일 (KV가 대부분) 240×H100

홍보 자료에서는 LLaMA 4 Scout가 단일 H100에서 실행 가능하다고 하지만, 이는 양자화, 짧은 컨텍스트 길이, 작은 배치 크기, 효율적인 추론 프레임워크가 있어야만 가능합니다.

Llama 4 Scout 로컬 설치

1단계: 환경 준비

  • Python 설치: 시스템에 적합한 버전의 Python이 설치되어 있는지 확인하세요(Llama 4에 필요).
  • GPU 설정: 모델을 실행할 수 있는 강력한 GPU가 시스템에 있는지 확인하세요.
  • Python 환경 생성: conda 또는 venv 같은 도구를 사용하여 종속성을 관리하세요.

2단계: 모델 획득

  • 웹사이트 방문: www.llama.com으로 이동하세요.
  • **모델 선택 **: Llama 4 Scout 를 다운로드하세요.

3단계: 종속성 설치

다음 명령어를 실행하여 필요한 Python 패키지를 설치하세요:

pip install llama-stack

4단계: 모델 확인

사용 가능한 모든 모델을 나열하고 Llama 4 Scout의 모델 ID를 찾으세요:

llama model list

5단계: 모델 다운로드 및 실행

  • 모델 ID 지정: 올바른 모델 ID와 다운로드 URL을 입력하세요.
  • URL 만료 확인: 다운로드 링크는 일반적으로 48시간 동안만 유효하므로, 다시 다운로드해야 할 수 있습니다.

이 단계를 완료하면 Llama 4 Scout 를 실행할 준비가 됩니다!

Novita API를 통해 Llama 4 Scout에 접근하는 방법

1단계: 로그인 및 모델 라이브러리 접근

계정에 로그인하고 Model Library 버튼을 클릭하세요.

Log In and Access the Model Library

지금 Llama 4 Scout 사용해보기!

2단계: 모델 선택

사용 가능한 옵션을 살펴보고 필요에 맞는 모델을 선택하세요.

choose your model

3단계: 무료 체험 시작

선택한 모델의 기능을 살펴보기 위해 무료 체험을 시작하세요.

start your free tail

4단계: API 키 받기

API 인증을 위해 새로운 API 키를 제공해 드립니다. Settings 페이지로 이동하여 이미지와 같이 API 키를 복사하세요.

get api key

5단계: API 설치

사용 중인 프로그래밍 언어에 맞는 패키지 관리자를 사용하여 API를 설치하세요.

설치 후, 개발 환경에 필요한 라이브러리를 가져오세요. API 키로 API를 초기화하여 Novita AI LLM과 상호작용을 시작하세요. 다음은 Python 사용자를 위한 채팅 완성 API 예시입니다.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "meta-llama/llama-4-scout-17b-16e-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  

클라우드 GPU를 통해 Llama 4 Scout 사용하기

1단계: 계정 등록

Novita AI가 처음이라면, 웹사이트에서 계정을 만드세요. 등록이 완료되면 “GPUs” 탭으로 이동하여 사용 가능한 리소스를 살펴보고 여정을 시작하세요.

Novita AI website screenshot

2단계: 템플릿 및 GPU 서버 탐색

프로젝트 요구사항에 맞는 템플릿(예: PyTorch, TensorFlow, CUDA)을 선택하세요. 요구사항에 맞는 버전(예: PyTorch 2.2.1 또는 CUDA 11.8.0)을 선택하세요. 그런 다음 A100 GPU 서버 구성을 선택하세요. 이 구성은 충분한 VRAM, RAM 및 디스크 용량으로 까다로운 워크로드를 처리할 수 있는 강력한 성능을 제공합니다.

novita ai website screenshot using cloud gpu

Novita AI의 고성능 GPU 사용해보기

3단계: 배포 설정 조정

템플릿과 GPU를 선택한 후, 운영 체제 버전(예: CUDA 11.8)과 같은 매개변수를 조정하여 배포 설정을 사용자 정의하세요. 프로젝트의 특정 요구사항에 맞게 다른 구성도 조정할 수 있습니다.

novita ai website screenshot using cloud gpu

4단계: 인스턴스 실행

템플릿과 배포 설정을 최종 확정한 후, "Launch Instance"를 클릭하여 GPU 인스턴스를 설정하세요. 그러면 환경 설정이 시작되어 AI 작업을 위해 GPU 리소스를 사용할 수 있습니다.

novita ai website screenshot using cloud gpu

Llama 4 Scout의 비교할 수 없는 컨텍스트 길이 와 멀티모달 기능은 장문, 다국어, 대규모 작업을 위한 혁신적인 도구입니다. 확장성과 오픈 소스 특성은 개발자와 연구자에게 유연성을 보장합니다.

자주 묻는 질문

Llama 4 Scout의 특징은 무엇인가요?

1,000만 토큰 컨텍스트: 대부분의 모델보다 훨씬 뛰어납니다.
멀티모달 지원: 텍스트와 이미지를 모두 입력으로 처리합니다.
다국어 지원: 12개 언어를 지원하여 글로벌 애플리케이션에 활용 가능합니다.
오픈 소스: 무료로 사용 및 커스터마이징이 가능합니다.

고사양 GPU 없이 Llama 4 Scout를 사용할 수 있나요?

네, 하지만 더 작은 컨텍스트(예: 4K 토큰)에서 모델을 양자화하여 사용할 수 있습니다. 전체 1,000만 토큰 컨텍스트는 메모리 요구 사항(특히 KV 캐시)으로 인해 최소 240×H100 GPU 가 필요합니다. 또는 API를 통해 Novita AI를 선택할 수 있습니다!

Llama 4 Scout에 권장되는 하드웨어는 무엇인가요?

작은 컨텍스트 (4K 토큰): 1×H100 GPU
큰 컨텍스트 (128K 토큰): 8×H100 GPU
전체 컨텍스트 (1,000만 토큰): 240×H100 GPU

Novita AI는 개발자가 간단한 API를 사용하여 AI 모델을 쉽게 배포할 수 있도록 지원하는 AI 클라우드 플랫폼이며, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드도 제공합니다.

추천 읽을거리