vLLM Llama3를 만나보세요. 효율성, 비용 절감 등을 위한 최고의 어시스턴트입니다. 어떻게 워크플로우를 혁신할 수 있는지 알아보세요.
주요 내용
- vLLM Llama3는 대규모 언어 모델 사용 시 뛰어난 정확도를 제공하고 비용을 절감합니다.
- 최고의 성능을 얻기 위해 설계된 아키텍처는 docker 컨테이너, API 서버, GPU 서버와 같은 핵심 구성 요소를 포함합니다.
- 테스트 결과 이전 버전에 비해 추론 속도와 처리량이 크게 향상되었습니다.
- Llama3에는 효율성 개선, 소프트웨어 개선, 새로운 기술 통합을 위한 업데이트가 포함되어 있습니다.
소개
가상 대규모 언어 모델(LLM)의 세계는 끊임없이 변화하고 있습니다. Llama 3는 확장성과 효율성을 보여주는 좋은 모델입니다. 더 빠른 속도와 더 쉬운 설정 방법에 대한 필요성이 대두되고 있습니다. vLLM Llama3는 이러한 요구에 강력한 해답을 제시하며, 뛰어난 정확도와 비용 절감 효과를 제공합니다. 이 블로그 게시물에서는 vLLM Llama3의 설계, 성능 향상 방식, 그리고 포함된 새로운 기능에 대해 자세히 살펴보겠습니다.
vLLM Llama3 이해하기
vLLM Llama3의 중심에는 뛰어난 성능과 성장을 목표로 신중하게 구축된 설계가 있습니다. 분산 시스템 설계를 활용하여 많은 컴퓨팅 리소스, 특히 GPU를 최대한 활용합니다.
또한 vLLM Llama3의 설정은 유연성과 확장 용이성에 초점을 맞추고 있어 다른 도구 및 시스템과의 원활한 연결을 지원합니다. 이를 통해 개발자는 자신의 특정 요구에 맞게 배포를 조정할 수 있습니다.
VLLM이란?
vLLM은 LLM의 추론 및 서빙을 용이하게 하기 위해 특별히 설계된 고성능 라이브러리입니다. 속도, 효율성 및 비용 효율성 전달에 중점을 두어 다양한 개발자들이 접근할 수 있는 솔루션으로 자리매김하고 있습니다.

VLLM을 사용하는 이유?
- 높은 처리량: vLLM은 최첨단 서빙 처리량을 달성하여 대량의 요청을 처리할 수 있습니다.
- 메모리 관리: 주의 키(key) 및 값(value) 메모리를 효율적으로 관리하는 고급 메커니즘인 PagedAttention을 도입했습니다.
- 연속 배치(Continuous Batching): vLLM은 들어오는 요청의 연속 배치를 지원하여 모델의 전체 처리량과 효율성을 향상시킵니다.
- 원활한 통합: vLLM은 Llama 3와 같은 LLM을 배포하기 위한 프로세스를 제공하여 기존 시스템 및 애플리케이션에 쉽게 통합할 수 있도록 합니다.
- API 호환성: OpenAI 호환 서버를 포함하여 OpenAI의 API를 사용하는 기존 시스템에 쉽게 통합될 수 있습니다.
- 양자화 지원: VLLM은 GPTQ, AWQ, SqueezeLLM, FP8 KV Cache와 같은 양자화 기술을 사용하여 성능 저하 없이 낮은 정밀도로 모델을 효율적으로 작동할 수 있게 합니다.
- 확장성: VLLM은 고객 지원, 요약 등 다양한 사용 사례에 맞게 배포 규모를 조정하여 다양한 배포 크기에 효과적으로 대응합니다.
Llama 3란?
Meta가 개발한 LLaMA 3는 고급 언어 모델 시리즈로, AI의 인간과 유사한 텍스트 이해 및 생성 능력을 향상시키는 것을 목표로 합니다. 이전 버전인 Llama 2를 기반으로 대규모 데이터 세트와 고급 아키텍처를 활용하여 더 높은 정확도와 더 세밀한 텍스트 생성을 달성합니다. Llama 3는 연구, 콘텐츠 제작 등 다양한 분야의 애플리케이션에 사용할 수 있도록 설계된 다목적 모델입니다.
Llama 3에는 여러 버전이 있습니다: Llama 3 8B, Llama 3 8B-Instruct, Llama 3 70B, Llama 3 70B-Instruct. Llama 3 8B Instruct는 Gemma 7b-it, Mistral 7B Instruct보다 뛰어난 성능을 보이며, Llama 3 70B Instruct는 Gemini 및 Claude보다 더 나은 성능을 보여줍니다.

Llama 3의 주요 기능
- 향상된 정확도: Llama 3는 이전 모델에 비해 정확도가 높으며, 특히 700억 파라미터 버전(Llama 3 70B)에서 두드러집니다. 채팅 상호작용, 코드 생성, 요약, 검색 증강 생성(RAG)에서 탁월한 성능을 보입니다.
- 증가된 학습 데이터: Llama 3는 다양한 텍스트 소스와 언어를 포함한 증가된 학습 데이터로부터 이점을 얻습니다.
- 고급 기술: 이 모델은 OpenAI의 Tiktoken 토크나이저, 데이터 병렬화와 같은 기술을 사용하여 효율성을 높였습니다.
- 자원 할당: Llama 3는 새로운 스케일링 법칙을 활용하여 성능 예측 및 자원 할당을 개선하고, 계산 효율성을 극대화하며 실행 시간을 단축합니다.
- 다양성: Llama 3의 향상된 기능은 전자상거래, 금융, 의료, 교육 등 다양한 애플리케이션에 이상적입니다.
- 확장성 및 유지 관리: Llama 3는 자동 오류 감지, 처리 및 유지 관리를 위한 고급 학습 스택을 갖추고 있어 사용성과 확장성을 보장합니다.
Llama 3 모델 성능 및 비용 효율성
기술적 특징 및 성능
Llama 3 8B
- 파라미터: 80억
- 컨텍스트 길이: 8K 토큰
- 학습 데이터: 15T 토큰
Llama 3 70B
- 파라미터: 700억
- 컨텍스트 길이: 8K 토큰
- 학습 데이터: 15T 토큰
이 두 모델은 최신 Llama 3.1 405B 이전에 출시되었습니다.
다음은 기본 사전 학습 모델의 성능 그래프입니다.

다음은 사람의 지시를 더 잘 이해하고 따르도록 미세 조정된 명령어 튜닝 모델의 성능입니다.

Llama 3 비용 효율성
성능을 분석했으므로 실제 비용을 고려해야 합니다. Llama 3 8B를 예로 들면 고객 지원 배포 비용은 다음과 같습니다.

비용 효율적인 선택으로 Novita AI는 meta-llama/llama-3–8b-instruct 및 meta-llama/llama-3–70b-instruct 를 입력 및 출력 토큰당 $1/M 미만으로 제공합니다. 더 많은 모델은 LLM Model API에서 확인할 수 있습니다.

또한 최신 버전인 meta-llama/llama-3.1–405b-instruct도 제공합니다. 최근 Llama 3.1 405B의 가격을 ** 백만 토큰당 $2.75**로 인하했습니다!

VLLM Llama 3 시작하기
기술 사전 요구 사항
시작하기 전에 다음 요구 사항을 충족하는지 확인하십시오.
- 호환 가능한 GPU(예: Novita AI 제공 NVIDIA A100)가 있는 서버.
- 적절한 디렉터리에 시스템에 Python을 설치합니다.
- 원활한 인터넷 접속을 보장합니다.
vLLM Llama 3 배포
1. vLLM 설치: 서버에 vLLM 환경을 설정합니다. pip를 사용하여 vLLM을 설치할 수 있습니다:
pip install vllm
2. 모델 로드: vLLM에 Llama 3 8B 모델을 로드합니다:
from vllm import LLM
model = LLM("meta-llama/Meta-Llama-3–8B-Instruct")
3. LLM 추론 실행: 모델을 사용하여 추론을 실행합니다:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3–8B-Instruct")
messages = [{"role": "user", "content": "프랑스의 수도는 무엇인가요?"}]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
output = model.generate(formatted_prompt)
print(output)
고급 팁
- 다양한 요구 사항을 충족하려면 Llama3 서빙을 사용자 지정하는 것이 필수적입니다. 프레임워크는 리소스 할당 및 모델 파라미터와 같은 구성에 유연성을 제공합니다.
- API 파라미터를 조정함으로써 개발자는 다양한 사용 사례에 맞게 모델의 동작과 출력을 사용자 지정할 수 있습니다.
- Auto-tuning은 머신러닝에서 중요합니다. vLLM Llama3는 이 기술을 활용하여 AI 및 ML 알고리즘을 사용하여 설정을 조정함으로써 성능을 향상시킵니다. 이 피드백 루프는 수동 개입 없이 지연 시간과 처리량과 같은 요소를 지속적으로 개선하여 최적의 사용자 성능을 제공합니다.
- 효율성을 위해 Docker 이미지를 사용할 수도 있습니다. 양자화와 같은 기술을 사용하여 성능을 향상시킬 수 있습니다.
개발자를 위한 Llama 3 활용 가이드: LLM API
Llama 3 배포는 복잡합니다. Llama 3를 효과적으로 활용하려면 개발자는 그 기능과 API를 이해해야 합니다. 비용 효율적인 LLM API 통합을 위해 Novita AI를 추천합니다. 이 AI API 플랫폼은 주요 모델과 저렴한 LLM 솔루션을 갖추고 있습니다.
Novita AI API 시작하기
- 1단계: Novita AI에 접속하여 계정을 만듭니다. Google 또는 GitHub로 로그인할 수 있습니다. 첫 로그인 시 새 계정이 생성됩니다. 이메일 주소를 사용하여 가입해도 괜찮습니다.

- 2단계: API 키 관리. Novita AI는 요청 헤더의 API 키를 사용한 Bearer 인증을 통해 API 접근을 인증합니다. “Key Management”로 이동하여 키를 관리하세요. 처음 로그인하면 기본 키가 자동으로 생성됩니다. 또한 “+ Add new key”를 클릭할 수도 있습니다.

- 3단계: API 호출을 실행합니다. 백엔드에 API 키를 입력하여 다음 작업을 계속 진행합니다.
다음은 Novita AI Chat Completions API를 사용하는 Python 클라이언트 예제입니다.
pip install 'openai>=1.0.0'
from openai import OpenAIclient = OpenAI(
base_url="https://api.novita.ai/v3/openai",
# Novita AI API 키를 얻으려면 다음을 참조하세요: https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key.
api_key="<YOUR Novita AI API Key>",
)model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # or False
max_tokens = 512chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": "도움이 되는 어시스턴트처럼 행동하세요.",
},
{
"role": "user",
"content": "안녕하세요!",
}
],
stream=stream,
max_tokens=max_tokens,
)if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
자세한 내용은 Model API Reference를 방문하세요.

- 4단계: 크레딧 충전. 첫 번째 단계에서 언급했듯이, 제품을 사용해 볼 수 있는 크레딧이 포함된 바우처가 제공되지만 한정적입니다. 크레딧을 추가하려면 Billing and Payments를 방문하여 Payment Methods 가이드를 따르세요.
결론
요약하자면, vLLM Llama3는 작업을 더 쉽게 만들고 비용을 절감하는 훌륭한 솔루션입니다. 작동 방식을 이해하고, 성능을 개선하며, 설정 요구 사항의 변화를 따라감으로써 개발자는 이를 최대한 활용할 수 있습니다. Llama3 모델은 지속적으로 개선되어 품질에 대한 강한 의지를 보여주고 있습니다. 미래 지향적인 계획과 고급 튜닝 방법을 통해 vLLM Llama3는 AI 및 ML 기술의 혁신을 선도하고 있습니다. 모델 서빙의 미래를 형성할 새로운 기능과 장기 계획을 기대해 주세요.
자주 묻는 질문
vLLM과 TGI의 차이점은 무엇인가요?
VLLM은 PagedAttention 메모리 할당 알고리즘을 사용하는 오픈소스 LLM 추론 및 서빙 엔진입니다. Hugging Face Transformers보다 최대 24배, Hugging Face Text Generation Inference보다 최대 3.5배 높은 처리량을 제공합니다.
vLLM 배치는 어떻게 작동하나요?
vLLM 문서에 따르면 연속 배치(continuous batching)를 사용하여 토큰이 생성됨에 따라 배치 크기가 동적으로 조정됩니다.
Llama 3는 무료인가요?
Llama 3는 오픈소스이며 무료로 사용할 수 있습니다. 그러나 API 사용 시 입력 및 출력 토큰당 약 $0.1/M의 비용이 발생할 수 있습니다.
Llama 3를 비즈니스에 사용할 수 있나요?
최신 버전의 Llama 3는 “Meta Llama 3 Community License Agreement”의 적용을 받아 거의 모든 상업적 목적으로 사용할 수 있습니다. 기업에서는 Llama 3를 사용하여 교육 콘텐츠 생성, 의료 정보 제공 등을 수행합니다.
Novita AI 는 AI 야망을 실현하는 올인원 클라우드 플랫폼입니다. 통합 API, 서버리스, GPU 인스턴스 — 필요한 비용 효율적인 도구. 인프라를 제거하고, 무료로 시작하며, AI 비전을 현실로 만드세요.
추천 자료
1*.*Llama3 405B 소개: 공개적으로 사용 가능한 LLM 출시
