주요 하이라이트
- Mixtral 소개: Mixtral은 현재 가장 인기 있는 무료 오픈소스 대규모 언어 모델입니다.
- RTX4080을 사용한 LLM 실행 문제: 디스플레이 메모리 부족, 느린 TTFT, 높은 비용.
- 문제 해결 방법: Mixtral 성능 향상, 여러 그래픽 카드 사용, 또는 확장 메모리 사용.
- GPU 인스턴스 사용의 장점: 더 높은 확장성, 낮은 비용, 종량제, 낮은 유지 관리 비용.
- 관련 튜토리얼: 로컬에서 Mixtral 실행 튜토리얼 및 GPU 인스턴스 사용 튜토리얼.
소개
이 블로그에서는 Mixtral 제품군이 노트북과 같은 소비자 하드웨어인 RTX 4080 GPU에서 더 잘 실행되도록 하는 방법을 살펴봅니다. 메모리 관리와 GPU 리소스를 효율적으로 사용하기 위한 설정에 대해 논의할 것입니다. 여기에는 최적의 성능을 위해 각각 16GB VRAM을 갖춘 최소 2개의 GPU를 활용하는 방법이 포함됩니다. 또한 컴퓨터에서 LLM 모델을 실행하는 것과 GPU 인스턴스를 사용하는 것을 비교할 것입니다. GPU 인스턴스는 VRAM을 고속 버퍼로 활용하여 효율적인 로딩을 제공하고 성능 문제를 방지함으로써 더 나은 성능을 제공할 수 있습니다.
Mixtral 오픈소스 모델의 힘을 활용하세요
Mixtral의 잠재력을 발휘하기 전에 사용자는 먼저 Mixtral이 무엇인지 알아야 합니다. 또한 Mixtral의 다양한 버전을 이해하면 사용자가 LLM 버전에 따라 적절한 하드웨어 장치를 선택하는 데 도움이 됩니다.
Mixtral 모델이란?
Mixtral은 Mistral.ai가 만든 무료 오픈소스 대규모 언어 모델입니다. 2023 Imsys 목록에서 Mixtral 8x7b는 사용자들이 가장 높은 평가를 한 LLM 오픈소스 모델 중 하나가 되었습니다.

LLM 순위
Mixtral은 전문가 희소 혼합(MoE)이라고 하는 방법을 사용합니다. 이는 일반 LLM과 다릅니다. Mixtral의 모든 부분이 동시에 사용되는 것이 아니라 작업에 따라 소수의 ‘전문가’ 섹션만 활성화되기 때문입니다.
Mistral에는 몇 가지 버전이 있나요?
2024년까지 Mistral.ai는 다음과 같은 네 가지 무료 오픈소스 LLM 모델을 출시했습니다.
- Mistral 7B
- Mixtral 8x7B
- Mixtral 8x22B
Mixtral 시리즈 제품의 발전으로 이 시리즈 제품의 추론 능력, 다국어 능력, 수학적 코딩 능력이 크게 향상되었습니다.
그러나 이러한 개선 사항은 사용자가 더 많은 메모리와 더 나은 성능을 사용하도록 요구합니다. 예를 들어 PC에서 Mixtral 8x22b를 실행하려면 이 LLM 모델이 원활하게 실행되도록 약 300GB의 메모리를 갖춘 GPU가 필요합니다.
4080에서 Mixtral 실행
현재 일부 사용자는 RTX4080을 사용하여 Mixtral을 실행하기로 선택합니다. 예를 들어, Slaghton은 두 개의 RTX4080으로 Mixtral 8x7b를 성공적으로 실행했습니다. 그러나 로컬 GPU의 메모리 제한으로 인해 이 LLM은 최소 생산성으로만 실행될 수 있습니다. 이 경우 LLM은 초당 약 7-8개의 토큰만 생성할 수 있습니다.
로컬 GPU를 사용하여 Mixtral 8x7b를 실행하는 방법은?
비디오 튜토리얼: Install Mixtral 8x7B Locally on Windows on Laptop
1단계: 실행할 충분한 컴퓨터 공간이 필요하므로 먼저 컴퓨터를 정리하세요!
2단계: TensorFlow, PyTorch 등 필요한 Python 라이브러리와 도구를 설치합니다. 이러한 라이브러리와 도구는 pip 또는 conda를 통해 설치할 수 있습니다.
3단계: 공식 채널에서 Mixtral 8x7B 모델 파일을 다운로드합니다. 모델 파일은 일반적으로 모델의 가중치와 구성 파일이 포함된 압축 패키지로 제공됩니다.
4단계: 다운로드한 모델 파일을 지정된 디렉토리에 압축을 풉니다.
5단계: 모델의 구성 파일에 따라 모델 경로, 장치 유형(CPU/GPU) 등 필요한 환경 변수를 설정합니다.
로컬 RTX4080으로 Mixtral을 실행하면 어떤 일이 발생하나요?
사용자 등급 그래픽 카드로 LLM을 실행하려는 사용자는 다음과 같은 문제에 직면할 수 있습니다.
- 디스플레이 메모리 부족: RXT4080의 최대 디스플레이 메모리는 16GB이지만 Mixtral을 원활하게 실행하려면 약 200-300GB가 필요할 수 있습니다.
- 느린 TTFT: 4060, 4080 및 4090을 사용하여 Mistral 7b 및 Mixtral 8x7b를 실행하는 여러 Reddit 콘텐츠 게시자의 경험에 따르면 소비자 그래픽 카드를 사용하여 LLM 모델 TTFT 속도를 실행하면 1t/s ~ 8T/s에만 도달할 수 있습니다.
- 높은 비용: 이러한 콘텐츠 게시자는 종종 여러 그래픽 카드 또는 외장 메모리를 사용하여 Mixtral을 실행합니다. Amazon 웹사이트에 게시된 가격에 따르면 RTX4080 그래픽 카드 가격은 $999입니다.
4080에서 Mixtral 실행 성능을 향상시키는 방법은?
- LLM 설정을 미세 조정하는 것은 RTX 4080의 16GB GPU 메모리에서 최상의 성능을 얻는 데 매우 중요합니다. 핵심 설정 중 하나는 '배치 크기’입니다. 이 설정은 동시에 처리되는 입력 샘플 수를 정의합니다. 배치 크기를 낮추면 VRAM 사용량을 줄일 수 있습니다.
- 또한 확장 메모리를 사용하여 4080 그래픽 카드의 메모리를 확장하는 것도 좋은 방법입니다.
- 여러 그래픽 카드를 사용합니다.
Mixtral 실행의 미래 동향
LLM의 발전으로 LLM 실행에 필요한 컴퓨팅 성능과 디스플레이 메모리가 증가하고 있습니다. 개인이 소비자용 그래픽 카드를 사용하여 LLM을 실행할 수 있는 기회도 점점 줄어들고 있습니다. LLM을 실행하는 새로운 방법이 LLM 개인과 기업 사이에서 인기를 얻고 있으며, 바로 GPU 인스턴스를 사용하여 실행하는 것입니다.
GPU 인스턴스란?
GPU 인스턴스는 그래픽 처리 장치(GPU)가 장착된 클라우드 컴퓨팅 환경에서 제공되는 가상 머신 또는 컴퓨팅 리소스입니다.
적용 시나리오:
- 딥러닝: 신경망 모델 훈련은 많은 행렬 연산이 필요하며, GPU의 병렬 처리 기능으로 훈련 속도를 크게 높일 수 있습니다.
- 그래픽 렌더링: 게임 개발, 영화 및 TV 제작 등 분야에서 고품질 그래픽 출력을 제공하는 데 사용됩니다.
- 과학 컴퓨팅: 물리학, 화학, 생물학 분야의 복잡한 시뮬레이션 및 계산.
GPU 인스턴스 대 로컬 GPU
- GPU 인스턴스를 사용하는 것이 더 저렴합니다: RTX 4090을 사용하는 GPU 인스턴스의 가격은 시간당 1달러 미만입니다. 하지만 Amazon에 따르면 로컬 RTX4090의 가격은 약 $1,660입니다.

GPU 인스턴스 비용
-
더 높은 확장성: GPU 인스턴스 사용자는 클릭 한 번으로 수요에 따라 GPU 인스턴스의 수와 성능을 동적으로 조정할 수 있습니다.
-
종량제: 사용자는 사용량에 따라 비용을 지불하며 하드웨어에 대한 선불 투자가 필요하지 않습니다.
-
낮은 유지 관리 비용: 가상 GPU 리소스를 사용하면 프로그램이 실행되지 않아 발생하는 하드웨어 손상에 대해 걱정할 필요가 없습니다.
GPU 클라우드를 사용하는 방법은?
1단계: Novita.ai 웹사이트로 이동하여 'Produce — GPU Instance’를 클릭합니다.

Novita.ai website page
2단계: '지금 구축 시작’을 클릭합니다.

Novita.ai website page
3단계: 필요한 그래픽 카드 유형과 필요한 메모리 양을 선택하고 ** 배포**를 클릭합니다.

Novita.ai website page
GPU 인스턴스를 만드는 방법에 대한 자세한 내용은 * Novita AI GPU 인스턴스에서 Llama 3 사용 방법 *을 참조하세요.
자주 묻는 질문
Mixtral에 필요한 RAM 용량은 얼마인가요?
Mixtral은 일반적으로 원활하게 작동하려면 최소 8GB의 RAM이 필요합니다. 작업이 더 복잡한 경우 더 많은 RAM이 도움이 될 수 있습니다. Mixtral이 원활하게 실행되고 작업을 효율적으로 처리하려면 충분한 RAM이 중요합니다.
Mixtral 8x22B에 필요한 GPU는 무엇인가요?
Mixtral 8x22B를 효과적으로 사용하려면 강력한 GPU가 필요합니다. 최소 48GB의 VRAM을 확보하는 것이 가장 좋습니다. NVIDIA A100은 Mixtral에서 최상의 성능을 얻기 위한 좋은 선택입니다.
Mistral 7B 토큰 생성 속도는 얼마나 빠른가요?
Mistral 7B는 뛰어난 토큰 생성 속도를 보여줍니다. 이러한 속도는 하드웨어 및 설정에 따라 달라질 수 있습니다. RTX 4080과 같은 고급 소비자 GPU에서는 일반적으로 초당 10~20개의 토큰을 생성합니다.
Novita AI는 AI 야망을 실현하는 올인원 클라우드 플랫폼입니다. 통합 API, 서버리스, GPU 인스턴스 — 필요한 비용 효율적인 도구입니다. 인프라를 제거하고 무료로 시작하여 AI 비전을 현실로 만드세요.
추천 자료
