Principais Destaques
- Introdução do Mixtral: O Mixtral é agora o modelo de linguagem grande de código aberto gratuito mais popular.
- Problemas ao executar LLM com RTX4080: Memória de vídeo insuficiente, TTFT lento e custo elevado.
- Como resolver esses problemas: Melhorar o desempenho do Mixtral, usar várias placas gráficas ou usar memória estendida.
- Vantagens de usar instâncias de GPU: maior escalabilidade, menor custo, pagamento conforme o uso e menores custos de manutenção.
- Tutoriais relacionados: Um tutorial sobre como executar o Mixtral localmente e um tutorial sobre como usar instâncias de GPU.
Introdução
Este blog explorará como fazer com que a família de produtos Mixtral funcione melhor em GPUs RTX 4080, um tipo de hardware de consumo, como laptops. Falaremos sobre gerenciamento de memória e configuração de GPUs para usar seus recursos de forma eficiente, incluindo o uso de pelo menos duas GPUs com 16 GB de VRAM cada para obter desempenho ideal. Também compararemos a execução de modelos LLM no seu computador com o uso de instâncias de GPU, que podem oferecer melhor desempenho utilizando a VRAM como um buffer de alta velocidade para carregamento eficiente e prevenção de problemas de desempenho.
Desbloqueie o Poder do Modelo de Código Aberto Mixtral
Antes de liberar o potencial do Mixtral, as pessoas primeiro precisam saber o que é o Mixtral. Além disso, entender as diferentes versões do Mixtral também ajudará os usuários a escolher o dispositivo de hardware certo de acordo com as diferentes versões do LLM.
O que é o Modelo Mixtral?
Mixtral é um modelo de linguagem grande gratuito e de código aberto criado pela Mistral.ai. Na lista Imsys de 2023, o Mixtral 8x7b tornou-se um dos modelos LLM de código aberto mais bem avaliados pelos usuários.

Ranking de LLM
Ele usa um método chamado Mistura Esparsa de Especialistas (MoE), também conhecido como mistura esparsa de especialistas. Isso é diferente do LLM comum porque nem todas as partes do Mixtral são usadas simultaneamente. Em vez disso, apenas algumas seções “especialistas” são ativadas dependendo da tarefa.
Quantas versões do Mistral existem?
Até 2024, a Mistral.ai lançou quatro modelos LLM gratuitos e de código aberto, conforme abaixo:
- Mistral 7B
- Mixtral 8x7B
- Mixtral 8x22B
Com o desenvolvimento dos produtos da série Mixtral, a capacidade de raciocínio, a capacidade multilíngue e a capacidade de codificação matemática desta série de produtos foram bastante melhoradas.
No entanto, essas melhorias também exigem que os usuários usem mais memória e tenham melhor desempenho. Por exemplo, os requisitos de hardware para executar o Mixtral 8x22b em um PC exigem uma GPU com aproximadamente 300 GB de memória para que este modelo LLM funcione sem problemas.
Mixtral rodando na 4080
Agora, alguns usuários optam por usar RTX4080 para executar o Mixtral. Por exemplo, Slaghton executou com sucesso o Mixtral 8x7b com duas RTX4080. No entanto, devido às limitações de memória da GPU local, este LLM só pode funcionar com produtividade mínima. Nesse caso, o LLM só pode gerar cerca de 7 a 8 tokens por segundo.
Como executar o Mixtral 8x7b usando GPUs locais?
Tutorial em vídeo: Install Mixtral 8x7B Locally on Windows on Laptop
Passo 1: Você precisa de um espaço de computador grande o suficiente para executar, então comece limpando seu computador primeiro!
Passo 2: Instale as bibliotecas e ferramentas Python necessárias, como TensorFlow, PyTorch, etc. Essas bibliotecas e ferramentas podem ser instaladas via pip ou conda.
Passo 3: Baixe o arquivo do modelo Mixtral 8x7B do canal oficial. O arquivo do modelo geralmente é fornecido como um pacote compactado contendo os pesos e arquivos de configuração do modelo.
Passo 4: Descompacte o arquivo do modelo baixado para o diretório especificado.
Passo 5: De acordo com o arquivo de configuração do modelo, defina as variáveis de ambiente necessárias, como caminho do modelo, tipo de dispositivo (CPU/GPU), etc.
O que acontece quando você executa o Mixtral com RTX4080 local?
Pessoas tentando executar LLM com uma placa gráfica de nível consumidor podem encontrar os seguintes problemas.
- Memória de vídeo insuficiente: A RXT4080 tem no máximo 16 GB de memória de vídeo, mas pode ser necessário entre 200 e 300 GB para executar o Mixtral sem problemas.
- TTFT lento: Com base na experiência de vários publicadores de conteúdo do Reddit executando Mistral 7b e Mixtral 8x7b usando 4060, 4080 e 4090. Usar uma placa gráfica de consumo para executar o modelo LLM TTFT só pode atingir velocidades de 1 T/s a 8 T/s.
- Custo enorme: Esses publicadores de conteúdo geralmente usam várias placas gráficas ou memória externa para executar o Mixtral. De acordo com o preço publicado no site da Amazon, uma placa gráfica RTX4080 custa US$ 999.
Como melhorar o desempenho da 4080 ao executar o Mixtral?
- Ajustar as configurações do LLM é muito importante para obter o melhor desempenho nos 16 GB de memória GPU da RTX 4080. Uma configuração chave é ‘batch size’. Essa configuração define quantas amostras de entrada são processadas ao mesmo tempo. Se você reduzir o batch size, pode reduzir o uso de VRAM.
- Também é uma boa ideia expandir a memória da placa gráfica 4080 com memória estendida.
- Use várias placas gráficas.
As tendências futuras na execução do Mixtral
Com o desenvolvimento do LLM, a potência computacional e a memória de vídeo necessárias para executar LLM estão aumentando. A oportunidade de um indivíduo executar um LLM usando uma placa gráfica de consumo também está se tornando cada vez menor. Uma nova maneira de executar LLM está se tornando popular entre indivíduos e empresas de LLM, que é executá-lo usando instâncias de GPU.
O que são instâncias de GPU?
Instâncias de GPU são máquinas virtuais ou recursos computacionais fornecidos em um ambiente de computação em nuvem que são equipados com unidades de processamento gráfico (GPUs).
Cenário de aplicação:
- Aprendizado profundo: O treinamento de modelos de redes neurais requer muitas operações de matriz, e as capacidades de processamento paralelo das GPUs podem acelerar significativamente o treinamento.
- Renderização gráfica: Usado no desenvolvimento de jogos, produção cinematográfica e outras áreas para fornecer saída gráfica de alta qualidade.
- Computação científica: Simulações e cálculos complexos nas áreas de física, química e biologia.
Instância de GPU vs GPU local
1. É mais barato usar instâncias de GPU: O preço das instâncias de GPU que usam RTX 4090 é inferior a US$ 1/h. Mas de acordo com a Amazon, uma RTX4090 local custa cerca de US$ 1.660.

Custo da instância de GPU
2. Maior escalabilidade: Os usuários de instâncias de GPU podem ajustar dinamicamente o número e o desempenho das instâncias de GPU conforme a necessidade com um clique do mouse.
3. Pagamento conforme o uso: Os usuários podem pagar com base no uso, sem investimento inicial em hardware.
4. Menores custos de manutenção: o uso de recursos virtuais de GPU elimina a preocupação com danos ao hardware que impeçam a execução do programa.
Como usar a GPU na Nuvem?
Passo 1: Acesse o site do Novita.ai e clique em Produto — Instância de GPU

Página do site Novita.ai
Passo 2: Clique em Começar Agora

Página do site Novita.ai
Passo 3: Selecione o tipo de placa gráfica que você precisa e a quantidade de memória necessária e clique em Implantar.

Página do site Novita.ai
Para obter detalhes sobre como criar uma instância de GPU, consulte How to Use Llama 3 on Novita AI GPU Instance
Perguntas Frequentes
Quanta RAM o Mixtral precisa?
Mixtral geralmente precisa de pelo menos 8 GB de RAM para funcionar bem. Se suas tarefas forem mais complexas, ter mais RAM pode ajudar. É importante ter RAM suficiente para o Mixtral funcionar sem problemas e processar tarefas de forma eficiente.
Qual GPU é necessária para o Mixtral 8x22B?
Para usar o Mixtral 8x22B de forma eficaz, você precisa de uma GPU poderosa. O ideal é ter pelo menos 48 GB de VRAM. A NVIDIA A100 é uma boa opção para obter o melhor desempenho do Mixtral.
Qual é a velocidade de geração de tokens do Mistral 7B?
O Mistral 7B apresenta ótimas velocidades de geração de tokens. Essas velocidades podem mudar dependendo do seu hardware e configuração. Em uma GPU de consumo de ponta, como a RTX 4080, ele geralmente gera entre 10 e 20 tokens por segundo.
Novita AI é a plataforma all-in-one na nuvem que impulsiona suas ambições de IA. APIs integradas, serverless, instância de GPU — as ferramentas econômicas que você precisa. Elimine a infraestrutura, comece de graça e torne sua visão de IA uma realidade.
Leitura recomendada
Mixtral 8x22b Secrets Revealed: A Comprehensive Guide
