Como Executar VLLM no Windows Docker: Guia Simples

Índice

Principais Destaques
Introdução
Explorando VLLM e Docker
Como Executar VLLM no Windows Docker
Conclusão
Perguntas Frequentes

Domine a implantação do vLLM no Windows Docker para maior eficiência e desempenho. Obtenha insights especializados em nosso blog hoje.

Principais Destaques

No campo da IA, os Modelos de Linguagem Grandes (LLMs) desempenham um papel vital em várias aplicações, como processamento de linguagem natural e geração de texto.
Plataformas confiáveis como vLLM oferecem LLMs como serviço — sob suas políticas de segurança e privacidade geralmente bem avaliadas.
VLLM é uma biblioteca de inferência distribuída poderosa para lidar com modelos de grande escala.
O Docker fornece uma maneira eficiente de containerizar aplicações, facilitando a execução do vLLM no Windows.
Com um guia simplificando o processo de executar VLLM no Windows Docker, novos desenvolvedores podem dominar o Docker e o aprendizado de máquina.

Introdução

Na era da ciência de dados e aprendizado de máquina, os LLMs são vastos em tamanho e complexidade, exigindo atenção mais meticulosa para serem implantados de forma eficaz. O vLLM, abreviação de Virtual Large Language Models (Modelos Virtuais de Linguagem Grandes), tornou-se crucial para aplicações avançadas de PLN. Seja você um cientista de dados, desenvolvedor ou pesquisador, executar VLLMs de forma eficiente pode fazer uma diferença significativa em seus projetos. Este blog fornece um processo passo a passo para configurar e executar VLLM no Windows usando Docker. Abordaremos tudo, desde pré-requisitos até dicas de solução de problemas, para garantir uma configuração tranquila.

Explorando VLLM e Docker

Conceitos Básicos de VLLM

Antes de mergulharmos nos detalhes do Docker, vamos abordar brevemente o que é VLLM. Virtual Large Language Models (vLLM) é um servidor de inferência de alto desempenho e código aberto para modelos de linguagem grandes equipado com PagedAttention. Ele é criado para facilidade de uso e alto throughput com algoritmos. vLLM é até 24 vezes mais rápido que soluções similares oferecidas por outros servidores de inferência. Eles desempenham um papel crucial em inúmeras tarefas de PLN. Executar esses modelos de forma eficiente exige recursos computacionais robustos e um ambiente configurado adequadamente, onde o Docker se mostra útil.

Vantagens do VLLM

Integração fácil com modelos populares
Alto throughput atendendo mais requisições por segundo do que métodos tradicionais
Quase zero desperdício na memória cache, com tempos de resposta a consultas mais rápidos
Servidor de API compatível com OpenAI

Por que Usar Docker?

Docker é uma plataforma de serviço de containers de código aberto para desenvolver, enviar, implantar e executar aplicações containerizadas. O Docker simplifica a configuração e o controle de ambientes de software através da containerização. Esses containers agrupam uma aplicação com seus requisitos, permitindo que ela opere uniformemente em diferentes configurações de computação. O vLLM se beneficia ao evitar complicações de configuração e discrepâncias de versão, tornando a implantação e administração de modelos mais fácil.

Como Executar VLLM no Windows Docker

Aqui usaremos o Llama3.1 70B como exemplo para mostrar como executar VLLM no Windows Docker. A Novita AI também fornece serviço de API LLM para este modelo. Você pode visitar Model API para ver nossos modelos em destaque.

Pré-requisitos para Executar VLLM no Windows Docker

Windows 10 ou posterior: o Docker Desktop para Windows é compatível com essas versões.
Docker Desktop: instale o Docker Desktop a partir do site oficial do Docker.

Guia Passo a Passo para Executar VLLM no Windows Docker

Passo 1: Instalar o Docker Desktop

Baixe o Docker Desktop: visite o site do Docker e faça o download para Windows.
Instale o Docker: execute o instalador e siga as instruções na tela. Habilite a virtualização se solicitado.

Passo 2: Configurar o Docker para Windows

Inicie o Docker Desktop: inicie o Docker Desktop a partir do menu Iniciar. Mantenha-o no diretório correto.
Ajuste os Recursos: vá em Configurações do Docker > Recursos e aloque pelo menos 4 CPUs e 8 GB de RAM para o VLLM.
Clone o repositório do VLLM:

git clone https://github.com/vllm-project/vllm.git
cd vllm

Passo 3: Criar o Dockerfile para VLLM

Crie o Dockerfile: no diretório vLLM, crie um Dockerfile para configurar o ambiente para VLLM e LLaMA 3.1 70B.

Dicas para Executar VLLM no Windows Docker

Verifique as Configurações do Docker: certifique-se de que o Docker Desktop está instalado e em execução corretamente. Verifique se o Docker está configurado para usar containers Linux.
Imagem e Dependências: certifique-se de que a imagem Docker do vLLM foi baixada corretamente. Você pode verificar com docker images. Se houver problemas com a imagem, tente reconstruí-la: docker build -t vllm.
Modelos Personalizados: modifique o Dockerfile e o requirements.txt para incluir bibliotecas adicionais ou modelos VLLM personalizados.
Montagem de Volumes: use volumes Docker para persistir dados e gerenciar grandes conjuntos de dados de forma eficiente.

Como é difícil executar as etapas de implantação do vLLM acima, você pode encontrar a imagem empacotada no DockerHub e enviá-la para o Template da Instância Novita AI. Em seguida, você pode implantar o vLLM de forma simples.

Conclusão

Executar o vLLM no Windows usando Docker oferece um ambiente confiável para desenvolvimento e implantação de modelos de PLN. Este guia ajuda a configurar um ambiente containerizado para simplificar o gerenciamento de dependências e a implantação, minimizando conflitos de software e problemas de versionamento. Para suporte, consulte a documentação oficial do Docker e os fóruns da comunidade vLLM. A integração do Docker com o vLLM otimiza seu fluxo de trabalho e garante desempenho eficiente do modelo em todas as plataformas.

Perguntas Frequentes

O vLLM é executado localmente?

O VLLM fará o download do modelo automaticamente e o armazenará no diretório de cache do HuggingFace. Se você estiver executando o vLLM localmente, haverá o endereço IP e a porta padrão.

O vLLM requer CUDA?

CUDA 11.8 ou superior é necessário para GPUs com capacidade de computação 9.0.

O Docker pode ser executado diretamente no Windows?

Os containers Docker permitem executar programas e executáveis do Windows. A plataforma Docker é compatível com sistemas operacionais Windows (x86-64).

Como saber se o daemon do Docker está em execução no Windows?

Para verificar se o daemon do Docker está em execução no Windows, procure o ícone do Docker Desktop na bandeja do sistema ou execute “docker info” em uma janela do PowerShell/Prompt de Comando para exibir as informações do ambiente Docker se o daemon estiver ativo.

O Docker para Windows é gratuito?

O Docker Desktop é gratuito para pequenas empresas (com menos de 250 funcionários E menos de US$ 10 milhões em receita anual), uso pessoal, educação e projetos de código aberto não comerciais. Para uso profissional além dessas categorias, é necessária uma assinatura paga.

Novita AI é a plataforma em nuvem tudo-em-um que impulsiona suas ambições de IA. APIs integradas, sem servidor, Instância GPU — as ferramentas econômicas que você precisa. Elimine a infraestrutura, comece gratuitamente e torne sua visão de IA realidade.

Leituras Recomendadas

Como Executar VLLM no Windows Docker: Guia Simples

Principais Destaques

Introdução