Cómo ejecutar VLLM en Windows Docker: Guía sencilla

Tabla de contenido

Aspectos destacados
Introducción
Explorando VLLM y Docker
Cómo ejecutar VLLM en Windows Docker
Conclusión
Preguntas frecuentes

Domina la implementación de vLLM en Windows Docker para mejorar la eficiencia y el rendimiento. Obtén información experta en nuestro blog hoy.

Aspectos destacados

En el campo de la IA, los modelos de lenguaje grandes (LLM) desempeñan un papel vital en diversas aplicaciones, como el procesamiento del lenguaje natural y la generación de texto.
Plataformas confiables como vLLM ofrecen LLM como servicio, bajo sus políticas de seguridad y privacidad generalmente bien consideradas.
VLLM es una potente biblioteca de inferencia distribuida para manejar modelos a gran escala.
Docker proporciona una forma eficiente de contenerizar aplicaciones, facilitando la ejecución de vLLM en Windows.
Con una guía que simplifica el proceso de ejecución de VLLM en Windows Docker, los nuevos desarrolladores pueden dominar Docker y el aprendizaje automático.

Introducción

En la era de la ciencia de datos y el aprendizaje automático, los LLM son vastos en tamaño y complejidad, y exigen una atención más meticulosa para implementarlos de manera efectiva. vLLM, abreviatura de Virtual Large Language Models, se ha vuelto crucial para aplicaciones avanzadas de PNL. Ya seas científico de datos, desarrollador o investigador, ejecutar VLLM de manera eficiente puede marcar una gran diferencia en tus proyectos. Este blog proporciona un proceso paso a paso para configurar y ejecutar VLLM en Windows usando Docker. Cubriremos todo, desde los requisitos previos hasta los consejos de solución de problemas para garantizar una configuración fluida.

Explorando VLLM y Docker

Conceptos básicos de VLLM

Antes de profundizar en los detalles de Docker, cubramos brevemente qué es VLLM. Virtual Large Language Models (vLLM) es un servidor de inferencia de alto rendimiento y código abierto para modelos de lenguaje grandes equipado con PagedAttention. Está creado para facilitar su uso y lograr un alto rendimiento con algoritmos. vLLM es hasta 24 veces más rápido que soluciones similares ofrecidas por otros servidores de inferencia. Desempeñan un papel crucial en numerosas tareas de PNL. Ejecutar estos modelos de manera eficiente exige recursos computacionales sólidos y un entorno configurado adecuadamente, donde Docker resulta útil.

Ventajas de VLLM

Integración sencilla con modelos populares.
Alto rendimiento al atender más solicitudes por segundo que los métodos tradicionales.
Desperdicio casi nulo en memoria caché, con tiempos de respuesta a consultas más rápidos.
Servidor API compatible con OpenAI.

¿Por qué usar Docker?

Docker es una plataforma de servicios de contenedores de código abierto para desarrollar, enviar, implementar y ejecutar aplicaciones contenerizadas. Docker simplifica la configuración y el control de entornos de software mediante la contenerización. Estos contenedores agrupan una aplicación con sus requisitos, permitiendo que funcione de manera uniforme en diversas configuraciones informáticas. vLLM se beneficia al evitar complicaciones de configuración y discrepancias de versiones, facilitando la implementación y administración de modelos.

Cómo ejecutar VLLM en Windows Docker

Aquí tomaremos Llama3.1 70B como ejemplo para mostrar cómo ejecutar VLLM en Windows Docker. Novita AI también proporciona servicio API de LLM para este modelo. Puedes visitar Model API para ver nuestros modelos destacados.

Requisitos previos para ejecutar VLLM en Windows Docker

Windows 10 o posterior: Docker Desktop para Windows es compatible con estas versiones.
Docker Desktop: Instala Docker Desktop desde el sitio web oficial de Docker.

Guía paso a paso para ejecutar VLLM en Windows Docker

Paso 1: Instalar Docker Desktop

Descarga Docker Desktop: Visita el sitio web de Docker y descárgalo para Windows.
Instala Docker: Ejecuta el instalador y sigue las instrucciones en pantalla. Habilita la virtualización si se solicita.

Paso 2: Configurar Docker para Windows

Inicia Docker Desktop: Inicia Docker Desktop desde el menú Inicio. Mantenlo en el directorio correcto.
Ajustar recursos: Ve a Configuración de Docker > Recursos y asigna al menos 4 CPUs y 8 GB de RAM para VLLM.
Clonar el repositorio de VLLM:

git clone https://github.com/vllm-project/vllm.git
cd vllm

Paso 3: Crear Dockerfile para VLLM

Crear Dockerfile: En el directorio vLLM, crea un Dockerfile para configurar el entorno para VLLM y LLaMA 3.1 70B.

Consejos para ejecutar VLLM en Windows Docker

Verificar la configuración de Docker: Asegúrate de que Docker Desktop esté instalado y ejecutándose correctamente. Verifica que Docker esté configurado para usar contenedores Linux.
Imagen y dependencias: Asegúrate de que la imagen de Docker de vLLM se haya descargado correctamente. Puedes verificarlo con docker images. Si hay problemas con la imagen, intenta reconstruirla: docker build -t vllm.
Modelos personalizados: Modifica el Dockerfile y requirements.txt para incluir bibliotecas adicionales o modelos VLLM personalizados.
Montaje de volúmenes: Usa volúmenes de Docker para persistir datos y administrar grandes conjuntos de datos de manera eficiente.

Dado que es difícil seguir los pasos de implementación de vLLM anteriores, puedes encontrar la imagen empaquetada en DockerHub y subirla a la Plantilla de la Instancia de Novita AI. Luego podrás implementar vLLM de manera sencilla.

Conclusión

Ejecutar vLLM en Windows usando Docker ofrece un entorno confiable para el desarrollo e implementación de modelos de PNL. Esta guía ayuda a configurar un entorno contenerizado para una gestión e implementación simplificadas de dependencias, minimizando conflictos de software y problemas de versionado. Para obtener soporte, consulta la documentación oficial de Docker y los foros de la comunidad de vLLM. Integrar Docker con vLLM optimiza tu flujo de trabajo y garantiza un rendimiento eficiente del modelo en todas las plataformas.

Preguntas frecuentes

¿vLLM se ejecuta localmente?

VLLM descargará el modelo automáticamente y lo almacenará en el directorio de caché de HuggingFace. Si ejecutas vLLM localmente, aparecerá la dirección IP y el puerto predeterminados.

¿vLLM requiere CUDA?

Se requiere CUDA 11.8 o superior para GPUs con capacidad de cómputo 9.0.

¿Puede Docker ejecutarse directamente en Windows?

Los contenedores Docker permiten ejecutar programas y ejecutables de Windows. La plataforma Docker es compatible con sistemas operativos Windows (x86–64).

¿Cómo puedo saber si el demonio de Docker se está ejecutando en Windows?

Para verificar si el demonio de Docker se está ejecutando en Windows, busca el icono de Docker Desktop en la bandeja del sistema o ejecuta docker info en una ventana de PowerShell/Símbolo del sistema para mostrar información del entorno de Docker si el demonio está activo.

¿Docker para Windows es gratuito?

Docker Desktop es gratuito para pequeñas empresas (con menos de 250 empleados Y menos de 10 millones de dólares en ingresos anuales), uso personal, educativo y proyectos de código abierto sin fines comerciales. Para uso profesional más allá de estas categorías, es necesaria una suscripción paga.

Novita AI es la plataforma en la nube integral que impulsa tus ambiciones de IA. API integradas, sin servidor, Instancia de GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lecturas recomendadas

Cómo ejecutar VLLM en Windows Docker: Guía sencilla

Aspectos destacados

Introducción