Comment exécuter VLLM sur Windows Docker : Guide simple

Table des matières

Points clés
Introduction
Exploration de VLLM et Docker
Comment exécuter VLLM sur Windows Docker
Conclusion
FAQ

Maîtrisez le déploiement de vLLM sur Windows Docker pour une efficacité et des performances améliorées. Obtenez des conseils d’experts sur notre blog dès aujourd’hui.

Points clés

Dans le domaine de l’IA, les grands modèles de langage (LLM) jouent un rôle essentiel dans diverses applications, telles que le traitement du langage naturel et la génération de texte.
Des plateformes de confiance comme vLLM proposent des LLM en tant que service — avec des politiques de sécurité et de confidentialité généralement bien considérées.
VLLM est une bibliothèque d’inférence distribuée puissante pour gérer des modèles à grande échelle.
Docker offre un moyen efficace de conteneuriser les applications, facilitant l’exécution de vLLM sur Windows.
Grâce à un guide simplifiant le processus d’exécution de VLLM sur Windows Docker, les nouveaux développeurs peuvent maîtriser Docker et l’apprentissage automatique.

Introduction

À l’ère de la science des données et de l’apprentissage automatique, les LLM sont vastes et complexes, exigeant une attention plus méticuleuse pour un déploiement efficace. vLLM, abréviation de Virtual Large Language Models, est devenu crucial pour les applications avancées de NLP. Que vous soyez data scientist, développeur ou chercheur, exécuter efficacement les VLLM peut faire une différence significative dans vos projets. Ce blog propose un processus étape par étape pour configurer et exécuter VLLM sur Windows à l’aide de Docker. Nous couvrirons tout, des prérequis aux conseils de dépannage, pour garantir une configuration fluide.

Exploration de VLLM et Docker

Bases de VLLM

Avant de plonger dans les spécificités de Docker, voyons brièvement ce qu’est VLLM. Virtual Large Language Models (vLLM) est un serveur d’inférence open source haute performance pour les grands modèles de langage, équipé de PagedAttention. Il est conçu pour la facilité d’utilisation et un haut débit grâce à des algorithmes. vLLM est jusqu’à 24 fois plus rapide que des solutions similaires proposées par d’autres serveurs d’inférence. Ils jouent un rôle crucial dans de nombreuses tâches de NLP. Exécuter ces modèles de manière efficace nécessite des ressources informatiques solides et un environnement correctement configuré, ce qui rend Docker utile.

Avantages de VLLM

Intégration facile avec les modèles populaires
Haut débit en servant plus de requêtes par seconde que les méthodes traditionnelles
Gaspillage quasi nul de la mémoire cache, avec des temps de réponse aux requêtes plus rapides
Serveur API compatible OpenAI

Pourquoi utiliser Docker ?

Docker est une plateforme de services de conteneurs open source pour développer, expédier, déployer et exécuter des applications conteneurisées. Docker simplifie la configuration et le contrôle des environnements logiciels grâce à la conteneurisation. Ces conteneurs regroupent une application avec ses dépendances, lui permettant de fonctionner de manière uniforme sur diverses configurations informatiques. vLLM bénéficie ainsi d’une absence de complications de configuration et de divergences de versions, rendant le déploiement et l’administration des modèles plus faciles.

Comment exécuter VLLM sur Windows Docker

Nous prendrons ici Llama3.1 70B comme exemple pour montrer comment exécuter VLLM sur Windows Docker. Novita AI propose également un service d’API LLM pour ce modèle. Vous pouvez visiter Model API pour voir nos modèles phares.

Prérequis pour exécuter VLLM sur Windows Docker

Windows 10 ou version ultérieure : Docker Desktop pour Windows est compatible avec ces versions.
Docker Desktop : Installez Docker Desktop depuis le site officiel de Docker.

Guide étape par étape pour exécuter VLLM sur Windows Docker

Étape 1 : Installer Docker Desktop

Téléchargez Docker Desktop : Rendez-vous sur le site Web de Docker et téléchargez-le pour Windows.
Installez Docker : Exécutez le programme d’installation et suivez les instructions à l’écran. Activez la virtualisation si demandé.

Étape 2 : Configurer Docker pour Windows

Démarrez Docker Desktop : Lancez Docker Desktop depuis le menu Démarrer. Gardez-le dans le bon répertoire.
Ajustez les ressources : Allez dans Paramètres Docker > Ressources et allouez au moins 4 CPU et 8 Go de RAM pour VLLM.
Clonez le dépôt VLLM :

git clone https://github.com/vllm-project/vllm.git
cd vllm

Étape 3 : Créer un Dockerfile pour VLLM

Créez un Dockerfile : Dans le répertoire vLLM, créez un Dockerfile pour configurer l’environnement pour VLLM et LLaMA 3.1 70B.

Conseils pour exécuter VLLM sur Windows Docker

Vérifiez les paramètres Docker : Assurez-vous que Docker Desktop est correctement installé et en cours d’exécution. Vérifiez que Docker est configuré pour utiliser des conteneurs Linux.
Image et dépendances : Assurez-vous que l’image Docker vLLM a été téléchargée correctement. Vous pouvez vérifier avec docker images. En cas de problème avec l’image, essayez de la reconstruire : docker build -t vllm.
Modèles personnalisés : Modifiez le Dockerfile et requirements.txt pour inclure des bibliothèques supplémentaires ou des modèles VLLM personnalisés.
Montage de volumes : Utilisez les volumes Docker pour conserver les données et gérer efficacement les grands ensembles de données.

Étant donné qu’il est difficile de réaliser les étapes de déploiement de vLLM ci-dessus, vous pouvez trouver l’image empaquetée sur DockerHub et la télécharger dans le Template de l’instance Novita AI. Ensuite, vous pouvez déployer vLLM simplement.

Conclusion

Exécuter vLLM sur Windows à l’aide de Docker offre un environnement fiable pour le développement et le déploiement de modèles de NLP. Ce guide aide à configurer un environnement conteneurisé pour une gestion simplifiée des dépendances et un déploiement, minimisant les conflits logiciels et les problèmes de version. Pour obtenir de l’aide, consultez la documentation officielle de Docker et les forums de la communauté vLLM. L’intégration de Docker avec vLLM rationalise votre flux de travail et garantit des performances efficaces du modèle sur toutes les plateformes.

FAQ

vLLM s’exécute-t-il localement ?

VLLM télécharge automatiquement le modèle et le stocke dans votre répertoire cache HuggingFace. Si vous exécutez vLLM localement, l’adresse IP et le port par défaut seront utilisés.

vLLM nécessite-t-il CUDA ?

CUDA 11.8 ou version ultérieure est requis pour les GPU avec une capacité de calcul 9.0.

Docker peut-il s’exécuter directement sur Windows ?

Les conteneurs Docker permettent d’exécuter des programmes et des exécutables Windows. La plateforme Docker est compatible avec les systèmes d’exploitation Windows (x86-64).

Comment savoir si le démon Docker est en cours d’exécution sur Windows ?

Pour vérifier si le démon Docker est actif sur Windows, recherchez l’icône Docker Desktop dans la barre d’état système ou exécutez docker info dans une fenêtre PowerShell/Invite de commandes pour afficher les informations de l’environnement Docker si le démon est actif.

Docker pour Windows est-il gratuit ?

Docker Desktop est gratuit pour les petites entreprises (moins de 250 employés ET moins de 10 millions de dollars de chiffre d’affaires annuel), l’utilisation personnelle, l’éducation et les projets open source non commerciaux. Pour une utilisation professionnelle au-delà de ces catégories, un abonnement payant est nécessaire.

Novita AI est la plateforme cloud tout-en-un qui alimente vos ambitions en IA. API intégrées, sans serveur, instance GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et faites de votre vision IA une réalité.

Lectures recommandées

Comment exécuter VLLM sur Windows Docker : Guide simple

Points clés

Introduction