Améliorer les performances avec RXT4080 : conseils pour le cloud GPU

Améliorer les performances avec RXT4080 : conseils pour le cloud GPU

Points clés

  • Introduction de Mixtral : Mixtral est désormais le modèle de langage open source gratuit le plus populaire.
  • Problèmes liés à l’utilisation de LLM avec RTX4080 : Mémoire d’affichage insuffisante, TTFT lent et coût énorme.
  • Comment résoudre ces problèmes : Améliorer les performances de Mixtral, utiliser plusieurs cartes graphiques ou utiliser de la mémoire étendue.
  • Avantages de l’utilisation d’instances GPU : évolutivité plus élevée, coût réduit, paiement à l’utilisation et coûts de maintenance réduits.
  • Tutoriels connexes : Un tutoriel sur l’exécution locale de Mixtral et un tutoriel sur l’utilisation d’instances GPU.

Introduction

Ce blog explorera comment faire fonctionner la famille de produits Mixtral plus efficacement sur des GPU RTX 4080, un type de matériel grand public comme les ordinateurs portables. Nous parlerons de la gestion de la mémoire et de la configuration des GPU pour utiliser leurs ressources de manière optimale, y compris l’utilisation d’au moins deux GPU avec 16 Go de VRAM chacun pour des performances optimales. Nous comparerons également l’exécution de modèles LLM sur votre ordinateur à l’utilisation d’instances GPU, ce qui peut offrir de meilleures performances en utilisant la VRAM comme tampon haute vitesse pour un chargement efficace et en évitant les problèmes de performances.

Libérez la puissance du modèle open source Mixtral

Avant de libérer le potentiel de Mixtral, il faut d’abord savoir ce qu’est Mixtral. De plus, comprendre les différentes versions de Mixtral aidera les utilisateurs à choisir le matériel adapté en fonction des différentes versions du LLM.

Qu’est-ce que le modèle Mixtral ?

Mixtral est un modèle de langage à grande échelle gratuit et open source créé par Mistral.ai. Dans la liste Imsys 2023, Mixtral 8x7b est devenu l’un des modèles LLM open source les mieux notés par les utilisateurs.

Classement des modèles LLM les plus populaires par les utilisateurs

Classement des modèles LLM

Il utilise une méthode appelée Mélange Sparse d’Experts (MoE), également connue sous le nom de mixture d’experts sparse. Cela diffère des LLM classiques car toutes les parties de Mixtral ne sont pas utilisées simultanément. Seules quelques sections « expertes » sont activées en fonction de la tâche.

Combien de versions de Mistral existent-ils ?

D’ici 2024, Mistral.ai a lancé quatre modèles LLM gratuits et open source, comme suit :

  • Mistral 7B
  • Mixtral 8x7B
  • Mixtral 8x22B

Avec le développement des produits de la série Mixtral, les capacités de raisonnement, multilingues et de codage mathématique de cette série de produits ont été considérablement améliorées.

Cependant, ces améliorations exigent également des utilisateurs qu’ils utilisent plus de mémoire et de meilleures performances. Par exemple, les exigences matérielles pour exécuter Mixtral 8x22b sur un PC nécessitent un GPU avec environ 300 Go de mémoire pour que ce modèle LLM fonctionne correctement.

Mixtral exécuté sur 4080

Maintenant, certains utilisateurs choisissent d’utiliser le RTX4080 pour exécuter Mixtral. Par exemple, Slaghton a réussi à exécuter Mixtral 8x7b avec deux RTX4080. Cependant, en raison des limitations de mémoire du GPU local, ce LLM ne peut fonctionner qu’à une productivité minimale. Dans ce cas, le LLM ne peut générer qu’environ 7 à 8 tokens par seconde.

Comment exécuter Mixtral 8x7b avec des GPU locaux ?

Tutoriel vidéo : Installer Mixtral 8x7B localement sur Windows sur un ordinateur portable

Étape 1 : Vous avez besoin d’un espace suffisamment grand sur votre ordinateur pour exécuter le modèle, alors commencez par nettoyer votre ordinateur !

Étape 2 : Installez les bibliothèques et outils Python nécessaires, tels que TensorFlow, PyTorch, etc. Ces bibliothèques et outils peuvent être installés via pip ou conda.

Étape 3 : Téléchargez le fichier du modèle Mixtral 8x7B depuis le canal officiel. Le fichier du modèle est généralement fourni sous forme d’archive compressée contenant les poids et les fichiers de configuration du modèle.

Étape 4 : Décompressez le fichier du modèle téléchargé dans le répertoire spécifié.

Étape 5 : Selon le fichier de configuration du modèle, définissez les variables d’environnement nécessaires, comme le chemin du modèle, le type de périphérique (CPU/GPU), etc.

Que se passe-t-il lorsque vous exécutez Mixtral avec un RTX4080 local ?

Les personnes essayant d’exécuter un LLM avec une carte graphique grand public peuvent rencontrer les problèmes suivants.

  • Mémoire d’affichage insuffisante : Le RTX4080 a une mémoire d’affichage maximale de 16 Go, mais il peut falloir environ 200 à 300 Go pour exécuter Mixtral correctement.
  • TTFT lent : D’après l’expérience de plusieurs éditeurs de contenu Reddit exécutant Mistral 7b et Mixtral 8x7b avec des 4060, 4080 et 4090. L’utilisation d’une carte graphique grand public pour exécuter un modèle LLM ne permettait d’atteindre qu’une vitesse TTFT de 1 t/s à 8 t/s.
  • Coût énorme : Ces éditeurs de contenu utilisent souvent plusieurs cartes graphiques ou de la mémoire externe pour exécuter Mixtral. Selon le prix affiché sur le site d’Amazon, une carte graphique RTX4080 coûte 999 $.

Comment améliorer les performances du 4080 exécutant Mixtral ?

  • L’ajustement fin des paramètres du LLM est très important pour obtenir les meilleures performances sur la mémoire GPU de 16 Go du RTX 4080. Un paramètre clé est la « taille de lot » (batch size). Ce paramètre définit le nombre d’échantillons d’entrée traités simultanément. Si vous réduisez la taille du lot, cela peut réduire l’utilisation de la VRAM.
  • Il est également judicieux d’étendre la mémoire de la carte graphique 4080 avec de la mémoire étendue.
  • Utilisez plusieurs cartes graphiques.

Les tendances futures de l’exécution de Mixtral

Avec le développement des LLM, la puissance de calcul et la mémoire d’affichage nécessaires pour exécuter un LLM augmentent. La possibilité pour un individu d’exécuter un LLM en utilisant une carte graphique grand public devient de plus en plus faible. Une nouvelle façon d’exécuter un LLM gagne en popularité parmi les particuliers et les entreprises utilisant des LLM : l’utilisation d’instances GPU.

Qu’est-ce qu’une instance GPU ?

Les instances GPU sont des machines virtuelles ou des ressources de calcul fournies dans un environnement de cloud computing, équipées d’unités de traitement graphique (GPU).

Scénarios d’application :

  • Apprentissage profond : L’entraînement de modèles de réseaux neuronaux nécessite beaucoup d’opérations matricielles, et les capacités de traitement parallèle des GPU peuvent accélérer considérablement l’entraînement.
  • Rendu graphique : Utilisé dans le développement de jeux, la production cinématographique et télévisuelle, etc., pour fournir des sorties graphiques de haute qualité.
  • Calcul scientifique : Simulations et calculs complexes dans les domaines de la physique, de la chimie et de la biologie.

Instance GPU vs GPU local

1. Il est moins cher d’utiliser des instances GPU à la place : Le prix des instances GPU utilisant le RTX 4090 est inférieur à 1 $/h. Mais selon Amazon, un RTX4090 local coûte environ 1 660 $.

Coût d’une instance GPU

2. Évolutivité plus élevée : Les utilisateurs d’instances GPU peuvent ajuster dynamiquement le nombre et les performances des instances GPU en fonction de la demande en un clic de souris.

3. Paiement à l’utilisation : Les utilisateurs paient en fonction de l’utilisation, sans investissement initial dans le matériel.

4. Coûts de maintenance réduits : L’utilisation de ressources GPU virtuelles permet de ne pas se soucier des dommages matériels causés par l’arrêt du programme.

Comment utiliser le cloud GPU ?

Étape 1 : Allez sur le site Novita.ai et cliquez sur Produce — GPU Instance

Page du site Novita.ai

Étape 2 : Cliquez sur Start Building Now

Page du site Novita.ai

Étape 3 : Sélectionnez le type de carte graphique dont vous avez besoin et la quantité de mémoire nécessaire, puis cliquez sur Deploy.

Page du site Novita.ai

Pour plus de détails sur la création d’une instance GPU, voir How to Use Llama 3 on Novita AI GPU Instance

Questions fréquemment posées

De quelle quantité de RAM Mixtral a-t-il besoin ?

Mixtral a généralement besoin d’au moins 8 Go de RAM pour bien fonctionner. Si vos tâches sont plus complexes, disposer de plus de RAM peut aider. Il est important d’avoir suffisamment de RAM pour que Mixtral fonctionne correctement et traite les tâches efficacement.

Quel GPU est nécessaire pour Mixtral 8x22B ?

Pour utiliser Mixtral 8x22B efficacement, vous avez besoin d’un GPU puissant. Il est préférable d’avoir au moins 48 Go de VRAM. Le NVIDIA A100 est une bonne option pour obtenir les meilleures performances de Mixtral.

Quelle est la vitesse de génération de tokens de Mistral 7B ?

Mistral 7B montre des vitesses de génération de tokens élevées. Ces vitesses peuvent varier en fonction de votre matériel et de votre configuration. Sur un GPU grand public haut de gamme, comme le RTX 4080, il génère généralement entre 10 et 20 tokens par seconde.

Novita AI est la plateforme cloud tout-en-un qui propulse vos ambitions en IA. APIs intégrées, serverless, instances GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et faites de votre vision IA une réalité.

Lecture recommandée

Mixtral 8x22b Secrets Revealed: A Comprehensive Guide

LLM Model Comparison: Your Comprehensive Guide

5 Best GPUs for AI 2024: Your Ultimate Guide