Points clés
Aperçu de Mistral 7B
- Paramètres : 7,3 milliards.
- Performances : Surpasse des modèles plus grands comme Llama 2 13B.
- Innovations : Attention par groupe de requêtes (GQA) pour une inférence plus rapide ; Attention à fenêtre glissante (SWA) pour gérer des séquences plus longues.
- Licence : Licence Apache 2.0 pour une utilisation sans restriction.
Aperçu du modèle quantifié Mixtral 8x7B
- Quantification avancée : Quantification en 4 bits pour réduire l’empreinte mémoire.
- Inférence efficace : Inférence plus rapide et plus économique en ressources, adaptée au matériel grand public.
- Mixture of Experts (MoE) : Sélectionne les « experts » pertinents pour différentes parties de l’entrée, permettant une mise à l’échelle efficace.
- Multilingue : Prend en charge plusieurs langues et excelle dans les tâches de codage.
Introduction
Bienvenue dans notre aperçu complet des familles de modèles Mistral et Mixtral, deux modèles de langage révolutionnaires développés par Mistral AI. Dans cet article, nous explorerons les fonctionnalités, les performances et les innovations uniques des modèles Mistral 7B et Mixtral 8x7B quantifiés. Nous aborderons les techniques avancées employées par ces modèles, telles que la quantification et le Mixture of Experts (MoE), et fournirons une comparaison détaillée de leurs capacités et exigences matérielles. Que vous soyez un passionné d’IA ou un professionnel du domaine, ce guide vous aidera à comprendre les avancées remarquables que ces modèles apportent.
Aperçu de Mistral 7b
Mistral 7B est un puissant modèle de langage de 7,3 milliards de paramètres développé par Mistral AI. Ses caractéristiques principales incluent :
Performances supérieures à celles de Llama
Il surpasse des modèles plus grands comme Llama 2 13B sur divers benchmarks, démontrant son efficacité.
Mécanismes d’attention innovants
Utilise l’attention par groupe de requêtes (GQA) pour une inférence plus rapide et l’attention à fenêtre glissante (SWA) pour gérer efficacement les longues séquences.
Licence ouverte
Distribué sous la licence permissive Apache 2.0, permettant une utilisation et un déploiement sans restriction sur différentes plateformes.
Aperçu du modèle quantifié Mixtral 8x7b
Mixtral 8x7b quantifié est un grand modèle de langage qui intègre des techniques de quantification avancées pour optimiser les performances et l’efficacité :
- Quantification avancée : Utilise des méthodes de quantification de pointe telles que la quantification en 4 bits, qui réduit considérablement l’empreinte mémoire du modèle sans compromettre substantiellement les performances.
- Inférence efficace : Le modèle quantifié permet une inférence plus rapide et moins gourmande en ressources, ce qui le rend adapté au déploiement sur du matériel grand public aux ressources de calcul limitées.
- Mixture of Experts : Intègre une couche MoE qui traite efficacement les informations en sélectionnant les « experts » les plus pertinents pour différentes parties de l’entrée, ce qui lui permet de passer à l’échelle et de fonctionner comme un modèle beaucoup plus grand.
- Capacités multilingues : Tout comme le modèle en pleine précision, le Mixtral 8x7b quantifié prend en charge plusieurs langues, dont l’anglais, le français, l’allemand, l’espagnol et l’italien, et excelle également dans les tâches de codage.
Le Mixtral 8x7b Quantifié peut être considéré comme un successeur ou une version spécialisée du Mistral 7B, intégrant à la fois les innovations architecturales de l’approche MoE et les améliorations d’efficacité apportées par la quantification. Par conséquent, afin de mieux comprendre les différences entre Mixtral 8x7b quantifié et Mistral, nous allons explorer la quantification et l’approche MoE.
Mixtral 8x7b quantifié vs Mistral : Comprendre la quantification
La quantification, l’une des principales caractéristiques distinctives de Mixtral 8x7b quantifié, comme présenté dans l’article, concerne le processus de réduction de la précision des poids du modèle à des bits inférieurs, ce qui diminue considérablement l’empreinte mémoire du modèle. Cela est réalisé sans dégrader substantiellement les performances du modèle sur les tâches de finetuning. Voici un aperçu concis et professionnel de la façon dont la quantification est appliquée et de son importance :
Application de la quantification dans Mixtral 8x7b quantifié
- Méthode QLORA : L’approche QLORA (Quantized Low-rank Adapters) est utilisée pour affiner le modèle Mixtral 8x7b avec une précision de seulement 4 bits. Cette méthode permet de rétropropager les gradients à travers un modèle de langage pré-entraîné gelé et quantifié en 4 bits dans des adaptateurs de bas rang (LoRA).
- Innovations : L’approche QLORA introduit plusieurs innovations, notamment :
- NormalFloat 4 bits (NF4) : Un nouveau type de données optimal du point de vue de la théorie de l’information pour des poids normalement distribués, offrant de meilleurs résultats empiriques que les représentations traditionnelles en 4 bits.
- Double quantification : Une technique qui réduit encore l’utilisation de la mémoire en quantifiant les constantes de quantification elles-mêmes, permettant des économies de mémoire supplémentaires.
- Optimiseurs paginés : Une stratégie pour gérer les pics de mémoire, particulièrement utile lors du traitement de mini-lots avec de longues séquences.
Importance de la quantification
- Efficacité mémoire : La principale importance de la quantification dans le modèle Mixtral 8x7b est la réduction spectaculaire des besoins en mémoire, rendant possible l’affinage de grands modèles sur des GPU avec une mémoire VRAM limitée.
- Accessibilité : En réduisant l’empreinte mémoire, la quantification démocratise l’accès à l’affinage des grands modèles de langage, car il devient possible d’effectuer ces tâches sur du matériel grand public qui ne pourrait normalement pas supporter la charge mémoire des modèles en pleine précision.
- Préservation des performances : Malgré la précision réduite, la méthode QLORA garantit que le modèle affiné maintient des performances comparables à celles d’un modèle affiné avec une précision totale de 16 bits.
- Passage à l’échelle : La quantification permet d’entraîner des modèles plus grands que ce qui serait autrement possible, étant donné les contraintes de mémoire du matériel standard. Cela ouvre la voie à un passage à l’échelle supplémentaire de la taille des modèles tout en maîtrisant la consommation de ressources.
Différents types de modèles quantifiés Mixtral 8x7b
Ikawrakow sur Github a résumé une comparaison entre différents types de modèles quantifiés Mixtral 8x7b et l’approche de quantification actuelle de llama.cpp en utilisant les perplexités Wikitext pour une longueur de contexte de 512 tokens.
« Erreur de quantification » est définie comme (PPL(modèle quantifié) - PPL(int8))/PPL(int8).

Mixtral 8x7b quantifié vs Mistral : Comprendre le MoE
Le Mixture of Experts (MoE) est un paradigme avancé d’apprentissage automatique qui introduit la parcimonie dans les modèles d’apprentissage profond, en particulier dans le contexte des réseaux neuronaux. Les réseaux neuronaux traditionnels utilisent le même ensemble de paramètres pour toutes les entrées. En revanche, les modèles MoE sont constitués d’un ensemble d’experts spécialisés, chacun capable de gérer différents sous-ensembles de l’espace d’entrée. Un mécanisme de gating ou routeur détermine l’activation de ces experts en fonction des données d’entrée.

Application du MoE dans Mixtral 8x7b
Mixtral 8x7b exploite le cadre MoE pour atteindre des performances élevées avec un calcul efficace. Dans ce modèle, les réseaux feed-forward (FFN) denses traditionnels sont remplacés par des couches MoE, qui contiennent plusieurs experts. Chaque expert est un réseau neuronal plus petit qui se spécialise dans le traitement d’aspects spécifiques des données d’entrée. Le routeur de Mixtral 8x7b sélectionne dynamiquement les experts les plus pertinents pour chaque token, permettant au modèle de concentrer les ressources de calcul sur les parties les plus informatives de l’entrée.
Cette application du MoE dans Mixtral 8x7b permet au modèle de passer à l’échelle jusqu’à des milliards de paramètres tout en maintenant des vitesses d’inférence rapides. Elle permet également au modèle de gérer des séquences plus longues et d’obtenir des résultats de pointe dans diverses tâches de traitement du langage naturel.
Importance du MoE
L’importance du MoE réside dans sa capacité à combiner les forces des modèles à grande échelle avec l’efficacité du calcul parcimonieux. Voici quelques points clés qui soulignent son importance :
- Passage à l’échelle : Le MoE permet de créer des modèles avec un nombre de paramètres sans précédent sans augmentation correspondante des coûts de calcul, rendant possible l’entraînement et le déploiement de modèles auparavant irréalisables.
- Efficacité : En n’activant qu’un sous-ensemble d’experts pour chaque entrée, les modèles MoE peuvent traiter les informations plus efficacement, ce qui conduit à des temps d’inférence plus rapides par rapport aux modèles denses de taille similaire.
- Adaptabilité : Les modèles MoE peuvent s’adapter à des distributions de données diverses et complexes en spécialisant différents experts sur différents aspects des données, améliorant potentiellement les performances sur un large éventail de tâches.
- Optimisation des ressources : Le MoE permet une meilleure utilisation des ressources matérielles en réduisant le besoin de puissance de calcul et de bande passante mémoire excessives, ce qui est crucial pour le déploiement de modèles sur des appareils aux ressources limitées.
Mixtral 8x7b quantifié vs Mistral : Applications et cas d’usage
Recherche et développement :
Les deux modèles peuvent être précieux dans des contextes de recherche et développement, où l’exploration de modèles de langage de pointe peut conduire à des avancées dans la technologie de l’IA. Le choix entre les deux peut dépendre de l’orientation spécifique de la recherche, comme le compromis entre performance et efficacité.
Déploiements commerciaux :
Pour les applications commerciales où l’équilibre entre performance et utilisation des ressources est critique, le Mixtral 8x7b quantifié pourrait offrir une solution plus pratique. Il fournit un bon compromis entre les capacités du modèle et les exigences matérielles.
Applications multilingues :
Étant donné que les deux modèles sont capables de gérer plusieurs langues, ils peuvent être déployés dans des environnements multilingues pour des applications telles que la traduction interlingue, la création de contenu multilingue et les outils d’apprentissage des langues.
Tâches à forte intensité d’inférence :
Le Mixtral 8x7b quantifié peut mieux performer dans les tâches à forte intensité d’inférence où la rapidité et l’efficacité sont critiques, comme les IA conversationnelles en temps réel, les chatbots et l’automatisation du service client.
Mixtral 8x7b quantifié vs Mistral : Performances et exigences matérielles
Mixtral 8x7b quantifié vs Mistral : Comparaison des performances
Bien que les données de performance pour Mixtral 8x7B sous sa forme quantifiée ne soient pas publiquement disponibles, Ingrid Stevens a mené quelques expériences avec diverses invites pour tester Mixtral-8x7B sur Vercel et Mixtral-8x7B Q3_K_M sur une puce M1, en les comparant à ChatGPT 3.5. Elle a conclu qu’il n’y a pas de différence significative entre les versions quantifiée et non quantifiée de Mixtral 8x7B. Par conséquent, pour comparer les performances de Mixtral 8x7B quantifié avec Mistral 7B, il est pratique d’utiliser les performances de référence de Mistral 7B et Mixtral 8x7B telles qu’elles sont listées sur le Huggingface Open LLM Leaderboard.

- Score moyen : Le Mixtral 8x7B a un score moyen plus élevé (19,23) par rapport au Mistral 7B (14,17), indiquant qu’en moyenne, le Mixtral 8x7B est plus performant sur les tâches évaluées.
- IFEval : Le Mixtral 8x7B obtient un score plus élevé (23,5) sur le benchmark IFEval, qui évalue la capacité du modèle à suivre des instructions, par rapport au Mistral 7B (22,66).
- BBH : Sur le benchmark BBH, qui teste la capacité du modèle à répondre à des questions sur un texte donné, Mixtral 8x7B montre une performance améliorée avec un score de 29,73 contre 24,04 pour Mistral 7B.
- MATH Lvl 5 : Pour le raisonnement mathématique au niveau 5, Mixtral 8x7B surpasse significativement Mistral 7B, avec un score de 8,84 contre 2,64 pour Mistral 7B, suggérant une capacité beaucoup plus forte en résolution de problèmes mathématiques.
- GPQA : Sur le benchmark GPQA, qui évalue les performances du modèle sur une série de tâches de question-réponse, Mixtral 8x7B démontre à nouveau des performances supérieures avec un score de 9,28, tandis que Mistral 7B a un score de 5,59.
- MUSR : Pour le benchmark MUSR, qui se concentre sur le résumé, le Mixtral 8x7B obtient un score plus élevé (12,55) que le Mistral 7B (8,36).
- MMLU-PRO : Sur le MMLU-PRO, un benchmark pour les questions à choix multiples de niveau professionnel dans divers domaines, Mixtral 8x7B montre une amélioration substantielle avec un score de 31,5, contre 21,7 pour Mistral 7B.
Mixtral 8x7b quantifié vs Mistral : Comparaison des exigences matérielles
Un appareil GPU avec au moins 30 Go de VRAM est nécessaire pour charger Mixtral avec quantification en 4 bits. Quant à Mistral 7B, il peut être entraîné sur des GPU avec au moins 24 Go de VRAM, ce qui fait des RTX 6000 Ada ou A100 des options adaptées pour l’entraînement. Novita AI propose un cloud GPU économique, facile d’accès et à la demande, comprenant RTX 4090 24 Go, 1x RTX 3090 24 Go, 1x A100 80 Go, RTX A6000 48 Go et L40 48 Go. De plus, il offre un accès instantané à Jupyter, pré-installé avec Tensorflow, Pytorch, cuDNN, CUDA, TensorRT, Llama3 et Stable Diffusion. Découvrez le cloud le moins cher au monde pour l’IA !

Exploration d’autres modèles Mistral/Mixtral
La famille de modèles Mistral/Mixtral est vaste. Selon le Huggingface Open LLM Leaderboard, il existe de nombreux modèles Mistral/Mixtral similaires ou affinés aux performances supérieures ou aux caractéristiques distinctives. Ne les manquez pas !
teknium/openhermes-2.5-mistral-7b sur Novita AI
OpenHermes 2.5 Mistral 7B est un affinage de pointe de Mistral, une continuation du modèle OpenHermes 2, entraîné sur des ensembles de données de code supplémentaires.
Nous-Hermes-2-Mixtral-8x7B-DPO sur Novita AI
Nous Hermes 2 Mixtral 8x7B DPO est le nouveau modèle phare de Nous Research entraîné sur le LLM MoE Mixtral 8x7B. Le modèle a été entraîné sur plus de 1 000 000 d’entrées de données générées principalement par GPT-4, ainsi que d’autres données de haute qualité provenant d’ensembles de données ouverts dans le paysage de l’IA, obtenant des performances de pointe sur diverses tâches.
mistralai/mistral-nemo sur Novita AI
Mistral nemo est un modèle de 12 milliards de paramètres avec une longueur de contexte de 128 000 tokens, construit par Mistral en collaboration avec NVIDIA. Le modèle est multilingue, prenant en charge l’anglais, le français, l’allemand, l’espagnol, l’italien, le portugais, le chinois, le japonais, le coréen, l’arabe et l’hindi. Il prend en charge l’appel de fonctions et est distribué sous la licence Apache 2.0.
cognitivecomputations-dolphin-mixtral-8x22b sur Novita AI
Dolphin 2.9 est conçu pour le suivi d’instructions, la conversation et le codage. Ce modèle est un affinage de Mixtral 8x22B Instruct. Il dispose d’une longueur de contexte de 64 000 tokens et a été affiné avec une longueur de séquence de 16 000 tokens en utilisant des modèles ChatML. Le modèle est non censuré et dépouillé de tout alignement et biais. Il nécessite une couche d’alignement externe pour une utilisation éthique.

Conclusion
Comme nous l’avons exploré, le modèle quantifié Mixtral 8x7B, avec ses méthodes de quantification avancées et son cadre MoE, établit une nouvelle norme en matière d’efficacité mémoire et d’optimisation des ressources de calcul. Ne manquez pas la vaste gamme de modèles Mistral/Mixtral disponibles sur Novita AI, chacun offrant des fonctionnalités uniques et des améliorations de performance.
FAQ
Quelle est la meilleure quantification pour Mixtral ?
Mixtral fonctionne parfaitement avec une quantification en 3 bits, tenant sur un seul RTX 3090 et traitant environ 50 tokens par seconde.
Quand Mixtral 8x7B a-t-il été publié ?
Mistral AI a publié Mixtral 8x7B le 8 décembre 2023.
Quel est le classement de Mistral 8x7B ?
En examinant le benchmark populaire MMLU, le classement des performances des modèles de Mistral est le suivant : Mistral Large (84,0 %) > Mistral 8x22B (77,8 %) > Mistral Small (72,2 %) > Mixtral 8x7B (70,6 %) > Mistral Nemo (68 %) > Mistral 7B (62,5 %).
Novita AI est la plateforme cloud tout-en-un qui favorise vos ambitions en IA. API intégrées, sans serveur, instances GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et réalisez votre vision de l’IA.
Lecture recommandée
Présentation du modèle Mixtral 8x7B de Mistral : tout ce que vous devez savoir
Plongée dans dolphin-2.1-Mistral-7B et les LLM non censurés alternatifs
