Introduction
Dans le paysage en évolution rapide de l’intelligence artificielle, l’interaction entre les grands modèles de langage (LLM) et leurs homologues plus petits est une histoire de synergie et d’innovation. Les capacités impressionnantes des LLM comme GPT-3 et GPT-4, bien qu’impressionnantes, sont enfermées dans une forteresse de limitations — accès limité aux poids des modèles, exigences de calcul immense, et contraintes de l’apprentissage en contexte (ICL).
Pourtant, dans ces limites se trouve une faille, une opportunité pour les petits modèles d’intervenir comme modules complémentaires, offrant un pont vers des applications plus personnalisées et efficaces. Ce blog explore la nécessité et l’impact de l’intégration de petits modèles en tant que modules complémentaires dans les vastes domaines des LLM, explorant le concept de Super In-Context Learning (SuperICL) et ses implications concrètes.
Comprendre les LLM et les modèles plus petits
Les différences entre les LLM et les modèles plus petits
Un grand modèle de langage (LLM) est un système d’IA sophistiqué conçu pour traiter et comprendre de grands volumes de données en langage naturel. Les LLM ont généralement un très grand nombre de paramètres, allant souvent de centaines de millions à des milliards. Cela leur permet de capturer des motifs et des relations complexes dans le langage, permettant des capacités avancées telles que la traduction linguistique, le résumé de texte, les questions-réponses et la génération de contenu. Les LLM sont entraînés sur de grands ensembles de données et peuvent présenter des comportements complexes et des « capacités émergentes » à mesure qu’ils augmentent en taille, bien que ce dernier concept soit sujet à débat, comme discuté dans la recherche de Stanford.
En revanche, les modèles plus petits ont moins de paramètres et sont moins complexes. Ils peuvent être plus limités dans leurs capacités et l’éventail des tâches qu’ils peuvent effectuer efficacement. Les modèles plus petits sont généralement utilisés pour des tâches plus spécifiques ou moins complexes en raison de leurs besoins de calcul réduits et de leurs besoins moindres en données. Bien qu’ils puissent être très efficaces et performants pour certaines applications, ils ne possèdent généralement pas le même niveau de compréhension nuancée ou la capacité à gérer une grande variété de tâches linguistiques que les LLM.
Quels sont les meilleurs LLM open-source ?
- BERT : Développé par Google, BERT est un LLM pionnier connu pour son impact transformateur sur le traitement du langage naturel, utilisé mondialement dans Google Search et inspirant de nombreux modèles spécialisés.
- Falcon 180B : LLM du Technology Innovation Institute des Émirats arabes unis avec 180 milliards de paramètres, excellant dans la génération et le traitement de texte, avec une version plus petite, Falcon-40B, également reconnue pour la compréhension du langage.
- GPT-NeoX et GPT-J : LLM open-source d’EleutherAI avec respectivement 20 milliards et 6 milliards de paramètres, offrant des performances élevées dans tous les domaines et promouvant la démocratisation de l’IA.
- LLaMA 3 : LLM polyvalent de Meta AI, allant de 7 à 70 milliards de paramètres, optimisé pour la génération de langage naturel et personnalisable via une licence open-source, avec des API disponibles pour les développeurs. Des entreprises, par exemple Novita AI, proposent généralement des API LLaMA 3 pour les startups IA.
- BLOOM : LLM open-source avec 176 milliards de paramètres, un effort collaboratif de Hugging Face, conçu pour la génération de texte multilingue et en langage de programmation, privilégiant la transparence et l’accessibilité.
- Vicuna 13-B : Affiné à partir de LLaMa 13B, ce modèle conversationnel open-source est capable de gérer des dialogues étendus dans des applications de chatbot dans tous les secteurs, démontrant des capacités avancées d’IA conversationnelle.
Pourquoi avons-nous besoin de petits modèles comme modules complémentaires pour les grands modèles de langage ?
Accès limité aux poids des modèles
- Les LLM comme GPT-3 et GPT-4 sont des outils puissants pour diverses tâches de traitement du langage naturel (NLP). Cependant, les paramètres de poids réels de ces modèles ne sont généralement pas partagés publiquement en raison de préoccupations de propriété intellectuelle et de sécurité.
- Sans accès aux poids du modèle, il n’est pas possible d’effectuer un réglage fin interne où les paramètres du modèle sont ajustés pour mieux correspondre à une tâche ou un ensemble de données spécifique.
Tailles de modèles immenses
- Les LLM sont généralement très grands, avec des milliards de paramètres, ce qui les rend gourmands en ressources. Les exigences matérielles pour l’entraînement ou même le réglage fin de tels modèles sont hors de portée de la plupart des individus et des petites organisations.
- La grande taille signifie également que le transfert de ces modèles vers différents matériels ou leur utilisation dans des environnements à puissance de calcul limitée est difficile.
Limitations de l’apprentissage en contexte (ICL)
- L’ICL est une technique où quelques exemples étiquetés sont fournis avec l’entrée pour aider le modèle à faire des prédictions. Cette méthode permet au modèle d’apprendre du contexte fourni par les exemples.
- Cependant, l’ICL est limité par la longueur du contexte que le LLM peut traiter. Si le contexte est trop long, il peut dépasser la capacité du modèle, et le modèle ne pourra pas utiliser efficacement tous les exemples fournis.
- Cette limitation est particulièrement problématique lorsqu’il y a une grande quantité de données supervisées disponibles, car l’ICL ne peut utiliser qu’un petit sous-ensemble en raison de la contrainte de longueur de contexte.

Pour résoudre ces problèmes, certains chercheurs proposent Super In-Context Learning (SuperICL), qui combine les forces des LLM avec des modèles plus petits affinés localement. Les modèles plus petits, ou modules complémentaires, sont affinés sur des données spécifiques à la tâche et fournissent un pont entre les capacités générales du LLM et les exigences spécifiques de la tâche à accomplir. Cette approche permet un transfert de connaissances plus efficace et des performances améliorées sur les tâches supervisées, surmontant les limitations de l’ICL et les défis associés à la taille et à l’inaccessibilité des LLM.

Comment les gens ont-ils découvert que les petits modèles sont des modules complémentaires précieux pour les grands modèles de langage ?
Dans cette section, nous allons discuter de l’article intitulé « Small Models are Valuable Plug-ins for Large Language Models » par Canwen Xu, Yichong Xu, Shuohang Wang, Yang Liu, Chenguang Zhu et Julian McAuley de l’Université de Californie, San Diego et Microsoft. Comme toujours, si les détails de la recherche ne vous intéressent pas, n’hésitez pas à passer à la section suivante.
Méthode
Sur la base de la reconnaissance des limitations des LLM, que nous avons discutée dans la section précédente, les auteurs proposent SuperICL pour combiner les LLM avec des modèles plug-in plus petits affinés localement. Le modèle plug-in est d’abord affiné sur l’ensemble de données supervisées spécifique à la tâche. Il effectue ensuite des prédictions avec des scores de confiance sur les exemples d’entraînement de cet ensemble de données. Ces prédictions sont fournies comme contexte au LLM avec l’entrée de test. Le LLM utilise ce contexte pour faire la prédiction finale et peut éventuellement générer une explication pour son raisonnement.

Conception de l’expérience
Ils évaluent sur le benchmark GLUE pour les tâches de compréhension du langage naturel et sur XNLI pour le transfert cross-lingue en zero-shot. GPT-3.5 est utilisé comme LLM et RoBERTa-Large/XLM-R comme modèles plug-in. SuperICL est comparé aux bases de référence de l’ICL avec GPT-3.5 et à l’utilisation uniquement des modèles plug-in.
Résultats
SuperICL surpasse à la fois l’ICL de GPT-3.5 et les modèles plug-in individuellement sur le benchmark GLUE. Sur l’ensemble de données XNLI, SuperICL améliore les performances de XLM-R pour la plupart des langues, démontrant un transfert zero-shot efficace. Une étude d’ablation montre l’importance de chaque composant dans l’approche SuperICL.


Récapitulatif
SuperICL atteint des performances supérieures en combinant les forces des LLM et des modèles plug-in plus petits affinés sur les données de la tâche. Il résout le problème d’instabilité de l’ICL régulier en séparant la compréhension du langage de l’absorption des connaissances spécifiques à la tâche. De plus, SuperICL améliore les capacités des modèles plus petits, comme l’extension de leur couverture multilingue. Il offre également une interprétabilité en permettant au LLM de générer des explications lors de la substitution des prédictions du plug-in.
Cas concrets de petits modèles comme modules complémentaires pour les grands modèles de langage
Chatbots de service client personnalisés
Des petits modèles spécifiques à un domaine peuvent être affinés pour comprendre la terminologie et le contexte d’un secteur particulier, puis utilisés comme modules complémentaires dans un cadre de chatbot plus vaste pour fournir des réponses plus précises et pertinentes.
Assistance au diagnostic médical
Un petit modèle formé sur les dossiers médicaux et la littérature peut agir comme un module complémentaire pour un LLM afin d’aider les médecins à diagnostiquer des conditions, suggérer des traitements et interpréter des tests médicaux avec plus de précision.
Analyse de documents juridiques
Des petits modèles affinés sur des documents juridiques peuvent être utilisés pour améliorer les LLM dans l’analyse et la compréhension des contrats juridiques, en fournissant des résumés et en mettant en évidence les problèmes ou clauses potentiels.
Traduction linguistique
Pour les langues peu dotées en ressources, de petits modèles peuvent être entraînés sur les données disponibles, puis utilisés comme modules complémentaires dans les LLM pour améliorer la qualité de la traduction et mieux gérer les nuances.
Outils éducatifs
De petits modèles adaptés au contenu éducatif peuvent être intégrés aux LLM pour créer des systèmes de tutorat intelligents qui fournissent des commentaires et des explications personnalisés aux étudiants.
Modération de contenu
De petits modèles formés pour détecter des types spécifiques de contenu (par exemple, discours de haine, contenu explicite) peuvent être utilisés pour améliorer les capacités des LLM à modérer le contenu généré par les utilisateurs sur les plateformes de médias sociaux.
Surveillance des soins de santé
De petits modèles formés pour reconnaître des schémas dans les données des patients peuvent être utilisés pour fournir des alertes précoces ou des informations sur des problèmes de santé potentiels lorsqu’ils sont intégrés à un LLM capable de traiter et d’analyser de grands ensembles de données.
Ces applications démontrent comment la combinaison des connaissances spécialisées des petits modèles avec la compréhension large des LLM peut conduire à des solutions plus efficaces, précises et adaptées dans divers contextes professionnels et personnels.
Comment exécuter le code pour SuperICL
Les codes présentés ci-dessous sont extraits de https://github.com/JetRunner/SuperICL?tab=readme-ov-file. Vous pouvez trouver tous les scripts Python mentionnés ci-dessous avec ce lien.
Processus d’installation
1 Installer les paquets nécessaires : Utilisez le gestionnaire de paquets pip pour installer tous les paquets requis listés dans le fichier requirements.txt.
pip install -r requirements.txt
2 Configurer la clé API OpenAI :
- Copiez le fichier de configuration exemple pour créer votre propre fichier de configuration :
cp api_config_example.py api_config.py. - Modifiez le fichier
api_config.pynouvellement créé à l’aide d’un éditeur de texte commevipour insérer votre clé API OpenAI.
Exécution du code pour différentes tâches
1 Benchmark GLUE :
- Exécutez le script
run_glue.pyavec les paramètres spécifiés pour exécuter le modèle sur le benchmark GLUE. - Incluez
--model_pathpointant vers l’emplacement du modèle,--model_nameavec l’identifiant du modèle, et--datasetspécifiant la tâche GLUE. - Pour activer les explications des prédictions du modèle, ajoutez le drapeau
--explanation.
python run_glue.py \
--model_path roberta-large-mnli \
--model_name RoBERTa-Large \
--dataset mnli-m \
--explanation # Ajoutez ce drapeau pour les explications
- Pour toutes les tâches supportées, référez-vous à la documentation fournie.
2 Benchmark XNLI :
- Exécutez le script
run_xnli.pypour les tâches d’inférence en langage naturel cross-lingue avec les paramètres spécifiés. - Spécifiez
--model_pathvers le répertoire du modèle,--model_nameavec le nom du modèle, et--langpour lister les langues incluses dans l’ensemble de données.
python run_xnli.py \
--model_path /path/to/model \
--model_name XLM-V \
--lang en,ar,bg,de,el,es,fr,hi,ru,sw,th,tr,ur,vi,zh
Informations supplémentaires
Pour tous les paramètres disponibles pour les scripts, référez-vous au dépôt de code.
Citation
Si vous utilisez ce travail dans votre recherche, veuillez le citer comme suit :
@article{xu2023small,
title={Small Models are Valuable Plug-ins for Large Language Models},
author={Xu, Canwen and Xu, Yichong and Wang, Shuohang and Liu, Yang and Zhu, Chenguang and McAuley, Julian},
journal={arXiv preprint arXiv:2305.08848},
year={2023}
}
Limitations des petits modèles en tant que modules complémentaires pour les grands modèles de langage
Dépendance vis-à-vis des performances du modèle plug-in
La performance globale de SuperICL dépend toujours de la qualité du modèle plug-in affiné localement. Si le modèle plug-in donne de mauvais résultats sur la tâche, cela peut limiter l’efficacité de SuperICL.
Coût de calcul
L’affinage du modèle plug-in nécessite un accès à des ressources de calcul suffisantes. Pour de très grands ensembles de données supervisées, cet affinage peut devenir prohibitif pour les petits groupes de recherche ou les individus.
Généralisabilité des tâches
Les expériences se concentrent sur les tâches de compréhension du langage naturel dans le benchmark GLUE. Bien que prometteur, davantage d’évaluations sont nécessaires pour évaluer l’efficacité de SuperICL sur d’autres tâches NLP comme la génération, le résumé, la traduction, etc.
Transfert entre tâches
On ne sait pas clairement dans quelle mesure un seul modèle plug-in affiné sur une tâche peut se généraliser et fournir un contexte efficace pour une tâche complètement différente lorsqu’il est utilisé avec SuperICL.
Limites du multilinguisme
Bien que SuperICL améliore le multilinguisme, ses capacités cross-lingues restent fondamentalement limitées par les capacités multilingues originales du modèle plug-in comme XLM-R.
Conclusion
L’intégration de petits modèles en tant que modules complémentaires pour les LLM, comme démontré par SuperICL, offre une solution convaincante aux limitations inhérentes de l’IA à grande échelle. En augmentant les capacités des LLM, nous ouvrons la voie à des systèmes d’IA plus nuancés, efficaces et largement applicables. Cependant, des défis tels que la dépendance vis-à-vis des performances des plug-ins, les coûts de calcul et la généralisabilité des tâches persistent, incitant à une approche équilibrée pour exploiter cette synergie.
Restez à l’écoute pour découvrir les dernières découvertes du monde académique de l’IA !
Novita AI, la plateforme tout-en-un pour une créativité illimitée qui vous donne accès à plus de 100 API. De la génération d’images au traitement du langage, en passant par l’amélioration audio et la manipulation vidéo, avec un paiement à l’utilisation économique, elle vous libère des tracas de la maintenance GPU tout en construisant vos propres produits. Essayez-la gratuitement.
