Comment et pourquoi les grands modèles de langage font-ils de l'apprentissage en contexte différemment ?

Introduction

Comment et pourquoi les grands modèles de langage font-ils de l’apprentissage en contexte différemment ? Dans cet article, nous explorerons le concept d’« apprentissage en contexte » (ICL), discuterons des dernières découvertes sur les comportements d’apprentissage en contexte des modèles de différentes tailles en français simple, et examinerons les moyens d’exploiter les différents comportements ICL des LLM. Si cela vous intéresse, continuez à lire !

Qu’est-ce que l’« apprentissage en contexte » ?

L’apprentissage en contexte est une capacité fascinante qui a émergé du développement des grands modèles de langage (LLM). Il fait référence à la capacité de ces modèles à bien performer sur de nouvelles tâches jamais vues auparavant, en se basant uniquement sur une brève série d’exemples de tâches fournis dans le contexte d’entrée. C’est un exploit remarquable, car les modèles sont capables de s’adapter et d’appliquer leurs connaissances à des situations nouvelles sans nécessiter de mises à jour ou de réglages fins de leurs paramètres sous-jacents.

L’aspect clé de l’apprentissage en contexte est que le modèle exploite les informations contextuelles données dans l’invite d’entrée pour informer sa réponse, plutôt que de se fier uniquement à ses connaissances préexistantes ou à son entraînement. Par exemple, si vous présentez à un modèle de langage quelques exemples de résolution d’équations linéaires, il peut ensuite utiliser ce contexte pour résoudre une toute nouvelle équation linéaire qu’il n’a jamais rencontrée auparavant. Le modèle est capable d’inférer le motif sous-jacent et de l’appliquer au nouveau problème, sans avoir besoin d’être explicitement entraîné sur ce type spécifique d’équation.

Quels sont les avantages de l’« apprentissage en contexte » ?

Polyvalence et adaptabilité

ICL permet d’appliquer les grands modèles de langage à un large éventail de tâches et de domaines sans nécessiter de réentraînement approfondi.
Cela permet aux modèles d’étendre continuellement leurs capacités en apprenant de nouvelles compétences via ICL.

Efficacité en termes d’exemples

ICL nécessite relativement peu d’exemples pour apprendre de nouvelles tâches, réduisant ainsi les besoins en données par rapport à l’apprentissage supervisé traditionnel.
Cela est précieux lorsque les données étiquetées sont rares ou coûteuses à obtenir.

Efficacité computationnelle

ICL peut être effectué en un seul passage avant du modèle, sans mise à jour des paramètres.
Cette efficacité computationnelle est importante pour les applications en temps réel et les déploiements à ressources limitées.

Capacités émergentes

Les grands modèles de langage peuvent souvent bien performer sur des tâches non vues via ICL, dépassant les performances des modèles entraînés explicitement sur ces tâches.
Cela suggère que les modèles peuvent exploiter efficacement les informations contextuelles pour résoudre de nouveaux problèmes.

Perspectives sur le comportement du modèle

Comprendre l’ICL peut fournir des informations précieuses sur la façon dont les grands modèles de langage représentent et utilisent les connaissances.
Cela peut éclairer le développement de systèmes d’IA plus robustes et fiables.

Une grande découverte : les grands modèles de langage font l’apprentissage en contexte différemment

L’article « Larger Language Models Do In-context Learning Differently » de Jerry Wei, Jason Wei, Yi Tay et autres discute de la question de savoir si l’apprentissage en contexte repose davantage sur des a priori sémantiques issus du pré-entraînement ou sur l’apprentissage des correspondances entrée-étiquette à partir des exemples.

Si les détails de la recherche ne vous intéressent pas, retenez simplement cette conclusion et passez à la section suivante : plus le modèle de langage est grand, moins il dépend des a priori sémantiques (la signification inhérente et les associations que les modèles de langage apprennent pendant le pré-entraînement) et plus il est capable d’apprendre à partir des contextes d’entrée.

Je veux approfondir

Contexte

Les modèles de langage peuvent effectuer diverses tâches en aval grâce à l’apprentissage en contexte (ICL), où ils reçoivent quelques exemples dans l’invite.
Il y a un débat sur la question de savoir si l’ICL repose davantage sur des a priori sémantiques issus du pré-entraînement ou sur l’apprentissage des correspondances entrée-étiquette à partir des exemples.

Paramètres théoriques

Les auteurs étudient deux configurations pour sonder l’interaction entre les a priori sémantiques et les correspondances entrée-étiquette :

ICL avec étiquettes inversées : les étiquettes dans les exemples sont inversées, forçant les modèles à outrepasser les a priori sémantiques.
ICL avec étiquettes sémantiquement non liées (SUL-ICL) : les étiquettes sont sémantiquement non liées à la tâche, supprimant ainsi les a priori sémantiques.

Conception de l’expérience

Expériences menées sur 7 tâches de NLP à travers 5 familles de modèles (GPT-3, InstructGPT, Codex, PaLM, Flan-PaLM) de différentes tailles.
Évaluation des performances dans les configurations ICL régulière, ICL avec étiquettes inversées et SUL-ICL.

Principales conclusions

ICL avec étiquettes inversées : les petits modèles ne peuvent pas outrepasser les a priori sémantiques, mais les grands modèles peuvent apprendre à suivre les étiquettes d’exemple inversées.
SUL-ICL : les petits modèles s’appuient davantage sur les a priori sémantiques, tandis que les grands modèles peuvent apprendre des correspondances entrée-étiquette sans a priori sémantiques.

La capacité à outrepasser les a priori sémantiques et à apprendre des correspondances entrée-étiquette émerge avec l’échelle du modèle.
Le réglage par instructions renforce davantage l’utilisation des a priori sémantiques que la capacité à apprendre des correspondances entrée-étiquette.

Pourquoi les grands modèles de langage font-ils l’apprentissage en contexte différemment ?

Un autre article, « Why Do Larger Language Models Do In-context Learning Differently ? » de Zhenmei Shi, Junyi Wei, Zhuoyan Xu et Yingyu Liang, examine les raisons des différentes performances d’apprentissage en contexte des grands et petits LLM. Nous proposons ici deux versions : la version en français simple et la version professionnelle. Choisissez la version qui vous convient.

Je préfère la version en français simple

Cet article explique le « pourquoi » derrière les différents comportements ICL des modèles de langage grands et petits :

La raison principale est liée à la façon dont les modèles allouent leur attention entre différentes caractéristiques pendant le processus d’apprentissage en contexte.

Les modèles plus petits ont tendance à se concentrer davantage sur les caractéristiques importantes et informatives pertinentes pour la tâche. Ils mettent l’accent sur ces caractéristiques clés et sont donc plus robustes au bruit ou aux informations non pertinentes dans le contexte d’entrée.

En revanche, les grands modèles de langage ont la capacité de prêter attention à un plus large éventail de caractéristiques, y compris celles qui sont moins importantes, voire bruyantes. Bien que cela leur permette de capturer plus d’informations, cela les rend également plus sensibles à la distraction par des aspects non pertinents ou bruyants du contexte d’entrée.

Essentiellement, les grands modèles couvrent un ensemble plus large de caractéristiques, à la fois pertinentes et non pertinentes, tandis que les petits modèles privilégient les caractéristiques les plus saillantes. Cette différence d’allocation de l’attention est ce qui conduit à la plus grande robustesse des petits modèles pendant l’apprentissage en contexte par rapport à leurs homologues plus grands.

Je veux approfondir

Contexte de la recherche

L’article examine pourquoi les grands modèles de langage (LLM) présentent des comportements d’apprentissage en contexte (ICL) différents de ceux des modèles plus petits. L’ICL est une capacité émergente importante des LLM, où ils peuvent bien performer sur des tâches non vues en se basant sur une brève série d’exemples de tâches sans mettre à jour les paramètres du modèle. Des études récentes ont observé que les grands LLM ont tendance à être plus sensibles au bruit dans le contexte de test, obtenant des résultats moins bons que les modèles plus petits.

Paramètres théoriques

Pour comprendre ce phénomène, l’article analyse deux configurations stylisées :

Régression linéaire avec des transformateurs linéaires monocouche et mono-tête
Classification de parité avec des transformateurs bicouche et multi-têtes d’attention

L’objectif est de fournir des éclairages théoriques sur la façon dont le mécanisme d’attention et l’échelle du modèle affectent le comportement ICL.

Pour les deux configurations, les auteurs fournissent des solutions optimales sous forme fermée et caractérisent la différence du mécanisme d’attention entre les modèles plus petits et plus grands.

Conception de l’expérience

Les auteurs mènent des expériences d’apprentissage en contexte sur cinq tâches courantes de NLP en utilisant différentes tailles des familles de modèles Llama. Les résultats expérimentaux sont utilisés pour corroborer l’analyse théorique.

Principales conclusions

Les modèles plus petits mettent l’accent sur les caractéristiques cachées importantes, tandis que les modèles plus grands couvrent davantage de caractéristiques, y compris celles moins importantes ou bruyantes.
Les modèles plus petits sont plus robustes au bruit d’étiquetage et au bruit d’entrée lors de l’évaluation, tandis que les modèles plus grands sont plus facilement distraits par ces bruits, ce qui conduit à de moins bonnes performances ICL.

L’analyse théorique et les résultats expérimentaux fournissent des éclairages sur la façon dont le mécanisme d’attention et l’échelle du modèle affectent le comportement ICL, mettant en lumière le fonctionnement interne des LLM.

Tirer parti des différents comportements ICL des LLM

Reconnaître ces différences nuancées est crucial pour sélectionner le modèle approprié en fonction des caractéristiques des données et des exigences de la tâche. Comme nous l’avons appris des deux articles précédents, les modèles plus petits sont plus robustes aux entrées bruyantes, car ils se concentrent sur les caractéristiques clés et sont moins distraits par les informations non pertinentes. Les modèles plus grands, en revanche, excellent dans les tâches nécessitant une compréhension globale de diverses caractéristiques, en tirant parti de leur connaissance contextuelle plus large.

Par conséquent, afin de tirer parti des différents comportements ICL des LLM, Novita AI fournit aux développeurs de startups d’IA des API LLM rentables et à mise à l’échelle automatique, avec différentes options de modèles LLM.

En seulement quelques lignes de code, vous pouvez intégrer de puissants LLM dans vos produits d’IA. N’hésitez pas à essayer les capacités de différents LLM sur Novita AI Playground avant de décider d’utiliser nos API.

Conclusion

L’apprentissage en contexte est la capacité des grands modèles de langage (LLM) à bien performer sur des tâches non vues en se basant sur l’entrée, c’est-à-dire le contexte.

Comment les grands modèles de langage font-ils de l’apprentissage en contexte différemment ? Plus le modèle de langage est grand, moins il dépend des a priori sémantiques et plus il est capable d’apprendre à partir des contextes d’entrée.

Pourquoi les grands modèles de langage font-ils de l’apprentissage en contexte différemment ? La raison principale derrière ces différences est liée à la façon dont les modèles allouent leur attention entre différentes caractéristiques pendant le processus d’apprentissage en contexte.

Pour tirer parti des comportements d’apprentissage en contexte divergents présentés par différents modèles de langage, l’implémentation d’une API avec une sélection diversifiée de modèles LLM peut s’avérer avantageuse.

Novita AI, la plateforme tout-en-un pour une créativité illimitée qui vous donne accès à plus de 100 API. De la génération d’images au traitement du langage, en passant par l’amélioration audio et la manipulation vidéo, payez à l’usage à faible coût, elle vous libère des contraintes de maintenance GPU tout en construisant vos propres produits. Essayez-la gratuitement.

Comment et pourquoi les grands modèles de langage font-ils de l'apprentissage en contexte différemment ?

Introduction

Qu’est-ce que l’« apprentissage en contexte » ?

Quels sont les avantages de l’« apprentissage en contexte » ?

Polyvalence et adaptabilité

Efficacité en termes d’exemples

Efficacité computationnelle

Capacités émergentes

Perspectives sur le comportement du modèle

Une grande découverte : les grands modèles de langage font l’apprentissage en contexte différemment

Je veux approfondir

Pourquoi les grands modèles de langage font-ils l’apprentissage en contexte différemment ?

Je préfère la version en français simple

Je veux approfondir

Tirer parti des différents comportements ICL des LLM

Conclusion

Product

RESOURCES

Partners

Company

Introduction

Qu’est-ce que l’« apprentissage en contexte » ?

Quels sont les avantages de l’« apprentissage en contexte » ?

Polyvalence et adaptabilité

Efficacité en termes d’exemples

Efficacité computationnelle

Capacités émergentes

Perspectives sur le comportement du modèle

Une grande découverte : les grands modèles de langage font l’apprentissage en contexte différemment

Je veux approfondir

Pourquoi les grands modèles de langage font-ils l’apprentissage en contexte différemment ?

Je préfère la version en français simple

Je veux approfondir

Tirer parti des différents comportements ICL des LLM

Conclusion

Articles associés

Product

RESOURCES

Partners

Company