Introduction
Les capacités émergentes des grands modèles de langage sont-elles un mirage ? La réponse courte à cette question est : en grande partie, oui. Certains chercheurs de Stanford soutiennent que tout est une question de métriques. Plus précisément, les LLM développent leurs capacités progressivement, et non brusquement selon la plupart des métriques, alors que ces miracles émergents n’apparaissent qu’avec certaines métriques. Dans ce blog, nous explorons la définition originale des capacités émergentes des grands modèles de langage, comment ces chercheurs contestent cette affirmation et les implications de leurs découvertes dans le monde de l’IA.

Que sont les capacités émergentes des grands modèles de langage ?
Les capacités émergentes désignent de nouvelles aptitudes ou comportements qui apparaissent dans les systèmes complexes lorsqu’ils augmentent en taille ou en complexité. Dans le contexte des LLM, il s’agit de compétences inattendues ou d’améliorations de performance qui étaient supposément absentes dans les modèles plus petits, mais qui apparaissent à mesure que le modèle grandit.
Caractéristique 1 : La netteté
La netteté dans le contexte des capacités émergentes fait référence à l’augmentation soudaine et dramatique des performances sur une tâche spécifique. C’est comme si le modèle avait un « déclic » où il passe de l’incapacité totale à effectuer une tâche à une exécution parfaite. Cela est souvent visualisé par une courbe abrupte sur un graphique, montrant que les métriques de performance comme la précision ou le taux d’achèvement des tâches passent brusquement d’une valeur faible à une valeur élevée, sans beaucoup d’intermédiaire.
Imaginez que vous ayez une série de modèles de langage de tailles variées, du petit au très grand. Vous testez leur capacité à traduire un texte de l’anglais vers le français. Les petits modèles peuvent avoir des difficultés, produisant des traductions médiocres avec de nombreuses erreurs. Cependant, en testant des modèles de plus en plus grands, vous pourriez soudainement constater qu’à une certaine taille, les traductions du modèle sont presque parfaites, avec très peu d’erreurs, voire aucune. Cette amélioration soudaine est ce qu’on appelle la « netteté » de la capacité émergente.

Caractéristique 2 : L’imprévisibilité
L’imprévisibilité concerne la difficulté à prévoir quand ou à quelle taille un modèle manifestera une capacité émergente. Il n’y a pas de tendance claire et progressive que l’on puisse pointer en disant : « Lorsque nous atteindrons cette taille ou complexité, le modèle sera capable de faire X. » Au lieu de cela, l’apparition de ces capacités semble surgir de nulle part, sans schéma ni avertissement évident.
Pour reprendre l’exemple de la traduction, vous pourriez vous attendre à ce qu’en augmentant la taille du modèle, sa capacité de traduction s’améliore régulièrement. Cependant, l’imprévisibilité signifie que vous ne pouvez pas prédire de manière fiable à quelle taille exacte du modèle les traductions deviendront excellentes. Un modèle peut montrer un bond en capacité avec 100 millions de paramètres, tandis qu’un autre peut ne montrer le même bond qu’avec un milliard de paramètres. Il n’y a pas de règle claire qui vous indique quand cela se produira, rendant l’émergence de la capacité imprévisible.

Contester l’affirmation d’émergence : Juste un mirage
L’article intitulé « Are Emergent Abilities of Large Language Models a Mirage? » de Rylan Schaeffer, Brando Miranda et Sanmi Koyejo, du département d’informatique de l’Université de Stanford, remet en question l’idée que les LLM présentent des capacités émergentes. Comme toujours, si les détails de la recherche ne vous intéressent pas, retenez simplement ceci et passez à la section suivante : les « capacités émergentes » perçues dans les grands modèles de langage pourraient en réalité être une illusion créée par le choix des métriques de performance, plutôt qu’un changement authentique et brusque des capacités des modèles à mesure qu’ils augmentent en taille.
Contexte de la recherche et question de recherche
L’article commence par discuter du concept de propriétés émergentes dans les systèmes complexes, qui a attiré l’attention dans l’apprentissage automatique en raison d’observations de grands modèles de langage (LLM) affichant des capacités non observées dans les modèles plus petits. Ces capacités émergentes sont caractérisées par leur netteté et leur imprévisibilité.
La question de recherche posée par l’article est de savoir si ces capacités émergentes sont une propriété fondamentale de la mise à l’échelle des modèles d’IA ou un artefact des métriques utilisées pour mesurer la performance.
Conception de l’expérience
Les auteurs proposent une explication alternative aux capacités émergentes, suggérant qu’elles pourraient être le résultat du choix de la métrique plutôt que d’un comportement intrinsèque du modèle. Ils présentent un modèle mathématique pour démontrer cela et testent leur hypothèse à travers trois approches complémentaires :
- Ils ont testé leur idée en utilisant une famille de modèles d’IA bien connue (InstructGPT/GPT-3) sur des tâches où les gens disaient que ces compétences spéciales se manifestaient. Ils ont examiné comment le changement des scores de test (métriques) modifiait ce que l’on observait.
- Ils ont mené une méta-analyse des capacités émergentes sur un ensemble de tests (BIG-Bench) pour voir si ces compétences spéciales n’apparaissaient qu’avec certaines méthodes de notation (métriques).
- Ils ont induit des capacités apparemment émergentes dans plusieurs tâches de vision à travers divers réseaux de neurones profonds en modifiant les métriques d’évaluation.
Résultats
- Les résultats des tests : Lorsque les chercheurs ont changé la façon de mesurer la performance de l’IA (les métriques), ils ont observé quelque chose d’intéressant. Au lieu d’un bond soudain dans les capacités de l’IA, ils ont trouvé une amélioration lisse et régulière à mesure que les modèles d’IA devenaient plus grands. C’était l’inverse de ce à quoi ils s’attendaient si l’IA avait vraiment des « compétences spéciales » apparaissant de nulle part.

- Différentes métriques, différentes histoires : Ils ont constaté que certaines méthodes de mesure de la performance donnaient l’impression que l’IA s’améliorait beaucoup et très rapidement. Mais lorsqu’ils utilisaient différentes métriques qui évaluaient l’IA de manière plus équitable, les améliorations étaient plus graduelles. C’était comme si l’IA ne devenait pas soudainement plus intelligente ; elle était simplement testée d’une manière qui la faisait paraître ainsi.

- Le grand test (méta-analyse) : En examinant un ensemble de tests différents (le BIG-Bench), ils ont vu que ces « compétences spéciales » n’apparaissaient que lorsque certaines métriques étaient utilisées. C’était comme si ces compétences étaient cachées et ne se manifestaient que lorsque le test était configuré d’une certaine manière.
- Faire apparaître des compétences : Enfin, les chercheurs ont montré qu’ils pouvaient faire apparaître ces « compétences spéciales » dans d’autres types de tâches d’IA (comme la reconnaissance d’images) simplement en changeant la façon dont ils mesuraient la performance de l’IA. C’était comme de la magie, mais au lieu d’un vrai tour de magie, il s’agissait de la façon dont ils observaient les capacités de l’IA.

Implications pour la recherche et le développement en IA
Choix des métriques
Les chercheurs devraient soigneusement considérer le choix des métriques lors de l’évaluation des modèles d’IA. L’article suggère que des métriques non linéaires ou discontinues pourraient créer une perception trompeuse des capacités du modèle. Choisir des métriques appropriées qui reflètent avec précision les améliorations graduelles est crucial pour une évaluation valide et fiable.
Conception des benchmarks
La conception des benchmarks devrait prendre en compte l’influence potentielle du choix des métriques sur les capacités perçues des modèles d’IA. Les benchmarks devraient utiliser une variété de métriques pour fournir une évaluation complète et éviter de trop insister sur les résultats de métriques qui pourraient induire l’apparition de capacités émergentes.
Interprétation des résultats
Les chercheurs devraient être prudents lors de l’interprétation de résultats suggérant des capacités émergentes. L’article encourage une compréhension plus nuancée de la performance des modèles, en tenant compte de la possibilité que les comportements « émergents » observés puissent être des artefacts du processus de mesure.
Transparence et reproductibilité des modèles
L’article souligne l’importance de rendre les modèles et leurs sorties publiquement disponibles pour une vérification indépendante. Cette transparence est essentielle pour que la communauté scientifique valide les affirmations et reproduise les résultats, garantissant l’intégrité de la recherche en IA.
Sécurité et alignement de l’IA
Si les capacités émergentes sont perçues comme survenant de manière imprévisible, cela pourrait avoir des implications pour la sécurité et l’alignement de l’IA. Cependant, si ces capacités résultent du choix des métriques, cela suggère que les chercheurs ont plus de contrôle sur le développement des capacités de l’IA qu’on ne le pensait, ce qui pourrait être mis à profit pour guider le développement de l’IA vers des résultats bénéfiques.
Allocation des ressources
Comprendre que les capacités émergentes pourraient être un mirage peut éclairer l’allocation des ressources dans le développement de l’IA. Au lieu de se concentrer sur la mise à l’échelle des modèles pour atteindre des capacités imprévisibles, il pourrait être préférable d’investir dans l’affinage des algorithmes, des ensembles de données et des processus d’entraînement pour produire des résultats souhaités de manière plus prévisible.
Considérations éthiques
Les implications éthiques des capacités de l’IA sont étroitement liées à notre compréhension de ce que l’IA peut et ne peut pas faire. Si les capacités émergentes sont moins courantes ou moins brusques qu’on ne le croyait, cela pourrait affecter la manière dont nous abordons les directives éthiques et les réglementations pour le développement et le déploiement de l’IA.
Communication publique
Communiquer précisément les capacités de l’IA au public est important pour gérer les attentes et répondre aux préoccupations concernant l’IA. Les conclusions de l’article suggèrent qu’il faut faire preuve de prudence pour éviter de surestimer les capacités de l’IA et pour fournir une image claire et réaliste des capacités actuelles et futures potentielles de l’IA.
Priorisation de la recherche
Les résultats pourraient inciter les chercheurs à prioriser la compréhension des mécanismes fondamentaux derrière les améliorations de performance de l’IA plutôt que la recherche d’insaisissables capacités émergentes. Cela pourrait impliquer davantage de focus sur les améliorations algorithmiques, la qualité des données et les techniques d’entraînement.
Expérimentez les capacités des LLM
Bien que les auteurs nient que les capacités des LLM soient émergentes, ils n’indiquent pas que ces capacités ne sont pas solides. Les capacités des LLM à résoudre des problèmes dans des scénarios réels sont incontestables. Si vous êtes impatient d’expérimenter les capacités des LLM, Novita AI fournit aux startups d’IA des API LLM pour exploiter la puissance des LLM.

Vous pouvez utiliser notre essai gratuit LLM pour comparer les performances de différents LLM intégrés ultérieurement dans notre API. De plus, des ajustements de paramètres et de prompts système sont également autorisés dans le chat gratuit pour répondre à vos besoins spécifiques en matière de sorties LLM.


Conclusion
Le débat sur la question de savoir si les grands modèles de langage (LLM) présentent de véritables capacités émergentes ou si celles-ci ne sont qu’un mirage, comme le suggèrent les chercheurs de Stanford, met en lumière le rôle central des métriques de performance dans l’évaluation de l’IA. L’étude postule que les améliorations nettes et imprévisibles attribuées aux LLM pourraient être un artefact de certaines métriques plutôt qu’une capacité intrinsèque du modèle.
Cette perspective incite la communauté de l’IA à reconsidérer la conception des benchmarks et l’interprétation des résultats, en plaidant pour la transparence, des métriques diversifiées et une compréhension plus approfondie des progrès incrémentaux de l’IA. Les implications sont claires : alors que nous faisons progresser la recherche en IA, nous devons examiner de manière critique les outils de notre évaluation pour garantir une voie de développement réaliste et éthique, alignée sur les attentes sociétales et les normes de sécurité.
Restez à l’écoute pour explorer les dernières découvertes du monde académique de l’IA !
Novita AI, la plateforme tout-en-un pour une créativité sans limites qui vous donne accès à plus de 100 API. De la génération d’images au traitement du langage, en passant par l’amélioration audio et la manipulation vidéo, à un coût avantageux, elle vous libère des contraintes de maintenance GPU tout en construisant vos propres produits. Essayez-le gratuitement.
Lectures recommandées
Comment et pourquoi les grands modèles de langage apprennent-ils différemment dans leur contexte ?
