Le prompting par chaîne de pensée suscite le raisonnement dans les grands modèles de langage

Le prompting par chaîne de pensée suscite le raisonnement dans les grands modèles de langage

Explorez son efficacité dans les tâches de raisonnement arithmétique, symbolique et de bon sens, révélant ses avantages en matière de passage à l’échelle. Assistez aux impressionnantes améliorations de performance sur divers benchmarks et comprenez son potentiel pour la généralisation de la longueur.

Introduction

Le domaine du TAL a connu une transformation significative grâce aux récentes avancées dans les modèles de langage. Il a été démontré que l’augmentation de la taille de ces modèles offre divers avantages, notamment une meilleure performance et une efficacité accrue dans l’apprentissage à partir d’exemples. Néanmoins, le simple fait d’augmenter la taille des modèles ne s’est pas avéré suffisant pour atteindre une grande maîtrise dans des tâches exigeantes telles que l’arithmétique, le raisonnement de bon sens et le raisonnement symbolique.

Cet article explore comment les capacités de raisonnement des grands modèles de langage peuvent être améliorées grâce à une approche simple reposant sur deux concepts clés. Premièrement, il souligne l’importance de générer des explications en langage naturel qui explicitent les étapes menant à une solution, ce qui est particulièrement bénéfique dans les tâches de raisonnement arithmétique. De plus, il met en évidence le potentiel des grands modèles de langage pour l’apprentissage en contexte avec peu d’exemples via le prompting. Au lieu d’affiner un modèle séparé pour chaque nouvelle tâche, cette approche consiste à fournir au modèle quelques exemples d’entrée-sortie illustrant la tâche, ce qui a montré un succès remarquable dans diverses tâches simples de questions-réponses.

Le prompting par chaîne de pensée permet aux grands modèles de langage de s’attaquer à des tâches complexes de raisonnement arithmétique, de bon sens et symbolique.

Qu’est-ce que le prompting par chaîne de pensée

Le prompting par chaîne de pensée présente plusieurs qualités attrayantes en tant qu’approche pour améliorer le raisonnement dans les modèles de langage.

  1. Premièrement, il permet aux modèles de décomposer des problèmes complexes en étapes intermédiaires, permettant une allocation de calcul supplémentaire pour les problèmes nécessitant plusieurs étapes de raisonnement.
  2. Deuxièmement, une chaîne de pensée offre un aperçu compréhensible du comportement du modèle, indiquant comment il a pu arriver à une réponse spécifique et offrant des opportunités pour identifier et corriger les erreurs dans le processus de raisonnement (bien que comprendre pleinement les calculs d’un modèle soutenant une réponse reste un défi).
  3. Troisièmement, le raisonnement par chaîne de pensée est applicable à diverses tâches telles que les problèmes mathématiques en mots, le raisonnement de bon sens et la manipulation symbolique, pouvant potentiellement s’étendre à toute tâche résoluble par les humains via le langage.
  4. Enfin, le raisonnement par chaîne de pensée peut être facilement incorporé dans des modèles de langage pré-entraînés suffisamment grands en incluant des exemples de séquences de chaînes de pensée dans les exemples de prompting en contexte, ce qui en fait un outil polyvalent pour améliorer les performances du modèle.

Si vous souhaitez en savoir plus sur les informations générales concernant la chaîne de pensée dans les LLM, vous pouvez consulter notre blog : Débloquer le potentiel du prompting par chaîne de pensée dans les modèles de langage à grande échelle

Raisonnement arithmétique

Bien que le raisonnement arithmétique puisse sembler simple pour les humains, les modèles de langage rencontrent souvent des difficultés avec celui-ci. De manière remarquable, lorsqu’il est appliqué à un modèle de langage de 540 milliards de paramètres, le prompting par chaîne de pensée offre des performances comparables aux modèles affinés pour des tâches spécifiques sur plusieurs tâches. Il atteint même un nouvel état de l’art sur le benchmark exigeant GSM8K.

Configuration expérimentale

Nous examinons l’efficacité du prompting par chaîne de pensée sur divers modèles de langage à travers plusieurs benchmarks de problèmes mathématiques en mots. Ces benchmarks incluent le benchmark GSM8K, l’ensemble de données SVAMP, l’ensemble de données ASDiv, l’ensemble de données AQuA et le benchmark MAWPS, chacun offrant des défis distincts dans la résolution de problèmes mathématiques en mots. Nous fournissons des exemples de problèmes dans le tableau 12 en annexe pour référence.

Benchmarks.

Pour notre comparaison de base, nous utilisons la technique de prompting standard avec peu d’exemples, largement utilisée. Cette méthode consiste à présenter au modèle de langage des exemples en contexte de paires entrée-sortie avant de faire des prédictions sur des exemples de test. Ces exemples sont structurés sous forme de questions et réponses, le modèle produisant directement la réponse.

Prompting standard

En revanche, notre approche proposée, le prompting par chaîne de pensée, enrichit chaque exemple du prompting avec peu d’exemples par une chaîne de pensée détaillée liée à la réponse associée. Étant donné que la plupart des ensembles de données ne fournissent qu’une division d’évaluation, nous créons manuellement un ensemble de huit exemples avec des chaînes de pensée pour le prompting. Un exemple de chaîne de pensée est illustré dans la figure 1, et l’ensemble complet est disponible dans le tableau 20 en annexe. Il est important de noter que ces exemples n’ont subi aucune ingénierie de prompt ; nous explorons leur robustesse dans la section 3.4 et l’annexe A.2.

Notre objectif est d’étudier si cette forme de prompting par chaîne de pensée peut efficacement stimuler un raisonnement réussi dans un large éventail de scénarios de problèmes mathématiques en mots.

Modèles de langage

Nous évaluons les performances de cinq grands modèles de langage. Le premier est GPT-3, pour lequel nous utilisons les variantes text-ada-001, text-babbage-001, text-curie-001 et text-davinci-002, correspondant aux modèles InstructGPT de 350M, 1,3B, 6,7B et 175B paramètres respectivement. Le deuxième modèle est LaMDA, disponible en versions avec 422M, 2B, 8B, 68B et 137B paramètres. Le troisième modèle est PaLM, offrant des modèles avec 8B, 62B et 540B paramètres. Le quatrième modèle est UL2 20B, et le cinquième est Codex.

Nous échantillonnons à partir de ces modèles en utilisant un décodage glouton, bien que des recherches ultérieures suggèrent que le prompting par chaîne de pensée peut être affiné en agrégeant la réponse finale majoritaire sur plusieurs générations échantillonnées. Pour LaMDA, nous présentons des résultats moyennés sur cinq graines aléatoires, chaque graine utilisant un ordre différent mélangé aléatoirement des exemples. Étant donné que les expériences avec LaMDA n’ont pas montré de variance significative entre les différentes graines, pour optimiser les ressources de calcul, nous rapportons les résultats basés sur un seul ordre d’exemples pour tous les autres modèles.

Résultats

Le prompting par chaîne de pensée permet aux grands modèles de langage de s’attaquer à des problèmes mathématiques difficiles. Notamment, la capacité de raisonner par chaînes de pensée émerge à mesure que les modèles sont mis à l’échelle.

Raisonnement de bon sens

Bien que la méthode de la chaîne de pensée soit particulièrement efficace pour résoudre les problèmes mathématiques en mots, son approche basée sur le langage la rend applicable à un large éventail de tâches de raisonnement de bon sens. Le raisonnement de bon sens implique la compréhension des interactions physiques et humaines sur la base de connaissances générales de fond, une compétence qui reste difficile pour les systèmes actuels de compréhension du langage naturel (Talmor et al., 2021).

Benchmarks

Nous évaluons cette approche sur cinq ensembles de données représentant divers types de raisonnement de bon sens. L’ensemble de données CSQA implique de répondre à des questions de bon sens sur le monde, nécessitant souvent une connaissance préalable de sémantiques complexes. StrategyQA exige des modèles qu’ils déduisent des stratégies en plusieurs étapes pour répondre aux questions. De plus, nous utilisons deux ensembles d’évaluation spécialisés de l’initiative BIG-bench : Date Understanding, qui se concentre sur l’inférence de dates à partir du contexte, et Sports Understanding, qui consiste à déterminer la plausibilité de phrases liées au sport. Enfin, l’ensemble de données SayCan implique la cartographie d’instructions en langage naturel vers des séquences d’actions robotiques à partir d’un ensemble discret. Des exemples avec des annotations de chaîne de pensée pour tous les ensembles de données sont illustrés.

Prompts.

En termes de configuration expérimentale, nous suivons une approche similaire à celle de la section précédente. Pour CSQA et StrategyQA, nous sélectionnons aléatoirement des exemples de l’ensemble d’entraînement et concevons manuellement des chaînes de pensée pour eux afin de servir d’exemples de prompting en contexte. Comme les deux tâches BIG-bench ne disposent pas d’ensembles d’entraînement, nous utilisons les dix premiers exemples de l’ensemble d’évaluation comme exemples de prompting et rapportons les résultats sur le reste de l’ensemble d’évaluation. Pour SayCan, nous utilisons six exemples de l’ensemble d’entraînement et créons manuellement des chaînes de pensée.

Résultats

Les résultats, mis en évidence dans la figure 7 pour PaLM (avec les résultats complets pour LaMDA, GPT-3 et différentes échelles de modèle dans le tableau 4), révèlent que l’augmentation de la taille du modèle améliore les performances du prompting standard sur toutes les tâches. De plus, le prompting par chaîne de pensée conduit à des gains de performance supplémentaires, les améliorations les plus significatives étant observées pour PaLM 540B. Avec le prompting par chaîne de pensée, PaLM 540B atteint des résultats impressionnants, surpassant les performances antérieures de l’état de l’art sur StrategyQA (75,6% contre 69,4%) et surpassant même les amateurs de sport non assistés sur la compréhension sportive (95,4% contre 84%). Ces résultats soulignent le potentiel du prompting par chaîne de pensée pour améliorer les performances dans une gamme de tâches de raisonnement de bon sens, bien que les gains aient été minimes sur CSQA.

Raisonnement symbolique

Dans notre évaluation expérimentale conclusive, nous nous concentrons sur le raisonnement symbolique, une tâche simple pour les humains mais qui peut poser des défis pour les modèles de langage. Nous démontrons que le prompting par chaîne de pensée permet non seulement aux modèles de langage de s’attaquer à des tâches de raisonnement symbolique difficiles dans des conditions de prompting standard, mais aide également à la généralisation de la longueur, permettant aux modèles de traiter des entrées d’inférence plus longues que celles rencontrées dans les exemples de prompting en contexte.

Tâches

Nous utilisons les deux tâches simples suivantes pour notre analyse :

  1. Concaténation de la dernière lettre : Dans cette tâche, le modèle doit concaténer les dernières lettres des mots d’un nom donné (par exemple, « Amy Brown » → « yn »). Il s’agit d’une version plus difficile de la tâche de concaténation de la première lettre, que les modèles de langage peuvent déjà effectuer sans avoir recours à la chaîne de pensée. Nous générons des noms complets en combinant aléatoirement des noms parmi les mille premiers prénoms et noms de famille issus des données de recensement des noms.
  2. Pile ou face : Cette tâche demande au modèle de déterminer si une pièce reste face visible après que des personnes l’aient retournée ou non (par exemple, « Une pièce est face visible. Phoebe retourne la pièce. Osvaldo ne retourne pas la pièce. La pièce est-elle encore face visible ? » → « non »).

Résultats

Dans la figure ci-dessous, nous présentons les résultats des évaluations en domaine et hors domaine (OOD) pour PaLM, avec les résultats de LaMDA détaillés dans le tableau 5 en annexe. Notamment, avec PaLM 540B, le prompting par chaîne de pensée atteint des taux de succès de près de 100%, bien que le prompting standard accomplisse déjà les tâches de pile ou face avec PaLM 540B (mais pas pour LaMDA 137B).

Ces évaluations en domaine impliquent des « tâches jouets », où des structures de solution parfaites sont fournies par les chaînes de pensée dans les exemples de prompting en contexte. Malgré cela, les modèles plus petits rencontrent toujours des difficultés, démontrant que la capacité à manipuler des concepts abstraits sur des symboles inédits n’émerge qu’à une échelle de 100B paramètres de modèle.

Dans les évaluations hors domaine, le prompting standard échoue pour les deux tâches. Cependant, avec le prompting par chaîne de pensée, les modèles de langage présentent des courbes de mise à l’échelle ascendantes, bien qu’avec des performances inférieures par rapport au cadre en domaine. Cela indique que le prompting par chaîne de pensée facilite la généralisation de la longueur au-delà des chaînes de pensée familières pour des modèles de langage correctement mis à l’échelle.

Conclusion

Notre exploration du prompting par chaîne de pensée révèle son efficacité en tant que technique simple et largement applicable pour améliorer les capacités de raisonnement des modèles de langage. À travers des expériences couvrant le raisonnement arithmétique, symbolique et de bon sens, nous observons que le raisonnement par chaîne de pensée émerge comme une propriété de la taille du modèle. Cela permet à des modèles de langage suffisamment grands de s’attaquer efficacement à des tâches de raisonnement qui présentent autrement des courbes de mise à l’échelle plates.

En élargissant le répertoire des tâches de raisonnement que les modèles de langage peuvent traiter avec compétence, nous visons à stimuler la poursuite de l’exploration et du développement d’approches basées sur le langage pour le raisonnement.

novita.ai, la plateforme unique pour une créativité illimitée qui vous donne accès à plus de 100 API. De la génération d’images au traitement du langage, en passant par l’amélioration audio et la manipulation vidéo, avec un paiement à l’utilisation économique, elle vous libère de la maintenance des GPU tout en construisant vos propres produits. Essayez-la gratuitement.

Lecture recommandée

Quelle est la différence entre LLM et GPT

Prédictions du leaderboard LLM 2024 révélées

Moteur d’inférence LLM Novita AI : le plus grand débit et l’inférence la moins chère disponibles