Introduction
Comment nous, humains, discernons-nous les causes derrière les effets que nous observons autour de nous ? Lorsque nous voyons des nuages d’orage s’assembler, pourquoi prédisons-nous la pluie, ou comment concluons-nous qu’un médicament a été efficace lorsque notre santé s’améliore ?
Cette capacité, connue sous le nom de raisonnement causal, est un élément clé de la cognition humaine qui nous aide à naviguer et à comprendre le monde. Mais l’intelligence artificielle moderne, en particulier les grands modèles de langage (LLMs) comme GPT-3 et GPT-4, peut-elle imiter cette compétence cruciale ? Dans quelle mesure ces modèles comprennent-ils le lien entre cause et effet, et où échouent-ils ? Dans ce blog, nous aborderons ces questions concernant le raisonnement causal et les grands modèles de langage une par une.
Qu’est-ce que le raisonnement causal ?
Nous, les humains, sommes très doués pour comprendre les causes et les effets. Lorsque nous voyons une chose se produire, nous pouvons souvent déterminer ce qui l’a causée et quels effets elle pourrait avoir. Cette capacité à raisonner sur les causes est appelée raisonnement causal.
C’est une compétence cruciale qui nous aide à donner un sens au monde et à prendre de bonnes décisions. Par exemple, si vous allez mieux après avoir pris un médicament, vous pouvez en déduire que le médicament a causé votre guérison. Ou si vous voyez des nuages d’orage, vous pouvez anticiper que la pluie est l’effet probable.
Le raisonnement causal est vital pour des domaines comme la science, la médecine, l’élaboration de politiques et bien d’autres. Identifier correctement les causes nous permet d’intervenir efficacement sur les problèmes et d’éviter d’attribuer à tort des effets à de mauvaises causes.

Types de tâches de raisonnement causal
Il existe différents types de tâches de raisonnement causal qui nécessitent cette compréhension cause-effet :
Découverte causale
Déterminer les relations causales entre différentes variables à partir de seules données d’observation. Par exemple, analyser des données de santé pour déterminer si le tabagisme cause le cancer.

Estimation de l’effet
Quantifier l’ampleur de l’effet d’une cause sur une variable de résultat. Comme calculer à quel point le tabagisme augmente le risque de cancer.

Raisonnement contrefactuel
Considérer des scénarios alternatifs comme « Si je n’avais pas fumé, aurais-je quand même eu un cancer ? »

Causalité réelle
Pour un événement spécifique qui s’est produit, déterminer les causes réelles qui l’ont provoqué. Par exemple, déterminer si la pollution d’une usine a été une cause réelle de problèmes respiratoires dans une communauté.

Quelle est la performance des LLMs en matière de raisonnement causal ?
Des chercheurs (Kıcıman et al., 2023) ont commencé à évaluer les grands modèles de langage (LLMs) comme GPT-3 et GPT-4 sur une variété de ces tâches de raisonnement causal en utilisant des références établies. Les résultats sont assez fascinants :
Découverte causale par paire : Facile
Il s’agit de la tâche consistant à déterminer la relation causale entre une paire de variables X et Y. Est-ce que X cause Y, Y cause X, sont-elles simplement corrélées, ou n’y a-t-il aucune relation ?
Les LLMs ont atteint une précision remarquable de 97 % pour déterminer la relation causale entre des paires de variables sur plus de 100 exemples provenant de divers domaines comme la physique, la biologie, l’épidémiologie, etc. Cela a considérablement surpassé les meilleurs algorithmes traditionnels de découverte causale qui plafonnaient à 83 % sur le benchmark Tübingen (un ensemble de données utilisé pour évaluer les algorithmes de découverte causale sur la tâche d’orientation causale par paire).
Découverte de graphe causal complet : Facile
Au-delà des paires de variables, il s’agit de découvrir l’ensemble du modèle graphique causal sur un ensemble de variables — déterminer quelles variables en causent d’autres et le représenter sous forme de graphe. Cela permet de cartographier la structure causale complète entre plusieurs variables.
Pour cette tâche plus complexe de récupération de l’ensemble du modèle graphique causal sur plusieurs variables, les méthodes basées sur les LLMs étaient compétitives avec les approches récentes d’apprentissage profond comme GCAI. Sur des benchmarks comme CADTR et CBN-Discrete, les graphes prédits par GPT-4 ont atteint des scores de précision structurelle similaires.
Raisonnement contrefactuel : Facile
Cela évalue si un LLM peut raisonner sur la façon dont les résultats changeraient dans différents scénarios hypothétiques ou interventions sur le système causal. Par exemple : « Si cette cause ne s’était pas produite, cet effet se produirait-il encore ? » Les contrefactuels sont au cœur de la cognition causale humaine.
Lors de l’évaluation sur ce benchmark, GPT-4 a répondu correctement à 92 % des questions. Il s’agit d’un gain substantiel de 20 points de pourcentage par rapport à l’état de l’art précédent sur ce benchmark des contrefactuels.
Identifier les causes nécessaires/suffisantes : Facile
Pour un événement spécifique qui s’est produit, cela nécessite d’identifier quelles causes étaient nécessaires à la survenue de l’événement, et quel sous-ensemble de causes était suffisant pour provoquer l’événement. Cela touche au cœur de la détermination de la causalité réelle.
À partir de courtes descriptions de vignettes d’événements spécifiques qui se sont produits, GPT-4 a pu identifier avec succès les causes nécessaires qui devaient être présentes, ainsi que les causes minimalement suffisantes pour que l’événement se produise, avec une précision de 86 %.
Évaluation de la normalité : Encore facile
Un élément clé du raisonnement de haut niveau sur la causalité réelle des événements consiste à évaluer si une cause ou un événement a violé les normes et les valeurs par défaut typiques. Les LLMs ont obtenu des résultats modérément bons, avec environ 70 % de précision sur ce type de tâche de jugement de normalité provenant du benchmark Cause18.
Les chercheurs ont souligné que les LLMs ont atteint ces résultats en ne recevant que les descriptions des variables/événements comme instructions — sans analyser directement aucune donnée. Cela suggère que les LLMs pourraient posséder une capacité intéressante à tirer parti de leurs vastes connaissances pour obtenir des résultats remarquables sur de nombreuses tâches de raisonnement causal.
Quelles sont les limites des capacités de raisonnement causal des LLMs ?
Pas de guerrier hexagonal
Dans les expériences de Kıcıman et al. (2023) avec GPT-3 et GPT-4, aucun LLM unique n’a surpassé les autres sur tous les benchmarks.

GPT-3
Points forts :
- A atteint 97 % de précision sur la découverte causale par paire (benchmark Tübingen), nettement mieux que les méthodes précédentes
- A montré une capacité à bien performer sur certaines tâches de raisonnement causal malgré l’absence d’accès direct aux données
Points faibles :
- N’a pas été explicitement évalué sur des tâches plus complexes comme la découverte de graphe causal complet ou les contrefactuels
- A présenté des échecs imprévisibles et une fragilité aux variations d’instructions (limite notée pour les LLMs en général)
GPT-4
Points forts :
- De bonnes performances sur plusieurs tâches :
- 92 % de précision sur le raisonnement contrefactuel
- 86 % sur l’identification des causes nécessaires/suffisantes
- Compétitif avec les méthodes d’apprentissage profond sur la découverte de graphe causal complet
- Représente un gain de capacité significatif par rapport à GPT-3
Points faibles :
- Présentait encore des lacunes de performance sur des tâches comme l’évaluation de la normalité des événements (70 % de précision)
- Manquait de robustesse face aux variations d’instructions impactant les performances (limite générale des LLMs)
Échecs imprévisibles
- Mauvaise interprétation contextuelle : Les LLMs échouent souvent à interpréter correctement les contextes causaux, en particulier dans des situations qui s’écartent des schémas courants observés dans leurs données d’entraînement. Cela peut conduire à des explications causales non seulement incorrectes mais aussi trompeuses, surtout dans des scénarios complexes impliquant de multiples facteurs en interaction.
- Erreurs logiques : Même avec des modèles sophistiqués comme GPT-4, les LLMs sont susceptibles de commettre des erreurs de base en logique. Ils peuvent démontrer une forte compréhension dans un cas et échouer dans un autre dans des conditions légèrement différentes. Ces échecs proviennent souvent des limites du modèle à appliquer un raisonnement logique plus profond de manière cohérente dans des contextes variés.
Manque de robustesse
- Dépendance aux instructions : La performance des LLMs en raisonnement causal est fortement influencée par la formulation des questions. De petits changements dans le libellé peuvent conduire à des résultats significativement différents, reflétant la dépendance du modèle à des indices linguistiques spécifiques plutôt qu’à une véritable compréhension des mécanismes causaux.
- Incohérence des réponses : Les LLMs peuvent produire des réponses différentes à la même question lorsqu’elle est posée plusieurs fois ou dans des conditions légèrement modifiées. Cette incohérence met en évidence un manque de stabilité dans le processus de raisonnement du modèle, le rendant peu fiable pour les tâches où une analyse causale cohérente et précise est cruciale.
Pourquoi les LLMs performent-ils bien en raisonnement causal tout en commettant encore des erreurs fondamentales ?
La réponse simple est : les LLMs ne sont que des « Perroquets causaux : les grands modèles de langage peuvent parler de causalité mais ne sont pas causaux ».
Manque de compréhension causale authentique
Corrélation vs. Causalité : Les LLMs fonctionnent fondamentalement sur des corrélations statistiques dérivées des vastes quantités de données sur lesquelles ils sont entraînés. Ils n’ont pas la capacité de distinguer intrinsèquement entre corrélation et causalité, ce qui est un aspect critique du véritable raisonnement causal. Les modèles n’ont pas accès aux mécanismes causaux sous-jacents mais seulement aux modèles qui peuvent imiter la causalité.
Modèles causaux structurels méta (meta SCMs)
Zečević, Willig, Dhami et Kersting (2023) introduisent le concept de meta SCMs pour expliquer les cas où les LLMs semblent effectuer un raisonnement causal. Ces modèles encodent des faits causaux sur d’autres SCMs dans leurs variables, suggérant que les LLMs ne peuvent qu’imiter l’apparence de la causalité lorsqu’ils récitent ou reflètent les corrélations apprises pendant l’entraînement qui sont structurées comme des faits causaux.
Entraînement sur des données corrélées
Le terme « perroquets causaux » utilisé dans l’article de Zečević, Willig, Dhami et Kersting (2023) illustre que les LLMs, comme les perroquets, se contentent de répéter les informations (y compris les relations causales) auxquelles ils ont été exposés dans leurs données d’entraînement sans compréhension réelle. Cette répétition est basée sur les modèles et les corrélations dans les données plutôt que sur une quelconque réelle compréhension de la causalité.
Quelles sont les orientations futures de la recherche sur le raisonnement causal concernant les LLMs ?
Comprendre les capacités de raisonnement causal des LLMs
Des recherches supplémentaires sont nécessaires pour comprendre les mécanismes par lesquels les LLMs effectuent des tâches de raisonnement causal. Cela inclut l’étude de la manière dont les LLMs capturent et appliquent le sens commun et les connaissances du domaine dans des scénarios causaux.
Améliorer la robustesse et la fiabilité
Les LLMs présentent des précisions moyennes élevées mais commettent également des erreurs simples et imprévisibles. Les recherches futures devraient se concentrer sur l’augmentation de la robustesse des LLMs, éventuellement via des outils externes ou des instances supplémentaires des LLMs eux-mêmes.
Intégration avec les méthodes causales existantes
Il existe un potentiel pour intégrer les LLMs avec les méthodes causales existantes, en servant de proxy pour les connaissances humaines du domaine et en réduisant l’effort nécessaire pour mettre en place des analyses causales.
Découverte causale basée sur les connaissances
Explorer comment les LLMs peuvent tirer parti des métadonnées et des descriptions en langage naturel pour déduire des structures causales, en reformulant potentiellement le problème de découverte causale pour inclure les métadonnées des variables et les connaissances existantes encodées via les LLMs.
Raisonnement contrefactuel
Développer des méthodes qui guident les LLMs dans l’utilisation de primitives causales comme la nécessité et la suffisance pour répondre à des questions de jugement causal réel de plus haut niveau, en utilisant éventuellement la théorie formelle de la causalité réelle comme guide.
Collaboration humain-LLM
Rechercher les meilleures façons de faciliter la collaboration entre les humains et les LLMs pour des tâches telles que la création de graphes, où les LLMs peuvent suggérer des arêtes de graphe et fournir des commentaires sur les graphes générés manuellement.
Inférence d’effet causal
Étudier comment les LLMs peuvent aider à identifier des ensembles d’ajustement valides pour l’inférence d’effet causal et suggérer des variables instrumentales potentielles pour les tâches causales.
Systématiser la causalité réelle et l’attribution
Utiliser les LLMs pour soutenir l’inférence causale réelle dans des domaines comme le droit et l’analyse de renseignement, où les analystes doivent synthétiser des explications sur la mesure dans laquelle les événements contribuent à d’autres événements.
Création de benchmarks pour la découverte causale
Tirer parti des LLMs pour aider à identifier les arêtes potentiellement manquantes ou mal étiquetées dans les benchmarks de découverte causale, compte tenu de leur capacité à traiter de grandes quantités de texte.
Explorer les capacités des LLMs dans diverses tâches causales
Des recherches supplémentaires sont nécessaires pour explorer les capacités des LLMs dans un large éventail de tâches causales, y compris la découverte causale, l’inférence d’effet et la causalité réelle.
Fusionner le raisonnement basé sur la covariance et la logique
Étudier comment les LLMs peuvent faciliter une fusion de l’analyse causale basée sur la covariance et sur la logique via des interfaces en langage naturel.
Conclusion
En conclusion, l’exploration du raisonnement causal dans le domaine des grands modèles de langage (LLMs) révèle une épée à double tranchant. D’un côté, les LLMs comme GPT-3 et GPT-4 ont démontré une maîtrise remarquable dans les tâches de raisonnement causal. De l’autre côté, les limites des LLMs en matière de raisonnement causal ne sont pas triviales. Malgré leur haute précision dans certaines tâches, ils commettent encore des erreurs fondamentales et présentent des modes d’échec imprévisibles. Cela est largement attribué à leur manque de compréhension causale authentique, car ils fonctionnent sur la base de corrélations statistiques plutôt que de véritables mécanismes causaux.
Alors que nous continuons à démêler les complexités des capacités de raisonnement causal des LLMs, il est crucial d’aborder leur intégration dans des applications du monde réel avec prudence. Bien qu’ils promettent d’augmenter l’expertise humaine dans les analyses causales, ils ne devraient pas remplacer la rigueur des cadres formels de raisonnement causal. Au lieu de cela, les LLMs devraient être considérés comme des outils complémentaires capables de démocratiser l’accès aux outils et connaissances causaux, facilitant des interactions plus fluides et basées sur le langage naturel pour mener des analyses causales. La voie à suivre réside dans l’exploitation des forces des LLMs tout en reconnaissant et en traitant leurs limites, en s’orientant vers un avenir où le raisonnement causal en IA est à la fois sophistiqué et fiable.
Références
Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper №23-05002). arXiv. https://arxiv.org/abs/2305.05002
Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Consulté sur https://arxiv.org/abs/2308.13067
Novita AI, la plateforme tout-en-un pour une créativité sans limites qui vous donne accès à plus de 100 APIs. De la génération d’images au traitement du langage, en passant par l’amélioration audio et la manipulation vidéo, avec un paiement à l’usage économique, elle vous libère des contraintes de maintenance des GPU tout en construisant vos propres produits. Essayez-la gratuitement.
