Einleitung
Wie erkennen wir Menschen die Ursachen hinter den Wirkungen, die wir um uns herum beobachten? Wenn wir Sturmwolken am Himmel sehen, warum sagen wir Regen voraus, oder wie schließen wir daraus, dass ein Medikament wirksam war, wenn sich unser Gesundheitszustand verbessert?
Diese Fähigkeit, bekannt als kausales Denken, ist ein Schlüsselbestandteil der menschlichen Kognition, der uns hilft, die Welt zu verstehen und uns in ihr zurechtzufinden. Aber kann moderne künstliche Intelligenz, insbesondere große Sprachmodelle (Large Language Models, LLMs) wie GPT-3 und GPT-4, diese entscheidende Fähigkeit nachahmen? Wie gut verstehen diese Modelle den Zusammenhang zwischen Ursache und Wirkung, und wo liegen ihre Schwächen? In diesem Blog werden wir diese Fragen zu kausalem Denken und großen Sprachmodellen nacheinander behandeln.
Was ist kausales Denken?
Wir Menschen sind wirklich gut darin, Ursachen und Wirkungen zu verstehen. Wenn wir etwas geschehen sehen, können wir oft herausfinden, was es verursacht hat und welche Auswirkungen es haben könnte. Diese Fähigkeit, über Ursachen nachzudenken, nennt man kausales Denken.
Es ist eine entscheidende Fähigkeit, die uns hilft, die Welt zu verstehen und gute Entscheidungen zu treffen. Wenn es dir zum Beispiel nach der Einnahme von Medikamenten besser geht, kannst du daraus schließen, dass das Medikament deine Genesung verursacht hat. Oder wenn du Sturmwolken siehst, kannst du erwarten, dass Regen die wahrscheinlichste Folge ist.
Kausales Denken ist für Bereiche wie Wissenschaft, Medizin, Politikgestaltung und mehr von entscheidender Bedeutung. Wenn wir die Ursachen richtig verstehen, können wir effektiv in Probleme eingreifen und vermeiden, Wirkungen fälschlicherweise den falschen Ursachen zuzuschreiben.

Arten von Aufgaben zum kausalen Denken
Es gibt verschiedene Arten von Aufgaben zum kausalen Denken, die dieses Verständnis von Ursache und Wirkung erfordern:
Kausale Entdeckung
Herausfinden der kausalen Beziehungen zwischen verschiedenen Variablen allein aus Beobachtungsdaten. Zum Beispiel die Analyse von Gesundheitsdaten, um festzustellen, ob Rauchen Krebs verursacht.

Wirkungsschätzung
Quantifizierung der Stärke der Wirkung einer Ursache auf eine Ergebnisvariable. Wie die Berechnung, wie stark Rauchen das Krebsrisiko erhöht.

Kontrafaktisches Denken
Betrachten alternativer Szenarien wie „Wenn ich nicht geraucht hätte, hätte ich dann trotzdem Krebs bekommen?“

Tatsächliche Kausalität
Bei einem bestimmten Ereignis, das eingetreten ist, die tatsächlichen Ursachen bestimmen, die es ausgelöst haben. Zum Beispiel, ob die Verschmutzung einer Fabrik eine tatsächliche Ursache für Atemwegsprobleme in einer Gemeinde war.

Wie gut sind LLMs im kausalen Denken?
Forscher (Kıcıman et al., 2023) haben damit begonnen, große Sprachmodelle (LLMs) wie GPT-3 und GPT-4 anhand etablierter Benchmarks bei einer Vielzahl dieser Aufgaben zum kausalen Denken zu evaluieren. Die Ergebnisse sind ziemlich faszinierend:
Paarweise kausale Entdeckung: Einfach
Dies bezieht sich auf die Aufgabe, die kausale Beziehung zwischen einem Variablenpaar X und Y zu bestimmen. Verursacht X Y, verursacht Y X, sind sie nur korreliert, oder besteht keine Beziehung?
LLMs erreichten eine bemerkenswerte Genauigkeit von 97 % bei der Bestimmung der kausalen Beziehung zwischen Variablenpaaren in über 100 Beispielen aus verschiedenen Bereichen wie Physik, Biologie, Epidemiologie und mehr. Damit übertrafen sie die bisher besten traditionellen Algorithmen zur kausalen Entdeckung deutlich, die auf dem Tübingen-Benchmark (ein Datensatz zur Evaluierung von Algorithmen zur kausalen Entdeckung bei der Aufgabe der paarweisen kausalen Ausrichtung) maximal 83 % erreichten.
Vollständige kausale Graph-Entdeckung: Einfach
Über Variablenpaare hinausgehend, umfasst dies die Entdeckung des gesamten kausalen grafischen Modells über eine Menge von Variablen – die Bestimmung, welche Variablen welche anderen verursachen, und die Darstellung als Graph. Dies ermöglicht die Abbildung der vollständigen kausalen Struktur zwischen mehreren Variablen.
Bei dieser komplexeren Aufgabe der Wiederherstellung des gesamten kausalen grafischen Modells über mehrere Variablen waren LLM-Methoden wettbewerbsfähig mit aktuellen Deep-Learning-Ansätzen wie GCAI. Bei Benchmarks wie CADTR und CBN-Discrete erzielten die von GPT-4 vorhergesagten Graphen ähnliche strukturelle Genauigkeitswerte.
Kontrafaktisches Denken: Einfach
Dies bewertet, ob ein LLM darüber nachdenken kann, wie sich die Ergebnisse unter verschiedenen hypothetischen Szenarien oder Interventionen auf das kausale System verändern würden. Zum Beispiel: „Wenn diese Ursache nicht eingetreten wäre, würde diese Wirkung dann noch eintreten?“ Kontrafakte sind zentral für die menschliche Kausalkognition.
Bei der Evaluierung anhand dieses Benchmarks beantwortete GPT-4 92 % der Fragen richtig. Dies bedeutete einen erheblichen Zuwachs von 20 Prozentpunkten gegenüber dem bisherigen Stand der Technik bei diesem Kontrafakt-Benchmark.
Identifizierung notwendiger/ausreichender Ursachen: Einfach
Bei einem bestimmten Ereignis, das eingetreten ist, müssen die Ursachen identifiziert werden, die für das Eintreten des Ereignisses notwendig waren, sowie die Teilmenge der Ursachen, die ausreichten (ausreichend waren), um das Ereignis eintreten zu lassen. Dies zielt auf den Kern der Bestimmung der tatsächlichen Kausalität ab.
Anhand kurzer Vignettenbeschreibungen bestimmter Ereignisse konnte GPT-4 die notwendigen Ursachen, die vorhanden sein mussten, sowie die minimal ausreichenden Ursachen, die für das Eintreten des Ereignisses ausreichten, mit einer Genauigkeit von 86 % erfolgreich identifizieren.
Beurteilung der Normalität: Immer noch einfach
Ein Schlüsselbestandteil des übergeordneten Denkens über die tatsächliche Kausalität von Ereignissen ist die Beurteilung, ob eine Ursache oder ein Ereignis typische Normen und Standards verletzt hat. LLMs erzielten bei dieser Art von Normalitätsurteilsaufgabe aus dem Cause18-Benchmark eine moderate Genauigkeit von etwa 70 %.
Die Forscher betonten, dass LLMs diese Ergebnisse erzielten, obwohl ihnen nur die Variablen-/Ereignisbeschreibungen als Eingabeaufforderungen zur Verfügung gestellt wurden – ohne direkte Analyse von Daten. Dies deutet darauf hin, dass LLMs möglicherweise eine interessante Fähigkeit besitzen, ihr breites Wissen zu nutzen, um bei vielen Aufgaben des kausalen Denkens bemerkenswert gut abzuschneiden.
Was sind die Einschränkungen der Fähigkeiten von LLMs im kausalen Denken?
Kein Hexagon-Krieger
In den Experimenten von Kıcıman et al. (2023) mit GPT-3 und GPT-4 übertraf kein einzelnes LLM die anderen in allen Benchmarks.

GPT-3
Stärken:
- Erzielte 97 % Genauigkeit bei der paarweisen kausalen Entdeckung (Tübingen-Benchmark), deutlich besser als frühere Methoden
- Zeigte die Fähigkeit, bei einigen Aufgaben des kausalen Denkens gut abzuschneiden, obwohl es keinen direkten Zugriff auf Daten hatte
Schwächen:
- Wurde nicht explizit bei komplexeren Aufgaben wie der vollständigen kausalen Graphentdeckung oder Kontrafakten evaluiert
- Zeigte unvorhersehbare Fehler und Anfälligkeit gegenüber Änderungen in der Eingabeaufforderung (allgemeine Einschränkung von LLMs)
GPT-4
Stärken:
- Starke Leistung bei mehreren Aufgaben:
- 92 % Genauigkeit beim kontrafaktischen Denken
- 86 % bei der Identifizierung notwendiger/ausreichender Ursachen
- Wettbewerbsfähig mit Deep-Learning-Methoden bei der vollständigen kausalen Graphentdeckung
- Stellte einen signifikanten Leistungszuwachs gegenüber GPT-3 dar
Schwächen:
- Hatte immer noch Leistungslücken bei Aufgaben wie der Beurteilung der Ereignisnormalität (70 % Genauigkeit)
- Mangelnde Robustheit gegenüber Variationen der Eingabeaufforderung, die die Leistung beeinträchtigten (allgemeine LLM-Einschränkung)
Unvorhergesehene Fehler
- Kontextuelle Fehlinterpretation: LLMs scheitern oft daran, kausale Kontexte korrekt zu interpretieren, insbesondere in Situationen, die von den in ihren Trainingsdaten häufig vorkommenden Mustern abweichen. Dies kann zu kausalen Erklärungen führen, die nicht nur falsch, sondern auch irreführend sind, insbesondere in komplexen Szenarien mit mehreren interagierenden Faktoren.
- Logische Fehler: Selbst bei ausgefeilten Modellen wie GPT-4 sind LLMs anfällig für grundlegende Fehler in der Logik. Sie können in einem Fall ein starkes Verständnis zeigen und in einem anderen unter leicht veränderten Bedingungen versagen. Diese Fehler rühren oft von den Einschränkungen des Modells her, tieferes logisches Denken konsistent über verschiedene Kontexte hinweg anzuwenden.
Mangelnde Robustheit
- Abhängigkeit von der Eingabeaufforderung: Die Leistung von LLMs im kausalen Denken wird stark davon beeinflusst, wie Fragen formuliert werden. Kleine Änderungen in der Formulierung können zu deutlich unterschiedlichen Ergebnissen führen, was die Abhängigkeit des Modells von spezifischen sprachlichen Hinweisen widerspiegelt, anstatt von einem echten Verständnis kausaler Mechanismen.
- Inkonsistenz in den Antworten: LLMs können bei mehrmaliger Befragung derselben Frage oder unter leicht veränderten Bedingungen unterschiedliche Antworten geben. Diese Inkonsistenz zeigt einen Mangel an Stabilität im Denkprozess des Modells, was es unzuverlässig für Aufgaben macht, bei denen eine konsistente und genaue Kausalanalyse entscheidend ist.
Warum schneiden LLMs im kausalen Denken gut ab, machen aber immer noch grundlegende Fehler?
Die einfache Antwort lautet: LLMs sind nur „Kausale Papageien: Große Sprachmodelle reden vielleicht über Kausalität, sind aber nicht kausal“.
Mangel an echtem kausalem Verständnis
Korrelation vs. Kausalität: LLMs arbeiten grundsätzlich mit statistischen Korrelationen, die aus den riesigen Datenmengen abgeleitet werden, mit denen sie trainiert werden. Sie besitzen nicht die Fähigkeit, inhärent zwischen Korrelation und Kausalität zu unterscheiden, was ein entscheidender Aspekt echten kausalen Denkens ist. Die Modelle haben keinen Zugang zu den zugrunde liegenden kausalen Mechanismen, sondern nur zu Mustern, die Kausalität nachahmen können.
Meta-Strukturelle Kausale Modelle (meta SCMs)
Zečević, Willig, Dhami und Kersting (2023) führen das Konzept der meta SCMs ein, um Fälle zu erklären, in denen LLMs scheinbar kausales Denken durchführen. Diese Modelle kodieren kausale Fakten über andere SCMs in ihren Variablen, was darauf hindeutet, dass LLMs nur den Anschein von Kausalität nachahmen können, wenn sie die während des Trainings gelernten Korrelationen, die wie kausale Fakten strukturiert sind, aufsagen oder widerspiegeln.
Training mit korrelierten Daten
Der Begriff „kausale Papageien“ im Artikel von Zečević, Willig, Dhami und Kersting (2023) veranschaulicht, dass LLMs, wie Papageien, lediglich die Informationen (einschließlich kausaler Beziehungen), denen sie in ihren Trainingsdaten ausgesetzt waren, wiederholen, ohne tatsächliches Verständnis. Diese Wiederholung basiert auf den Mustern und Korrelationen in den Daten und nicht auf einem wirklichen Verständnis von Kausalität.
Was sind die zukünftigen Richtungen für die Forschung zum kausalen Denken bei LLMs?
Verständnis der Fähigkeiten von LLMs im kausalen Denken
Weitere Forschung ist erforderlich, um die Mechanismen zu verstehen, mit denen LLMs Aufgaben des kausalen Denkens ausführen. Dies umfasst die Untersuchung, wie LLMs Allgemeinwissen und Domänenwissen in kausalen Szenarien erfassen und anwenden.
Verbesserung der Robustheit und Zuverlässigkeit
LLMs zeigen hohe Durchschnittsgenauigkeiten, machen aber auch einfache, unvorhersehbare Fehler. Zukünftige Forschung sollte sich auf die Erhöhung der Robustheit von LLMs konzentrieren, möglicherweise durch externe Werkzeuge oder zusätzliche Instanzen von LLMs selbst.
Integration mit bestehenden kausalen Methoden
Es besteht Potenzial, LLMs mit bestehenden kausalen Methoden zu integrieren, als Stellvertreter für menschliches Domänenwissen, um den Aufwand für die Einrichtung kausaler Analysen zu reduzieren.
Wissensbasierte kausale Entdeckung
Erforschung, wie LLMs Metadaten und natürliche Sprachbeschreibungen nutzen können, um kausale Strukturen abzuleiten, möglicherweise durch Neugestaltung des Problems der kausalen Entdeckung unter Einbeziehung von Variablenmetadaten und vorhandenem Wissen, das durch LLMs kodiert wird.
Kontrafaktisches Denken
Entwicklung von Methoden, die LLMs dabei leiten, kausale Grundprimitive wie Notwendigkeit und Hinlänglichkeit zu verwenden, um höherstufige tatsächliche Kausalurteilsfragen zu beantworten, möglicherweise unter Verwendung der formalen Theorie der tatsächlichen Kausalität als Leitfaden.
Mensch-LLM-Kollaboration
Erforschung der besten Möglichkeiten zur Erleichterung der Zusammenarbeit zwischen Menschen und LLMs für Aufgaben wie die Grapherstellung, bei denen LLMs Graphkanten vorschlagen und Feedback zu manuell erstellten Graphen geben können.
Kausale Effektschätzung
Untersuchung, wie LLMs bei der Identifizierung gültiger Adjustierungssets für die kausale Effektschätzung und der Vorschlag potenzieller Instrumentvariablen für kausale Aufgaben helfen können.
Systematisierung tatsächlicher Kausalität und Attribution
Nutzung von LLMs zur Unterstützung der tatsächlichen Kausalanalyse in Bereichen wie Recht und Nachrichtendienstanalyse, wo Analysten Erklärungen darüber synthetisieren müssen, in welchem Maße Ereignisse zu anderen Ereignissen beitragen.
Erstellung von Benchmarks für kausale Entdeckung
Nutzung von LLMs, um potenziell fehlende oder falsch beschriftete Kanten in Benchmarks zur kausalen Entdeckung zu identifizieren, angesichts ihrer Fähigkeit, große Textmengen zu verarbeiten.
Erforschung der Fähigkeiten von LLMs in verschiedenen kausalen Aufgaben
Weitere Forschung ist erforderlich, um die Fähigkeiten von LLMs in einer Vielzahl von kausalen Aufgaben zu untersuchen, einschließlich kausaler Entdeckung, Effektschlussfolgerung und tatsächlicher Kausalität.
Verschmelzung von kovarianz- und logikbasiertem Denken
Untersuchung, wie LLMs eine Verschmelzung von kovarianzbasierter und logikbasierter Kausalanalyse durch natürliche Sprachschnittstellen ermöglichen können.
Fazit
Zusammenfassend zeigt die Erforschung des kausalen Denkens im Bereich der großen Sprachmodelle (LLMs) ein zweischneidiges Schwert. Einerseits haben LLMs wie GPT-3 und GPT-4 eine bemerkenswerte Kompetenz bei Aufgaben des kausalen Denkens bewiesen. Andererseits sind die Einschränkungen von LLMs im kausalen Denken nicht trivial. Trotz ihrer hohen Genauigkeit bei bestimmten Aufgaben machen sie immer noch grundlegende Fehler und zeigen unvorhersehbare Fehlermodi. Dies ist weitgehend auf ihren Mangel an echtem kausalem Verständnis zurückzuführen, da sie auf der Grundlage statistischer Korrelationen und nicht auf wahren kausalen Mechanismen arbeiten.
Während wir weiterhin die Komplexität der Fähigkeiten von LLMs im kausalen Denken entschlüsseln, ist es entscheidend, ihre Integration in reale Anwendungen mit Vorsicht anzugehen. Obwohl sie vielversprechend sind, um menschliches Fachwissen in kausalen Analysen zu ergänzen, sollten sie nicht die Strenge formaler Rahmenwerke für kausales Denken ersetzen. Stattdessen sollten LLMs als komplementäre Werkzeuge betrachtet werden, die den Zugang zu kausalen Werkzeugen und Wissen demokratisieren und so flüssigere und natürlichsprachlichere Interaktionen für die Durchführung kausaler Analysen ermöglichen. Der Weg nach vorne liegt darin, die Stärken von LLMs zu nutzen, während ihre Einschränkungen anerkannt und angegangen werden, um eine Zukunft zu steuern, in der kausales Denken in der KI sowohl ausgefeilt als auch zuverlässig ist.
Referenzen
Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper №23-05002). arXiv. https://arxiv.org/abs/2305.05002
Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Abgerufen von https://arxiv.org/abs/2308.13067
Novita AI, die Komplettlösung für grenzenlose Kreativität, die Ihnen Zugang zu über 100 APIs bietet. Von Bildgenerierung und Sprachverarbeitung bis hin zu Audioverbesserung und Videobearbeitung – günstig nach Verbrauch, befreit Sie von der GPU-Wartung, während Sie Ihre eigenen Produkte entwickeln. Testen Sie es kostenlos.
