Chain-of-Thought Prompting fördert Reasoning in großen Sprachmodellen

Chain-of-Thought Prompting fördert Reasoning in großen Sprachmodellen

Erkunden Sie seine Wirksamkeit bei arithmetischen, symbolischen und Common-Sense-Reasoning-Aufgaben und entdecken Sie seine Skalierbarkeitsvorteile. Erleben Sie die beeindruckenden Leistungssteigerungen bei verschiedenen Benchmarks und verstehen Sie sein Potenzial für die Längengeneralisation.

Einleitung

Das NLP-Feld hat durch die jüngsten Fortschritte bei Sprachmodellen einen bedeutenden Wandel erfahren. Es hat sich gezeigt, dass die Vergrößerung des Maßstabs dieser Modelle verschiedene Vorteile bietet, darunter eine verbesserte Leistung und Effizienz beim Lernen aus Stichproben. Dennoch hat sich gezeigt, dass eine bloße Vergrößerung der Modelle nicht ausreicht, um eine hohe Kompetenz bei anspruchsvollen Aufgaben wie Arithmetik, Common-Sense-Reasoning und symbolischem Reasoning zu erreichen.

Dieser Artikel untersucht, wie die Reasoning-Fähigkeiten großer Sprachmodelle durch einen einfachen Ansatz verbessert werden können, der von zwei Schlüsselkonzepten angetrieben wird. Erstens betont er die Bedeutung der Erzeugung natürlicher Sprach-erklärungen, die die Schritte zur Lösung erläutern – besonders nützlich bei arithmetischen Reasoning-Aufgaben. Zweitens unterstreicht er das Potenzial großer Sprachmodelle für das In-Context Few-Shot Learning durch Prompting. Anstatt für jede neue Aufgabe ein separates Modell zu feintunen, besteht dieser Ansatz darin, dem Modell einige Eingabe-Ausgabe-Beispiele zu geben, die die Aufgabe veranschaulichen – dieser Ansatz hat bei verschiedenen einfachen Frage-Antwort-Aufgaben bemerkenswerte Erfolge gezeigt.

Chain-of-Thought Prompting ermöglicht es großen Sprachmodellen, komplexe arithmetische, Common-Sense- und symbolische Reasoning-Aufgaben zu bewältigen.

Was ist Chain-of-Thought Prompting

Chain-of-Thought Prompting weist mehrere attraktive Eigenschaften als Ansatz zur Verbesserung des Reasonings in Sprachmodellen auf.

  1. Erstens ermöglicht es Modellen, komplexe Probleme in Zwischenschritte zu zerlegen, was eine zusätzliche Rechenzuweisung für Probleme ermöglicht, die mehrere Reasoning-Schritte erfordern.
  2. Zweitens bietet eine Chain of Thought einen verständlichen Einblick in das Verhalten des Modells, indem sie zeigt, wie es zu einer bestimmten Antwort gelangt sein könnte, und bietet Möglichkeiten, Fehler im Reasoning-Prozess zu identifizieren und zu korrigieren (obwohl das vollständige Verständnis der Berechnungen eines Modells, die eine Antwort stützen, eine Herausforderung bleibt).
  3. Drittens ist Chain-of-Thought-Reasoning auf verschiedene Aufgaben anwendbar, wie mathematische Textaufgaben, Common-Sense-Reasoning und symbolische Manipulation, und könnte sich potenziell auf jede Aufgabe erstrecken, die von Menschen durch Sprache gelöst werden kann.
  4. Schließlich kann Chain-of-Thought-Reasoning leicht in ausreichend große vortrainierte Sprachmodelle integriert werden, indem Beispiele von Chain-of-Thought-Sequenzen in die Few-Shot-Prompting-Exemplare aufgenommen werden, was es zu einem vielseitigen Werkzeug zur Verbesserung der Modellleistung macht.

Wenn Sie allgemeinere Informationen über Chain-of-Thought in LLMs erfahren möchten, lesen Sie unseren Blog: Das Potenzial von Chain-of-Thought Prompting in großen Sprachmodellen freisetzen

Arithmetisches Reasoning

Obwohl arithmetisches Reasoning für Menschen einfach erscheinen mag, haben Sprachmodelle oft Schwierigkeiten damit. Bemerkenswerterweise erzielt Chain-of-Thought Prompting bei Anwendung auf ein Sprachmodell mit 540 Milliarden Parametern eine mit aufgabenspezifischen feingetunten Modellen vergleichbare Leistung über mehrere Aufgaben hinweg. Es erreicht sogar einen neuen Stand der Technik auf dem anspruchsvollen GSM8K-Benchmark.

Versuchsaufbau

Wir untersuchen die Wirksamkeit von Chain-of-Thought Prompting bei verschiedenen Sprachmodellen anhand mehrerer Benchmarks für mathematische Textaufgaben. Zu diesen Benchmarks gehören der GSM8K-Benchmark, das SVAMP-Dataset, das ASDiv-Dataset, das AQuA-Dataset und der MAWPS-Benchmark, die jeweils unterschiedliche Herausforderungen bei der Lösung mathematischer Textaufgaben bieten. Wir geben in Appendix-Tabelle 12 Beispielprobleme als Referenz.

Benchmarks.

Für unseren Basislinienvergleich verwenden wir die weit verbreitete Standard-Few-Shot-Prompting-Technik. Bei dieser Methode werden dem Sprachmodell In-Context-Beispiele von Eingabe-Ausgabe-Paaren präsentiert, bevor Vorhersagen für Testzeit-Beispiele getroffen werden. Diese Exemplare sind als Fragen und Antworten strukturiert, wobei das Modell die Antwort direkt ausgibt.

Standard Prompting

Im Gegensatz dazu verbessert unser vorgeschlagener Ansatz, Chain-of-Thought Prompting, jedes Exemplar im Few-Shot Prompting um eine detaillierte Chain of Thought, die mit der zugehörigen Antwort verknüpft ist. Da die meisten Datensätze nur einen Evaluationssplit bereitstellen, erstellen wir manuell einen Satz von acht Few-Shot-Exemplaren mit Chains of Thought für das Prompting. Ein solches Chain-of-Thought-Exemplar ist in Abbildung 1 dargestellt, der vollständige Satz ist in Appendix-Tabelle 20 verfügbar. Es ist wichtig zu beachten, dass diese Exemplare keinem Prompt Engineering unterzogen wurden; wir untersuchen ihre Robustheit in Abschnitt 3.4 und Appendix A.2.

Unser Ziel ist es zu untersuchen, ob diese Form des Chain-of-Thought Prompting erfolgreiches Reasoning in einer Vielzahl von Szenarien mathematischer Textaufgaben effektiv stimulieren kann.

Sprachmodelle

Wir bewerten die Leistung von fünf großen Sprachmodellen. Das erste ist GPT-3, für das wir die Varianten text-ada-001, text-babbage-001, text-curie-001 und text-davinci-002 verwenden, die den InstructGPT-Modellen mit 350M, 1,3B, 6,7B bzw. 175B Parametern entsprechen. Das zweite Modell ist LaMDA, verfügbar in Versionen mit 422M, 2B, 8B, 68B und 137B Parametern. Das dritte Modell ist PaLM, das Modelle mit 8B, 62B und 540B Parametern bietet. Das vierte Modell ist UL2 20B, und das fünfte ist Codex.

Wir sampeln aus diesen Modellen mit gieriger Dekodierung, obwohl spätere Forschung nahelegt, dass Chain-of-Thought Prompting verfeinert werden kann, indem die Mehrheitsendantwort über mehrere generierte Samples aggregiert wird. Für LaMDA präsentieren wir gemittelte Ergebnisse über fünf Zufallsseed, wobei jeder Seed eine andere zufällig gemischte Reihenfolge der Exemplare verwendet. Da die Experimente mit LaMDA keine signifikante Varianz zwischen verschiedenen Seeds zeigten, berichten wir zur Optimierung der Rechenressourcen Ergebnisse basierend auf einer einzelnen Exemplarreihenfolge für alle anderen Modelle.

Ergebnisse

Chain-of-Thought Prompting befähigt große Sprachmodelle, schwierige mathematische Probleme zu lösen. Bemerkenswerterweise entsteht die Fähigkeit, durch Chains of Thought zu reasoningieren, mit zunehmender Modellskalierung.

Common-Sense-Reasoning

Obwohl die Chain-of-Thought-Methodik besonders effektiv zur Behandlung mathematischer Textaufgaben ist, macht ihr sprachbasierter Ansatz sie auf eine breite Palette von Common-Sense-Reasoning-Aufgaben anwendbar. Common-Sense-Reasoning umfasst das Verständnis physikalischer und menschlicher Interaktionen auf der Grundlage allgemeinen Hintergrundwissens – eine Fähigkeit, die für aktuelle Systeme zum Verständnis natürlicher Sprache immer noch eine Herausforderung darstellt (Talmor et al., 2021).

Benchmarks

Wir evaluieren diesen Ansatz an fünf Datensätzen, die verschiedene Arten von Common-Sense-Reasoning repräsentieren. Der CSQA-Datensatz beinhaltet die Beantwortung von Common-Sense-Fragen über die Welt, die oft Vorkenntnisse komplexer Semantik erfordern. StrategyQA verlangt von Modellen, mehrschrittige Strategien zur Beantwortung von Fragen abzuleiten. Zusätzlich verwenden wir zwei spezialisierte Evaluationssets aus der BIG-bench-Initiative: Date Understanding, das sich auf das Ableiten von Daten aus dem Kontext konzentriert, und Sports Understanding, das die Bestimmung der Plausibilität von Sätzen im Zusammenhang mit Sport beinhaltet. Schließlich beinhaltet der SayCan-Datensatz die Zuordnung natürlicher Sprachinstruktionen zu Sequenzen von Roboteraktionen aus einer diskreten Menge. Beispiele mit Chain-of-Thought-Annotationen für alle Datensätze sind dargestellt.

Prompts.

Bezüglich des Versuchsaufbaus folgen wir einem ähnlichen Ansatz wie im vorherigen Abschnitt. Für CSQA und StrategyQA wählen wir zufällig Beispiele aus dem Trainingsset aus und erstellen manuell Chains of Thought für diese, die als Few-Shot-Exemplare dienen. Da die beiden BIG-bench-Aufgaben keine Trainingssets haben, verwenden wir die ersten zehn Beispiele aus dem Evaluationsset als Few-Shot-Exemplare und berichten Ergebnisse über den Rest des Evaluationssets. Für SayCan verwenden wir sechs Beispiele aus dem Trainingsset und erstellen Chains of Thought manuell.

Ergebnisse

Die Ergebnisse, hervorgehoben in Abbildung 7 für PaLM (vollständige Ergebnisse für LaMDA, GPT-3 und verschiedene Modellskalen sind in Tabelle 4 dargestellt), zeigen, dass die Skalierung der Modellgröße die Leistung des Standard Promptings bei allen Aufgaben verbessert. Darüber hinaus führt Chain-of-Thought Prompting zu zusätzlichen Leistungssteigerungen, wobei die signifikantesten Verbesserungen bei PaLM 540B beobachtet wurden. Mit Chain-of-Thought Prompting erzielt PaLM 540B beeindruckende Ergebnisse und übertrifft die bisherige Spitzenleistung auf StrategyQA (75,6% vs. 69,4%) und übertrifft sogar unassistierte Sportbegeisterte im Sportverständnis (95,4% vs. 84%). Diese Erkenntnisse unterstreichen das Potenzial von Chain-of-Thought Prompting zur Leistungssteigerung bei einer Reihe von Common-Sense-Reasoning-Aufgaben, obwohl die Gewinne bei CSQA minimal waren.

Symbolisches Reasoning

In unserer abschließenden experimentellen Bewertung konzentrieren wir uns auf symbolisches Reasoning, eine Aufgabe, die für Menschen einfach ist, aber für Sprachmodelle Herausforderungen darstellen kann. Wir zeigen, dass Chain-of-Thought Prompting Sprachmodelle nicht nur befähigt, symbolische Reasoning-Aufgaben zu bewältigen, die unter Standard-Prompting-Bedingungen schwierig sind, sondern auch bei der Längengeneralisation hilft, sodass die Modelle zur Inferenzzeit Eingaben verarbeiten können, die länger sind als die in den Few-Shot-Exemplaren.

Aufgaben

Wir verwenden die folgenden zwei einfachen Aufgaben für unsere Analyse:

  1. Letzte-Buchstaben-Verkettung: Bei dieser Aufgabe wird das Modell beauftragt, die letzten Buchstaben von Wörtern in einem gegebenen Namen zu verketten (z. B. „Amy Brown“ → „yn“). Es stellt eine anspruchsvollere Version der Erstbuchstaben-Verkettung dar, die Sprachmodelle bereits ohne Chain of Thought durchführen können. Wir generieren vollständige Namen, indem wir zufällig Namen aus den oberen tausend Vor- und Nachnamen kombinieren, die aus Volkszählungsdaten stammen.
  2. Münzwurf: Diese Aufgabe verlangt vom Modell zu bestimmen, ob eine Münze noch Kopf zeigt, nachdem Personen sie entweder geworfen oder nicht geworfen haben (z. B. „Eine Münze zeigt Kopf. Phoebe wirft die Münze. Osvaldo wirft die Münze nicht. Zeigt die Münze immer noch Kopf?“ → „nein“).

Ergebnisse

In der folgenden Abbildung präsentieren wir die Ergebnisse der In-Domain- und Out-of-Domain (OOD)-Evaluierungen für PaLM, wobei LaMDA-Ergebnisse in Appendix-Tabelle 5 detailliert sind. Bemerkenswerterweise erreicht Chain-of-Thought Prompting mit PaLM 540B fast 100% Erfolgsraten, obwohl Standard Prompting Münzwurfaufgaben mit PaLM 540B bereits bewältigt (jedoch nicht für LaMDA 137B).

Diese In-Domain-Evaluierungen umfassen „Spielzeugaufgaben“, bei denen perfekte Lösungsstrukturen durch die Chains of Thought in den Few-Shot-Exemplaren bereitgestellt werden. Trotzdem haben kleinere Modelle immer noch Schwierigkeiten, was zeigt, dass die Fähigkeit, abstrakte Konzepte auf unbekannten Symbolen zu manipulieren, erst bei einer Skalierung von 100B Modellparametern entsteht.

In den OOD-Evaluierungen versagt Standard Prompting bei beiden Aufgaben. Mit Chain-of-Thought Prompting zeigen Sprachmodelle jedoch ansteigende Skalierungskurven, wenn auch mit geringerer Leistung im Vergleich zur In-Domain-Einstellung. Dies deutet darauf hin, dass Chain-of-Thought Prompting die Längengeneralisation über vertraute Chains of Thought hinaus für ausreichend skalierte Sprachmodelle erleichtert.

Fazit

Unsere Untersuchung von Chain-of-Thought Prompting zeigt seine Wirksamkeit als einfache und breit anwendbare Technik zur Verbesserung der Reasoning-Fähigkeiten in Sprachmodellen. In Experimenten, die arithmetisches, symbolisches und Common-Sense-Reasoning umfassen, beobachten wir, dass Chain-of-Thought-Reasoning als eine Eigenschaft der Modellskalierung entsteht. Dies ermöglicht ausreichend großen Sprachmodellen, Reasoning-Aufgaben effektiv zu bewältigen, die sonst flache Skalierungskurven aufweisen.

Indem wir das Repertoire an Reasoning-Aufgaben erweitern, die Sprachmodelle kompetent bewältigen können, möchten wir die fortgesetzte Erforschung und Entwicklung sprachbasierter Ansätze zum Reasoning anregen.

novita.ai, die Komplettlösung für grenzenlose Kreativität, die Ihnen Zugang zu über 100 APIs bietet. Von Bildgenerierung und Sprachverarbeitung bis hin zu Audioveredelung und Videobearbeitung – günstig nach Verbrauch – befreit es Sie von der GPU-Wartung, während Sie Ihre eigenen Produkte entwickeln. Testen Sie es kostenlos.

Empfohlene Lektüre

Was ist der Unterschied zwischen LLM und GPT

LLM Leaderboard 2024: Vorhersagen enthüllt

Novita AI LLM Inference Engine: der größte Durchsatz und die günstigste Inferenz