算術、記号、常識推論タスクにおけるその有効性を探り、スケーラビリティの利点を明らかにします。様々なベンチマークでの驚くべき性能向上を目撃し、長さの一般化の可能性を理解しましょう。
はじめに
NLP分野は、言語モデルの最近の進歩によって大きな変革を遂げました。これらのモデルの規模を拡大することは、サンプルからの学習における性能や効率の向上など、さまざまな利点をもたらすことが実証されています。しかしながら、モデルのサイズを単に大きくするだけでは、算術、常識推論、記号推論などの要求の厳しいタスクで高い習熟度を達成するには不十分であることがわかっています。
この記事では、2つの重要な概念に基づくシンプルなアプローチを通じて、大規模言語モデルの推論能力をどのように強化できるかを詳しく説明します。まず、解決策に至るまでのステップを説明する自然言語の説明を生成することの重要性に焦点を当てます。これは特に算術推論タスクで有効です。さらに、プロンプティングによるインコンテキストの少数ショット学習における大規模言語モデルの可能性を強調します。新しいタスクごとに個別のモデルを微調整する代わりに、このアプローチではタスクを説明するいくつかの入出力例をモデルに提供します。これにより、さまざまな単純な質問応答タスクで顕著な成功を収めています。

Chain-of-thoughtプロンプティングにより、大規模言語モデルは複雑な算術、常識、記号推論タスクに取り組むことができます。
Chain-of-Thoughtプロンプティングとは
Chain-of-thoughtプロンプティングは、言語モデルの推論を強化するためのアプローチとしていくつかの魅力的な性質を示します。
- 第一に、モデルが複雑な問題を中間ステップに分解できるようになり、複数の推論ステップを必要とする問題に対して追加の計算を割り当てることが可能になります。
- 第二に、chain of thoughtはモデルの動作に関する理解可能な洞察を提供し、モデルが特定の答えにどのように到達したかを示し、推論プロセスのエラーを特定して修正する機会を提供します(ただし、答えを裏付けるモデルの計算を完全に理解することは依然として課題です)。
- 第三に、chain-of-thought推論は、数学文章問題、常識推論、記号操作など、さまざまなタスクに適用可能であり、人間が言語で解決できるあらゆるタスクに拡張できる可能性があります。
- 最後に、chain-of-thought推論は、少数ショットプロンプティングの例にchain-of-thoughtシーケンスの例を含めることで、十分に大規模な事前学習済み言語モデルに簡単に組み込むことができ、モデル性能を向上させるための汎用的なツールとなります。
LLMにおけるchain-of-thoughtのより一般的な情報については、以下をご覧ください: 大規模言語モデルにおけるChain-of-Thoughtプロンプティングの可能性を引き出す
算術推論
算術推論は人間にとっては簡単に思えるかもしれませんが、言語モデルはしばしば困難に直面します。注目すべきことに、5400億パラメータの言語モデルに適用すると、chain-of-thoughtプロンプティングは複数のタスクにおいてタスク固有の微調整モデルと同等の性能を発揮します。挑戦的なGSM8Kベンチマークでは、新たな最先端技術を達成することさえあります。
実験設定
複数の数学文章問題ベンチマークにおいて、さまざまな言語モデルに対するchain-of-thoughtプロンプティングの有効性を詳しく調べます。これらのベンチマークには、GSM8Kベンチマーク、SVAMPデータセット、ASDivデータセット、AQuAデータセット、MAWPSベンチマークが含まれ、それぞれ数学文章問題解決において異なる課題を提供します。参考として、付録表12に問題例を示します。
ベンチマーク
ベースライン比較には、広く使用されている標準的な少数ショットプロンプティング手法を採用します。この方法では、テスト時の入力に対して予測を行う前に、言語モデルに入出力ペアのインコンテキスト例を提示します。これらの例は質問と回答として構成され、モデルは直接答えを出力します。
標準プロンプティング
対照的に、提案するアプローチであるchain-of-thoughtプロンプティングは、少数ショットプロンプティングの各例に、関連する回答にリンクした詳細なchain of thoughtを追加します。ほとんどのデータセットは評価分割のみを提供するため、プロンプティング用のchain of thought付きの8つの少数ショット例を手動で作成します。そのようなchain of thoughtの例の1つを図1に示し、完全なセットは付録表20にあります。これらの例はプロンプトエンジニアリングを受けていないことに注意してください。その頑健性についてはセクション3.4と付録A.2で検討します。
私たちの目的は、この形式のchain-of-thoughtプロンプティングが、多様な数学文章問題シナリオにおいて効果的に成功した推論を刺激できるかどうかを調査することです。

言語モデル
5つの大規模言語モデルの性能を評価します。1つ目はGPT-3で、text-ada-001、text-babbage-001、text-curie-001、text-davinci-002のバリアントを使用します。これらは、それぞれ350M、1.3B、6.7B、175BパラメータのInstructGPTモデルに対応します。2つ目のモデルはLaMDAで、422M、2B、8B、68B、137Bパラメータのバージョンが利用可能です。3つ目のモデルはPaLMで、8B、62B、540Bパラメータのモデルを提供します。4つ目のモデルはUL2 20B、5つ目はCodexです。
これらのモデルからはグリーディデコーディングを使用してサンプリングを行いますが、その後の研究では、複数の生成サンプルから多数決の最終回答を集約することでchain-of-thoughtプロンプティングを洗練できることが示唆されています。LaMDAについては、5つのランダムシード(各シードは異なるランダムにシャッフルされた例の順序を使用)の平均結果を示します。LaMDAの実験では異なるシード間で大きな分散は見られなかったため、計算リソースを最適化するために、他のすべてのモデルでは単一の例の順序に基づく結果を報告します。
結果
Chain-of-thoughtプロンプティングにより、大規模言語モデルは難しい数学問題に取り組むことができます。特に、chain of thoughtによる推論能力はモデルがスケールアップするにつれて現れます。

常識推論
Chain of thought手法は数学文章問題に特に効果的ですが、その言語ベースのアプローチにより、幅広い常識推論タスクにも適用可能です。常識推論は、一般的な背景知識に基づいて物理的および人間の相互作用を理解することを含み、現在の自然言語理解システムにとって依然として困難なスキルです(Talmor et al., 2021)。
ベンチマーク
このアプローチを、さまざまなタイプの常識推論を表す5つのデータセットで評価します。CSQAデータセットは、世界に関する常識的な質問に答えることを含み、多くの場合複雑な意味論の事前知識を必要とします。StrategyQAは、質問に答えるために多段階の戦略を推論することをモデルに要求します。さらに、BIG-benchイニシアチブからの2つの専門的な評価セットを使用します:Date Understanding(文脈から日付を推論することに焦点を当てる)とSports Understanding(スポーツに関連する文の妥当性を判断することを含む)。最後に、SayCanデータセットは、自然言語指示を離散的なセットからのロボット行動のシーケンスにマッピングすることを含みます。すべてのデータセットのchain of thoughtアノテーション付きの例を示します。
プロンプト
実験設定に関しては、前のセクションと同様のアプローチに従います。CSQAとStrategyQAについては、トレーニングセットからランダムに例を選択し、それらに対してchain of thoughtを手動で作成して少数ショット例とします。2つのBIG-benchタスクにはトレーニングセットがないため、評価セットの最初の10例を少数ショット例として使用し、残りの評価セットの結果を報告します。SayCanについては、トレーニングセットから6つの例を使用し、手動でchain of thoughtを作成します。
結果
PaLMの結果を図7に強調表示し(LaMDA、GPT-3、異なるモデルスケールの完全な結果は表4に示す)、モデルサイズの拡大により、標準プロンプティングの性能がすべてのタスクで向上することが明らかになりました。さらに、chain-of-thoughtプロンプティングは追加の性能向上をもたらし、最も顕著な改善はPaLM 540Bで観察されました。Chain-of-thoughtプロンプティングを用いることで、PaLM 540Bは印象的な結果を達成し、StrategyQAで従来の最先端技術を上回り(75.6% vs 69.4%)、Sports Understandingではスポーツ愛好家の支援なしの性能さえも上回りました(95.4% vs 84%)。これらの発見は、chain-of-thoughtプロンプティングが幅広い常識推論タスクで性能を向上させる可能性を強調していますが、CSQAでの改善はわずかでした。

記号推論
最後の実験評価では、記号推論に焦点を当てます。これは人間にとっては簡単ですが、言語モデルにとっては課題となる可能性があります。Chain-of-thoughtプロンプティングが、標準プロンプティング条件下では困難な記号推論タスクに言語モデルが取り組むことを可能にするだけでなく、長さの一般化を助け、モデルが少数ショット例で遭遇したものよりも長い推論時の入力を処理できるようにすることを示します。
タスク
分析には以下の2つの単純なタスクを使用します。
- 最後の文字の連結:このタスクでは、与えられた名前の単語の最後の文字を連結するようにモデルに要求します(例:「Amy Brown」→「yn」)。これは、言語モデルがchain of thoughtなしでもすでに実行できる最初の文字の連結タスクのより難しいバージョンです。名前の国勢調査データから上位1000の姓名をランダムに組み合わせてフルネームを生成します。
- コインフリップ:このタスクでは、人々がコインを裏返すか裏返さないかの後に、コインが表向きのままであるかどうかを判断するようモデルに要求します(例:「コインは表向きです。Phoebeがコインを裏返します。Osvaldoはコインを裏返しません。コインはまだ表向きですか?」→「いいえ」)。
結果
下の図では、PaLMのドメイン内およびドメイン外(OOD)評価の結果を示します。LaMDAの結果は付録表5に詳述されています。注目すべきことに、PaLM 540Bでは、標準プロンプティングがすでにPaLM 540Bでコインフリップタスクを達成しているにもかかわらず(LaMDA 137Bでは達成しない)、chain-of-thoughtプロンプティングによりほぼ100%の成功率を達成します。
これらのドメイン内評価では「おもちゃのタスク」を扱い、少数ショット例のchain of thoughtによって完全な解決構造が提供されます。それにもかかわらず、小さなモデルは依然として苦戦しており、見えない記号に対する抽象的な概念を操作する能力は、100Bモデルパラメータのスケールで初めて現れることを示しています。
OOD評価では、標準プロンプティングは両方のタスクで失敗します。しかし、chain-of-thoughtプロンプティングでは、言語モデルはドメイン内設定と比較して性能は低いものの、上方へのスケーリング曲線を示します。これは、chain-of-thoughtプロンプティングが、適切にスケールされた言語モデルに対して、馴染みのあるchain of thoughtを超えた長さの一般化を促進することを示しています。

結論
Chain-of-thoughtプロンプティングの探求により、言語モデルの推論能力を強化するためのシンプルで広く適用可能な手法としての有効性が明らかになりました。算術、記号、常識推論にわたる実験を通じて、chain-of-thought推論がモデルスケールの特性として現れることを観察しました。これにより、十分に大規模な言語モデルが、そうでなければ平坦なスケーリング曲線を示す推論タスクに効果的に取り組むことが可能になります。
言語モデルが熟練して処理できる推論タスクのレパートリーを拡大することで、言語ベースの推論アプローチの継続的な探求と開発を促進することを目指しています。
novita.aiは、無限の創造性のためのワンストッププラットフォームであり、100以上のAPIにアクセスできます。画像生成、言語処理、オーディオ強化、ビデオ操作まで、安価な従量課金制で、GPUメンテナンスの手間から解放されながら、独自の製品を構築できます。無料でお試しください。
おすすめの記事
