思維鏈提示引發大型語言模型的推理能力

思維鏈提示引發大型語言模型的推理能力

探討其在算術、符號和常識推理任務中的有效性,揭示其可擴展性優勢。見證跨越多種基準測試的驚人性能提升,並理解其在長度泛化上的潛力。

簡介

自然語言處理(NLP)領域因語言模型的最新進展而經歷了顯著轉變。擴大這些模型的規模已被證明能帶來多種優勢,包括提升性能和樣本學習效率。然而,僅靠增加模型規模並不足以在高要求任務(如算術、常識推理和符號推理)中達到高熟練度。

本文探討如何透過一個由兩個關鍵概念驅動的簡單方法來增強大型語言模型的推理能力。首先,它強調生成自然語言解釋(闡明得出解決方案的步驟)的重要性,這在算術推理任務中尤其有益。此外,它突顯了大型語言模型透過提示進行上下文少量樣本學習的潛力。與其為每個新任務微調單獨的模型,這種方法涉及為模型提供幾個說明任務的輸入-輸出範例,這已在各種簡單問答任務中展現出顯著成功。

思維鏈提示使大型語言模型能夠處理複雜的算術、常識和符號推理任務。

什麼是思維鏈提示

思維鏈提示作為一種增強語言模型推理能力的方法,展現了多項吸引人的特質。

  1. 首先,它使模型能夠將複雜問題分解為中間步驟,從而為需要多步推理的問題分配額外的計算資源。
  2. 其次,思維鏈提供了對模型行為的可理解洞察,表明模型可能如何得出特定答案,並提供了識別和修正推理過程中錯誤的機會(儘管完全理解模型支持答案的計算仍然是一項挑戰)。
  3. 第三,思維鏈推理適用於多種任務,如數學文字題、常識推理和符號操作,並可能擴展到任何人類可以透過語言解決的任務。
  4. 最後,思維鏈推理可以透過在少量樣本提示範例中包含思維鏈序列的範例,輕鬆地整合到足夠大的預訓練語言模型中,使其成為增強模型性能的多功能工具。

如果您想了解有關大型語言模型中思維鏈的更多一般資訊,可以查看我們的部落格:解鎖大型語言模型中思維鏈提示的潛力

算術推理

雖然算術推理對人類來說可能很簡單,但語言模型經常在處理時遇到困難。值得注意的是,當應用於一個 5400 億參數的語言模型時,思維鏈提示在多個任務上產生了與任務特定微調模型相當的性能。它甚至在具有挑戰性的 GSM8K 基準測試上達到了新的最先進水平。

實驗設置

我們深入探討了思維鏈提示在多個數學文字題基準測試上對各種語言模型的有效性。這些基準測試包括 GSM8K 基準測試、SVAMP 數據集、ASDiv 數據集、AQuA 數據集和 MAWPS 基準測試,每個都在數學文字題解決上提供了不同的挑戰。我們在附錄表 12 中提供了範例問題以供參考。

基準測試

對於我們的基線比較,我們採用了廣泛使用的標準少量樣本提示技術。這種方法涉及在對測試時範例進行預測之前,向語言模型呈現輸入-輸出對的上下文範例。這些範例被結構化為問題和答案,模型直接輸出答案。

標準提示

相比之下,我們提出的思維鏈提示方法,在少量樣本提示中透過將詳細的思維鏈與相關答案關聯起來,增強了每個範例。由於大多數數據集只提供評估分割,我們手動創建了一組八個帶有思維鏈的少量樣本範例用於提示。圖 1 展示了一個思維鏈範例,完整集合可在附錄表 20 中找到。值得注意的是,這些範例未經任何提示工程;我們在第 3.4 節和附錄 A.2 中探討了它們的穩健性。

我們的目標是調查這種思維鏈提示形式是否能有效刺激在各種數學文字題場景中成功推理。

語言模型

我們評估了五個大型語言模型的性能。第一個是 GPT-3,我們使用了 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-002 變體,分別對應參數為 350M、1.3B、6.7B 和 175B 的 InstructGPT 模型。第二個模型是 LaMDA,有 422M、2B、8B、68B 和 137B 參數的版本。第三個模型是 PaLM,提供 8B、62B 和 540B 參數的模型。第四個模型是 UL2 20B,第五個是 Codex。

我們使用貪婪解碼從這些模型中取樣,儘管後續研究建議可以透過聚合多次生成中多數的最終答案來改進思維鏈提示。對於 LaMDA,我們展示了五個隨機種子的平均結果,每個種子使用不同的隨機打亂範例順序。由於 LaMDA 的實驗在不同種子之間未顯示出顯著差異,為了優化計算資源,我們對所有其他模型報告基於單一範例順序的結果。

結果

思維鏈提示使大型語言模型能夠處理困難的數學問題。值得注意的是,隨著模型規模擴大,透過思維鏈推理的能力開始湧現。

常識推理

雖然思維鏈方法在解決數學文字題方面特別有效,但其基於語言的特性使其適用於各種常識推理任務。常識推理涉及基於一般背景知識理解物理和人類互動,這項技能對當前的自然語言理解系統仍然具有挑戰性(Talmor 等人,2021)。

基準測試

我們在代表不同類型常識推理的五個數據集上評估了這種方法。CSQA 數據集涉及回答關於世界的常識問題,通常需要事先了解複雜語義。StrategyQA 要求模型推導出多步策略來回答問題。此外,我們使用了 BIG-bench 計劃中的兩個專門評估集:Date Understanding(側重於從上下文推斷日期)和 Sports Understanding(涉及確定與體育相關句子的合理性)。最後,SayCan 數據集涉及將自然語言指令映射到離散集合中的機器人動作序列。所有數據集的帶有思維鏈註釋的範例都已說明。

提示

在實驗設置方面,我們遵循與上一節類似的方法。對於 CSQA 和 StrategyQA,我們從訓練集中隨機選擇範例,並為它們手動創建思維鏈作為少量樣本範例。由於兩個 BIG-bench 任務缺乏訓練集,我們使用評估集中的前十個範例作為少量樣本範例,並報告評估集其餘部分的結果。對於 SayCan,我們使用訓練集中的六個範例,並手動創建思維鏈。

結果

結果如圖 7 所示(PaLM),完整結果(包括 LaMDA、GPT-3 和不同模型規模)見表 4。結果顯示,擴大模型規模改善了所有任務上標準提示的性能。此外,思維鏈提示帶來了額外的性能提升,其中 PaLM 540B 的改進最為顯著。透過思維鏈提示,PaLM 540B 取得了令人印象深刻的結果,在 StrategyQA 上超越了先前的最先進性能(75.6% 對 69.4%),甚至在體育理解上優於未輔助的體育愛好者(95.4% 對 84%)。這些發現強調了思維鏈提示在增強一系列常識推理任務性能方面的潛力,儘管在 CSQA 上的增益很小。

符號推理

在我們的最後實驗評估中,我們專注於符號推理,這項任務對人類來說很直接,但可能對語言模型構成挑戰。我們證明,思維鏈提示不僅使語言模型能夠處理在標準提示條件下難以處理的符號推理任務,還有助於長度泛化,允許模型處理比少量樣本範例中更長的推理時輸入。

任務

我們使用以下兩個簡單任務進行分析:

  1. 最後字母串接:在此任務中,模型需要將給定名稱中單詞的最後字母串接起來(例如,「Amy Brown」→「yn」)。這是第一個字母串接任務的更具挑戰性版本,語言模型無需思維鏈即可執行該任務。我們透過從名字普查數據中的前一千個名字和姓氏中隨機組合全名來生成全名。
  2. 擲硬幣:此任務要求模型判斷在有人翻轉或不翻轉硬幣後,硬幣是否仍然正面朝上(例如,「一枚硬幣正面朝上。菲比翻轉了硬幣。奧斯瓦爾多沒有翻轉硬幣。硬幣是否還是正面朝上?」→「否」)。

結果

在下圖中,我們展示了 PaLM 的域內和域外(OOD)評估結果,LaMDA 的結果詳細見附錄表 5。值得注意的是,使用 PaLM 540B 時,思維鏈提示達到了接近 100% 的成功率,儘管標準提示已經可以用 PaLM 540B 完成擲硬幣任務(但 LaMDA 137B 不行)。

這些域內評估涉及「玩具任務」,其中思維鏈在少量樣本範例中提供了完美的解決結構。儘管如此,較小的模型仍然掙扎,表明在看不見符號上操作抽象概念的能力僅在 100B 模型參數規模時湧現。

在域外評估中,標準提示對兩個任務都失敗了。然而,使用思維鏈提示時,語言模型表現出上升的縮放曲線,儘管性能低於域內設置。這表明思維鏈提示促進了足夠規模語言模型超出熟悉思維鏈的長度泛化。

結論

我們對思維鏈提示的探索揭示了它作為一種簡單且廣泛適用的技術,用於增強語言模型推理能力的有效性。在跨越算術、符號和常識推理的實驗中,我們觀察到思維鏈推理作為模型規模的一個屬性湧現。這使得足夠大的語言模型能夠有效處理原本呈現平坦縮放曲線的推理任務。

透過擴展語言模型能夠熟練處理的推理任務範圍,我們旨在激勵對基於語言的推理方法的持續探索和發展。

novita.ai 是一個一站式平台,提供無限創意,讓您存取 100 多個 API。從圖像生成和語言處理到音訊增強和影片操作,以低廉的即用即付模式,讓您在建立自己產品的同時擺脫 GPU 維護的困擾。立即免費試用。

推薦閱讀

大型語言模型與 GPT 的區別是什麼?

2024 年 LLM 排行榜預測揭秘

Novita AI LLM 推理引擎:現有最大吞吐量且最便宜的推理方案