大型語言模型如何以及為何在情境學習中表現不同?

大型語言模型如何以及為何在情境學習中表現不同?

簡介

大型語言模型如何以及為何在情境學習中表現不同?在這篇文章中,我們將探討「 情境學習 」(ICL) 的概念,以 平實的英文 討論不同規模模型在情境學習行為上的最新發現,並深入探討如何利用不同 LLM 的 ICL 行為。如果你有興趣,請繼續閱讀!

什麼是「情境學習」?

情境學習 是一項令人振奮的能力,它源於大型語言模型(LLM)的發展。這指的是這些模型僅根據輸入上下文中所提供的少量任務範例,就能夠在新的、未見過的任務上表現出色。這是一項非凡的成就,因為模型能夠根據新情境調整並應用其所學知識,而無需對其底層參數進行任何更新或微調。

情境學習的關鍵在於模型利用輸入提示中提供的上下文資訊來決定其回應,而不是僅依賴其既有的知識或訓練。例如,如果你向語言模型展示幾個解線性方程式的範例,它便能利用這個上下文來解決一個全新且從未見過的線性方程式。模型能夠推斷出潛在模式,並將其應用於新問題,而無需針對該特定類型的方程式進行明確訓練。

「情境學習」有哪些好處?

多功能性與適應性

  • ICL 使大型語言模型能夠廣泛應用於各種任務與領域,而無需大量重新訓練。
  • 這使得模型能夠透過 ICL 學習新技能,持續擴展其能力。

樣本效率

  • ICL 只需相對少量的範例即可學習新任務,與傳統監督式學習相比,減少了資料需求。
  • 當標記資料稀缺或取得成本高昂時,這點尤其有價值。

計算效率

  • ICL 可在單次模型前向傳遞中完成,無需更新參數。
  • 這種計算效率對於即時應用和資源受限的部署環境至關重要。

湧現能力

  • 大型語言模型通常能透過 ICL 在未見過的任務上表現出色,甚至超越專門針對這些任務訓練的模型。
  • 這表明模型能夠有效利用上下文資訊來解決新問題。

對模型行為的洞察

  • 理解 ICL 能為我們提供關於大型語言模型如何表徵及運用知識的寶貴見解。
  • 這有助於開發更穩健、更可靠的 AI 系統。

一項重大發現:大型語言模型在情境學習上表現不同

Jerry Wei、Jason Wei、Yi Tay 等人發表的論文「Larger Language Models Do In-context Learning Differently」探討了情境學習究竟是更依賴於預訓練中的語義先驗,還是更依賴於從範例中學習輸入-標籤對應關係。

如果你對研究細節不感興趣,可以直接接受以下結論並跳到下一節:語言模型越大,它對語義先驗(模型在預訓練期間學到的固有含義及關聯)的依賴就越少,而從輸入上下文中學習的能力就越強。

我想深入了解更多

背景

  • 語言模型可以透過情境學習(ICL)執行各種下游任務,即在提示中提供少量範例。
  • 關於 ICL 究竟是更依賴於預訓練中的語義先驗,還是更依賴於從範例中學習輸入-標籤對應關係,一直存在爭議。

理論設定

作者設計了兩種設定來探討語義先驗與輸入-標籤對應之間的相互影響:

  1. 翻轉標籤 ICL:範例中的標籤被翻轉,迫使模型覆蓋語義先驗。
  2. 語義無關標籤 ICL(SUL-ICL):標籤與任務語義無關,消除了語義先驗。

實驗設計

  • 在 5 個模型系列(GPT-3、 InstructGPT、 Codex、 PaLM、 Flan-PaLM)的不同規模上,對 7 項 NLP 任務進行實驗。
  • 評估在常規 ICL、翻轉標籤 ICL 和 SUL-ICL 設定下的表現。

主要發現

  • 翻轉標籤 ICL:小型模型無法覆蓋語義先驗,但大型模型能學會遵循翻轉的範例標籤。
  • SUL-ICL:小型模型更依賴語義先驗,而大型模型能在沒有語義先驗的情況下學習輸入-標籤對應。

  • 覆蓋語義先驗和學習輸入-標籤對應的能力會隨著模型規模的擴大而湧現。
  • 指令微調強化語義先驗使用的程度,超過了學習輸入-標籤對應的能力。

為什麼大型語言模型在情境學習上表現不同?

另一篇由 Zhenmei Shi、Junyi Wei、Zhuoyan Xu 和 Yingyu Liang 撰寫的論文「Why Do Larger Language Models Do In-context Learning Differently?」探討了大型和小型 LLM 在情境學習表現上差異背後的原因。這裡我們提供兩個版本:平實英文版和專業版。請自由選擇適合你的版本。

我偏好平實英文版

這篇論文解釋了大型和小型語言模型在 ICL 行為上差異的「原因」:

關鍵原因與模型在情境學習過程中如何將注意力分配給不同特徵有關。

較小的模型傾向於更關注對任務重要且資訊豐富的特徵。它們強調這些關鍵特徵,因此對輸入上下文中的雜訊或不相關資訊更具穩健性。

相比之下,大型語言模型有能力關注更廣泛的特徵,包括那些較不重要甚至帶有雜訊的特徵。雖然這讓它們能捕捉更多資訊,但也使它們更容易被輸入上下文中不相關或帶雜訊的方面所干擾。

基本上,大型模型涵蓋了更廣泛的特徵(包括相關和不相關的),而小型模型則優先考慮最顯著的特徵。這種 注意力分配的差異 導致小型模型在情境學習中比大型模型更為穩健。

我想深入了解更多

研究背景

該論文探討了為什麼大型語言模型(LLM)在情境學習(ICL)中表現出與小型模型不同的行為。ICL 是 LLM 的一項重要湧現能力,即它們能僅根據少量任務範例在未見過的任務上表現出色,而無需更新模型參數。最近的研究觀察到,大型 LLM 往往對測試上下文中的雜訊更敏感,表現甚至不如小型模型。

理論設定

為了解釋這一現象,該論文分析了兩種風格化設定:

  1. 使用單層單頭線性 Transformer 進行線性回歸
  2. 使用兩層多頭注意力 Transformer 進行奇偶分類

目標是從理論上闡明注意力機制和模型規模如何影響 ICL 行為。

對於這兩種設定,作者提供了閉式最優解,並描述了小型和大型模型之間注意力機制的差異。

實驗設計

作者在使用不同規模的 Llama 模型系列的五種常見 NLP 任務上進行了情境學習實驗。實驗結果用於佐證理論分析。

主要發現

  • 小型模型強調重要的隱藏特徵,而大型模型則涵蓋更多特徵,包括較不重要或帶有雜訊的特徵。
  • 小型模型在評估期間對標籤雜訊和輸入雜訊更具穩健性,而大型模型更容易被此類雜訊干擾,導致 ICL 表現較差。

  • 理論分析和實驗結果提供了注意力機制和模型規模如何影響 ICL 行為的見解,闡明了 LLM 的內部運作方式。

利用不同 LLM 的 ICL 行為

認識到這些細微差異對於根據資料特性和任務需求選擇合適的模型至關重要。從前兩篇論文中我們了解到,小型模型對雜訊輸入更穩健,因為它們專注於關鍵特徵,較少被不相關資訊干擾。相比之下,大型模型則擅長需要全面理解多樣化特徵的任務,利用其更廣泛的上下文知識。

因此,為了利用不同 LLM 的 ICL 行為,Novita AI 為 AI 初創開發者提供了具有成本效益且可自動擴展的 LLM API,並提供多種 LLM 模型選擇。

只需幾行程式碼,你就可以將強大的 LLM 整合到你的 AI 產品中。在決定使用我們的 API 之前,請隨時在 Novita AI Playground 上嘗試不同 LLM 的功能。

結論

情境學習是大型語言模型(LLM)根據輸入(即上下文)在未見過任務上表現出色的能力。

大型語言模型如何在情境學習中表現不同? 語言模型越大,它對語義先驗的依賴就越少,而從輸入上下文中學習的能力就越強。

為什麼大型語言模型在情境學習中表現不同? 這些差異背後的關鍵原因與模型在情境學習過程中如何將注意力分配給不同特徵有關。

為了 利用不同語言模型所展現出的不同情境學習行為,採用一個提供多樣化 LLM 模型選擇的 API 可能是有利的。

Novita AI 是一個一站式平台,為你提供無限創意,可存取 100 多種 API。從圖像生成、語言處理到音訊增強和影片編輯,按使用量付費且價格低廉,讓你在建立自己的產品時無需擔心 GPU 維護的麻煩。立即免費試用。