大型語言模型的湧現能力是幻象嗎?

大型語言模型的湧現能力是幻象嗎?

簡介

大型語言模型的湧現能力是幻象嗎?這個問題的簡短答案是:大致上,是的。一些史丹佛大學的學者認為,這完全與指標有關。具體來說,大型語言模型的能力是逐步發展的,而非根據多數指標突然湧現,而這些湧現奇蹟只出現在特定指標中。在這篇部落格中,我們探討大型語言模型湧現能力的原始定義、這些學者如何挑戰這項主張,以及他們的發現對 AI 世界的影響。

什麼是大型語言模型的湧現能力?

湧現能力 指的是在複雜系統中,隨著規模或複雜度的增加而出現的新能力或行為。在大型語言模型的背景下,這些是模型成長時看似未出現在較小模型中、但隨著模型變大而出現的意想不到的技能或效能提升。

特徵 1:突變性

在湧現能力的脈絡中,突變性 指的是模型在特定任務上的效能突然且大幅提升。彷彿模型經歷了一個「靈光一現」的時刻,從完全無法執行任務轉變為完美執行。這通常以圖表上陡峭的曲線呈現,顯示準確率或任務完成率等效能指標從低值躍升到高值,中間幾乎沒有過渡。

想像你有一系列不同大小的語言模型,從小型到極大型。你測試它們將英文翻譯成法文的能力。較小的模型可能表現不佳,提供很多錯誤的翻譯。然而,當你測試越來越大模型時,你可能會在特定大小時突然發現模型的翻譯幾乎完美,錯誤極少甚至沒有錯誤。這種突然的改進就是所謂湧現能力的「突變性」。

特徵 2:不可預測性

不可預測性 指的是難以預先知道模型何時或在哪個大小會展現出湧現能力。你無法指出一個明確的漸進趨勢說:「當我們達到這個大小或複雜度時,模型就能做到某件事。」相反地,這些能力的出現似乎是憑空而來,沒有任何明顯的模式或徵兆。

繼續使用翻譯的例子,你可能預期隨著模型大小增加,翻譯能力會穩定提升。然而,不可預測性意味著你無法可靠地預測在哪個確切的模型大小下翻譯會變得卓越。某個模型可能在擁有 1 億個參數時展現能力飛躍,而另一個模型可能要到 10 億個參數才會展現同樣的飛躍。沒有明確的規則告訴你何時會發生,使得能力的湧現變得不可預測。

挑戰湧現的主張:只是幻象

一篇由史丹佛大學電腦科學系的 Rylan Schaeffer、Brando Miranda 和 Sanmi Koyejo 所撰寫的文章《大型語言模型的湧現能力是幻象嗎?》對大型語言模型展現湧現能力的觀點提出挑戰。一如既往,如果你對研究細節不感興趣,可以直接記住這個結論並跳到下一節:人們所感知的「大型語言模型的湧現能力」,可能實際上是由效能指標選擇所產生的假象,而非模型在規模擴大時能力發生真實且突然的變化。

研究背景與研究問題

文章首先討論複雜系統中的湧現特性,這個概念因觀察到大型語言模型展現出較小模型所沒有的能力而在機器學習領域受到關注。這些湧現能力的特徵在於其突變性與不可預測性。

文章提出的研究問題是:這些湧現能力是擴展 AI 模型時的基本屬性,還是衡量效能時所使用的指標所產生的假象?

實驗設計

作者為湧現能力提出另一種解釋,認為它們可能是指標選擇的結果,而非模型內在行為的表現。他們提出一個數學模型來證明這一點,並透過三種互補的方法來檢驗假說:

  1. 他們在已知表現出這些特殊技能的任務上,使用一個知名的 AI 模型系列(InstructGPT/GPT-3)來測試他們的想法。他們觀察改變測試評分(指標)如何影響我們所看到的結果。
  2. 他們對一系列測試(BIG-Bench)中的湧現能力進行後設分析,以檢查這些特殊技能是否只在使用特定評分方式(指標)時才出現。
  3. 他們透過改變評估指標,在多種視覺任務的多種深度網路中誘導出看似湧現的能力。

發現

  • 測試結果:當研究人員改變衡量 AI 效能的方式(指標)時,他們觀察到有趣的現象。他們發現 AI 模型的能力並非突然跳躍,而是隨著模型變大而平穩且持續地進步。這與他們對 AI 若真的擁有憑空出現「特殊技能」時的預期相反。

  • 不同指標,不同故事:他們發現,某些衡量效能的方式會讓 AI 看起來進步得非常快。但當他們使用更公平評分 AI 的不同指標時,進步則是漸進的。彷彿 AI 並非突然變得更聰明,而只是測試方式讓它看起來如此。

  • 大規模測試(後設分析):當他們檢視一系列不同的測試(BIG-Bench)時,他們發現這些「特殊技能」只有在使用某些指標時才會出現。彷彿這些技能被隱藏起來,只在測試以特定方式設定時才現身。
  • 製造技能:最後,研究人員證明,他們可以僅僅透過改變衡量 AI 效能的方式,就讓這些「特殊技能」出現在其他類型的 AI 任務(例如圖像辨識)中。這就像魔術一樣,但並非真正的魔術手法,而是取決於他們如何看待 AI 的能力。

對 AI 研究與發展的啟示

指標選擇

研究人員在評估 AI 模型時應仔細考慮指標的選擇。論文指出,非線性或非連續的指標可能造成對模型能力的錯誤認知。選擇能準確反映漸進改進的適當指標,對於有效且可靠的評估至關重要。

基準設計

基準的設計應考慮到指標選擇對 AI 模型感知能力的潛在影響。基準應使用多種指標以提供全面評估,並避免過度強調可能導致湧現能力假象的指標結果。

結果解讀

研究人員在解讀暗示湧現能力的結果時應謹慎。論文鼓勵對模型效能有更細緻的理解,考慮到觀察到的「湧現」行為可能是測量過程的假象。

模型透明度與可重現性

論文強調公開模型及其輸出以供獨立驗證的重要性。這種透明度對於科學社群驗證主張並重現結果、確保 AI 研究的完整性至關重要。

AI 安全與對齊

如果湧現能力被認為是不可預測地湧現,可能對 AI 安全與對齊產生影響。然而,如果這些能力是指標選擇的結果,則意味著研究人員對 AI 能力的發展比之前所想的擁有更多控制權,這可用於引導 AI 發展帶來有益結果。

資源分配

理解湧現能力可能是幻象,可以為 AI 開發中的資源分配提供資訊。與其專注於擴展模型來獲得不可預測的能力,或許更值得將資源用於改進演算法、資料集和訓練流程,以更可預測的方式產生期望的結果。

倫理考量

AI 能力的倫理影響與我們對 AI 能做什麼和不能做什麼的理解緊密相關。如果湧現能力比人們想像的來得少或更不突然,這可能影響我們制定 AI 開發和部署的倫理指南與法規的方式。

公眾溝通

準確向公眾傳達 AI 能力對於管理期望和處理對 AI 的擔憂非常重要。論文的發現建議應謹慎行事,避免誇大 AI 能力,並提供 AI 當前及未來潛在能力的清晰且現實的圖像。

研究優先順序

這些發現可能促使研究人員優先理解 AI 效能改進背後的基本機制,而非尋找難以捉摸的湧現能力。這可能涉及更多關注演算法改進、資料品質和訓練技術。

親身體驗大型語言模型的能力

雖然作者否認大型語言模型的能力是湧現的,但他們並不表示大型語言模型的能力不紮實。大型語言模型在真實場景中解決問題的能力是毋庸置疑的。如果你渴望親身體驗大型語言模型的能力,Novita AI 為 AI 新創公司提供 大型語言模型 API,以利用大型語言模型的強大功能。

你可以使用我們的 大型語言模型免費試用 來比較整合到我們 API 中的不同大型語言模型的效能。此外,在免費聊天中也可以調整參數和系統提示,以滿足你對大型語言模型輸出的特定需求。

結論

關於大型語言模型是否展現真正的湧現能力,或者這是否如史丹佛研究人員所暗示的是一種幻象,這場辯論凸顯了效能指標在 AI 評估中的關鍵作用。該研究認為,歸因於大型語言模型的突然且不可預測的改進,可能是某些指標的假象,而非模型內在能力。

這個觀點促使 AI 社群重新思考基準的設計以及結果的解讀,提倡透明度、多樣化的指標,以及對 AI 漸進式進步的更深入理解。啟示很明確:在我們推進 AI 研究的同時,必須批判性地檢視我們的評估工具,以確保一條符合社會期望和安全標準的現實且具倫理的發展路徑。

敬請關注,探索 AI 學術界的最新發現!

Novita AI 是一站式平台,為您提供無限創意,可存取超過 100 個 API。從圖像生成、語言處理到音訊增強和影片操作,採用實惠的隨用隨付制,讓您在建立自己的產品時無需煩惱 GPU 維護。立即免費試用。

推薦閱讀

較大的語言模型如何以及為何在情境學習中表現不同?

你需要了解的有關大型語言模型中自動思維鏈提示的一切

深入學術前沿:大型語言模型差分隱私簡介