引言
人類如何辨別觀察到的現象背後的原因?當我們看到烏雲密佈時,為何會預測下雨,或者健康好轉時如何推斷藥物有效?
這種能力稱為 因果推理,是人類認知的核心組成部分,幫助我們理解並應對這個世界。但現今的人工智慧,特別是像 GPT-3 和 GPT-4 這樣的大型語言模型(LLMs),能否模仿這項關鍵技能?這些模型對因果關係的理解程度如何,又存在哪些不足?在這篇部落格中,我們將逐一探討關於** 因果推理與大型語言模型**的這些問題。
什麼是因果推理?
我們人類非常擅長理解原因與結果。當我們看到某件事發生時,通常能判斷其成因以及可能導致的結果。這種對原因進行推理的能力稱為因果推理。
這是一項關鍵技能,幫助我們理解世界並做出正確的決策。例如,如果服藥後病情好轉,你可以推斷藥物促進了你的康復;或者看到烏雲時,你能預測降雨的可能性。
因果推理在科學、醫學、政策制定等領域至關重要。正確理解因果關係,能讓我們有效干預問題,並避免將結果錯誤歸因於無關的原因。

因果推理任務的類型
因果推理任務有不同的類型,都需要這種因果關係的理解:
因果發現
僅從觀測數據中找出變數之間的因果關係。例如,分析健康數據以判斷吸煙是否導致癌症。

效應估計
量化原因對結果變數的影響程度。例如計算吸煙增加癌症風險的幅度。

反事實推理
考慮替代情境,例如「如果我沒有吸煙,還會得癌症嗎?」

實際因果關係
針對發生的特定事件,找出導致事件發生的實際原因。例如,工廠污染是否是某社區呼吸道問題的實際原因。

LLM 在因果推理中的表現如何?
研究人員(Kıcıman et al., 2023)已開始使用既定的基準測試,評估 GPT-3 和 GPT-4 等大型語言模型在各種因果推理任務上的表現。結果相當引人入勝:
成對因果發現:簡單
這是指判斷變數 X 和 Y 之間因果關係的任務。是 X 導致 Y、Y 導致 X、兩者僅相關,還是沒有關係?
LLM 在來自物理、生物學、流行病學等多個領域的 100 多個範例中,判斷變數對之間因果關係的準確率高達 97%。這大幅超越了先前最佳傳統因果發現演算法的表現,後者在 Tübingen 基準測試(用於評估因果發現演算法在成對因果方向任務上的資料集)中最高僅達 83%。
完整因果圖發現:簡單
超越成對變數,這涉及發現一組變數的完整因果圖模型——確定哪些變數導致其他變數,並以圖形表示。這可以繪製出多個變數之間的完整因果結構。
在這項更複雜的任務(恢復多個變數的完整因果圖模型)上,LLM 方法與近期的深度學習方法(如 GCAI)不相上下。在 CADTR 和 CBN-Discrete 等基準測試中,GPT-4 預測的圖形達到了相似的結構準確度分數。
反事實推理:簡單
這評估 LLM 能否推理在因果系統的不同假設情境或干預下,結果會如何改變。例如:「如果這個原因沒有發生,那個結果還會出現嗎?」反事實是人類因果認知的關鍵。
在該基準測試中,GPT-4 正確回答了 92% 的問題。這比先前反事實基準測試的最佳結果提升了 20 個百分點。
識別必要/充分原因:簡單
針對發生的特定事件,需要識別哪些原因是事件發生的必要條件,以及哪些原因的子集足以(充分)導致事件發生。這觸及了確定實際因果關係的核心。
給定特定事件的簡短情境描述,GPT-4 能以 86% 的準確率成功識別必須存在的必要原因,以及足以導致事件發生的最小充分原因。
評估常態性:仍然簡單
關於事件實際因果關係的高階推理中,一個關鍵組成部分是評估某個原因或事件是否違反了典型規範和預設。LLM 在 Cause18 基準測試的這一類常態判斷任務中,表現中等,準確率約 70%。
研究人員強調,LLM 在僅提供變數/事件描述作為提示(未直接分析任何數據)的情況下就達成了這些結果。這表明 LLM 可能具備一種有趣的能力,能夠利用其廣泛的知識在許多因果推理任務上表現出色。
LLM 因果推理能力的局限性是什麼?
沒有全能戰士
在 Kıcıman 等人(2023)的實驗中,GPT-3 和 GPT-4 沒有任何一個模型在所有基準測試上全面優於另一個。

GPT-3
優勢:
- 在成對因果發現(Tübingen 基準測試)中達到 97% 的準確率,遠優於先前的方法
- 儘管未直接存取數據,仍能在某些因果推理任務上表現良好
劣勢:
- 未明確評估更複雜的任務,如完整因果圖發現或反事實
- 表現出不可預測的失敗和對提示變化的脆弱性(LLM 的普遍限制)
GPT-4
優勢:
- 在多項任務上表現強勁:
- 反事實推理準確率 92%
- 識別必要/充分原因準確率 86%
- 在完整因果圖發現上與深度學習方法競爭力相當
- 相較於 GPT-3 有顯著的能力提升
劣勢:
- 在某些任務上仍存在差距,例如評估事件常態性(70% 準確率)
- 對提示變化的穩健性不足,影響表現(LLM 普遍限制)
不可預測的失敗
- 上下文誤解: LLM 常常無法正確理解因果上下文,特別是在偏離訓練數據常見模式的情境中。這可能導致因果解釋不僅錯誤,而且誤導,尤其是在涉及多個交互因素的複雜情境中。
- 邏輯錯誤: 即使是 GPT-4 這樣複雜的模型,LLM 也容易犯基本的邏輯錯誤。它們可能在某個實例中表現出深刻理解,而在稍微不同的條件下又失敗。這些失敗通常源於模型在不同情境中一致應用更深層邏輯推理的限制。
缺乏穩健性
- 提示依賴性: LLM 在因果推理中的表現深受問題措辭的影響。措辭的微小變化可能導致截然不同的結果,反映了模型依賴特定語言線索而非真正理解因果機制。
- 回應不一致: LLM 可能對同一個問題在不同時間或略微改變的條件下給出不同的答案。這種不一致性凸顯了模型推理過程缺乏穩定性,使其在需要一致且準確的因果分析的任務中不可靠。
為什麼 LLM 在因果推理中表現良好,卻仍會犯基本錯誤?
簡單的回答是:LLM 只是「因果鸚鵡:大型語言模型可能談論因果,但並不具備因果能力」。
缺乏真正的因果理解
相關 vs. 因果: LLM 從根本上基於其訓練的大量數據中的統計相關性進行運作。它們缺乏內在區分相關性和因果關係的能力,而這是真正因果推理的關鍵面向。這些模型無法存取底層的因果機制,只能使用可能模仿因果關係的模式。
元結構因果模型(meta SCM)
Zečević、Willig、Dhami 和 Kersting(2023)引入了元結構因果模型的概念,用以解釋 LLM 看似執行因果推理的實例。這些模型在其變數中編碼了關於其他結構因果模型的因果事實,表明 LLM 只能在它們重述或反映訓練過程中學到的、結構類似因果事實的相關性時,模仿因果的外觀。
基於相關數據的訓練
Zečević、Willig、Dhami 和 Kersting(2023)文章中使用的術語「因果鸚鵡」說明了 LLM 像鸚鵡一樣,僅僅重複它們在訓練數據中接觸到的資訊(包括因果關係),而沒有真正的理解。這種重複基於數據中的模式和相關性,而非任何對因果關係的實際理解。
LLM 因果推理研究的未來方向是什麼?
理解 LLM 的因果推理能力
需要進一步研究以了解 LLM 執行因果推理任務的機制。這包括調查 LLM 如何在因果情境中捕捉和應用常識與領域知識。
提升穩健性與可靠性
LLM 表現出較高的平均準確率,但也會犯下簡單、不可預測的錯誤。未來研究應專注於提升 LLM 的穩健性,可能透過外部工具或 LLM 本身的額外實例。
與現有因果方法的整合
LLM 有潛力與現有因果方法整合,作為人類領域知識的代理,減少設定因果分析所需的工作量。
基於知識的因果發現
探索 LLM 如何利用元數據和自然語言描述來推斷因果結構,可能透過 LLM 重新設計因果發現問題以納入變數元數據和現有知識。
反事實推理
開發引導 LLM 使用必要性與充分性等因果原素回答高階實際因果判斷問題的方法,可能以形式化的實際因果理論作為指導。
人機協作
研究人類與 LLM 之間協作的最佳方式,例如在圖形創建任務中,LLM 可以建議圖形邊緣並對人工生成的圖形提供回饋。
因果效應推論
調查 LLM 如何協助識別因果效應推論的有效調整集合,並為因果任務建議可能的工具變數。
系統化實際因果關係與歸因
利用 LLM 在法律和情報分析等領域支援實際因果推論,分析人員需要綜合解釋事件對其他事件的貢獻程度。
為因果發現創建基準測試
利用 LLM 幫助識別因果發現基準測試中可能缺失或標記錯誤的邊緣,因為它們有能力處理大量文本。
探索 LLM 在各種因果任務中的能力
需要進一步研究以探索 LLM 在廣泛因果任務中的能力,包括因果發現、效應推論和實際因果關係。
融合共變異數與邏輯推理
調查 LLM 如何透過自然語言介面促進基於共變異數和基於邏輯的因果分析的融合。
結論
總之,對大型語言模型(LLM)因果推理能力的探索揭示了其雙面性。一方面,GPT-3 和 GPT-4 等 LLM 在因果推理任務中展現了卓越的能力。另一方面,LLM 在因果推理上的限制也不容忽視。儘管在某些任務中準確率很高,它們仍會犯基本錯誤並表現出不可預測的失敗模式。這很大程度上歸因於它們缺乏真正的因果理解,因為它們是基於統計相關性而非真正的因果機制運作。
隨著我們持續解開 LLM 因果推理能力的複雜性,必須謹慎將其整合到實際應用中。雖然它們有望增強人類在因果分析方面的專業知識,但不應取代正規因果推理框架的嚴謹性。相反,LLM 應被視為補充工具,能夠普及因果工具與知識的取得,促進更流暢、基於自然語言的因果分析互動。前進的道路在於利用 LLM 的優勢,同時承認並解決其限制,邁向一個 AI 因果推理既精良又可靠的未來。
參考文獻
Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper №23–05002). arXiv. https://arxiv.org/abs/2305.05002
Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Retrieved from https://arxiv.org/abs/2308.13067
Novita AI,一站式無限創意平台,提供 100 多個 API。從圖像生成、語言處理到音訊增強和影片操作,以低廉的按用量計費方式,讓您在建立自己產品的同時無需處理 GPU 維護的麻煩。立即免費試用。
