简介
我们人类如何辨别观察到的现象背后的因果关系?当我们看到风暴云聚集时,为什么我们会预测下雨,或者当健康状况改善时,我们如何断定药物有效?
这种能力被称为 因果推理,是人类认知的关键组成部分,帮助我们理解和驾驭世界。但现代人工智能,特别是像 GPT-3 和 GPT-4 这样的大语言模型(LLM),能否模仿这种关键技能?这些模型对因果关系的理解程度如何,又在哪里存在不足?在这篇博客中,我们将逐一探讨有关** 因果推理与大语言模型**的问题。
什么是因果推理?
我们人类非常擅长理解因果关系。当我们看到一件事发生时,我们常常能推断出其原因以及可能产生的结果。这种推理原因的能力被称为因果推理。
这是一项至关重要的技能,帮助我们理解世界并做出正确决策。例如,如果你服药后好转,你可以推断是药物导致了你的康复。或者,如果你看到风暴云,你可以预期很可能会下雨。
因果推理在科学、医学、政策制定等领域至关重要。正确识别原因使我们能够有效干预问题,避免将结果错误地归因于错误的原因。

因果推理任务的类型
不同类型的因果推理任务都需要这种因果关系的理解:
因果发现
仅从观测数据中找出不同变量之间的因果关系。例如,分析健康数据以确定吸烟是否导致癌症。

效应估计
量化原因对结果变量影响的大小。比如计算吸烟增加癌症风险的程度。

反事实推理
考虑类似“如果我没有吸烟,我还会得癌症吗?”这样的替代情景。

实际因果关系
对于发生的特定事件,确定导致其发生的实际原因。例如,工厂的污染是否是某个社区呼吸道问题的实际原因。

大语言模型在因果推理中表现如何?
研究人员(Kıcıman 等,2023)已开始使用既定基准评估 GPT-3 和 GPT-4 等大语言模型在各种因果推理任务上的表现。结果相当引人注目:
成对因果发现:简单
这项任务是指确定一对变量 X 和 Y 之间的因果关系。是 X 导致 Y、Y 导致 X、仅相关,还是毫无关系?
在涉及物理、生物学、流行病学等多个领域的 100 多个示例中,大语言模型在确定变量对之间的因果关系上达到了 97% 的惊人准确率。这大大超过了之前最好的传统因果发现算法,后者在 Tübingen 基准(用于评估成对因果定向的因果发现算法的数据集)上的最高准确率为 83%。
完整因果图发现:简单
超越变量对,这项任务涉及发现一组变量上的完整因果图模型——确定哪些变量导致哪些其他变量,并将其表示为图。这样就可以绘制出多个变量之间完整的因果结构。
在恢复多个变量上完整因果图模型这一更复杂的任务中,大语言模型方法与最近的深度学习方法(如 GCAI)相比具有竞争力。在 CADTR 和 CBN-Discrete 等基准测试中,GPT-4 预测的图获得了相似的结构准确性分数。
反事实推理:简单
这项任务评估大语言模型是否能够推理在不同假设情景或对因果系统进行干预时结果会如何变化。例如,“如果这个原因没有发生,那个结果还会发生吗?”反事实是人类因果认知的核心。
在此基准测试中进行评估时,GPT-4 正确回答了 92% 的问题。相比之前在此反事实基准上的最佳结果,提升了 20 个百分点。
识别必要/充分原因:简单
对于发生的特定事件,需要识别哪些原因是事件发生的必要条件,以及哪个原因子集足以(充分)使事件发生。这触及了确定实际因果关系的核心。
给定特定事件的简短描述,GPT-4 能够以 86% 的准确率成功识别必须存在的必要原因,以及足以使事件发生的最小充分原因。
评估正常性:仍然简单
关于事件实际因果关系的高级推理的一个关键组成部分是评估某些原因或事件是否违反了典型规范和默认情况。大语言模型在 Cause18 基准的此类正常性判断任务上表现中等,准确率约为 70%。
研究人员强调,大语言模型仅通过变量/事件描述作为提示即可取得这些结果——无需直接分析任何数据。这表明大语言模型可能具有一种有趣的能力,可以利用其广泛的知识在许多因果推理任务上表现得非常出色。
大语言模型因果推理能力的局限性是什么?
没有六边形战士
在 Kıcıman 等人(2023)的实验中,GPT-3 和 GPT-4 没有哪一个大语言模型在所有基准测试中都胜过另一个。

GPT-3 优势:
- 在成对因果发现(Tübingen 基准)上达到 97% 的准确率,大大优于以前的方法
- 尽管没有直接访问数据,但在某些因果推理任务上表现出色
劣势:
- 未明确评估更复杂的任务,如完整因果图发现或反事实推理
- 表现出不可预测的失败和对提示变化的脆弱性(大语言模型普遍存在的局限性)
GPT-4 优势:
- 在多个任务上表现强劲:
- 反事实推理准确率 92%
- 识别必要/充分原因准确率 86%
- 在完整因果图发现上与深度学习方法具有竞争力
- 代表相对于 GPT-3 的巨大能力提升
劣势:
- 在评估事件正常性等任务上仍存在性能差距(准确率 70%)
- 缺乏对提示变化的稳健性,影响性能(大语言模型的普遍局限)
不可预测的失败
- 上下文误解: 大语言模型常常无法正确解释因果上下文,尤其是在偏离训练数据中常见模式的场景中。这可能导致不仅错误而且具有误导性的因果解释,尤其是在涉及多个相互作用的因素的复杂场景中。
- 逻辑错误: 即使像 GPT-4 这样复杂的模型,大语言模型也容易犯基本的逻辑错误。它们可能在一种情形下表现出深刻理解,然后在稍有不同的条件下却失败了。这些失败通常源于模型在跨不同上下文一致应用更深层逻辑推理方面的局限性。
缺乏稳健性
- 提示依赖性: 大语言模型在因果推理中的表现深受问题措辞方式的影响。措辞的微小变化可能导致截然不同的结果,反映了模型对特定语言线索的依赖,而非对因果机制的真实理解。
- 响应不一致: 大语言模型在被多次询问或在稍有不同的条件下,可能会对同一问题给出不同的答案。这种不一致性凸显了模型推理过程缺乏稳定性,使其在需要一致且准确因果分析的关键任务中不可靠。
为什么大语言模型在因果推理中表现良好,但仍会犯基本错误?
简单的答案是:大语言模型只是“因果鹦鹉:大语言模型可能谈论因果关系,但并非因果性的”。
缺乏真正的因果理解
相关性 vs 因果关系: 大语言模型基本上在训练数据中的海量统计相关性上运行。它们缺乏内在地区分相关性和因果关系的能力,而这正是真正因果推理的关键方面。模型无法访问底层因果机制,只能访问可能模仿因果关系的模式。
元结构因果模型(meta SCMs)
Zečević、Willig、Dhami 和 Kersting(2023)引入了元结构因果模型的概念,以解释大语言模型在某些情况下似乎能够进行因果推理的现象。这些模型在其变量内编码关于其他结构因果模型的因果事实,这表明大语言模型只有在复述或反映训练中学到的、结构上像因果事实的相关性时,才能模仿因果性的表象。
对相关数据的训练
Zečević、Willig、Dhami 和 Kersting(2023)的文章中使用的术语“因果鹦鹉”说明,大语言模型像鹦鹉一样,只是重复它们在训练数据中接触到的信息(包括因果关系),而没有真正的理解。这种重复基于数据中的模式和相关性,而不是对因果关系的任何真实理解。
大语言模型因果推理研究的未来方向是什么?
理解大语言模型的因果推理能力
需要进一步研究来理解大语言模型执行因果推理任务的机制。这包括研究大语言模型如何在因果场景中捕获和应用常识及领域知识。
提高稳健性和可靠性
大语言模型显示出较高的平均准确率,但也会犯简单、不可预测的错误。未来的研究应侧重于提高大语言模型的稳健性,可能通过外部工具或大语言模型自身的额外实例来实现。
与现有因果方法的集成
大语言模型有潜力与现有的因果方法集成,作为人类领域知识的替代,减少设置因果分析所需的工作量。
基于知识的因果发现
探索大语言模型如何利用元数据和自然语言描述推断因果结构,可能通过包括变量元数据以及通过大语言模型编码的现有知识来重新定义因果发现问题。
反事实推理
开发引导大语言模型使用因果原语(如必要性和充分性)来回答更高级的实际因果判断问题的方法,可能使用正式的实际因果关系理论作为指导。
人机协作
研究促进人类与大语言模型在诸如图形创建等任务上协作的最佳方式,其中大语言模型可以建议图边并提供有关手动生成图的反馈。
因果效应推断
研究大语言模型如何帮助识别有效的调整集以进行因果效应推断,并为因果任务建议潜在的工具变量。
系统化实际因果关系与归因
利用大语言模型支持法律和情报分析等领域的实际因果推断,分析师需要综合解释事件对其它事件的贡献程度。
因果发现基准的创建
利用大语言模型帮助识别因果发现基准中可能缺失或标记错误的边,因为它们能够处理大量文本。
探索大语言模型在各种因果任务中的能力
需要进一步研究以探索大语言模型在广泛因果任务上的能力,包括因果发现、效应推断和实际因果关系。
融合基于协方差和基于逻辑的推理
研究大语言模型如何通过自然语言接口促进基于协方差和基于逻辑的因果分析的融合。
结论
总之,对大语言模型领域因果推理的探索揭示了一把双刃剑。一方面,像 GPT-3 和 GPT-4 这样的大语言模型在因果推理任务中展示了卓越的能力。另一方面,大语言模型在因果推理中的局限性不容忽视。尽管在某些任务上准确率很高,但它们仍然会犯基本错误并表现出不可预测的失败模式。这主要归因于它们缺乏真正的因果理解,因为它们基于统计相关性而非真正的因果机制运行。
随着我们继续揭示大语言模型因果推理能力的复杂性,谨慎地将其集成到实际应用中至关重要。虽然它们有望增强人类在因果分析中的专业知识,但不应取代正式因果推理框架的严谨性。相反,大语言模型应被视为补充工具,可以民主化对因果工具和知识的访问,促进更流畅、基于自然语言的因果分析交互方式。前进的道路在于利用大语言模型的优势,同时承认并解决其局限性,朝着因果推理既复杂又可靠的人工智能未来迈进。
参考文献
Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper №23–05002). arXiv. https://arxiv.org/abs/2305.05002
Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Retrieved from https://arxiv.org/abs/2308.13067
Novita AI,一站式平台,释放无限创意,提供 100 多个 API。从图像生成到语言处理,从音频增强到视频操作,经济实惠的按需付费模式,让您在构建自己产品的同时免去 GPU 维护的麻烦。立即免费试用。
