思维链提示激发大型语言模型的推理能力

引言
什么是思维链提示
算术推理
常识推理
符号推理

探索它在算术、符号和常识推理任务中的有效性，揭示其可扩展性优势。见证不同基准测试上令人印象深刻的性能提升，理解其在长度泛化方面的潜力。

引言

得益于语言模型的最新进展，NLP 领域经历了重大变革。事实证明，扩大模型规模能带来诸多优势，包括提升性能和提高样本学习效率。然而，仅靠增大模型规模并不足以在算术、常识推理和符号推理等复杂任务上达到高水平。

本文探讨了如何通过一种由两个关键概念驱动的简单方法来增强大型语言模型的推理能力。首先，它强调了生成自然语言解释的重要性，这些解释阐明了得出解决方案的步骤，尤其在算术推理任务中非常有益。此外，它指出了大型语言模型通过提示进行上下文少样本学习的潜力。这种方法不是为每个新任务微调单独的模型，而是向模型提供几个说明任务的输入-输出示例，这在各种简单问答任务中已显示出显著成功。

思维链提示使大型语言模型能够处理复杂的算术、常识和符号推理任务。

什么是思维链提示

思维链提示作为一种增强语言模型推理能力的方法，具有几个吸引人的特性：

首先，它使模型能够将复杂问题分解为中间步骤，从而为需要多个推理步骤的问题分配额外的计算资源。
其次，思维链为模型的行为提供了可理解的洞察，表明模型是如何得出特定答案的，并提供了识别和纠正推理过程中错误的机会（尽管完全理解模型支持答案的计算过程仍然是一个挑战）。
第三，思维链推理适用于各种任务，如数学应用题、常识推理和符号操作，并可能扩展到任何人类可以通过语言解决的任务。
最后，通过将思维链序列的示例包含在少样本提示样本中，可以轻松地将思维链推理纳入足够大的预训练语言模型中，使其成为提升模型性能的多功能工具。

如果您想了解关于 LLM 中思维链的更多通用信息，可以查看我们的博客：在大规模语言模型中释放思维链提示的潜力

算术推理

虽然算术推理对人类来说似乎很简单，但语言模型却常常难以应对。值得注意的是，当应用于 5400 亿参数的语言模型时，思维链提示在多个任务上的表现与针对特定任务微调的模型相当。它甚至在具有挑战性的 GSM8K 基准上达到了新的最先进水平。

实验设置

我们深入研究了思维链提示在不同语言模型上对多个数学应用题基准测试的有效性。这些基准包括 GSM8K、SVAMP 数据集、ASDiv 数据集、AQuA 数据集和 MAWPS 基准，每个数据集在数学应用题求解方面都提出了不同的挑战。我们提供了附录表 12 中的示例问题以供参考。

基准测试

作为基线比较，我们采用了广泛使用的标准少样本提示技术。该方法在预测测试时示例之前，向语言模型提供输入-输出对的上下文示例。这些样本以问题和答案的形式构建，模型直接输出答案。

标准提示

相比之下，我们提出的思维链提示方法为少样本提示中的每个样本增强了与相关答案相关联的详细思维链。由于大多数数据集只提供评估拆分，我们手动创建了一组包含思维链的八个少样本样本用于提示。图 1 展示了一个思维链样本，完整集见附录表 20。需要注意的是，这些样本没有经过提示工程优化；我们将在第 3.4 节和附录 A.2 中探讨其鲁棒性。

我们的目标是研究这种思维链提示形式是否能在各种数学应用题场景中有效激发成功的推理。

语言模型

我们评估了五个大型语言模型的性能。第一个是 GPT-3，我们使用了 text-ada-001、text-babbage-001、text-curie-001 和 text-davinci-002 变体，分别对应 350M、1.3B、6.7B 和 175B 参数的 InstructGPT 模型。第二个是 LaMDA，有 422M、2B、8B、68B 和 137B 参数的版本。第三个是 PaLM，提供了 8B、62B 和 540B 参数的模型。第四个是 UL2 20B，第五个是 Codex。

我们使用贪婪解码对这些模型进行采样，尽管后续研究表明，通过对多个采样生成的多数最终答案进行聚合，可以改进思维链提示。对于 LaMDA，我们展示了五个随机种子的平均结果，每个种子采用不同的随机打乱顺序的样本。由于 LaMDA 的实验在不同种子之间没有表现出显著差异，为了优化计算资源，我们报告了所有其他模型基于单个样本顺序的结果。

结果

思维链提示使大型语言模型能够解决困难的数学问题。值得注意的是，随着模型规模的扩大，思维链的推理能力逐渐显现。

常识推理

虽然思维链方法特别适用于解决数学应用题，但其基于语言的方法使其适用于广泛的常识推理任务。常识推理涉及基于一般背景知识理解物理和人际互动，这仍然是当前自然语言理解系统面临的一项挑战（Talmor 等人，2021）。

基准测试

我们在五个代表不同类型常识推理的数据集上评估了该方法。CSQA 数据集涉及回答关于世界的常识性问题，通常需要先验知识理解复杂语义。StrategyQA 要求模型推断多步策略来回答问题。此外，我们使用了 BIG-bench 倡议中的两个专门评估集：Date Understanding（从上下文推断日期）和 Sports Understanding（判断与体育相关的句子的合理性）。最后，SayCan 数据集涉及将自然语言指令映射到一组离散的机器人动作序列。所有数据集的带有思维链注释的示例都有说明。

提示

在实验设置方面，我们采用了与上一节类似的方法。对于 CSQA 和 StrategyQA，我们从训练集中随机选择示例，并手动为其构建思维链作为少样本样本。由于两个 BIG-bench 任务没有训练集，我们使用评估集中的前十个示例作为少样本样本，并报告评估集剩余部分的结果。对于 SayCan，我们使用训练集中的六个示例并手动创建思维链。

结果

结果如图 7 所示（PaLM 的结果，LaMDA、GPT-3 以及不同模型规模的完整结果见表 4），揭示了在所有任务上，模型规模的扩大提高了标准提示的性能。此外，思维链提示带来了额外的性能提升，其中 PaLM 540B 的改进最为显著。借助思维链提示，PaLM 540B 取得了令人印象深刻的结果，在 StrategyQA 上超越了先前的最先进水平（75.6% vs 69.4%），甚至在体育理解任务上超越了未经协助的体育爱好者（95.4% vs 84%）。这些发现强调了思维链提示在增强一系列常识推理任务性能方面的潜力，尽管在 CSQA 上的提升微乎其微。

符号推理

在最后的实验评估中，我们聚焦于符号推理，这对人类来说很直接，但可能给语言模型带来挑战。我们证明，思维链提示不仅使语言模型能够处理标准提示条件下难以解决的符号推理任务，还有助于长度泛化，使模型能够处理比少样本样本中遇到的更长的推理时输入。

任务

我们采用以下两个简单任务进行分析：

最后一个字母拼接：在此任务中，模型需要拼接给定名称中单词的最后一个字母（例如，“Amy Brown”→ “yn”）。这是第一个字母拼接任务的更难版本，语言模型无需思维链即可完成第一个字母拼接任务。我们通过从人口普查数据中排名前 1000 的名和姓中随机组合姓名来生成全名。
抛硬币：该任务要求模型判断硬币是否在人们翻转或不翻转后仍然正面朝上（例如，“硬币正面朝上。Phoebe 翻转了硬币。Osvaldo 没有翻转硬币。硬币是否仍然正面朝上？”→“否”）。

结果

在下图中，我们展示了 PaLM 的域内和域外（OOD）评估结果，LaMDA 的详细结果见附录表 5。值得注意的是，使用 PaLM 540B，思维链提示实现了近乎 100% 的成功率，尽管标准提示在 PaLM 540B 上已经能完成抛硬币任务（但 LaMDA 137B 不行）。

这些域内评估涉及“玩具任务”，其中少样本样本中的思维链提供了完美的解决方案结构。尽管如此，较小的模型仍然难以应对，这表明在未见符号上操作抽象概念的能力仅在 100B 模型参数规模时才涌现。

在域外评估中，标准提示在两个任务上都失败了。然而，使用思维链提示，语言模型显示出向上扩展的曲线，尽管性能低于域内设置。这表明，对于规模适当的语言模型，思维链提示有助于在熟悉的思维链之外实现长度泛化。

结论

我们对思维链提示的探索揭示了其作为一种简单且广泛适用的技术，在增强语言模型推理能力方面的有效性。在跨越算术、符号和常识推理的实验过程中，我们观察到思维链推理是模型规模的一种涌现属性。这使得足够大的语言模型能够有效地处理那些否则会呈现平坦扩展曲线的推理任务。

通过扩展语言模型能够熟练处理的推理任务范围，我们旨在激励对基于语言的推理方法进行持续探索和发展。

novita.ai 是一个一站式平台，为您提供无限创意，可访问 100 多种 API。从图像生成和语言处理到音频增强和视频处理，按量付费价格低廉，让您在构建自己产品的同时摆脱 GPU 维护的烦恼。免费试用。

推荐阅读

LLM 和 GPT 有什么区别

2024 年 LLM 排行榜预测揭晓

Novita AI LLM 推理引擎：最大吞吐量和最经济的推理

思维链提示激发大型语言模型的推理能力

引言

什么是思维链提示

算术推理

实验设置

基准测试

标准提示

语言模型

结果

常识推理

基准测试

提示

结果

符号推理

任务

结果

结论

Product

RESOURCES

Partners

Company

引言

什么是思维链提示

算术推理

实验设置

基准测试

标准提示

语言模型

结果

常识推理

基准测试

提示

结果

符号推理

任务

结果

结论

相关文章

Product

RESOURCES

Partners

Company