大语言模型的涌现能力是幻觉还是现实？

简介

大语言模型的涌现能力是幻觉吗？对这个问题的简短回答是：基本上是的。一些斯坦福学者认为，这完全取决于评估指标。具体来说，LLM 的能力是逐步发展的，而不是大多数指标所显示的突然涌现，而这些所谓的涌现奇迹只出现在某些特定的指标上。在这篇博客中，我们将探讨大语言模型涌现能力的原始定义、这些学者如何挑战这一主张，以及他们的发现在人工智能领域的影响。

什么是大语言模型的涌现能力？

涌现能力 指的是随着复杂系统在规模或复杂度上的增长，系统中出现的新能力或行为。在 LLM 的语境下，这些是意料之外的技能或性能提升，据称在较小的模型中并不存在，但随着模型规模的增大而出现。

特征 1：突增性

突增性 在涌现能力的语境中，指的是在特定任务上性能的突然且剧烈的提升。就好像模型经历了一个“灵感闪现”的时刻，从完全无法执行某个任务转变为完美完成。这通常被可视化为图表上的陡峭曲线，显示准确率或任务完成率等性能指标从低值跃升到高值，中间几乎没有过渡。

假设你有一系列不同规模的语言模型，从很小到非常大。你测试它们将英文文本翻译成法文的能力。较小的模型可能表现挣扎，提供许多错误的糟糕翻译。然而，当你测试越来越大模型时，你可能会突然发现，在某个特定规模下，模型的翻译几乎完美，错误极少甚至没有。这种突然的改进就是涌现能力的“突增性”。

特征 2：不可预测性

不可预测性 指的是难以预见模型何时或在何种规模下会展现出涌现能力。没有清晰、渐进的趋势让你可以指出：“当我们达到这个规模或复杂度时，模型将能够做 X”。相反，这些能力的出现似乎毫无预兆，没有任何明显的模式或警告。

延续翻译的例子，你可能期望随着模型规模增大，其翻译能力会稳步提升。然而，不可预测性意味着你无法可靠地预测翻译能力在哪个具体模型规模下会变得出色。一个模型可能在拥有 1 亿参数时显示出能力飞跃，而另一个模型可能要到 10 亿参数时才出现同样的飞跃。没有明确的规则告诉你这何时会发生，使得能力的涌现不可预测。

挑战涌现主张：只是幻觉

斯坦福大学计算机科学系的 Rylan Schaeffer、Brando Miranda 和 Sanmi Koyejo 撰写的题为《大语言模型的涌现能力是幻觉吗？》的文章，挑战了 LLM 展现出涌现能力的观点。一如既往，如果你对研究细节不感兴趣，只需记住以下要点并进入下一节：大语言模型中所谓的“涌现能力”实际上可能只是由性能指标选择造成的错觉，而不是模型随着规模扩大而出现的真实、突然的能力变化。

研究背景与研究问题

文章首先讨论了复杂系统中的涌现特性，这一概念因观察到大型语言模型 (LLM) 展现出较小模型不具备的能力而在机器学习领域受到关注。这些涌现能力的特点是突增性和不可预测性。

文章提出的研究问题是：这些涌现能力是 AI 模型规模化的基本属性，还是仅仅是用于衡量性能的指标所带来的人为产物？

实验设计

作者提出了对涌现能力的另一种解释，认为它们可能是指标选择的结果，而非模型内在的行为。他们通过一个数学模型来论证这一点，并通过三种互补的方法来检验其假设：

他们使用一个知名的 AI 模型系列 (InstructGPT/GPT-3) 在据称展现出这些特殊技能的任务上进行了测试。他们观察了改变测试评分（指标）如何改变我们所看到的结果。
他们在一系列测试 (BIG-Bench) 上对涌现能力进行了元分析，以检验这些特殊技能是否只在使用某些评分方式（指标）时才出现。
他们通过改变评估指标，在多种不同深度网络的视觉任务中诱导出了看似涌现的能力。

研究发现

测试结果：当研究人员改变衡量 AI 性能的方式（指标）时，他们看到了有趣的现象。AI 的能力并非出现突然的飞跃，而是随着模型规模的增大展现出平滑且稳定的提升。这与如果 AI 真正拥有凭空出现的“特殊技能”时的预期完全相反。

不同的指标，不同的故事：他们发现，某些衡量性能的方式会让 AI 看起来提升得非常快。但当使用不同、更公平的评分指标时，改进则更加平缓。就好像 AI 并不是突然变得更聪明，而是被用一种让它看起来如此的方式测试。

大测试（元分析）：当他们考察一系列不同的测试 (BIG-Bench) 时，他们发现这些“特殊技能”只有在使用某些指标时才会出现。就好像这些技能被隐藏了起来，只有当测试以某种方式设置时才显现出来。
制造技能：最后，研究人员证明，只需改变衡量 AI 性能的方式，他们就能在其他类型的 AI 任务（如图像识别）中制造出这些“特殊技能”。这就像魔术，但并非真正的戏法，而是取决于我们如何看待 AI 的能力。

对 AI 研究与开发的影响

指标选择

研究人员在评估 AI 模型时应仔细考虑指标的选择。论文指出，非线性或不连续的指标可能会造成对模型能力的误导性感知。选择能够准确反映渐进改进的合适指标对于有效且可靠的评估至关重要。

基准设计

基准的设计应考虑指标选择对 AI 模型感知能力的潜在影响。基准应使用多种指标来提供全面评估，并避免过度强调那些可能诱导出看似涌现能力的结果。

结果解读

研究人员在解读表明涌现能力的结果时应保持谨慎。论文鼓励对模型性能进行更细致的理解，考虑到观察到的“涌现”行为可能只是测量过程的人为产物。

模型透明度与可复现性

论文强调了公开模型及其输出以供独立验证的重要性。这种透明度对于科学界验证主张和复现结果、确保 AI 研究的完整性至关重要。

AI 安全与对齐

如果涌现能力被认为是不可预测地出现，这可能会对 AI 安全与对齐产生影响。然而，如果这些能力是指标选择的结果，则表明研究人员对 AI 能力发展的控制比之前想象的更强，这可用于引导 AI 发展走向有益的成果。

资源分配

理解涌现能力可能只是幻觉，可以为 AI 开发中的资源分配提供信息。与其专注于扩展模型以获取不可预测的能力，不如将资源更好地用于改进算法、数据集和训练流程，以更可预测的方式产生期望的结果。

伦理考量

AI 能力的伦理影响与我们对 AI 能做什么和不能做什么的理解密切相关。如果涌现能力不像人们认为的那么常见或突然，这可能会影响我们制定 AI 开发和部署的伦理指南和法规的方式。

公众沟通

准确地向公众传达 AI 能力对于管理期望和解决对 AI 的担忧非常重要。论文的发现表明，应谨慎行事，避免夸大 AI 能力，并提供关于 AI 当前和未来潜在能力的清晰、现实的图景。

研究优先级

这些发现可能引导研究人员优先理解 AI 性能提升的基本机制，而不是寻找难以捕捉的涌现能力。这可能需要更多地关注算法改进、数据质量和训练技术。

亲身体验 LLM 的能力

尽管作者否认 LLM 的能力是涌现的，但这并不意味着 LLM 的能力不扎实。LLM 在现实场景中解决问题的能力是毋庸置疑的。如果你渴望亲身体验 LLM 的能力，Novita AI 为 AI 初创公司提供 LLM API 以利用 LLM 的强大功能。

您可以使用我们的 LLM 免费试用 来比较我们 API 中集成的不同 LLM 的性能。此外，免费聊天中还允许调整参数和系统提示，以满足您对 LLM 输出的特定需求。

结论

关于大语言模型 (LLM) 是否展现出真正的涌现能力，或者这只是一个幻觉（正如斯坦福大学的研究人员所提出的），这一辩论凸显了性能指标在 AI 评估中的关键作用。研究认为，归因于 LLM 的突增且不可预测的改进可能只是某些指标的产物，而非模型的内在能力。

这一观点促使 AI 社区重新思考基准的设计和结果的解读，倡导透明度、多样化的指标，以及对 AI 渐进式进步更深入的理解。其影响是明确的：在推进 AI 研究的同时，我们必须批判性地审视评估工具，以确保一条符合社会期望和安全标准的现实且合乎伦理的发展道路。

请继续关注，探索 AI 学术界的最新发现！

Novita AI，无限创意的一站式平台，提供 100 多个 API。从图像生成和语言处理，到音频增强和视频处理，按使用量付费，价格低廉，让您在构建自己的产品时摆脱 GPU 维护的烦恼。立即免费试用。

推荐阅读

大语言模型如何进行上下文学习？规模越大有何不同？

大语言模型自动思维链提示全攻略

深入学术前沿：大语言模型差分隐私介绍

大语言模型的涌现能力是幻觉还是现实？

简介

什么是大语言模型的涌现能力？

特征 1：突增性

特征 2：不可预测性

挑战涌现主张：只是幻觉

研究背景与研究问题

实验设计

研究发现

对 AI 研究与开发的影响

指标选择

基准设计

结果解读

模型透明度与可复现性

AI 安全与对齐

资源分配

伦理考量

公众沟通

研究优先级

亲身体验 LLM 的能力

结论

Product

RESOURCES

Partners

Company

简介

什么是大语言模型的涌现能力？

特征 1：突增性

特征 2：不可预测性

挑战涌现主张：只是幻觉

研究背景与研究问题

实验设计

研究发现

对 AI 研究与开发的影响

指标选择

基准设计

结果解读

模型透明度与可复现性

AI 安全与对齐

资源分配

伦理考量

公众沟通

研究优先级

亲身体验 LLM 的能力

结论

相关文章

Product

RESOURCES

Partners

Company