理解小模型作为大语言模型的宝贵插件

理解小模型作为大语言模型的宝贵插件

引言

在人工智能快速发展的格局中,大语言模型(LLMs)与小模型之间的互动是一种协同与创新的叙事。像 GPT-3 和 GPT-4 这样的 LLM 虽然令人惊叹,但其能力被限制在诸多壁垒之中——模型权重的有限可访问性、巨大的计算需求以及上下文学习(ICL)的约束。

然而,在这些限制之中存在一个突破口,即小模型作为插件介入的机会,为更个性化和高效的应用程序搭建桥梁。本博客深入探讨了在 LLM 的广阔领域中集成小模型作为插件的必要性和影响,探索超级上下文学习(SuperICL)的概念及其实际影响。

理解 LLM 与更小模型

LLM 与更小模型的区别

大语言模型是一种先进的 AI 系统,旨在处理和理解大量自然语言数据。LLM 通常拥有庞大的参数数量,从数亿到数十亿不等。这使得它们能够捕捉语言中复杂的模式和关系,从而实现语言翻译、文本摘要、问答和内容生成等高级功能。LLM 在大规模数据集上进行训练,随着规模扩大,可能展现出复杂行为和“涌现能力”,尽管后者概念存在争议,如斯坦福研究所述。

相比之下,更小模型的参数较少,复杂度更低。它们在功能和有效处理的任务范围上可能更为有限。由于计算需求较低且数据集较小,更小模型通常用于更具体或更简单的任务。虽然它们在特定应用中可能非常高效,但通常不具备 LLM 那样细致的理解能力或处理广泛语言任务的能力。

最佳开源 LLM 有哪些?

  • BERT:由 Google 开发,BERT 是一种开创性的 LLM,以其对自然语言处理的变革性影响而闻名,广泛应用于 Google 搜索,并启发了许多专门化的模型。
  • Falcon 180B:阿联酋技术创新研究所的 LLM,拥有 1800 亿个参数,在文本生成和处理方面表现出色,其较小版本 Falcon-40B 也因语言理解能力而受到认可。
  • GPT-NeoX 和 GPT-J:EleutherAI 的开源 LLM,分别拥有 200 亿和 60 亿个参数,在多个领域提供高性能,促进了 AI 的民主化。
  • LLaMA 3:Meta AI 的多功能 LLM,参数范围从 70 亿到 700 亿,针对自然语言生成进行了优化,并通过开源许可证可定制,为开发者提供 API。公司(例如 Novita AI)通常为 AI 初创公司提供 LLaMA 3 API。
  • BLOOM:一种拥有 1760 亿参数的开源 LLM,由 Hugging Face 合作开发,专为多语言和编程语言文本生成而设计,优先考虑透明度和可访问性。
  • Vicuna 13-B:基于 LLaMA 13B 微调的开源对话模型,擅长处理跨行业聊天机器人应用中的长对话,展示出先进的对话式 AI 能力。

为什么我们需要小模型作为大语言模型的插件?

模型权重的有限可访问性

  • 像 GPT-3 和 GPT-4 这样的 LLM 是多种自然语言处理(NLP)任务的强大工具。然而,由于知识产权和安全问题,这些模型的实际权重参数通常不会公开共享。
  • 如果无法访问模型权重,就无法进行内部微调,即调整模型参数以更好地适应特定任务或数据集。

巨大的模型规模

  • LLM 通常非常大,拥有数十亿个参数,这使得它们资源密集。训练甚至微调此类模型的硬件需求超出了大多数个人和小型组织的能力范围。
  • 巨大的规模也意味着将这些模型转移到不同硬件或在计算能力有限的环境中使用具有挑战性。

上下文学习(ICL)的局限性

  • ICL 是一种技术,在输入旁边提供少量标注示例,帮助模型进行预测。这种方法允许模型从示例提供的上下文中学习。
  • 然而,ICL 受限于 LLM 可以处理的上下文长度。如果上下文过长,可能超出模型容量,模型无法有效利用所有提供的示例。
  • 当有大量监督数据可用时,这一限制尤其成问题,因为 ICL 由于上下文长度限制只能使用其中的一小部分。

为了解决这些问题,一些学者提出了超级上下文学习(SuperICL),它将 LLM 的优势与本地微调的小模型结合起来。小模型(即插件)在特定任务的数据上进行微调,并在 LLM 的通用能力与当前任务的具体要求之间架起桥梁。这种方法允许更有效的知识迁移,提高监督任务的表现,克服了 ICL 的限制以及与 LLM 规模和不可访问性相关的挑战。

人们如何发现小模型是大语言模型的宝贵插件?

在本节中,我们将讨论论文《小模型是大语言模型的宝贵插件》(Small Models are Valuable Plug-ins for Large Language Models),作者是来自加州大学圣迭戈分校和微软的 Canwen Xu、Yichong Xu、Shuohang Wang、Yang Liu、Chenguang Zhu 和 Julian McAuley。与往常一样,如果研究细节不令你感兴趣,可以跳过本节。

方法

基于我们上一节讨论的 LLM 局限性,作者提出 SuperICL,将 LLM 与本地微调的小插件模型相结合。插件模型首先在特定任务的监督数据集上进行微调。然后,它对该数据集中的训练示例进行预测并给出置信度分数。这些预测结果与测试输入一起作为上下文提供给 LLM。LLM 利用此上下文进行最终预测,并可选择生成其对推理的解释。

实验设计

他们在用于自然语言理解任务的 GLUE 基准测试和用于零样本跨语言迁移的 XNLI 上进行评估。使用 GPT-3.5 作为 LLM,RoBERTa-Large/XLM-R 作为插件模型。SuperICL 与基于 GPT-3.5 的 ICL 基线以及仅使用插件模型进行比较。

结果

在 GLUE 基准测试上,SuperICL 在 GPT-3.5 ICL 和插件模型单独使用时均表现更优。在 XNLI 数据集上,SuperICL 在大多数语言上优于 XLM-R,展示了有效的零样本迁移。消融研究显示了 SuperICL 方法中每个组件的重要性。

总结

SuperICL 通过结合 LLM 和在任务数据上微调的小插件模型的优势,实现了卓越的性能。它将语言理解与特定任务的知识吸收分开,解决了常规 ICL 的不稳定性问题。此外,SuperICL 增强了小模型的能力,例如扩展其多语言覆盖率。它还提供可解释性,允许 LLM 在覆盖插件预测时生成解释。

小模型作为大语言模型插件的实际案例

定制化客户服务聊天机器人

可以针对特定领域微调小型领域特定模型,使其理解特定行业的术语和上下文,然后作为插件用于大型聊天机器人框架,从而提供更准确和相关的响应。

医疗诊断辅助

基于医疗记录和文献训练的小模型可以作为 LLM 的插件,帮助医生诊断疾病、建议治疗方案以及更准确地解读医学检测结果。

法律文档分析

在法律文档上微调的小模型可用于增强 LLM,以解析和理解法律合同、提供摘要并突出潜在问题或条款。

语言翻译

对于低资源语言,可以在可用数据上训练小模型,然后作为 LLM 的插件,以改进翻译质量并更好地处理细微差别。

教育工具

面向教育内容定制的小模型可以与 LLM 集成,创建智能辅导系统,为学生提供个性化反馈和解释。

内容审核

针对特定类型内容(例如仇恨言论、露骨内容)训练的小模型可用于增强 LLM 在社交媒体平台上审核用户生成内容的能力。

健康监测

训练用于识别患者数据模式的小模型,当与能够处理和分析更大数据集的 LLM 集成时,可以提供早期警告或潜在健康问题的见解。

这些应用展示了小模型的专业知识与 LLM 的广泛理解相结合,如何在各种职业和个人场景中带来更高效、准确和量身定制的解决方案。

如何运行 SuperICL 的代码

以下代码引自 https://github.com/JetRunner/SuperICL?tab=readme-ov-file。你可以通过该链接找到下面提到的所有 Python 脚本。

安装过程

1 安装必要的包:使用 pip 包管理器安装 requirements.txt 中列出的所有必需包。

pip install -r requirements.txt

2 配置 OpenAI API 密钥

  • 复制示例配置文件以创建你自己的配置文件:cp api_config_example.py api_config.py
  • 使用文本编辑器(如 vi)编辑新创建的 api_config.py 文件,插入你的 OpenAI API 密钥。

运行不同任务的代码

1 GLUE 基准测试

  • 使用指定参数执行 run_glue.py 脚本,以在 GLUE 基准测试上运行模型。
  • 包括 --model_path 指向模型位置,--model_name 指定模型标识符,以及 --dataset 指定 GLUE 任务。
  • 若要启用模型预测的解释,请添加 --explanation 标志。
python run_glue.py \
--model_path roberta-large-mnli \
--model_name RoBERTa-Large \
--dataset mnli-m \
--explanation  # 添加此标志以获取解释
  • 对于所有支持的任务,请参考提供的文档。

2 XNLI 基准测试

  • 运行 run_xnli.py 脚本,用于跨语言自然语言推理任务,并指定参数。
  • 指定 --model_path 为模型目录,--model_name 为模型名称,--lang 列出数据集中包含的语言。
python run_xnli.py \
--model_path /path/to/model \
--model_name XLM-V \
--lang en,ar,bg,de,el,es,fr,hi,ru,sw,th,tr,ur,vi,zh

附加信息

有关脚本的所有可用参数,请参考代码仓库。

引用

如果你在研究中使用了此工作,请按如下方式引用:

@article{xu2023small,
  title={Small Models are Valuable Plug-ins for Large Language Models},
  author={Xu, Canwen and Xu, Yichong and Wang, Shuohang and Liu, Yang and Zhu, Chenguang and McAuley, Julian},
  journal={arXiv preprint arXiv:2305.08848},
  year={2023}
}

小模型作为大语言模型插件的局限性

对插件模型性能的依赖

SuperICL 的整体性能仍然依赖于本地微调插件模型的质量。如果插件模型在任务上表现不佳,可能会限制 SuperICL 的效果。

计算成本

微调插件模型需要足够的计算资源。对于非常大的监督数据集,这种微调对于较小的研究小组或个人来说可能变得过于昂贵。

任务泛化能力

实验集中于 GLUE 基准测试中的自然语言理解任务。尽管结果令人鼓舞,还需要更多评估来检验 SuperICL 在其他 NLP 任务(如生成、摘要、翻译等)上的有效性。

跨任务迁移

目前尚不清楚在 SuperICL 中使用时,一个针对某任务微调的插件模型能否很好地将有效上下文泛化到完全不同的任务上。

多语言限制

虽然 SuperICL 增强了多语言能力,但其跨语言能力仍然受到插件模型(如 XLM-R)原始多语言能力的基本限制。

结论

将小模型作为插件与 LLM 集成,正如 SuperICL 所展示的那样,为大规模 AI 的内在局限性提供了一种引人注目的解决方案。通过增强 LLM 的能力,我们为更细致、高效且广泛适用的 AI 系统铺平了道路。然而,对插件性能的依赖、计算成本和任务泛化能力等挑战依然存在,这促使我们采取平衡的方法来利用这种协同作用。

敬请关注以探索 AI 学术界的最新发现!

Novita AI 是一站式平台,为您提供无限创意,可访问 100 多个 API。从图像生成、语言处理到音频增强和视频编辑,按用量付费,让您在构建自己产品的同时摆脱 GPU 维护的烦恼。免费试用。