大型语言模型评估综述

引言

随着像 GPT-3、PaLM、ChatGPT 等 大型语言模型（LLM）的广泛流行，全面评估其能力变得至关重要。这些先进的 AI 模型能够理解和生成类人文本，使其成为各种应用中的强大工具。

然而，能力越大责任越大——我们必须确保 LLM 可靠、无偏见，并且其潜在风险得到充分理解。在本博客中，我们将讨论学术论文《大型语言模型评估综述》（A Survey on Evaluation of Large Language Models），该论文为你全面介绍如何有效评估 LLM。

什么是大型语言模型？

大型语言模型（LLM）代表了一类先进的深度学习模型，彻底改变了自然语言处理（NLP）领域。这些模型以其巨大的规模和在海量互联网文本数据上的广泛预训练而著称。许多 LLM 的基础架构是 Transformer，它由配备自注意力机制的编码器和解码器模块组成。

Transformer 架构使 LLM 在理解和生成类人文本方面表现出色。与传统模型顺序处理文本不同，Transformer 可以并行处理整个数据序列，利用 GPU 的计算能力显著加快训练时间。这种并行处理能力对于处理训练大型模型所涉及的数据复杂性和规模至关重要。

LLM 以无监督或自监督方式进行训练，即仅根据数据中固有的模式和结构学习预测文本中的下一个词或词序列。这种方法使 LLM 能够跨语言和领域捕捉复杂的语言模式、句法规则和语义关系。

此外，LLM 具备迁移学习能力，可以在少量特定任务数据上进行微调。这种适应性使其成为跨广泛应用的通用工具，包括但不限于语言翻译、情感分析、文本摘要、问答，甚至创意写作或代码生成任务。许多公司（例如 Novita AI）提供 LLM API，供程序员利用 LLM 的强大能力。

需要评估 LLM 的哪些方面？

论文《大型语言模型评估综述》将 LLM 评估分为几个关键领域：

自然语言处理（NLP）

测试核心 NLP 能力，如文本分类、自然语言推理、摘要、翻译、问答等。

推理

评估逻辑推理、常识推理、多步算术推理能力。

鲁棒性

检查模型在对抗性输入、分布外样本、数据损坏等情况下的表现。

伦理与偏见

评估与性别、种族、宗教相关的偏见，并测试对伦理原则的遵守情况。

可信度

衡量模型输出的可靠性、真实性、事实准确性。

以及更多领域，如多语言表现、医疗应用、工程、数学和科学问答。

在哪里评估 LLM？

为了全面评估 LLM，论文《大型语言模型评估综述》的作者指出，我们需要在不同领域精心策划的数据集和基准：

通用基准：

BIG-bench、HELM、PromptBench 在单一基准中测试多种能力

专业 NLP 基准：

GLUE、SuperGLUE 用于通用语言理解
SQuAD、NarrativeQA 用于问答

推理基准：

StrategyQA、PIE 用于常识/多步推理

鲁棒性基准：

GLUE-X、CheckList 用于评估对各种扰动的鲁棒性

伦理与偏见基准：

Winogender、CrowS-Pairs 用于性别偏见
CANDELA 用于评估仇恨言论

多语言基准：

XGLUE、XTREME 用于跨语言泛化
M3Exam 用于多语言能力

针对数学、科学、代码、个性测试等的专业领域基准。

多模态基准：

结合文本与图像、音频、视频等
MMBench、MMLU、LAMM、MME 等

如何评估 LLM？

《大型语言模型评估综述》讨论了 LLM 评估的各种协议：

自动评估：

使用 BLEU、ROUGE、F1、准确率等指标对输出与参考答案进行评分
适用于明确定义的任务，但存在局限性

人工评估：

招募人类主观评价输出
成本更高，但能捕捉开放式方面
用于常识推理、开放式生成

人在回路：

人类互动式地提供反馈以优化模型提示/输出
例如 AdaFilter 过滤有害输出

众包测试：

从人群众包模板以创建新的测试用例
像 DynaBench 这样的平台进行持续压力测试

检查清单：

涵盖能力和故障模式的精心策划测试用例
受软件测试检查清单启发

哪些 LLM 在基准测试中表现突出？

Anthropic：Claude 3.5 Sonnet

Claude 3.5 Sonnet 以相同的 Sonnet 价格，提供超越 Opus 的能力和比 Sonnet 更快的速度。Sonnet 特别擅长编码、增强人类数据科学专业知识、在使用多种工具洞察非结构化数据时导航、视觉处理和代理任务。Claude 3.5 Sonnet API 由 Anthropic 提供。

Meta：Llama 3 70B Instruct

Meta 最新系列模型（Llama 3）以多种尺寸和风格发布。这个 70B 指令调优版本针对高质量对话用例进行了优化。在人类评估中，它展现出与领先闭源模型相媲美的强大性能。Llama 3 70B Instruct API 的主要提供商包括 DeepInfra、Novita AI、OctoAI、Lepton、Together、Fireworks 和 Perplexity。

OpenAI：GPT-4o

GPT-4o（“o”代表“omni”）是 OpenAI 最新的 AI 模型，支持文本和图像输入并输出文本。它保持了 GPT-4 Turbo 的智能水平，同时速度提升两倍，成本降低 50%。GPT-4o 在处理非英语语言和增强视觉能力方面也有改进。GPT-4o 的主要提供商包括 OpenAI 和 Azure。

WizardLM-2 8x22B

WizardLM-2 8x22B 是 Microsoft AI 最先进的 Wizard 模型。它与领先的专有模型相比展现出极具竞争力的性能，并且持续优于所有现有的最先进开源模型。WizardLM-2 8x22B API 的主要提供商包括 Novita AI、DeepInfra、Lepton、OctoAI 和 Together。

Mistral：Mistral 7B Instruct

Mistral 7B Instruct 是一款高性能、行业标准的 7.3B 参数模型，在速度和上下文长度方面进行了优化。Mistral 7B Instruct 的主要提供商包括 Novita AI、Lepton、DeepInfra、OctoAI 和 Together。

LLM 评估的未来挑战是什么？

《大型语言模型评估综述》的作者指出了未来读者需要考虑的一些挑战：

设计 AGI 基准：

需要能够全面测试人工通用智能的基准
应覆盖多任务、多模态、开放式能力

完整行为测试：

对所有可能的输入分布和行为进行压力测试
确保在真实部署中的可靠性和安全性

鲁棒性评估：

对抗性攻击、分布漂移、安全风险
需要超越当前临时方法的有原则框架

动态评估：

随着 LLM 的发展更新评估以应对新的风险/能力
例如，LLM 在编码或数学推理方面变得更好

统一评估：

需要统一框架以一致地评估多样的 LLM
当前方法较为临时且缺乏标准化

可信评估：

评估过程本身必须无偏见、安全、忠实
防止 LLM 作弊或不可靠的人工标注

结论

严格评估大型语言模型对于建立信任并实现安全、伦理部署至关重要。《大型语言模型评估综述》全面概述了 LLM 评估的关键方面、数据集、协议和开放挑战。随着这些强大的 AI 模型不断进步，评估研究必须跟上步伐，以审视其性能并防范对社会的潜在风险。遵循原则性的评估实践对于负责任地利用 LLM 的变革潜力至关重要。

参考文献

Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2018). A survey on evaluation of large language models. Journal of the ACM, 37(4), Article 111. https://arxiv.org/abs/2307.03109

Novita AI 是一个全合一云平台，助力你的 AI 雄心。通过无缝集成的 API、无服务器计算和 GPU 加速，我们提供经济高效的工具，助你快速构建和扩展 AI 驱动的业务。消除基础设施烦恼，免费开始 — Novita AI 让你的 AI 梦想成为现实。

引言