推测性解码会造成危害吗 LLM 推理准确性?

推测性解码会造成危害吗 LLM 推理准确性?

Mitchell Stern 等人于 2018 年提出了推测解码的原型概念。此后,该方法得到了各种方法的进一步发展和完善,包括前瞻解码、REST、Medusa 和 EAGLE,显著加速了大型语言模型的推理过程(LLM)。

有人可能会问:推测解码 LLM这会损害原始模型的准确性吗?答案很简单,不会。

正统的推测解码算法是无损的,我们将通过数学分析和实验来证明这一点。

数学证明

推测抽样公式可以定义如下:

而:

以下是 DeepMind 论文中对该公式无损性质的证明:

如果你觉得阅读数学公式太枯燥,接下来我会用一些直观的图表来说明证明。v√

实验

虽然我们已经从数学上证明了推测解码在原理上是无损的,但实现上还是有可能出现错误,因此还需要实验验证。我们针对两种情况进行了实验:确定性的贪婪解码方法和多项式采样的随机方法。

贪婪解码

我们问 LLM 两次生成短篇故事,第一次使用原始推理,第二次使用推测解码。我们使用了 Medusa 的推测解码实现。模型权重为 medusa-1.0-vicuna-7b-v1.5,其基础模型为 vicuna-7b-v1.5。测试运行后,我们获得了两次相同的结果。生成的文本如下:

多项抽样

在随机抽样的情况下,情况更为复杂。大多数用于在随机程序中重现结果的方法都使用固定的随机种子来利用伪随机生成器的确定性。然而,这种方法并不适合我们的场景。我们的实验依赖于大数定律:如果样本足够多,实际分布和理论分布之间的误差将收敛到零。

我们对四个提示生成的第一个 token 进行了 1,000,000 次采样迭代,使用的模型权重为 Llama3 8B Instruct 和 EAGLE-LLaMA3-Instruct-8B,统计结果如下:

  • 蓝色:来自基础模型的 logits 的 softmax
  • 绿色:来自草稿模型的 logits 的 softmax
  • 橙色:推测采样的 token 频率(1,000,000 次)

基准模型的采样分布标准差为 9.694e-5。这符合预期。

结语

推测解码不会损害大型语言模型的推理准确性。通过严格的数学分析和实际实验,我们证明了标准推测解码算法的无损性质。数学证明说明了推测采样公式如何保留基础模型的原始分布。我们的实验(包括确定性贪婪解码和概率多项式采样)进一步验证了这些理论发现。贪婪解码实验在有和没有推测解码的情况下产生了相同的结果,而多项式采样实验在大量样本中显示出可忽略不计的标记分布差异。

这些结果共同证实,推测解码可以显著加速 LLM 推理而不牺牲准确性,为未来更高效、更易于访问的人工智能系统铺平道路。

你可以拜访 Novita AI 更多细节!


探索 Novita 的更多内容

订阅即可将最新帖子发送到您的电子邮箱。

发表评论

滚动到顶部

探索 Novita 的更多内容

立即订阅以继续阅读并访问完整档案。

继续阅读