如何让大语言模型在翻译方面表现更佳?

如何让大语言模型在翻译方面表现更佳?

引言

在这篇博客中,我们将深入探讨大语言模型(LLMs)在翻译任务中的迷人能力。受学术论文《自适应机器翻译与大语言模型》的启发,我们将探讨以下问题:

  • 大语言模型如何在不进行额外训练或微调的情况下完成翻译?
  • 可以采用哪些策略来提升它们的翻译性能?
  • 如何运用这些策略让我们的 LLM 精通翻译?
  • 哪些未来方向有望改善 LLM 的翻译能力?

如果你感兴趣,请继续阅读!

大语言模型如何完成翻译任务?

预训练:

LLM 首先进入一个称为预训练的阶段,在此阶段它们会接触到海量的多语言文本数据。这有助于它们学习跨语言的模式、语法、词汇以及单词与短语之间的关系。

理解上下文:

当给定一个句子进行翻译时,LLM 会利用其对上下文的理解来解释单词的含义和整体句子结构。

序列生成:

然后,模型通过预测目标语言中最可能对应的单词序列来生成翻译。

自回归特性:

LLM 通常采用自回归方法,即根据先前生成的单词预测序列中的下一个单词。此过程持续进行,直到模型生成句尾标记或达到预定义长度。

束搜索:

为了提升翻译质量,LLM 可能会使用束搜索等技术,同时展开多个翻译假设,并根据评分函数选择最可能的一个。

处理歧义:

LLM 旨在通过选择在给定上下文中统计上更可能的翻译来处理语言中的歧义,即使多种翻译在语法上都是正确的。

后处理:

生成翻译后,一些模型可能会应用后处理步骤来优化输出,例如纠正语法、调整词序或解决任何异常情况。

大语言模型如何更好地完成翻译任务?

论文《自适应机器翻译与大语言模型》中的实验使用了 GPT-3.5 textdavinci-003 模型,并通过其官方 API 进行。实验设置包括 top-p 为 1、温度调整以及针对不同语言的 token 长度倍数等参数。使用包含 3070 个独特片段的上下文数据集 TICO-19 来模拟特定领域的场景。研究涉及五种不同的语言对:英语到阿拉伯语、英语到中文、英语到法语、英语到卢旺达语和英语到西班牙语。

论文探讨了多种提升 LLM 翻译性能的策略:

使用模糊匹配的自适应机器翻译:

  • 目标: 评估 LLM 通过利用来自相似、先前翻译片段(模糊匹配)的上下文实时调整翻译的能力。
  • 方法: 利用基于嵌入相似性的检索从数据集中提取模糊匹配,并将其与待翻译的新句子一起呈现。
  • 示例: 如果待翻译的新句子是“The quick brown fox jumps over the lazy dog”,系统可能会从数据集中检索相似句子,并用它们来影响翻译风格。

与编码器-解码器机器翻译模型的比较:

  • 目标: 评估 GPT-3.5 相对于已有的编码器-解码器模型的翻译质量。
  • 方法: 使用相同的源文本,将 GPT-3.5 的翻译输出与来自不同 API 和模型的输出进行比较。
  • 示例: 对于给定的英语句子,每个模型(GPT-3.5、DeepL、Google Cloud 等)都会生成目标语言的翻译,然后比较质量指标(spBLEU、chrF++ 等)。

融入编码器-解码器机器翻译:

  • 目标: 探索将编码器-解码器模型(例如 DeepL)的输出与 LLM 的上下文学习相结合是否能提升翻译质量。
  • 方法: 将编码器-解码器模型的翻译附加到用于 GPT-3.5 上下文提示的模糊匹配之后。
  • 示例: 如果为 GPT-3.5 提供了模糊匹配和待翻译的新片段,同时还包括这些片段的编码器-解码器模型翻译,以丰富上下文。

双语术语提取:

  • 目标: 自动提取并利用领域特定术语,以提高翻译的一致性和准确性。
  • 方法: 训练 GPT-3.5 识别并从句子对中提取关键术语,然后使用这些术语约束翻译。
  • 示例: 给定一个包含医学术语的句子对,GPT-3.5 会提取像“influenza”和“vaccination”这样的术语,并确保这些术语在翻译中一致使用。

术语约束的机器翻译:

  • 目标: 将领域特定术语整合到翻译过程中,以提高对特定风格和词汇的遵守程度。
  • 方法: 使用预定义的词汇表或从模糊匹配中提取的术语来约束翻译。
  • 示例: 对于需要翻译的医学语境句子,系统会使用医学词汇表中的术语,如“malignant”或“benign”,以确保翻译使用正确的术语。

大语言模型在翻译方面能提升多少?

使用模糊匹配的自适应机器翻译:

论文证明,使用模糊匹配(与源文本高度相似的先前翻译片段)作为上下文,显著提升了 GPT-3.5 等 LLM 的翻译质量。

例如,在英语到阿拉伯语(EN-AR)对中,使用单个模糊匹配将 spBLEU 分数从 27.6(零样本)提升到 36.38。使用两个模糊匹配后,分数进一步增加到 38.41。在其他语言对中也观察到类似的改进,展示了使用模糊匹配进行上下文学习的有效性。

与编码器-解码器机器翻译模型的比较:

将 GPT-3.5 的 few-shot 翻译质量与多个编码器-解码器机器翻译系统(包括 DeepL、Google Cloud Translation API、OPUS 和 NLLB)进行了比较。

对于高资源语言,GPT-3.5 使用 5 个或 10 个模糊匹配在某些语言对中优于传统系统。例如,在英语到西班牙语(EN-ES)中,GPT-3.5 使用 5-shot 翻译获得了 61.77 的 spBLEU 分数,超过了其他系统。

融入编码器-解码器机器翻译:

通过将编码器-解码器模型对新片段的机器翻译附加到模糊匹配之后,论文观察到翻译质量有显著提升。

例如,在英语到阿拉伯语中,将 OPUS MT 附加到 5 个模糊匹配之后,spBLEU 分数从 41.33 提升到 45.9。

双语术语提取:

要求 GPT-3.5 从上下文数据集中的每个句子对提取 5 个双语术语。人工评估显示,对于 EN-AR、EN-ES 和 EN-FR 语言对,GPT-3 提取的术语绝大多数(超过 95%)是准确的。

术语约束的机器翻译:

论文发现,将词汇表中的术语整合到翻译过程中可以提高翻译质量,尤其是在零样本场景下。例如,在英语到阿拉伯语中,使用词汇表术语的零样本翻译将 spBLEU 分数从 27.6 提升到 35.38。

术语约束机器翻译的人工评估显示,与未整合术语相比,模型成功地将词汇表术语引入目标语言的频率更高。

ChatGPT 模型、BLOOM 和 BLOOMZ 模型:

论文简要比较了 GPT-3.5 与更新的对话模型如 GPT-3.5 Turbo 和 GPT-4。GPT-4 在零样本翻译质量上表现更好,而 GPT-3.5 Turbo 更高效,但在 few-shot 翻译中质量相当。

当比较 GPT-3.5 与开源多语言模型 BLOOM 和 BLOOMZ 时,GPT-3.5 在大多数语言对上普遍优于两者,但在英语到阿拉伯语中,BLOOM 表现出相当的性能。

如何让 LLM 精通翻译?

按照作者提出的方法,以下是为您准备的逐步指南!

第 1 步:获取 LLM API 的访问权限

  • 注册以获取访问大语言模型(LLM)的 API 密钥。Novita AI LLM API 为开发者提供了许多经济高效的 LLM 选项,包括 Llama3–8b、Llama3–70b、Mythomax-13b 等。

第 2 步:准备领域特定的翻译记忆库(TM)

  • 收集您关注领域内的一组已批准的翻译对(称为“模糊匹配”)。
  • 以源语言句子后跟相应目标语言句子的结构组织 TM 数据。

第 3 步:为翻译实现上下文学习

  • 当您需要翻译新的源句子时,为 LLM 构建一个提示,其中包含:1. 您想要翻译的原始语言中的新源句子;2. 来自您的 TM 的相关“模糊匹配”翻译对。
  • 按与源句子相似度递减的顺序排列提示中的源语言和目标语言对。
  • 将此提示传递给 LLM 的 API,让它生成翻译输出。LLM 将调整其翻译以匹配 TM 中使用的风格和术语。

第 4 步:优化上下文学习

  • 尝试在提示中包含不同数量的“模糊匹配”翻译对,目标为 5–10 个相关对。
  • 监控翻译质量,并根据需要调整提示格式、示例数量和其他参数,以获得最佳结果。

第 5 步:与编码器-解码器机器翻译模型结合

  • 如果可用,将强大的编码器-解码器机器翻译(MT)模型的输出与“模糊匹配”翻译对一起纳入提示。
  • 这有助于进一步提高翻译质量,特别是对于 LLM 单独可能还无法匹配编码器-解码器模型性能的语言对。

第 6 步:持续完善和扩展 TM

  • 随着您翻译更多内容,用新的已批准翻译对更新您的 TM。
  • 定期审查和整理 TM,确保其对于您领域特定的需求保持相关性和准确性。

您可以在以下链接找到论文中所述方法的精确代码(例如,提取模糊匹配):https://github.com/ymoslem/Adaptive-MT-LLM

大语言模型翻译的未来方向是什么?

论文《自适应机器翻译与大语言模型》提出了大语言模型(LLMs)翻译的若干未来方向。以下是值得进一步探索和开发的关键领域:

动态 Few-Shot 示例选择:

无需使用固定数量的模糊匹配,可选择过程可以是动态的,仅选择高于特定相似度分数的高质量匹配。这可以通过提供更相关的上下文来提升性能。

根据质量整合词汇表术语或机器翻译输出:

在整合来自词汇表的术语或其他系统的机器翻译输出时,选择具有特定质量特征的术语或输出可能有利。这种选择性整合可以带来更好的翻译质量。

基于短语的术语提取:

论文建议探索使用更长的短语而不是单个术语进行术语提取。这对于低资源语言可能特别有用,更长的上下文可能提高翻译准确性。

针对低资源语言和稀有领域的微调:

虽然论文关注的是开箱即用的性能,但未来工作可能涉及针对低资源语言和特定领域对模型进行微调。这有助于提升这些领域翻译的质量和效率。

开源 LLM 的实验:

作者建议扩展实验,使用 BLOOM 和 BLOOMZ 等开源 LLM 涵盖翻译任务的更多方面。这可以深入了解这些模型与 GPT-3.5 等专有模型相比的性能。

质量估计和自动选择:

开发自动质量估计方法,从多个备选翻译中选择最佳翻译,可能是一个有价值的研究领域。这可能涉及比较使用和不使用模糊匹配和/或术语时的翻译。

改进非拉丁语言的 Tokenization:

解决 GPT-3.5 和阿拉伯语等非拉丁语言的 tokenization 问题,对于提高 LLM 在更多语言对上的性能至关重要。

研究大规模部署和用户反馈整合:

研究如何在实际翻译场景中大规模有效部署 LLM,包括整合用户反馈以持续改进翻译。

探索多模态输入的使用:

未来的研究可以探索在文本旁边使用多模态输入(如图像、音频)为翻译任务提供额外的上下文,特别是对于涉及描述性或技术性内容的任务。

伦理考量和偏见缓解:

与所有 AI 应用一样,研究和解决潜在的伦理问题(包括翻译中的偏见)并开发缓解这些问题的方法将非常重要。

鲁棒性和泛化能力:

确保 LLM 能够很好地在不同领域之间泛化,即使在特定语言对的数据有限的情况下也能保持稳定的性能。

结论

总之,优化大语言模型以完成翻译任务的旅程是多方面的、动态的。回顾《自适应机器翻译与大语言模型》的见解,我们探索了多种策略和实验,强调了翻译质量显著提升的潜力。从利用模糊匹配的上下文学习到整合编码器-解码器模型和领域特定术语提取,本文讨论的进步为提高语言翻译的准确性和效率铺平了道路。

展望未来,论文中强调的未来研究方向,如动态示例选择、多模态输入和伦理考量,为进一步探索提供了有希望的途径。这些努力不仅旨在完善 LLM 在多种语言和领域中的技术能力,还旨在解决更广泛的社会影响,确保公平获取高质量的翻译工具。

参考文献

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

Novita AI 是一个全能的云平台,助力您的 AI 雄心。通过无缝集成的 API、无服务器计算和 GPU 加速,我们提供具有成本效益的工具,助您快速构建和扩展 AI 驱动的业务。消除基础设施的烦恼,免费开始——Novita AI 让您的 AI 梦想成为现实。