如何讓 LLM 更擅長翻譯?

如何讓 LLM 更擅長翻譯?

引言

在這篇部落格中,我們將深入探討大型語言模型(LLM)在執行翻譯任務時的能力與奧秘。本文受學術論文《Adaptive Machine Translation with Large Language Models》啟發,將探討以下問題:

  • LLM 如何在不進行額外訓練或微調的情況下完成翻譯?
  • 可以使用哪些策略來提升它們的翻譯表現?
  • 我們如何採用這些策略,讓自己的 LLM 精通翻譯?
  • 未來有哪些方向有望改善 LLM 的翻譯能力?

如果您有興趣,請繼續閱讀!

大型語言模型如何執行翻譯任務?

預訓練(Pre-Training):

LLM 首先經歷一個稱為預訓練的階段,在此階段它們會接觸到大量多語言的文本資料。這有助於它們學習跨語言的模式、文法、詞彙以及單詞與片語之間的關係。

理解上下文(Understanding Context):

當給予一個待翻譯句子時,LLM 會利用其對上下文的理解來解讀單詞的意義以及整體句子結構。

序列生成(Sequence Generation):

接著,模型會透過預測在目標語言中對應於輸入句子的最可能單詞序列,來生成翻譯。

自回歸性質(Autoregressive Nature):

LLM 常採用自回歸方法,根據先前生成的單詞來預測序列中的下一個單詞。這個過程會持續直到模型生成句尾標記或達到預設長度。

為了提升翻譯品質,LLM 可能會使用光束搜尋等技術,同時擴展多個翻譯假設,並根據評分函數選出最可能的一個。

處理歧義(Handling Ambiguity):

LLM 被設計來處理語言中的歧義,即使在多個翻譯在文法上都正確的情況下,也能根據上下文選擇統計上更可能的翻譯。

後處理(Post-Processing):

在生成翻譯後,部分模型可能會套用後處理步驟來優化輸出,例如修正文法、調整詞序或解決任何異常。

如何讓大型語言模型在翻譯任務上表現得更好?

論文《Adaptive Machine Translation with Large Language Models》中的實驗是使用 GPT-3.5 textdavinci-003 模型透過官方 API 進行的。設定包含各種參數,如 top-p 1、溫度調整以及針對不同語言的 token 長度倍數。上下文資料集 TICO-19 包含 3070 個獨特片段,用於模擬特定領域的場景。研究涉及五種不同的語言對:英語到阿拉伯語、英語到中文、英語到法語、英語到盧安達語以及英語到西班牙語。

該論文探討了幾種改善 LLM 在翻譯任務中表現的策略:

使用模糊匹配的自適應機器翻譯(Adaptive MT with Fuzzy Matches):

  • 目標: 評估 LLM 透過利用來自相似先前翻譯片段(模糊匹配)的上下文,即時調整翻譯的能力。
  • 方法: 使用基於嵌入相似度的檢索,從資料集中提取模糊匹配,並將其與待翻譯的新句子一同呈現。
  • 範例: 如果要翻譯的新句子是「The quick brown fox jumps over the lazy dog.」,系統可能會從資料集中檢索出相似的句子,並利用它們來影響翻譯風格。

與編碼器-解碼器 MT 模型的比較(Comparison with Encoder-Decoder MT Models):

  • 目標: 評估 GPT-3.5 與既有編碼器-解碼器模型的翻譯品質。
  • 方法: 將 GPT-3.5 的翻譯輸出與使用相同來源文本的各種 API 和模型進行比較。
  • 範例: 對於一個英文句子,每個模型(GPT-3.5、DeepL、Google Cloud 等)都會生成目標語言的翻譯,並比較品質指標(spBLEU、chrF++ 等)。

結合編碼器-解碼器 MT(Incorporating Encoder-Decoder MT):

  • 目標: 探討將編碼器-解碼器模型(例如 DeepL)的輸出與 LLM 的上下文學習相結合,是否能提升翻譯品質。
  • 方法: 將來自編碼器-解碼器模型的翻譯附加到提供給 GPT-3.5 的上下文提示中的模糊匹配之後。
  • 範例: 如果將模糊匹配和待翻譯的新片段提供給 GPT-3.5,同時也將這些片段的編碼器-解碼器模型翻譯納入,以豐富上下文。

雙語術語提取(Bilingual Terminology Extraction):

  • 目標: 自動提取並利用領域特定術語,以提升翻譯的一致性與準確性。
  • 方法: 訓練 GPT-3.5 從句子對中識別並提取關鍵術語,然後使用這些術語來約束翻譯。
  • 範例: 給定一個包含醫學術語的句子對,GPT-3.5 會提取「influenza」和「vaccination」等術語,並確保這些術語在翻譯中一致使用。

術語約束的機器翻譯(Terminology-Constrained MT):

  • 目標: 將領域特定術語整合到翻譯過程中,以提高對特定風格和詞彙的遵循度。
  • 方法: 使用預定義的詞彙表或從模糊匹配中提取的術語來約束翻譯。
  • 範例: 對於需要在醫學背景下翻譯的句子,系統會使用醫學詞彙表中的術語,例如「malignant」或「benign」,以確保翻譯使用正確的術語。

大型語言模型在翻譯上能進步多少?

使用模糊匹配的自適應機器翻譯(Adaptive MT with Fuzzy Matches):

該論文證明,將模糊匹配(與來源文本高度相似的先前翻譯片段)作為上下文,能顯著提升如 GPT-3.5 等 LLM 的翻譯品質。

例如,在英語到阿拉伯語(EN-AR)對中,使用單一模糊匹配將 spBLEU 分數從 27.6(零樣本)提升到 36.38。使用兩個模糊匹配後,分數進一步提高到 38.41。在其他語言對中也觀察到類似的改善,顯示了上下文學習搭配模糊匹配的有效性。

與編碼器-解碼器 MT 模型的比較(Comparison with Encoder-Decoder MT Models):

將 GPT-3.5 的少量樣本翻譯品質與多個編碼器-解碼器 MT 系統(包括 DeepL、Google Cloud Translation API、OPUS 和 NLLB)進行比較。

對於高資源語言,GPT-3.5 搭配 5 或 10 個模糊匹配在特定語言對中表現優於傳統系統。例如,在英語到西班牙語(EN-ES)中,GPT-3.5 的 5 樣本翻譯達到了 61.77 的 spBLEU 分數,超過了其他系統的分數。

結合編碼器-解碼器 MT(Incorporating Encoder-Decoder MT):

透過將新片段的機器翻譯從編碼器-解碼器模型附加到模糊匹配中,論文觀察到翻譯品質有實質性的提升。

例如,在英語到阿拉伯語中,將 OPUS MT 附加到 5 個模糊匹配後,spBLEU 分數從 41.33 提升到 45.9。

雙語術語提取(Bilingual Terminology Extraction):

GPT-3.5 被要求從上下文資料集中的每個句子對提取 5 個雙語術語。人工評估顯示,GPT-3 為 EN-AR、EN-ES 和 EN-FR 語言對提取的術語中,絕大多數(超過 95%)是準確的。

術語約束的機器翻譯(Terminology-Constrained MT):

論文發現,將詞彙表中的術語整合到翻譯過程中可以提升翻譯品質,尤其是在零樣本情境中。例如,在英語到阿拉伯語中,使用詞彙表術語的零樣本翻譯將 spBLEU 分數從 27.6 提升到 35.38。

術語約束 MT 的人工評估顯示,與未整合術語相比,模型更頻繁地將詞彙表術語成功融入目標語言。

ChatGPT 模型、BLOOM 與 BLOOMZ 模型:

論文簡要地將 GPT-3.5 與更新的對話模型如 GPT-3.5 Turbo 和 GPT-4 進行比較。GPT-4 在零樣本翻譯品質上表現更好,而 GPT-3.5 Turbo 效率更高,但在少量樣本翻譯上品質相當。

將 GPT-3.5 與開源多語言模型 BLOOM 和 BLOOMZ 進行比較時,GPT-3.5 在大多數語言對上整體表現優於兩者,但英語到阿拉伯語除外,其中 BLOOM 表現相當。

如何讓 LLM 精通翻譯?

根據作者提出的方法,以下是為您準備的逐步指南!

步驟 1 取得 LLM API 存取權:

  • 註冊一個 API 金鑰以存取大型語言模型(LLM)。Novita AI LLM API 為開發者提供許多經濟實惠的 LLM 選擇,包括 Llama3–8b、Llama3–70b、Mythomax-13b 等。

步驟 2 準備領域特定的翻譯記憶庫(TM):

  • 收集您感興趣領域的一組已核准的翻譯對(稱為「模糊匹配」)。
  • 以來源語言句子後接對應目標語言句子的方式建構 TM 資料。

步驟 3 實作上下文學習以進行翻譯:

  • 當需要翻譯新的來源句子時,為 LLM 建構一個提示,包含:1. 您要翻譯的原始語言新來源句子;2. 來自 TM 的相關「模糊匹配」翻譯對。
  • 依與新來源句子相似度遞減的順序排列來源與目標語言對。
  • 將此提示傳遞給 LLM 的 API,讓它生成翻譯輸出。LLM 會調整其翻譯以符合 TM 中使用的風格與術語。

步驟 4 最佳化上下文學習:

  • 嘗試在提示中包含不同數量的「模糊匹配」翻譯對,目標是 5–10 個相關對。
  • 監控翻譯品質,並調整提示格式、範例數量及其他參數,以獲得最佳結果。

步驟 5 結合編碼器-解碼器 MT 模型:

  • 如果可用,將強勁的編碼器-解碼器機器翻譯(MT)模型的輸出,連同「模糊匹配」翻譯對一起納入提示中。
  • 這可以進一步改善翻譯品質,尤其是對於 LLM 單獨使用時可能仍不及編碼器-解碼器模型的語言對。

步驟 6 持續優化並擴充 TM:

  • 隨著翻譯更多內容,使用新的已核准翻譯對更新 TM。
  • 定期審查並整理 TM,確保其保持相關且準確,以滿足您領域特定需求。

您可以在這裡找到論文中提到的確切程式碼(例如提取模糊匹配):https://github.com/ymoslem/Adaptive-MT-LLM

大型語言模型翻譯的未來方向為何?

論文《Adaptive Machine Translation with Large Language Models》提出了大型語言模型(LLM)翻譯的幾個未來方向。以下是確定可供進一步探索與發展的關鍵領域:

動態少量樣本範例選擇(Dynamic Few-Shot Example Selection):

不使用固定數量的模糊匹配,而是可以動態選擇,只選取高於特定相似度分數的高品質匹配。這可能透過提供更相關的上下文來提升表現。

根據品質整合詞彙表術語或 MT 輸出(Incorporating Glossary Terms or MT Outputs Based on Quality):

當整合來自詞彙表的術語或其他系統的機器翻譯輸出時,選擇具有特定品質特性的項目可能是有益的。這種選擇性整合可能帶來更好的翻譯品質。

基於片語的術語提取(Phrase-Based Terminology Extraction):

論文建議探索使用較長的片語而非單個術語來進行術語提取。這可能對低資源語言特別有用,因為較長的上下文有助於提升翻譯準確性。

為低資源語言和稀有領域進行微調(Fine-Tuning for Low-Resource Languages and Rare Domains):

雖然論文聚焦於開箱即用的表現,未來的工作可能包括對低資源語言和特定領域的模型進行微調。這可能有助於提升這些領域的翻譯品質與效率。

使用開源 LLM 進行實驗(Experimentation with Open-Source LLMs):

作者建議擴展實驗,使用開源 LLM 如 BLOOM 和 BLOOMZ,以涵蓋翻譯任務的更多方面。這可能提供這些模型與專有模型(如 GPT-3.5)相比的表現洞察。

品質估計與自動選擇(Quality Estimation and Automatic Selection):

開發自動品質估計方法,從多個替代方案中選出最佳翻譯,可能是個有價值的研究領域。這可能涉及比較使用與未使用模糊匹配和/或術語的翻譯。

改善非拉丁語系的 tokenization(Improving Tokenization for Non-Latin Languages):

解決非拉丁語系的 tokenization 問題,如 GPT-3.5 與阿拉伯語所遇到的,對於改善 LLM 在更多語言對上的表現至關重要。

研究大規模部署與使用者反饋整合(Investigating Large-Scale Deployment and User Feedback Integration):

研究 LLM 如何在真實世界的翻譯場景中大規模有效部署,包括整合使用者反饋以持續改善翻譯。

探索使用多模態輸入(Exploring the Use of Multimodal Inputs):

未來的研究可以探討使用多模態輸入(例如圖像、音訊)搭配文本,為翻譯任務提供額外上下文,特別是涉及描述性或技術性內容的任務。

倫理考量與偏差緩解(Ethical Considerations and Bias Mitigation):

與所有 AI 應用一樣,研究和解決潛在的倫理問題(包括翻譯中的偏差)並制定緩解方法將是重要的。

穩健性與泛化能力(Robustness and Generalizability):

確保 LLM 能夠在不同領域中良好泛化,即使在某些語言對資料有限的情況下,也能維持穩健的表現。

結論

總之,最佳化大型語言模型以執行翻譯任務的旅程是多面向且動態的。透過反思《Adaptive Machine Translation with Large Language Models》的見解,我們探討了多樣化的策略與實驗,這些都突顯了翻譯品質顯著改善的潛力。從利用上下文學習搭配模糊匹配,到整合編碼器-解碼器模型與領域特定術語提取,這裡討論的進展為提升語言翻譯的準確性與效率鋪平了道路。

展望未來,論文中強調的未來研究方向,如動態範例選擇、多模態輸入與倫理考量,為進一步探索提供了有前景的途徑。這些努力不僅旨在優化 LLM 在不同語言和領域的技術能力,也致力於解決更廣泛的社會影響,並確保公平獲得高品質翻譯工具的機會。

參考文獻

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

Novita AI 是全方位雲端平台,助您實現 AI 抱負。透過無縫整合的 API、無伺服器運算與 GPU 加速,我們提供經濟實惠的工具,讓您快速建置並擴展 AI 驅動的業務。消除基礎設施的煩惱,立即免費開始——Novita AI 讓您的 AI 夢想成真。