如何讓 LLM 更擅長翻譯？

引言

在這篇部落格中，我們將深入探討大型語言模型（LLM）在執行翻譯任務時的能力與奧秘。本文受學術論文《Adaptive Machine Translation with Large Language Models》啟發，將探討以下問題：

LLM 如何在不進行額外訓練或微調的情況下完成翻譯？
可以使用哪些策略來提升它們的翻譯表現？
我們如何採用這些策略，讓自己的 LLM 精通翻譯？
未來有哪些方向有望改善 LLM 的翻譯能力？

如果您有興趣，請繼續閱讀！

大型語言模型如何執行翻譯任務？

預訓練（Pre-Training）：

LLM 首先經歷一個稱為預訓練的階段，在此階段它們會接觸到大量多語言的文本資料。這有助於它們學習跨語言的模式、文法、詞彙以及單詞與片語之間的關係。

理解上下文（Understanding Context）：

當給予一個待翻譯句子時，LLM 會利用其對上下文的理解來解讀單詞的意義以及整體句子結構。

序列生成（Sequence Generation）：

接著，模型會透過預測在目標語言中對應於輸入句子的最可能單詞序列，來生成翻譯。

自回歸性質（Autoregressive Nature）：

LLM 常採用自回歸方法，根據先前生成的單詞來預測序列中的下一個單詞。這個過程會持續直到模型生成句尾標記或達到預設長度。

光束搜尋（Beam Search）：

為了提升翻譯品質，LLM 可能會使用光束搜尋等技術，同時擴展多個翻譯假設，並根據評分函數選出最可能的一個。

處理歧義（Handling Ambiguity）：

LLM 被設計來處理語言中的歧義，即使在多個翻譯在文法上都正確的情況下，也能根據上下文選擇統計上更可能的翻譯。

後處理（Post-Processing）：

在生成翻譯後，部分模型可能會套用後處理步驟來優化輸出，例如修正文法、調整詞序或解決任何異常。

如何讓大型語言模型在翻譯任務上表現得更好？

論文《Adaptive Machine Translation with Large Language Models》中的實驗是使用 GPT-3.5 textdavinci-003 模型透過官方 API 進行的。設定包含各種參數，如 top-p 1、溫度調整以及針對不同語言的 token 長度倍數。上下文資料集 TICO-19 包含 3070 個獨特片段，用於模擬特定領域的場景。研究涉及五種不同的語言對：英語到阿拉伯語、英語到中文、英語到法語、英語到盧安達語以及英語到西班牙語。

該論文探討了幾種改善 LLM 在翻譯任務中表現的策略：

使用模糊匹配的自適應機器翻譯（Adaptive MT with Fuzzy Matches）：

目標： 評估 LLM 透過利用來自相似先前翻譯片段（模糊匹配）的上下文，即時調整翻譯的能力。
方法： 使用基於嵌入相似度的檢索，從資料集中提取模糊匹配，並將其與待翻譯的新句子一同呈現。
範例： 如果要翻譯的新句子是「The quick brown fox jumps over the lazy dog.」，系統可能會從資料集中檢索出相似的句子，並利用它們來影響翻譯風格。

與編碼器-解碼器 MT 模型的比較（Comparison with Encoder-Decoder MT Models）：

目標： 評估 GPT-3.5 與既有編碼器-解碼器模型的翻譯品質。
方法： 將 GPT-3.5 的翻譯輸出與使用相同來源文本的各種 API 和模型進行比較。
範例： 對於一個英文句子，每個模型（GPT-3.5、DeepL、Google Cloud 等）都會生成目標語言的翻譯，並比較品質指標（spBLEU、chrF++ 等）。

結合編碼器-解碼器 MT（Incorporating Encoder-Decoder MT）：

目標： 探討將編碼器-解碼器模型（例如 DeepL）的輸出與 LLM 的上下文學習相結合，是否能提升翻譯品質。
方法： 將來自編碼器-解碼器模型的翻譯附加到提供給 GPT-3.5 的上下文提示中的模糊匹配之後。
範例： 如果將模糊匹配和待翻譯的新片段提供給 GPT-3.5，同時也將這些片段的編碼器-解碼器模型翻譯納入，以豐富上下文。

雙語術語提取（Bilingual Terminology Extraction）：

目標： 自動提取並利用領域特定術語，以提升翻譯的一致性與準確性。
方法： 訓練 GPT-3.5 從句子對中識別並提取關鍵術語，然後使用這些術語來約束翻譯。
範例： 給定一個包含醫學術語的句子對，GPT-3.5 會提取「influenza」和「vaccination」等術語，並確保這些術語在翻譯中一致使用。

術語約束的機器翻譯（Terminology-Constrained MT）：

目標： 將領域特定術語整合到翻譯過程中，以提高對特定風格和詞彙的遵循度。
方法： 使用預定義的詞彙表或從模糊匹配中提取的術語來約束翻譯。
範例： 對於需要在醫學背景下翻譯的句子，系統會使用醫學詞彙表中的術語，例如「malignant」或「benign」，以確保翻譯使用正確的術語。

大型語言模型在翻譯上能進步多少？

使用模糊匹配的自適應機器翻譯（Adaptive MT with Fuzzy Matches）：

該論文證明，將模糊匹配（與來源文本高度相似的先前翻譯片段）作為上下文，能顯著提升如 GPT-3.5 等 LLM 的翻譯品質。

例如，在英語到阿拉伯語（EN-AR）對中，使用單一模糊匹配將 spBLEU 分數從 27.6（零樣本）提升到 36.38。使用兩個模糊匹配後，分數進一步提高到 38.41。在其他語言對中也觀察到類似的改善，顯示了上下文學習搭配模糊匹配的有效性。

與編碼器-解碼器 MT 模型的比較（Comparison with Encoder-Decoder MT Models）：

將 GPT-3.5 的少量樣本翻譯品質與多個編碼器-解碼器 MT 系統（包括 DeepL、Google Cloud Translation API、OPUS 和 NLLB）進行比較。

對於高資源語言，GPT-3.5 搭配 5 或 10 個模糊匹配在特定語言對中表現優於傳統系統。例如，在英語到西班牙語（EN-ES）中，GPT-3.5 的 5 樣本翻譯達到了 61.77 的 spBLEU 分數，超過了其他系統的分數。

結合編碼器-解碼器 MT（Incorporating Encoder-Decoder MT）：

透過將新片段的機器翻譯從編碼器-解碼器模型附加到模糊匹配中，論文觀察到翻譯品質有實質性的提升。

例如，在英語到阿拉伯語中，將 OPUS MT 附加到 5 個模糊匹配後，spBLEU 分數從 41.33 提升到 45.9。

雙語術語提取（Bilingual Terminology Extraction）：

GPT-3.5 被要求從上下文資料集中的每個句子對提取 5 個雙語術語。人工評估顯示，GPT-3 為 EN-AR、EN-ES 和 EN-FR 語言對提取的術語中，絕大多數（超過 95%）是準確的。

術語約束的機器翻譯（Terminology-Constrained MT）：

論文發現，將詞彙表中的術語整合到翻譯過程中可以提升翻譯品質，尤其是在零樣本情境中。例如，在英語到阿拉伯語中，使用詞彙表術語的零樣本翻譯將 spBLEU 分數從 27.6 提升到 35.38。

術語約束 MT 的人工評估顯示，與未整合術語相比，模型更頻繁地將詞彙表術語成功融入目標語言。

ChatGPT 模型、BLOOM 與 BLOOMZ 模型：

論文簡要地將 GPT-3.5 與更新的對話模型如 GPT-3.5 Turbo 和 GPT-4 進行比較。GPT-4 在零樣本翻譯品質上表現更好，而 GPT-3.5 Turbo 效率更高，但在少量樣本翻譯上品質相當。

將 GPT-3.5 與開源多語言模型 BLOOM 和 BLOOMZ 進行比較時，GPT-3.5 在大多數語言對上整體表現優於兩者，但英語到阿拉伯語除外，其中 BLOOM 表現相當。

如何讓 LLM 精通翻譯？

根據作者提出的方法，以下是為您準備的逐步指南！

步驟 1 取得 LLM API 存取權：

註冊一個 API 金鑰以存取大型語言模型（LLM）。Novita AI LLM API 為開發者提供許多經濟實惠的 LLM 選擇，包括 Llama3–8b、Llama3–70b、Mythomax-13b 等。

步驟 2 準備領域特定的翻譯記憶庫（TM）：

收集您感興趣領域的一組已核准的翻譯對（稱為「模糊匹配」）。
以來源語言句子後接對應目標語言句子的方式建構 TM 資料。

步驟 3 實作上下文學習以進行翻譯：

當需要翻譯新的來源句子時，為 LLM 建構一個提示，包含：1. 您要翻譯的原始語言新來源句子；2. 來自 TM 的相關「模糊匹配」翻譯對。
依與新來源句子相似度遞減的順序排列來源與目標語言對。
將此提示傳遞給 LLM 的 API，讓它生成翻譯輸出。LLM 會調整其翻譯以符合 TM 中使用的風格與術語。

步驟 4 最佳化上下文學習：

嘗試在提示中包含不同數量的「模糊匹配」翻譯對，目標是 5–10 個相關對。
監控翻譯品質，並調整提示格式、範例數量及其他參數，以獲得最佳結果。

步驟 5 結合編碼器-解碼器 MT 模型：

如果可用，將強勁的編碼器-解碼器機器翻譯（MT）模型的輸出，連同「模糊匹配」翻譯對一起納入提示中。
這可以進一步改善翻譯品質，尤其是對於 LLM 單獨使用時可能仍不及編碼器-解碼器模型的語言對。

步驟 6 持續優化並擴充 TM：

隨著翻譯更多內容，使用新的已核准翻譯對更新 TM。
定期審查並整理 TM，確保其保持相關且準確，以滿足您領域特定需求。

您可以在這裡找到論文中提到的確切程式碼（例如提取模糊匹配）：https://github.com/ymoslem/Adaptive-MT-LLM

大型語言模型翻譯的未來方向為何？

論文《Adaptive Machine Translation with Large Language Models》提出了大型語言模型（LLM）翻譯的幾個未來方向。以下是確定可供進一步探索與發展的關鍵領域：

動態少量樣本範例選擇（Dynamic Few-Shot Example Selection）：

不使用固定數量的模糊匹配，而是可以動態選擇，只選取高於特定相似度分數的高品質匹配。這可能透過提供更相關的上下文來提升表現。

根據品質整合詞彙表術語或 MT 輸出（Incorporating Glossary Terms or MT Outputs Based on Quality）：

當整合來自詞彙表的術語或其他系統的機器翻譯輸出時，選擇具有特定品質特性的項目可能是有益的。這種選擇性整合可能帶來更好的翻譯品質。

基於片語的術語提取（Phrase-Based Terminology Extraction）：

論文建議探索使用較長的片語而非單個術語來進行術語提取。這可能對低資源語言特別有用，因為較長的上下文有助於提升翻譯準確性。

為低資源語言和稀有領域進行微調（Fine-Tuning for Low-Resource Languages and Rare Domains）：

雖然論文聚焦於開箱即用的表現，未來的工作可能包括對低資源語言和特定領域的模型進行微調。這可能有助於提升這些領域的翻譯品質與效率。

使用開源 LLM 進行實驗（Experimentation with Open-Source LLMs）：

作者建議擴展實驗，使用開源 LLM 如 BLOOM 和 BLOOMZ，以涵蓋翻譯任務的更多方面。這可能提供這些模型與專有模型（如 GPT-3.5）相比的表現洞察。

品質估計與自動選擇（Quality Estimation and Automatic Selection）：

開發自動品質估計方法，從多個替代方案中選出最佳翻譯，可能是個有價值的研究領域。這可能涉及比較使用與未使用模糊匹配和/或術語的翻譯。

改善非拉丁語系的 tokenization（Improving Tokenization for Non-Latin Languages）：

解決非拉丁語系的 tokenization 問題，如 GPT-3.5 與阿拉伯語所遇到的，對於改善 LLM 在更多語言對上的表現至關重要。

研究大規模部署與使用者反饋整合（Investigating Large-Scale Deployment and User Feedback Integration）：

研究 LLM 如何在真實世界的翻譯場景中大規模有效部署，包括整合使用者反饋以持續改善翻譯。

探索使用多模態輸入（Exploring the Use of Multimodal Inputs）：

未來的研究可以探討使用多模態輸入（例如圖像、音訊）搭配文本，為翻譯任務提供額外上下文，特別是涉及描述性或技術性內容的任務。

倫理考量與偏差緩解（Ethical Considerations and Bias Mitigation）：

與所有 AI 應用一樣，研究和解決潛在的倫理問題（包括翻譯中的偏差）並制定緩解方法將是重要的。

穩健性與泛化能力（Robustness and Generalizability）：

確保 LLM 能夠在不同領域中良好泛化，即使在某些語言對資料有限的情況下，也能維持穩健的表現。

結論

總之，最佳化大型語言模型以執行翻譯任務的旅程是多面向且動態的。透過反思《Adaptive Machine Translation with Large Language Models》的見解，我們探討了多樣化的策略與實驗，這些都突顯了翻譯品質顯著改善的潛力。從利用上下文學習搭配模糊匹配，到整合編碼器-解碼器模型與領域特定術語提取，這裡討論的進展為提升語言翻譯的準確性與效率鋪平了道路。

展望未來，論文中強調的未來研究方向，如動態範例選擇、多模態輸入與倫理考量，為進一步探索提供了有前景的途徑。這些努力不僅旨在優化 LLM 在不同語言和領域的技術能力，也致力於解決更廣泛的社會影響，並確保公平獲得高品質翻譯工具的機會。

參考文獻

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

Novita AI 是全方位雲端平台，助您實現 AI 抱負。透過無縫整合的 API、無伺服器運算與 GPU 加速，我們提供經濟實惠的工具，讓您快速建置並擴展 AI 驅動的業務。消除基礎設施的煩惱，立即免費開始——Novita AI 讓您的 AI 夢想成真。

引言

大型語言模型如何執行翻譯任務？

預訓練（Pre-Training）：

理解上下文（Understanding Context）：

序列生成（Sequence Generation）：

自回歸性質（Autoregressive Nature）：

光束搜尋（Beam Search）：

處理歧義（Handling Ambiguity）：

後處理（Post-Processing）：

如何讓大型語言模型在翻譯任務上表現得更好？

使用模糊匹配的自適應機器翻譯（Adaptive MT with Fuzzy Matches）：

與編碼器-解碼器 MT 模型的比較（Comparison with Encoder-Decoder MT Models）：

結合編碼器-解碼器 MT（Incorporating Encoder-Decoder MT）：

雙語術語提取（Bilingual Terminology Extraction）：

術語約束的機器翻譯（Terminology-Constrained MT）：

大型語言模型在翻譯上能進步多少？

使用模糊匹配的自適應機器翻譯（Adaptive MT with Fuzzy Matches）：

與編碼器-解碼器 MT 模型的比較（Comparison with Encoder-Decoder MT Models）：

結合編碼器-解碼器 MT（Incorporating Encoder-Decoder MT）：

雙語術語提取（Bilingual Terminology Extraction）：

術語約束的機器翻譯（Terminology-Constrained MT）：

ChatGPT 模型、BLOOM 與 BLOOMZ 模型：

如何讓 LLM 精通翻譯？

步驟 1 取得 LLM API 存取權：

步驟 2 準備領域特定的翻譯記憶庫（TM）：

步驟 3 實作上下文學習以進行翻譯：

步驟 4 最佳化上下文學習：

步驟 5 結合編碼器-解碼器 MT 模型：

步驟 6 持續優化並擴充 TM：

大型語言模型翻譯的未來方向為何？

動態少量樣本範例選擇（Dynamic Few-Shot Example Selection）：

根據品質整合詞彙表術語或 MT 輸出（Incorporating Glossary Terms or MT Outputs Based on Quality）：

基於片語的術語提取（Phrase-Based Terminology Extraction）：

為低資源語言和稀有領域進行微調（Fine-Tuning for Low-Resource Languages and Rare Domains）：

使用開源 LLM 進行實驗（Experimentation with Open-Source LLMs）：

品質估計與自動選擇（Quality Estimation and Automatic Selection）：

改善非拉丁語系的 tokenization（Improving Tokenization for Non-Latin Languages）：

研究大規模部署與使用者反饋整合（Investigating Large-Scale Deployment and User Feedback Integration）：

探索使用多模態輸入（Exploring the Use of Multimodal Inputs）：

倫理考量與偏差緩解（Ethical Considerations and Bias Mitigation）：

穩健性與泛化能力（Robustness and Generalizability）：

結論

參考文獻

相關文章

Product

RESOURCES

Partners

Company