引言
在這篇部落格中,我們將深入探討大型語言模型(LLM)在執行翻譯任務時的能力與奧秘。本文受學術論文《Adaptive Machine Translation with Large Language Models》啟發,將探討以下問題:
- LLM 如何在不進行額外訓練或微調的情況下完成翻譯?
- 可以使用哪些策略來提升它們的翻譯表現?
- 我們如何採用這些策略,讓自己的 LLM 精通翻譯?
- 未來有哪些方向有望改善 LLM 的翻譯能力?
如果您有興趣,請繼續閱讀!
大型語言模型如何執行翻譯任務?
預訓練(Pre-Training):
LLM 首先經歷一個稱為預訓練的階段,在此階段它們會接觸到大量多語言的文本資料。這有助於它們學習跨語言的模式、文法、詞彙以及單詞與片語之間的關係。
理解上下文(Understanding Context):
當給予一個待翻譯句子時,LLM 會利用其對上下文的理解來解讀單詞的意義以及整體句子結構。
序列生成(Sequence Generation):
接著,模型會透過預測在目標語言中對應於輸入句子的最可能單詞序列,來生成翻譯。
自回歸性質(Autoregressive Nature):
LLM 常採用自回歸方法,根據先前生成的單詞來預測序列中的下一個單詞。這個過程會持續直到模型生成句尾標記或達到預設長度。
光束搜尋(Beam Search):
為了提升翻譯品質,LLM 可能會使用光束搜尋等技術,同時擴展多個翻譯假設,並根據評分函數選出最可能的一個。
處理歧義(Handling Ambiguity):
LLM 被設計來處理語言中的歧義,即使在多個翻譯在文法上都正確的情況下,也能根據上下文選擇統計上更可能的翻譯。
後處理(Post-Processing):
在生成翻譯後,部分模型可能會套用後處理步驟來優化輸出,例如修正文法、調整詞序或解決任何異常。
如何讓大型語言模型在翻譯任務上表現得更好?
論文《Adaptive Machine Translation with Large Language Models》中的實驗是使用 GPT-3.5 textdavinci-003 模型透過官方 API 進行的。設定包含各種參數,如 top-p 1、溫度調整以及針對不同語言的 token 長度倍數。上下文資料集 TICO-19 包含 3070 個獨特片段,用於模擬特定領域的場景。研究涉及五種不同的語言對:英語到阿拉伯語、英語到中文、英語到法語、英語到盧安達語以及英語到西班牙語。

該論文探討了幾種改善 LLM 在翻譯任務中表現的策略:
使用模糊匹配的自適應機器翻譯(Adaptive MT with Fuzzy Matches):
- 目標: 評估 LLM 透過利用來自相似先前翻譯片段(模糊匹配)的上下文,即時調整翻譯的能力。
- 方法: 使用基於嵌入相似度的檢索,從資料集中提取模糊匹配,並將其與待翻譯的新句子一同呈現。
- 範例: 如果要翻譯的新句子是「The quick brown fox jumps over the lazy dog.」,系統可能會從資料集中檢索出相似的句子,並利用它們來影響翻譯風格。
與編碼器-解碼器 MT 模型的比較(Comparison with Encoder-Decoder MT Models):
- 目標: 評估 GPT-3.5 與既有編碼器-解碼器模型的翻譯品質。
- 方法: 將 GPT-3.5 的翻譯輸出與使用相同來源文本的各種 API 和模型進行比較。
- 範例: 對於一個英文句子,每個模型(GPT-3.5、DeepL、Google Cloud 等)都會生成目標語言的翻譯,並比較品質指標(spBLEU、chrF++ 等)。
結合編碼器-解碼器 MT(Incorporating Encoder-Decoder MT):
- 目標: 探討將編碼器-解碼器模型(例如 DeepL)的輸出與 LLM 的上下文學習相結合,是否能提升翻譯品質。
- 方法: 將來自編碼器-解碼器模型的翻譯附加到提供給 GPT-3.5 的上下文提示中的模糊匹配之後。
- 範例: 如果將模糊匹配和待翻譯的新片段提供給 GPT-3.5,同時也將這些片段的編碼器-解碼器模型翻譯納入,以豐富上下文。
雙語術語提取(Bilingual Terminology Extraction):
- 目標: 自動提取並利用領域特定術語,以提升翻譯的一致性與準確性。
- 方法: 訓練 GPT-3.5 從句子對中識別並提取關鍵術語,然後使用這些術語來約束翻譯。
- 範例: 給定一個包含醫學術語的句子對,GPT-3.5 會提取「influenza」和「vaccination」等術語,並確保這些術語在翻譯中一致使用。
術語約束的機器翻譯(Terminology-Constrained MT):
- 目標: 將領域特定術語整合到翻譯過程中,以提高對特定風格和詞彙的遵循度。
- 方法: 使用預定義的詞彙表或從模糊匹配中提取的術語來約束翻譯。
- 範例: 對於需要在醫學背景下翻譯的句子,系統會使用醫學詞彙表中的術語,例如「malignant」或「benign」,以確保翻譯使用正確的術語。
大型語言模型在翻譯上能進步多少?
使用模糊匹配的自適應機器翻譯(Adaptive MT with Fuzzy Matches):
該論文證明,將模糊匹配(與來源文本高度相似的先前翻譯片段)作為上下文,能顯著提升如 GPT-3.5 等 LLM 的翻譯品質。
例如,在英語到阿拉伯語(EN-AR)對中,使用單一模糊匹配將 spBLEU 分數從 27.6(零樣本)提升到 36.38。使用兩個模糊匹配後,分數進一步提高到 38.41。在其他語言對中也觀察到類似的改善,顯示了上下文學習搭配模糊匹配的有效性。
與編碼器-解碼器 MT 模型的比較(Comparison with Encoder-Decoder MT Models):
將 GPT-3.5 的少量樣本翻譯品質與多個編碼器-解碼器 MT 系統(包括 DeepL、Google Cloud Translation API、OPUS 和 NLLB)進行比較。
對於高資源語言,GPT-3.5 搭配 5 或 10 個模糊匹配在特定語言對中表現優於傳統系統。例如,在英語到西班牙語(EN-ES)中,GPT-3.5 的 5 樣本翻譯達到了 61.77 的 spBLEU 分數,超過了其他系統的分數。

結合編碼器-解碼器 MT(Incorporating Encoder-Decoder MT):
透過將新片段的機器翻譯從編碼器-解碼器模型附加到模糊匹配中,論文觀察到翻譯品質有實質性的提升。
例如,在英語到阿拉伯語中,將 OPUS MT 附加到 5 個模糊匹配後,spBLEU 分數從 41.33 提升到 45.9。

雙語術語提取(Bilingual Terminology Extraction):
GPT-3.5 被要求從上下文資料集中的每個句子對提取 5 個雙語術語。人工評估顯示,GPT-3 為 EN-AR、EN-ES 和 EN-FR 語言對提取的術語中,絕大多數(超過 95%)是準確的。

術語約束的機器翻譯(Terminology-Constrained MT):
論文發現,將詞彙表中的術語整合到翻譯過程中可以提升翻譯品質,尤其是在零樣本情境中。例如,在英語到阿拉伯語中,使用詞彙表術語的零樣本翻譯將 spBLEU 分數從 27.6 提升到 35.38。
術語約束 MT 的人工評估顯示,與未整合術語相比,模型更頻繁地將詞彙表術語成功融入目標語言。
ChatGPT 模型、BLOOM 與 BLOOMZ 模型:
論文簡要地將 GPT-3.5 與更新的對話模型如 GPT-3.5 Turbo 和 GPT-4 進行比較。GPT-4 在零樣本翻譯品質上表現更好,而 GPT-3.5 Turbo 效率更高,但在少量樣本翻譯上品質相當。
將 GPT-3.5 與開源多語言模型 BLOOM 和 BLOOMZ 進行比較時,GPT-3.5 在大多數語言對上整體表現優於兩者,但英語到阿拉伯語除外,其中 BLOOM 表現相當。
如何讓 LLM 精通翻譯?
根據作者提出的方法,以下是為您準備的逐步指南!
步驟 1 取得 LLM API 存取權:
- 註冊一個 API 金鑰以存取大型語言模型(LLM)。Novita AI LLM API 為開發者提供許多經濟實惠的 LLM 選擇,包括 Llama3–8b、Llama3–70b、Mythomax-13b 等。

步驟 2 準備領域特定的翻譯記憶庫(TM):
- 收集您感興趣領域的一組已核准的翻譯對(稱為「模糊匹配」)。
- 以來源語言句子後接對應目標語言句子的方式建構 TM 資料。
步驟 3 實作上下文學習以進行翻譯:
- 當需要翻譯新的來源句子時,為 LLM 建構一個提示,包含:1. 您要翻譯的原始語言新來源句子;2. 來自 TM 的相關「模糊匹配」翻譯對。
- 依與新來源句子相似度遞減的順序排列來源與目標語言對。
- 將此提示傳遞給 LLM 的 API,讓它生成翻譯輸出。LLM 會調整其翻譯以符合 TM 中使用的風格與術語。
步驟 4 最佳化上下文學習:
- 嘗試在提示中包含不同數量的「模糊匹配」翻譯對,目標是 5–10 個相關對。
- 監控翻譯品質,並調整提示格式、範例數量及其他參數,以獲得最佳結果。
步驟 5 結合編碼器-解碼器 MT 模型:
- 如果可用,將強勁的編碼器-解碼器機器翻譯(MT)模型的輸出,連同「模糊匹配」翻譯對一起納入提示中。
- 這可以進一步改善翻譯品質,尤其是對於 LLM 單獨使用時可能仍不及編碼器-解碼器模型的語言對。
步驟 6 持續優化並擴充 TM:
- 隨著翻譯更多內容,使用新的已核准翻譯對更新 TM。
- 定期審查並整理 TM,確保其保持相關且準確,以滿足您領域特定需求。
您可以在這裡找到論文中提到的確切程式碼(例如提取模糊匹配):https://github.com/ymoslem/Adaptive-MT-LLM

大型語言模型翻譯的未來方向為何?
論文《Adaptive Machine Translation with Large Language Models》提出了大型語言模型(LLM)翻譯的幾個未來方向。以下是確定可供進一步探索與發展的關鍵領域:
動態少量樣本範例選擇(Dynamic Few-Shot Example Selection):
不使用固定數量的模糊匹配,而是可以動態選擇,只選取高於特定相似度分數的高品質匹配。這可能透過提供更相關的上下文來提升表現。
根據品質整合詞彙表術語或 MT 輸出(Incorporating Glossary Terms or MT Outputs Based on Quality):
當整合來自詞彙表的術語或其他系統的機器翻譯輸出時,選擇具有特定品質特性的項目可能是有益的。這種選擇性整合可能帶來更好的翻譯品質。
基於片語的術語提取(Phrase-Based Terminology Extraction):
論文建議探索使用較長的片語而非單個術語來進行術語提取。這可能對低資源語言特別有用,因為較長的上下文有助於提升翻譯準確性。
為低資源語言和稀有領域進行微調(Fine-Tuning for Low-Resource Languages and Rare Domains):
雖然論文聚焦於開箱即用的表現,未來的工作可能包括對低資源語言和特定領域的模型進行微調。這可能有助於提升這些領域的翻譯品質與效率。
使用開源 LLM 進行實驗(Experimentation with Open-Source LLMs):
作者建議擴展實驗,使用開源 LLM 如 BLOOM 和 BLOOMZ,以涵蓋翻譯任務的更多方面。這可能提供這些模型與專有模型(如 GPT-3.5)相比的表現洞察。
品質估計與自動選擇(Quality Estimation and Automatic Selection):
開發自動品質估計方法,從多個替代方案中選出最佳翻譯,可能是個有價值的研究領域。這可能涉及比較使用與未使用模糊匹配和/或術語的翻譯。
改善非拉丁語系的 tokenization(Improving Tokenization for Non-Latin Languages):
解決非拉丁語系的 tokenization 問題,如 GPT-3.5 與阿拉伯語所遇到的,對於改善 LLM 在更多語言對上的表現至關重要。
研究大規模部署與使用者反饋整合(Investigating Large-Scale Deployment and User Feedback Integration):
研究 LLM 如何在真實世界的翻譯場景中大規模有效部署,包括整合使用者反饋以持續改善翻譯。
探索使用多模態輸入(Exploring the Use of Multimodal Inputs):
未來的研究可以探討使用多模態輸入(例如圖像、音訊)搭配文本,為翻譯任務提供額外上下文,特別是涉及描述性或技術性內容的任務。
倫理考量與偏差緩解(Ethical Considerations and Bias Mitigation):
與所有 AI 應用一樣,研究和解決潛在的倫理問題(包括翻譯中的偏差)並制定緩解方法將是重要的。
穩健性與泛化能力(Robustness and Generalizability):
確保 LLM 能夠在不同領域中良好泛化,即使在某些語言對資料有限的情況下,也能維持穩健的表現。
結論
總之,最佳化大型語言模型以執行翻譯任務的旅程是多面向且動態的。透過反思《Adaptive Machine Translation with Large Language Models》的見解,我們探討了多樣化的策略與實驗,這些都突顯了翻譯品質顯著改善的潛力。從利用上下文學習搭配模糊匹配,到整合編碼器-解碼器模型與領域特定術語提取,這裡討論的進展為提升語言翻譯的準確性與效率鋪平了道路。
展望未來,論文中強調的未來研究方向,如動態範例選擇、多模態輸入與倫理考量,為進一步探索提供了有前景的途徑。這些努力不僅旨在優化 LLM 在不同語言和領域的技術能力,也致力於解決更廣泛的社會影響,並確保公平獲得高品質翻譯工具的機會。
參考文獻
Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294
Novita AI 是全方位雲端平台,助您實現 AI 抱負。透過無縫整合的 API、無伺服器運算與 GPU 加速,我們提供經濟實惠的工具,讓您快速建置並擴展 AI 驅動的業務。消除基礎設施的煩惱,立即免費開始——Novita AI 讓您的 AI 夢想成真。
