LLMの翻訳性能を向上させる方法

はじめに

このブログでは、大規模言語モデル（LLM）の魅力的な世界と、翻訳タスクを実行する能力について深く掘り下げます。学術論文 「Adaptive Machine Translation with Large Language Models」 に触発され、以下の疑問を探求します。

LLMは、追加のトレーニングやファインチューニングなしで、どのように翻訳を実現するのか？
翻訳性能を向上させるために、どのような戦略を採用できるのか？
これらの戦略を自社のLLMに適用し、翻訳に熟練させるにはどうすればよいか？
LLMによる翻訳改善において、どのような将来の方向性が有望か？

ご興味があれば、ぜひ読み進めてください！

大規模言語モデルは翻訳タスクをどのように実行するのか？

事前学習（Pre-Training）：

LLMは事前学習と呼ばれるフェーズから始まります。このフェーズでは、複数の言語で膨大な量のテキストデータに触れることで、パターン、文法、語彙、および言語間の単語やフレーズの関係を学習します。

文脈の理解（Understanding Context）：

翻訳対象の文が与えられると、LLMは文脈理解を利用して、単語の意味や文全体の構造を解釈します。

系列生成（Sequence Generation）：

モデルは、入力文に対応する目的言語において最も可能性の高い単語の系列を予測することで、翻訳を生成します。

自己回帰的性質（Autoregressive Nature）：

LLMは多くの場合、自己回帰的アプローチを採用します。これにより、以前に生成された単語に基づいて系列内の次の単語を予測し、文末トークンを生成するか、あらかじめ定義された長さに達するまで続けられます。

ビームサーチ（Beam Search）：

翻訳品質を向上させるため、LLMはビームサーチなどの手法を用いることがあります。これは複数の翻訳仮説を同時に展開し、スコア関数に基づいて最も確率の高いものを選択します。

曖昧性の処理（Handling Ambiguity）：

LLMは、言語における曖昧性を処理するように設計されています。複数の翻訳が文法的に正しい場合でも、文脈に基づいて統計的に確率の高い翻訳を選択します。

後処理（Post-Processing）：

翻訳生成後、一部のモデルは出力を洗練するために後処理ステップを適用する場合があります。例えば、文法の修正、語順の調整、異常の解決などです。

大規模言語モデルは翻訳タスクをどのように改善できるのか？

論文 「Adaptive Machine Translation with Large Language Models」 の実験は、GPT-3.5 textdavinci-003モデルを公式API経由で使用して実施されました。設定には、top-p 1、温度調整、言語ごとのトークン長乗数など、さまざまなパラメータが含まれていました。コンテキストデータセットには、3070のユニークなセグメントを持つTICO-19が使用され、ドメイン固有のシナリオをシミュレートしました。研究では、英語-アラビア語、英語-中国語、英語-フランス語、英語-キニヤルワンダ語、英語-スペイン語の5つの多様な言語ペアが対象となりました。

この論文では、LLMの翻訳タスクのパフォーマンスを向上させるためのいくつかの戦略を探求しています。

ファジーマッチによる適応的MT（Adaptive MT with Fuzzy Matches）

目的: 類似した既訳セグメント（ファジーマッチ）からコンテキストを活用することで、LLMがリアルタイムで翻訳を適応させる能力を評価する。
方法: 埋め込み類似性に基づく検索を使用してデータセットからファジーマッチを抽出し、新しい翻訳対象文と共に提示する。
例: 翻訳対象の新しい文が 「The quick brown fox jumps over the lazy dog」 の場合、システムはデータセットから類似文を検索し、翻訳スタイルに影響を与えるために使用する。

エンコーダ-デコーダMTモデルとの比較

目的: 確立されたエンコーダ-デコーダモデルに対するGPT-3.5の翻訳品質を評価する。
方法: 同一の原文を使用して、GPT-3.5の翻訳出力とさまざまなAPIやモデルの出力を比較する。
例: 英語のある文に対して、各モデル（GPT-3.5、DeepL、Google Cloudなど）が目的言語で翻訳を生成し、品質指標（spBLEU、chrF++など）を比較する。

エンコーダ-デコーダMTの組み込み

目的: エンコーダ-デコーダモデル（例：DeepL）の出力とLLMのインコンテキスト学習を組み合わせることで、翻訳品質を向上できるかを探る。
方法: GPT-3.5のコンテキストプロンプトに使用するファジーマッチに、エンコーダ-デコーダモデルによる翻訳を追加する。
例: ファジーマッチと翻訳対象の新しいセグメントをGPT-3.5に提供する際、それらのセグメントに対するエンコーダ-デコーダモデルの翻訳も含めてコンテキストを豊かにする。

バイリンガル用語抽出（Bilingual Terminology Extraction）

目的: ドメイン固有の用語を自動的に抽出して活用し、翻訳の一貫性と正確性を向上させる。
方法: GPT-3.5に、文ペアから重要な用語を特定して抽出するように訓練し、その後これらの用語を使用して翻訳を制約する。
例: 医療用語を含む文ペアが与えられた場合、GPT-3.5は 「influenza」 や 「vaccination」 などの用語を抽出し、翻訳内で一貫して使用されるようにする。

用語制約付きMT（Terminology-Constrained MT）

目的: ドメイン固有の用語を翻訳プロセスに統合し、特定のスタイルや語彙への準拠を改善する。
方法: 事前定義された用語集やファジーマッチから抽出した用語を使用して翻訳を制約する。
例: 医療コンテキスト内で翻訳される文に対して、システムは医療用語集からの用語（例： 「malignant」 や 「benign」 ）を使用して、正しい用語が使われるようにする。

大規模言語モデルは翻訳においてどれだけ改善できるのか？

ファジーマッチによる適応的MT

論文は、ファジーマッチ（原文と類似度の高い既訳セグメント）をコンテキストとして使用することで、GPT-3.5のようなLLMの翻訳品質が大幅に向上することを実証しました。

例えば、英語-アラビア語（EN-AR）ペアでは、1つのファジーマッチを使用することで、spBLEUスコアが27.6（ゼロショット）から36.38に改善されました。2つのファジーマッチを使用すると、スコアはさらに38.41に上昇しました。他の言語ペアでも同様の改善が見られ、ファジーマッチを使ったインコンテキスト学習の有効性が示されました。

エンコーダ-デコーダMTモデルとの比較

GPT-3.5の数ショット翻訳品質は、DeepL、Google Cloud Translation API、OPUS、NLLBなどの複数のエンコーダ-デコーダMTシステムと比較されました。

高リソース言語では、5つまたは10のファジーマッチを使用したGPT-3.5が、特定の言語ペアにおいて従来のシステムを上回りました。例えば、英語-スペイン語（EN-ES）では、5ショット翻訳によるGPT-3.5のspBLEUスコアは61.77に達し、他のシステムのスコアを上回りました。

エンコーダ-デコーダMTの組み込み

エンコーダ-デコーダモデルからの新しいセグメントの機械翻訳をファジーマッチに追加することで、翻訳品質が大幅に向上することが観察されました。

例えば、英語-アラビア語では、5つのファジーマッチにOPUS MTを追加することで、spBLEUスコアが41.33から45.9に改善されました。

バイリンガル用語抽出

GPT-3.5は、コンテキストデータセット内の各文ペアから5つのバイリンガル用語を抽出するタスクを与えられました。人間による評価では、GPT-3がEN-AR、EN-ES、EN-FRの言語ペアに対して抽出した用語の大部分（95％以上）が正確でした。

用語制約付きMT

論文では、用語集からの用語を翻訳プロセスに統合することで、特にゼロショットシナリオにおいて翻訳品質が向上することがわかりました。例えば、英語-アラビア語では、用語集の用語を使用したゼロショット翻訳により、spBLEUスコアが27.6から35.38に改善されました。

用語制約付きMTの人間による評価では、モデルが用語集の用語を、用語を組み込まない場合よりも頻繁に目的言語に転送できることが示されました。

ChatGPTモデル、BLOOM、BLOOMZモデル

論文はGPT-3.5を、GPT-3.5 TurboやGPT-4といった新しい会話モデルと簡単に比較しました。GPT-4はゼロショット翻訳品質が優れており、GPT-3.5 Turboはより効率的でしたが、数ショット翻訳では同等の品質でした。

GPT-3.5をオープンソースの多言語モデルBLOOMやBLOOMZと比較すると、GPT-3.5はほとんどの言語ペアで両者を上回りましたが、英語-アラビア語ではBLOOMが同等のパフォーマンスを示しました。

翻訳に熟練したLLMを手に入れるには？

著者が提示したアプローチに従って、段階的な手順を以下に示します。

ステップ1 LLM APIへのアクセスを取得する

大規模言語モデルにアクセスするためのAPIキーにサインアップします。Novita AI LLM APIは、開発者にLlama3-8b、Llama3-70b、Mythomax-13bなど、多くの費用対効果の高いLLMオプションを提供しています。

ステップ2 ドメイン固有の翻訳メモリ（TM）を準備する

関心のあるドメインにおいて、承認済みの翻訳ペア（ 「ファジーマッチ」 と呼ばれる）のセットを収集します。
TMデータを、原文言語の文とそれに対応する目的言語の文のペアとして構造化します。

ステップ3 翻訳のためのインコンテキスト学習を実装する

新しい原文文を翻訳する必要がある場合、LLM用のプロンプトを以下の内容で構築します：1. 翻訳したい原文言語の新しい文。 2. TMからの関連する 「ファジーマッチ」 翻訳ペア。
プロンプト内の原文と目的言語のペアを、新しい原文文との類似度が高い順に並べます。
このプロンプトをLLMのAPIに渡し、翻訳出力を生成させます。LLMはTMで使用されているスタイルと用語に合わせて翻訳を適応させます。

ステップ4 インコンテキスト学習を最適化する

プロンプトに含める 「ファジーマッチ」 翻訳ペアの数を実験し、5〜10個の関連ペアを目指します。
翻訳品質を監視し、最良の結果を得るためにプロンプトの形式、例の数、その他のパラメータを調整します。

ステップ5 エンコーダ-デコーダMTモデルと組み合わせる

利用可能であれば、強力なエンコーダ-デコーダ機械翻訳（MT）モデルの出力を、 「ファジーマッチ」 翻訳ペアとともにプロンプトに組み込みます。
これにより、特にLLM単独ではエンコーダ-デコーダモデルのパフォーマンスにまだ達していない言語ペアの場合、翻訳品質をさらに向上させることができます。

ステップ6 TMを継続的に改善・拡張する

翻訳するコンテンツが増えるにつれて、承認済みの翻訳ペアでTMを更新します。
定期的にTMをレビューおよびキュレーションし、ドメイン固有のニーズに関連性があり正確であることを確認します。

論文で言及されているアプローチの正確なコード（例：ファジーマッチの抽出）は、こちらで見つけることができます：https://github.com/ymoslem/Adaptive-MT-LLM

大規模言語モデルによる翻訳の将来の方向性は？

論文 「Adaptive Machine Translation with Large Language Models」 は、大規模言語モデルによる翻訳のためのいくつかの将来の方向性を示唆しています。以下は、さらなる調査と開発のために特定された主要な分野です。

動的な数ショット例の選択：

固定数のファジーマッチを使用する代わりに、選択プロセスを動的にし、特定の類似度スコア以上の高品質なマッチのみを選択することが考えられます。これにより、より関連性の高いコンテキストを提供することでパフォーマンスが向上する可能性があります。

用語集の用語やMT出力の品質に基づく組み込み：

用語集からの用語や他のシステムからのMT出力を統合する際に、特定の品質特性を持つものを選択することが有益である可能性があります。この選択的な統合により、より良い翻訳品質につながる可能性があります。

フレーズベースの用語抽出：

論文では、用語抽出において個別の用語ではなく、より長いフレーズを使用することを探求することを提案しています。これは、より長いコンテキストが翻訳精度を向上させる可能性がある低リソース言語において特に有用です。

低リソース言語および稀なドメイン向けのファインチューニング：

論文はすぐに使えるパフォーマンスに焦点を当てていますが、将来の研究では低リソース言語や特定のドメイン向けにモデルをファインチューニングすることが考えられます。これにより、これらの分野での翻訳の品質と効率の両方を向上させることができます。

オープンソースLLMでの実験：

著者らは、BLOOMやBLOOMZのようなオープンソースLLMを用いて実験を拡大し、翻訳タスクのより多くの側面をカバーすることを提案しています。これにより、GPT-3.5のようなプロプライエタリモデルと比較した場合のこれらのモデルのパフォーマンスに関する洞察が得られる可能性があります。

品質推定と自動選択：

複数の代替案から最適な翻訳を選択するための自動品質推定方法を開発することは、価値のある研究分野です。これには、ファジーマッチや用語集の有無にかかわらず翻訳を比較することが含まれます。

非ラテン言語のトークン化の改善：

GPT-3.5とアラビア語で指摘されたように、非ラテン言語のトークン化の問題に対処することは、より多くの言語ペアでのLLMのパフォーマンスを向上させるために重要です。

大規模展開とユーザーフィードバック統合の調査：

LLMが実際の翻訳シナリオで大規模に効果的に展開される方法、およびユーザーフィードバックを統合して翻訳を継続的に改善する方法についての研究。

マルチモーダル入力の活用：

将来の研究では、記述的または技術的なコンテンツを含むタスクにおいて、テキストに加えて画像や音声などのマルチモーダル入力を使用して翻訳タスクに追加のコンテキストを提供することが考えられます。

倫理的考慮事項とバイアス軽減：

すべてのAIアプリケーションと同様に、翻訳におけるバイアスを含む潜在的な倫理的懸念を研究し、対処し、これらの問題を軽減する方法を開発することが重要です。

堅牢性と汎化性：

LLMが異なるドメイン間でうまく汎化し、特定の言語ペアで限られたデータでも堅牢なパフォーマンスを維持できるようにすること。

結論

結論として、大規模言語モデルを翻訳タスクに最適化する旅は多面的で動的です。 「Adaptive Machine Translation with Large Language Models」 からの洞察を反映し、私たちは多様な戦略と実験を探求し、翻訳品質の大幅な改善の可能性を強調してきました。ファジーマッチを使ったインコンテキスト学習の活用から、エンコーダ-デコーダモデルやドメイン固有の用語抽出の統合まで、ここで議論された進歩は、言語翻訳における精度と効率の向上への道を開きます。

今後、論文で強調された動的な例の選択、マルチモーダル入力、倫理的考慮事項などの将来の研究方向性は、さらなる探求の有望な手段を提供します。これらの取り組みは、さまざまな言語とドメインにわたるLLMの技術的能力を洗練するだけでなく、より広範な社会的影響に対処し、高品質な翻訳ツールへの公平なアクセスを確保することを目的としています。

参考文献

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

Novita AI は、AIの野心を実現するためのオールインワンクラウドプラットフォームです。シームレスに統合されたAPI、サーバーレスコンピューティング、GPUアクセラレーションにより、AI駆動のビジネスを迅速に構築し拡大するためのコスト効率の高いツールを提供します。インフラストラクチャの悩みを解消し、無料で始めましょう。Novita AIがあなたのAIの夢を現実にします。

はじめに

大規模言語モデルは翻訳タスクをどのように実行するのか？

事前学習（Pre-Training）：

文脈の理解（Understanding Context）：

系列生成（Sequence Generation）：

自己回帰的性質（Autoregressive Nature）：

ビームサーチ（Beam Search）：

曖昧性の処理（Handling Ambiguity）：

後処理（Post-Processing）：

大規模言語モデルは翻訳タスクをどのように改善できるのか？

ファジーマッチによる適応的MT（Adaptive MT with Fuzzy Matches）

エンコーダ-デコーダMTモデルとの比較

エンコーダ-デコーダMTの組み込み

バイリンガル用語抽出（Bilingual Terminology Extraction）

用語制約付きMT（Terminology-Constrained MT）

大規模言語モデルは翻訳においてどれだけ改善できるのか？

ファジーマッチによる適応的MT

エンコーダ-デコーダMTモデルとの比較

エンコーダ-デコーダMTの組み込み

バイリンガル用語抽出

用語制約付きMT

ChatGPTモデル、BLOOM、BLOOMZモデル

翻訳に熟練したLLMを手に入れるには？

ステップ1 LLM APIへのアクセスを取得する

ステップ2 ドメイン固有の翻訳メモリ（TM）を準備する

ステップ3 翻訳のためのインコンテキスト学習を実装する

ステップ4 インコンテキスト学習を最適化する

ステップ5 エンコーダ-デコーダMTモデルと組み合わせる

ステップ6 TMを継続的に改善・拡張する

大規模言語モデルによる翻訳の将来の方向性は？

動的な数ショット例の選択：

用語集の用語やMT出力の品質に基づく組み込み：

フレーズベースの用語抽出：

低リソース言語および稀なドメイン向けのファインチューニング：

オープンソースLLMでの実験：

品質推定と自動選択：

非ラテン言語のトークン化の改善：

大規模展開とユーザーフィードバック統合の調査：

マルチモーダル入力の活用：

倫理的考慮事項とバイアス軽減：

堅牢性と汎化性：

結論

参考文献

関連記事

Product

RESOURCES

Partners

Company