Wie man LLMs besser in der Übersetzung macht?

Wie man LLMs besser in der Übersetzung macht?

Einleitung

In diesem Blog tauchen wir in die faszinierende Welt der großen Sprachmodelle (LLMs) und ihrer Fähigkeiten bei Übersetzungsaufgaben ein. Inspiriert durch das akademische Paper mit dem Titel „Adaptive Machine Translation with Large Language Models“ werden wir die folgenden Fragen untersuchen:

  • Wie führen LLMs Übersetzungen ohne zusätzliches Training oder Fine-Tuning durch?
  • Welche Strategien können eingesetzt werden, um ihre Übersetzungsleistung zu verbessern?
  • Wie können wir diese Strategien nutzen, um unser eigenes LLM in der Übersetzung zu schulen?
  • Welche zukünftigen Richtungen versprechen Verbesserungen bei der Übersetzung mit LLMs?

Falls Sie interessiert sind, lesen Sie einfach weiter!

Wie führen große Sprachmodelle Übersetzungsaufgaben durch?

Pre-Training:

LLMs beginnen mit einer Phase namens Pre-Training, in der sie einer großen Menge an Textdaten in mehreren Sprachen ausgesetzt werden. Dies hilft ihnen, Muster, Grammatik, Wortschatz und die Beziehungen zwischen Wörtern und Phrasen über Sprachen hinweg zu lernen.

Kontextverständnis:

Wenn ein Satz zur Übersetzung gegeben wird, nutzt das LLM sein Verständnis des Kontexts, um die Bedeutung der Wörter und die gesamte Satzstruktur zu interpretieren.

Sequenzgenerierung:

Das Modell generiert dann eine Übersetzung, indem es die wahrscheinlichste Sequenz von Wörtern in der Zielsprache vorhersagt, die dem Eingabesatz entspricht.

Autoregressiver Charakter:

LLMs verwenden oft einen autoregressiven Ansatz, bei dem sie das nächste Wort in der Sequenz basierend auf den zuvor generierten Wörtern vorhersagen. Dies wird fortgesetzt, bis das Modell ein Ende-des-Satzes-Token generiert oder eine vordefinierte Länge erreicht.

Um die Qualität der Übersetzung zu verbessern, können LLMs Techniken wie Beam Search einsetzen, die mehrere Übersetzungshypothesen gleichzeitig erweitern und die wahrscheinlichste basierend auf einer Bewertungsfunktion auswählen.

Umgang mit Mehrdeutigkeiten:

LLMs sind darauf ausgelegt, mit Mehrdeutigkeiten in der Sprache umzugehen, indem sie Übersetzungen wählen, die statistisch wahrscheinlicher im gegebenen Kontext sind, selbst wenn mehrere Übersetzungen grammatikalisch korrekt sind.

Nachbearbeitung:

Nach der Generierung einer Übersetzung können einige Modelle Nachbearbeitungsschritte anwenden, um die Ausgabe zu verfeinern, wie z. B. Korrektur der Grammatik, Anpassung der Wortreihenfolge oder Auflösung von Anomalien.

Wie können große Sprachmodelle Übersetzungsaufgaben besser erledigen?

Die Experimente im Paper „Adaptive Machine Translation with Large Language Models“ wurden mit dem Modell GPT-3.5 textdavinci-003 über seine offizielle API durchgeführt. Der Aufbau umfasste verschiedene Parameter wie top-p 1, Temperatureinstellungen und Token-Längen-Multiplikatoren für verschiedene Sprachen. Der Kontextdatensatz TICO-19 mit 3070 einzigartigen Segmenten wurde verwendet, um domänenspezifische Szenarien zu simulieren. Die Studie umfasste fünf verschiedene Sprachpaare: Englisch-Arabisch, Englisch-Chinesisch, Englisch-Französisch, Englisch-Kinyarwanda und Englisch-Spanisch.

Das Paper untersucht mehrere Strategien zur Verbesserung der Leistung von LLMs bei Übersetzungsaufgaben:

Adaptive MT mit Fuzzy Matches:

  • Ziel: Bewertung der Fähigkeit von LLMs, Übersetzungen in Echtzeit durch Nutzung des Kontexts ähnlicher, bereits übersetzter Segmente (Fuzzy Matches) anzupassen.
  • Methode: Verwendung von embeddingsbasierter Ähnlichkeitssuche, um Fuzzy Matches aus einem Datensatz zu extrahieren und diese zusammen mit einem neuen zu übersetzenden Satz zu präsentieren.
  • Beispiel: Wenn der zu übersetzende neue Satz „The quick brown fox jumps over the lazy dog“ ist, könnte das System ähnliche Sätze aus dem Datensatz abrufen und diese nutzen, um den Übersetzungsstil zu beeinflussen.

Vergleich mit Encoder-Decoder-MT-Modellen:

  • Ziel: Bewertung der Übersetzungsqualität von GPT-3.5 im Vergleich zu etablierten Encoder-Decoder-Modellen.
  • Methode: Vergleich der Übersetzungsausgaben von GPT-3.5 mit denen verschiedener APIs und Modelle unter Verwendung desselben Quelltexts.
  • Beispiel: Für einen gegebenen Satz auf Englisch würde jedes Modell (GPT-3.5, DeepL, Google Cloud usw.) eine Übersetzung in die Zielsprache generieren, und die Qualitätsmetriken (spBLEU, chrF++ usw.) würden verglichen werden.

Einbeziehung von Encoder-Decoder-MT:

  • Ziel: Untersuchung, ob die Kombination der Ausgaben von Encoder-Decoder-Modellen (z. B. DeepL) mit dem In-Context-Learning von LLMs die Übersetzungsqualität verbessern kann.
  • Methode: Anhängen der Übersetzung eines Encoder-Decoder-Modells an die im Kontext-Prompt für GPT-3.5 verwendeten Fuzzy Matches.
  • Beispiel: Wenn die Fuzzy Matches und das zu übersetzende neue Segment an GPT-3.5 gegeben werden, fügen Sie auch die Übersetzungen eines Encoder-Decoder-Modells für diese Segmente hinzu, um den Kontext zu bereichern.

Bilinguale Terminologieextraktion:

  • Ziel: Automatische Extraktion und Nutzung domänenspezifischer Begriffe zur Verbesserung der Konsistenz und Genauigkeit von Übersetzungen.
  • Methode: Training von GPT-3.5 zur Identifizierung und Extraktion von Schlüsselbegriffen aus Satzpaaren und anschließende Verwendung dieser Begriffe zur Einschränkung von Übersetzungen.
  • Beispiel: Bei einem Satzpaar mit medizinischen Begriffen würde GPT-3.5 Begriffe wie „Influenza“ und „Impfung“ extrahieren und sicherstellen, dass diese Begriffe konsequent in der Übersetzung verwendet werden.

Terminologie-beschränkte MT:

  • Ziel: Integration domänenspezifischer Terminologie in den Übersetzungsprozess, um die Einhaltung bestimmter Stile und Vokabulare zu verbessern.
  • Methode: Verwendung eines vordefinierten Glossars oder extrahierter Begriffe aus Fuzzy Matches, um die Übersetzungen einzuschränken.
  • Beispiel: Für einen Satz, der in einem medizinischen Kontext übersetzt werden soll, würde das System Begriffe aus einem medizinischen Glossar verwenden, wie z. B. „bösartig“ oder „gutartig“, um sicherzustellen, dass die Übersetzung die korrekte Terminologie verwendet.

Wie viel besser können große Sprachmodelle bei der Übersetzung sein?

Adaptive MT mit Fuzzy Matches:

Das Paper zeigte, dass die Verwendung von Fuzzy Matches (bereits übersetzte Segmente mit hoher Ähnlichkeit zum Quelltext) als Kontext die Übersetzungsqualität von LLMs wie GPT-3.5 signifikant verbesserte.

Zum Beispiel verbesserte sich beim Paar Englisch-Arabisch (EN-AR) die Nutzung eines einzelnen Fuzzy Matches den spBLEU-Score von 27,6 (Zero-Shot) auf 36,38. Mit zwei Fuzzy Matches stieg der Score weiter auf 38,41. Ähnliche Verbesserungen wurden bei anderen Sprachpaaren beobachtet, was die Wirksamkeit von In-Context-Learning mit Fuzzy Matches zeigt.

Vergleich mit Encoder-Decoder-MT-Modellen:

Die Few-Shot-Übersetzungsqualität von GPT-3.5 wurde mit mehreren Encoder-Decoder-MT-Systemen verglichen, darunter DeepL, Google Cloud Translation API, OPUS und NLLB.

Bei ressourcenintensiven Sprachen übertraf GPT-3.5 mit 5 oder 10 Fuzzy Matches bei bestimmten Sprachpaaren konventionelle Systeme. Zum Beispiel erreichte GPT-3.5 mit 5-Shot-Übersetzung beim Paar Englisch-Spanisch (EN-ES) einen spBLEU-Score von 61,77 und übertraf damit die Scores anderer Systeme.

Einbeziehung von Encoder-Decoder-MT:

Durch Anhängen der maschinellen Übersetzung des neuen Segments eines Encoder-Decoder-Modells an die Fuzzy Matches wurden erhebliche Verbesserungen der Übersetzungsqualität beobachtet.

Zum Beispiel verbesserte sich beim Paar Englisch-Arabisch das Anhängen von OPUS MT an 5 Fuzzy Matches den spBLEU-Score von 41,33 auf 45,9.

Bilinguale Terminologieextraktion:

GPT-3.5 wurde beauftragt, 5 zweisprachige Begriffe aus jedem Satzpaar im Kontextdatensatz zu extrahieren. Die menschliche Bewertung zeigte, dass die Mehrheit der von GPT-3 für die Sprachpaare EN-AR, EN-ES und EN-FR extrahierten Begriffe (über 95 %) korrekt waren.

Terminologie-beschränkte MT:

Das Paper fand heraus, dass die Integration von Begriffen aus einem Glossar in den Übersetzungsprozess die Übersetzungsqualität verbesserte, insbesondere in Zero-Shot-Szenarien. Zum Beispiel verbesserte sich beim Paar Englisch-Arabisch die Zero-Shot-Übersetzung mit Glossarbegriffen den spBLEU-Score von 27,6 auf 35,38.

Die menschliche Bewertung der terminologie-beschränkten MT zeigte, dass das Modell Glossarbegriffe häufiger erfolgreich ins Ziel übertrug als ohne Terminologieintegration.

ChatGPT-Modelle, BLOOM- und BLOOMZ-Modelle:

Das Paper verglich GPT-3.5 kurz mit neueren Konversationsmodellen wie GPT-3.5 Turbo und GPT-4. GPT-4 zeigte eine bessere Zero-Shot-Übersetzungsqualität, während GPT-3.5 Turbo effizienter war, aber bei Few-Shot-Übersetzungen eine vergleichbare Qualität aufwies.

Beim Vergleich von GPT-3.5 mit den Open-Source-Mehrsprachenmodellen BLOOM und BLOOMZ übertraf GPT-3.5 in der Regel beide für die meisten Sprachpaare, außer bei Englisch-Arabisch, wo BLOOM eine vergleichbare Leistung zeigte.

Wie bekomme ich ein LLM, das in der Übersetzung geübt ist?

Befolgen Sie die vom Autor vorgestellten Ansätze. Hier ist eine Schritt-für-Schritt-Anleitung für Sie!

Schritt 1: Zugang zu einer LLM-API erhalten:

  • Melden Sie sich für einen API-Schlüssel an, um auf ein großes Sprachmodell (LLM) zuzugreifen. Novita AI LLM API bietet Entwicklern eine Vielzahl kosteneffizienter LLM-Optionen, darunter Llama3–8b, Llama3–70b, Mythomax-13b usw.

Schritt 2: Bereiten Sie einen domänenspezifischen Übersetzungsspeicher ™ vor:

  • Sammeln Sie eine Reihe von genehmigten Übersetzungspaaren (sogenannte „Fuzzy Matches“) in Ihrer Interessensdomäne.
  • Strukturieren Sie die TM-Daten mit dem Satz der Ausgangssprache, gefolgt vom entsprechenden Satz der Zielsprache.

Schritt 3: Implementieren Sie In-Context-Learning für die Übersetzung:

  • Wenn Sie einen neuen Quellsatz übersetzen müssen, erstellen Sie einen Prompt für das LLM, der Folgendes enthält: 1. Den neuen Quellsatz in der Originalsprache, den Sie übersetzen möchten; 2. Die relevanten „Fuzzy-Match“-Übersetzungspaare aus Ihrem TM.
  • Ordnen Sie den Prompt mit den Quell- und Zielsprachpaaren in absteigender Reihenfolge der Ähnlichkeit zum neuen Quellsatz an.
  • Übergeben Sie diesen Prompt an die API des LLMs und lassen Sie es die übersetzte Ausgabe generieren. Das LLM wird seine Übersetzung an den Stil und die Terminologie des TM anpassen.

Schritt 4: Optimieren Sie das In-Context-Learning:

  • Experimentieren Sie mit der Anzahl der im Prompt enthaltenen „Fuzzy-Match“-Übersetzungspaare, mit dem Ziel 5–10 relevante Paare.
  • Überwachen Sie die Übersetzungsqualität und nehmen Sie Anpassungen am Prompt-Format, der Anzahl der Beispiele und anderen Parametern vor, um die besten Ergebnisse zu erzielen.

Schritt 5: Kombinieren Sie mit Encoder-Decoder-MT-Modellen:

  • Wenn verfügbar, integrieren Sie die Ausgabe eines starken Encoder-Decoder-MT-Modells in den Prompt, zusammen mit den „Fuzzy-Match“-Übersetzungspaaren.
  • Dies kann dazu beitragen, die Übersetzungsqualität weiter zu verbessern, insbesondere bei Sprachpaaren, bei denen das LLM allein möglicherweise noch nicht die Leistung des Encoder-Decoder-Modells erreicht.

Schritt 6: Verfeinern und erweitern Sie den TM kontinuierlich:

  • Aktualisieren Sie Ihren TM mit neuen genehmigten Übersetzungspaaren, während Sie mehr Inhalt übersetzen.
  • Überprüfen und kuratieren Sie den TM regelmäßig, um sicherzustellen, dass er für Ihre domänenspezifischen Anforderungen relevant und genau bleibt.

Den genauen Code für die im Paper erwähnten Ansätze (z. B. Extrahieren der Fuzzy Matches) finden Sie hier: https://github.com/ymoslem/Adaptive-MT-LLM

Was sind die zukünftigen Richtungen für die Übersetzung mit großen Sprachmodellen?

Das Paper „Adaptive Machine Translation with Large Language Models“ schlägt mehrere zukünftige Richtungen für die Übersetzung mit großen Sprachmodellen (LLMs) vor. Hier sind einige Schlüsselbereiche, die für weitere Forschung und Entwicklung identifiziert wurden:

Dynamische Few-Shot-Beispielauswahl:

Anstatt eine feste Anzahl von Fuzzy Matches zu verwenden, könnte der Auswahlprozess dynamisch sein und nur hochwertige Übereinstimmungen oberhalb eines bestimmten Ähnlichkeitswerts auswählen. Dies könnte die Leistung durch die Bereitstellung relevanteren Kontexts potenziell verbessern.

Integration von Glossarbegriffen oder MT-Ausgaben basierend auf Qualität:

Bei der Integration von Begriffen aus einem Glossar oder maschinellen Übersetzungsausgaben anderer Systeme könnte die Auswahl solcher mit bestimmten Qualitätsmerkmalen vorteilhaft sein. Diese selektive Integration könnte zu einer besseren Übersetzungsqualität führen.

Phrasenbasierte Terminologieextraktion:

Das Paper schlägt vor, die Verwendung längerer Phrasen anstelle einzelner Begriffe für die Terminologieextraktion zu untersuchen. Dies könnte besonders für ressourcenarme Sprachen nützlich sein, bei denen ein längerer Kontext die Übersetzungsgenauigkeit verbessern kann.

Fine-Tuning für ressourcenarme Sprachen und seltene Domänen:

Während sich das Paper auf die Out-of-the-Box-Leistung konzentriert, könnte zukünftige Arbeit das Fine-Tuning der Modelle für ressourcenarme Sprachen und spezifische Domänen umfassen. Dies könnte dazu beitragen, sowohl die Qualität als auch die Effizienz von Übersetzungen in diesen Bereichen zu verbessern.

Experimentieren mit Open-Source-LLMs:

Die Autoren schlagen vor, Experimente mit Open-Source-LLMs wie BLOOM und BLOOMZ zu erweitern, um mehr Aspekte von Übersetzungsaufgaben abzudecken. Dies könnte Einblicke in die Leistung dieser Modelle im Vergleich zu proprietären Modellen wie GPT-3.5 geben.

Qualitätsschätzung und automatische Auswahl:

Die Entwicklung automatischer Qualitätsschätzungsmethoden zur Auswahl der besten Übersetzung aus mehreren Alternativen könnte ein wertvolles Forschungsgebiet sein. Dies könnte den Vergleich von Übersetzungen mit und ohne Verwendung von Fuzzy Matches und/oder Terminologie beinhalten.

Verbesserung der Tokenisierung für nicht-lateinische Sprachen:

Die Behebung von Tokenisierungsproblemen für nicht-lateinische Sprachen, wie sie bei GPT-3.5 und Arabisch festgestellt wurden, könnte entscheidend für die Verbesserung der Leistung von LLMs über weitere Sprachpaare hinweg sein.

Untersuchung der großflächigen Bereitstellung und Integration von Benutzerfeedback:

Forschung darüber, wie LLMs effektiv in großem Maßstab in realen Übersetzungsszenarien bereitgestellt werden können, einschließlich der Integration von Benutzerfeedback zur kontinuierlichen Verbesserung von Übersetzungen.

Erforschung der Nutzung multimodaler Eingaben:

Zukünftige Forschung könnte die Verwendung multimodaler Eingaben (z. B. Bilder, Audio) neben Text untersuchen, um zusätzlichen Kontext für Übersetzungsaufgaben zu liefern, insbesondere bei Aufgaben, die beschreibende oder technische Inhalte betreffen.

Ethische Überlegungen und Vermeidung von Verzerrungen:

Wie bei allen KI-Anwendungen wird es wichtig sein, potenzielle ethische Bedenken zu untersuchen und anzugehen, einschließlich Verzerrungen in Übersetzungen, und Methoden zu entwickeln, um diese Probleme zu mildern.

Robustheit und Verallgemeinerbarkeit:

Sicherstellung, dass LLMs gut über verschiedene Domänen verallgemeinern können und auch bei begrenzten Daten für bestimmte Sprachpaare eine robuste Leistung beibehalten.

Fazit

Zusammenfassend ist der Weg zur Optimierung großer Sprachmodelle für Übersetzungsaufgaben vielschichtig und dynamisch. Mit Blick auf die Erkenntnisse aus „Adaptive Machine Translation with Large Language Models“ haben wir verschiedene Strategien und Experimente untersucht, die das Potenzial für signifikante Verbesserungen der Übersetzungsqualität unterstreichen. Vom Einsatz von In-Context-Learning mit Fuzzy Matches über die Integration von Encoder-Decoder-Modellen bis hin zur domänenspezifischen Terminologieextraktion ebnen die hier diskutierten Fortschritte den Weg für verbesserte Genauigkeit und Effizienz bei der Sprachübersetzung.

In Zukunft bieten die im Paper hervorgehobenen Forschungsrichtungen, wie dynamische Beispielauswahl, multimodale Eingaben und ethische Überlegungen, vielversprechende Wege für weitere Erkundungen. Diese Bemühungen zielen nicht nur darauf ab, die technischen Fähigkeiten von LLMs in verschiedenen Sprachen und Domänen zu verfeinern, sondern auch breitere gesellschaftliche Auswirkungen zu adressieren und einen gleichberechtigten Zugang zu hochwertigen Übersetzungswerkzeugen zu gewährleisten.

Referenzen

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen unterstützt. Mit nahtlos integrierten APIs, serverlosem Computing und GPU-Beschleunigung bieten wir die kosteneffizienten Tools, die Sie benötigen, um Ihr KI-gesteuertes Geschäft schnell aufzubauen und zu skalieren. Beseitigen Sie Infrastruktur-Herausforderungen und starten Sie kostenlos – Novita AI macht Ihre KI-Träume wahr.