Introduction
Dans cet article de blog, nous plongeons dans le monde fascinant des grands modèles de langage (LLM) et leurs capacités à effectuer des tâches de traduction. Inspiré par l’article académique intitulé « Adaptive Machine Translation with Large Language Models », nous explorerons les questions suivantes :
- Comment les LLM réalisent-ils une traduction sans entraînement supplémentaire ni réglage fin ?
- Quelles stratégies peuvent être employées pour améliorer leurs performances de traduction ?
- Comment adopter ces stratégies pour que notre propre LLM devienne compétent en traduction ?
- Quelles orientations futures sont prometteuses pour améliorer la traduction avec les LLM ?
Si cela vous intéresse, continuez à lire !
Comment les grands modèles de langage effectuent-ils les tâches de traduction ?
Pré-entraînement :
Les LLM commencent par une phase appelée pré-entraînement, où ils sont exposés à une vaste quantité de données textuelles en plusieurs langues. Cela les aide à apprendre les modèles, la grammaire, le vocabulaire et les relations entre les mots et les phrases dans différentes langues.
Compréhension du contexte :
Lorsqu’on lui donne une phrase à traduire, le LLM utilise sa compréhension du contexte pour interpréter le sens des mots et la structure globale de la phrase.
Génération de séquence :
Le modèle génère ensuite une traduction en prédisant la séquence de mots la plus probable dans la langue cible qui correspond à la phrase d’entrée.
Nature autorégressive :
Les LLM utilisent souvent une approche autorégressive, où ils prédisent le mot suivant dans la séquence en fonction des mots déjà générés. Cela continue jusqu’à ce que le modèle génère un token de fin de phrase ou atteigne une longueur prédéfinie.
Recherche par faisceau :
Pour améliorer la qualité de la traduction, les LLM peuvent utiliser des techniques comme la recherche par faisceau, qui développe simultanément plusieurs hypothèses de traduction et sélectionne la plus probable selon une fonction de score.
Gestion de l’ambiguïté :
Les LLM sont conçus pour gérer l’ambiguïté du langage en choisissant des traductions statistiquement plus probables compte tenu du contexte, même si plusieurs traductions sont grammaticalement correctes.
Post-traitement :
Après avoir généré une traduction, certains modèles peuvent appliquer des étapes de post-traitement pour affiner le résultat, comme la correction de la grammaire, l’ajustement de l’ordre des mots ou la résolution d’anomalies.
Comment les grands modèles de langage peuvent-ils mieux effectuer les tâches de traduction ?
Les expériences de l’article « Adaptive Machine Translation with Large Language Models » ont été menées en utilisant le modèle GPT-3.5 textdavinci-003 via son API officielle. La configuration incluait divers paramètres comme top-p 1, des ajustements de température et des multiplicateurs de longueur de token pour différentes langues. Le jeu de données contextuelles TICO-19, composé de 3070 segments uniques, a été utilisé pour simuler des scénarios spécifiques à un domaine. L’étude a porté sur cinq paires de langues diverses : anglais-arabe, anglais-chinois, anglais-français, anglais-kinyarwanda et anglais-espagnol.

L’article explore plusieurs stratégies pour améliorer les performances des LLM dans les tâches de traduction :
TA adaptative avec correspondances floues :
- Objectif : Évaluer la capacité des LLM à adapter les traductions en temps réel en exploitant le contexte de segments similaires déjà traduits (correspondances floues).
- Méthode : Utilisation d’une recherche par similarité d’incorporation (embedding) pour extraire des correspondances floues d’un jeu de données et les présenter avec une nouvelle phrase à traduire.
- Exemple : Si la nouvelle phrase à traduire est « The quick brown fox jumps over the lazy dog », le système peut récupérer des phrases similaires du jeu de données et les utiliser pour influencer le style de traduction.
Comparaison avec les modèles de TA encodeur-décodeur :
- Objectif : Évaluer la qualité de traduction de GPT-3.5 par rapport aux modèles encodeur-décodeur établis.
- Méthode : Comparaison des sorties de traduction de GPT-3.5 avec celles de diverses API et modèles utilisant le même texte source.
- Exemple : Pour une phrase donnée en anglais, chaque modèle (GPT-3.5, DeepL, Google Cloud, etc.) génère une traduction dans la langue cible, et les métriques de qualité (spBLEU, chrF++, etc.) sont comparées.
Incorporation de la TA encodeur-décodeur :
- Objectif : Explorer si la combinaison des sorties des modèles encodeur-décodeur (par exemple DeepL) avec l’apprentissage contextuel des LLM peut améliorer la qualité de la traduction.
- Méthode : Ajout de la traduction d’un modèle encodeur-décodeur aux correspondances floues utilisées dans l’invite contextuelle pour GPT-3.5.
- Exemple : Si les correspondances floues et le nouveau segment à traduire sont fournis à GPT-3.5, inclure également les traductions d’un modèle encodeur-décodeur pour ces segments afin d’enrichir le contexte.
Extraction bilingue de terminologie :
- Objectif : Extraire et utiliser automatiquement des termes spécifiques à un domaine pour améliorer la cohérence et la précision des traductions.
- Méthode : Entraînement de GPT-3.5 à identifier et extraire les termes clés des paires de phrases, puis utiliser ces termes pour contraindre les traductions.
- Exemple : Étant donné une paire de phrases contenant des termes médicaux, GPT-3.5 extrait des termes comme « influenza » et « vaccination » et s’assure que ces termes sont utilisés de manière cohérente dans la traduction.
TA contrainte par la terminologie :
- Objectif : Intégrer une terminologie spécifique au domaine dans le processus de traduction pour améliorer l’adhésion à des styles et vocabulaires spécifiques.
- Méthode : Utilisation d’un glossaire prédéfini ou de termes extraits des correspondances floues pour contraindre les traductions.
- Exemple : Pour une phrase à traduire dans un contexte médical, le système utilise des termes d’un glossaire médical, comme « malin » ou « bénin », pour garantir l’utilisation de la terminologie correcte.
Dans quelle mesure les grands modèles de langage peuvent-ils être meilleurs en traduction ?
TA adaptative avec correspondances floues :
L’article a démontré que l’utilisation de correspondances floues (segments déjà traduits avec une grande similarité avec le texte source) comme contexte améliorait significativement la qualité de traduction des LLM comme GPT-3.5.
Par exemple, pour la paire anglais-arabe (EN-AR), l’utilisation d’une seule correspondance floue a amélioré les scores spBLEU de 27,6 (zero-shot) à 36,38. Avec deux correspondances floues, le score est monté à 38,41. Des améliorations similaires ont été observées dans d’autres paires de langues, montrant l’efficacité de l’apprentissage contextuel avec des correspondances floues.
Comparaison avec les modèles de TA encodeur-décodeur :
La qualité de traduction en quelques exemples (few-shot) de GPT-3.5 a été comparée à plusieurs systèmes de TA encodeur-décodeur, notamment DeepL, Google Cloud Translation API, OPUS et NLLB.
Pour les langues à forte ressources, GPT-3.5 avec 5 ou 10 correspondances floues a surpassé les systèmes conventionnels dans certaines paires de langues. Par exemple, en anglais-espagnol (EN-ES), GPT-3.5 avec une traduction en 5 exemples a obtenu un score spBLEU de 61,77, dépassant les scores des autres systèmes.

Incorporation de la TA encodeur-décodeur :
En ajoutant la traduction automatique du nouveau segment provenant d’un modèle encodeur-décodeur aux correspondances floues, l’article a observé des améliorations substantielles de la qualité de traduction.
Par exemple, en anglais-arabe, l’ajout d’OPUS MT à 5 correspondances floues a amélioré le score spBLEU de 41,33 à 45,9.

Extraction bilingue de terminologie :
GPT-3.5 a été chargé d’extraire 5 termes bilingues de chaque paire de phrases dans le jeu de données contextuel. L’évaluation humaine a montré que la majorité des termes (plus de 95 %) extraits par GPT-3 pour les paires EN-AR, EN-ES et EN-FR étaient exacts.

TA contrainte par la terminologie :
L’article a constaté que l’intégration de termes d’un glossaire dans le processus de traduction améliorait la qualité de la traduction, en particulier dans les scénarios zero-shot. Par exemple, en anglais-arabe, la traduction zero-shot avec des termes de glossaire a amélioré le score spBLEU de 27,6 à 35,38.
L’évaluation humaine de la TA contrainte par la terminologie a montré que le modèle réussissait à transférer les termes du glossaire dans la cible plus souvent que sans incorporation de terminologie.
Modèles ChatGPT, BLOOM et BLOOMZ :
L’article a brièvement comparé GPT-3.5 avec des modèles conversationnels plus récents comme GPT-3.5 Turbo et GPT-4. GPT-4 a montré une meilleure qualité de traduction zero-shot, tandis que GPT-3.5 Turbo était plus efficace mais avec une qualité comparable pour la traduction en quelques exemples.
En comparant GPT-3.5 avec les modèles multilingues open-source BLOOM et BLOOMZ, GPT-3.5 a généralement surpassé les deux pour la plupart des paires de langues, à l’exception de l’anglais-arabe, où BLOOM a montré des performances comparables.
Comment puis-je rendre un LLM compétent en traduction ?
Suivez les approches présentées par l’auteur, voici un guide étape par étape pour vous !
Étape 1 Obtenir l’accès à une API LLM :
- Inscrivez-vous pour obtenir une clé API afin d’accéder à un grand modèle de langage (LLM). Novita AI LLM API propose aux développeurs de nombreuses options LLM rentables, notamment Llama3-8b, Llama3-70b, Mythomax-13b, etc.

Étape 2 Préparer une mémoire de traduction ™ spécifique au domaine :
- Collectez un ensemble de paires de traductions approuvées (appelées « correspondances floues ») dans votre domaine d’intérêt.
- Structurez les données de la TM avec la phrase en langue source suivie de la phrase correspondante en langue cible.
Étape 3 Mettre en œuvre l’apprentissage contextuel pour la traduction :
- Lorsque vous devez traduire une nouvelle phrase source, construisez une invite pour le LLM qui inclut : 1. La nouvelle phrase source dans la langue d’origine que vous souhaitez traduire ; 2. Les paires de traductions « correspondances floues » pertinentes de votre TM.
- Organisez l’invite avec les paires de langues source et cible par ordre décroissant de similarité avec la nouvelle phrase source.
- Transmettez cette invite à l’API du LLM et laissez-la générer la sortie traduite. Le LLM adaptera sa traduction pour correspondre au style et à la terminologie utilisés dans la TM.
Étape 4 Optimiser l’apprentissage contextuel :
- Expérimentez avec le nombre de paires de « correspondances floues » à inclure dans l’invite, en visant 5 à 10 paires pertinentes.
- Surveillez la qualité de la traduction et apportez des ajustements au format de l’invite, au nombre d’exemples et à d’autres paramètres pour obtenir les meilleurs résultats.
Étape 5 Combiner avec des modèles de TA encodeur-décodeur :
- Si disponible, incorporez la sortie d’un modèle de traduction automatique encodeur-décodeur performant dans l’invite, ainsi que les paires de « correspondances floues ».
- Cela peut aider à améliorer encore la qualité de la traduction, en particulier pour les paires de langues où le LLM seul peut encore être en deçà des performances du modèle encodeur-décodeur.
Étape 6 Affiner et étendre continuellement la TM :
- Mettez à jour votre TM avec de nouvelles paires de traductions approuvées au fur et à mesure que vous traduisez plus de contenu.
- Examinez et organisez périodiquement la TM pour vous assurer qu’elle reste pertinente et précise pour vos besoins spécifiques au domaine.
Vous pouvez trouver les codes exacts pour les approches mentionnées dans l’article (par exemple, l’extraction des correspondances floues) ici : https://github.com/ymoslem/Adaptive-MT-LLM

Quelles sont les orientations futures pour la traduction avec les grands modèles de langage ?
L’article « Adaptive Machine Translation with Large Language Models » suggère plusieurs orientations futures pour la traduction avec les grands modèles de langage (LLM). Voici quelques domaines clés identifiés pour une exploration et un développement supplémentaires :
Sélection dynamique d’exemples en quelques coups :
Au lieu d’utiliser un nombre fixe de correspondances floues, le processus de sélection pourrait être dynamique, en choisissant uniquement les correspondances de haute qualité au-dessus d’un certain score de similarité. Cela pourrait potentiellement améliorer les performances en fournissant un contexte plus pertinent.
Incorporation de termes de glossaire ou de sorties de TA en fonction de la qualité :
Lors de l’intégration de termes d’un glossaire ou de sorties de traduction automatique provenant d’autres systèmes, la sélection de ceux présentant des caractéristiques de qualité spécifiques pourrait être bénéfique. Cette intégration sélective pourrait conduire à une meilleure qualité de traduction.
Extraction de terminologie basée sur des phrases :
L’article suggère d’explorer l’utilisation de phrases plus longues au lieu de termes individuels pour l’extraction de terminologie. Cela pourrait être particulièrement utile pour les langues peu dotées, où un contexte plus long peut améliorer la précision de la traduction.
Réglage fin pour les langues peu dotées et les domaines rares :
Bien que l’article se concentre sur les performances prêtes à l’emploi, les travaux futurs pourraient inclure le réglage fin des modèles pour les langues peu dotées et les domaines spécifiques. Cela pourrait aider à améliorer à la fois la qualité et l’efficacité des traductions dans ces domaines.
Expérimentation avec les LLM open-source :
Les auteurs proposent d’étendre les expériences avec les LLM open-source comme BLOOM et BLOOMZ pour couvrir davantage d’aspects des tâches de traduction. Cela pourrait fournir des informations sur les performances de ces modèles par rapport aux modèles propriétaires comme GPT-3.5.
Estimation de la qualité et sélection automatique :
Le développement de méthodes d’estimation automatique de la qualité pour sélectionner la meilleure traduction parmi plusieurs alternatives pourrait être un domaine de recherche précieux. Cela pourrait impliquer la comparaison de traductions avec et sans l’utilisation de correspondances floues et/ou de terminologie.
Amélioration de la tokenisation pour les langues non latines :
La résolution des problèmes de tokenisation pour les langues non latines, comme constaté avec GPT-3.5 et l’arabe, pourrait être cruciale pour améliorer les performances des LLM sur davantage de paires de langues.
Investigation du déploiement à grande échelle et de l’intégration des retours utilisateurs :
La recherche sur la manière dont les LLM peuvent être déployés efficacement à grande échelle dans des scénarios de traduction réels, y compris l’intégration des retours utilisateurs pour améliorer continuellement les traductions.
Exploration de l’utilisation d’entrées multimodales :
Les recherches futures pourraient se pencher sur l’utilisation d’entrées multimodales (par exemple, images, audio) en complément du texte pour fournir un contexte supplémentaire pour les tâches de traduction, en particulier pour les tâches impliquant un contenu descriptif ou technique.
Considérations éthiques et atténuation des biais :
Comme pour toutes les applications d’IA, il sera important d’étudier et de traiter les préoccupations éthiques potentielles, y compris les biais dans les traductions, et de développer des méthodes pour atténuer ces problèmes.
Robustesse et généralisabilité :
S’assurer que les LLM peuvent bien généraliser à travers différents domaines et maintenir des performances robustes même avec des données limitées pour certaines paires de langues.
Conclusion
En conclusion, le chemin vers l’optimisation des grands modèles de langage pour les tâches de traduction est multidimensionnel et dynamique. En nous appuyant sur les enseignements de l’article « Adaptive Machine Translation with Large Language Models », nous avons exploré diverses stratégies et expériences qui soulignent le potentiel d’améliorations significatives de la qualité de la traduction. De l’exploitation de l’apprentissage contextuel avec des correspondances floues à l’intégration de modèles encodeur-décodeur et à l’extraction de terminologie spécifique au domaine, les avancées discutées ici ouvrent la voie à une meilleure précision et efficacité dans la traduction linguistique.
À l’avenir, les orientations de recherche futures mises en évidence dans l’article, telles que la sélection dynamique d’exemples, les entrées multimodales et les considérations éthiques, offrent des pistes prometteuses pour une exploration plus poussée. Ces efforts visent non seulement à affiner les capacités techniques des LLM dans diverses langues et domaines, mais aussi à répondre aux implications sociétales plus larges et à garantir un accès équitable à des outils de traduction de haute qualité.
Références
Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294
Novita AI est la plateforme cloud tout-en-un qui dynamise vos ambitions en matière d’IA. Grâce à des API intégrées de manière transparente, à l’informatique sans serveur et à l’accélération GPU, nous fournissons les outils rentables dont vous avez besoin pour créer et faire évoluer rapidement votre activité basée sur l’IA. Éliminez les problèmes d’infrastructure et commencez gratuitement — Novita AI fait de vos rêves d’IA une réalité.
