¿Cómo Hacer que los LLMs Sean Mejores en Traducción?

Introducción

En este blog, profundizamos en el fascinante mundo de los modelos de lenguaje grandes (LLMs) y sus capacidades para realizar tareas de traducción. Inspirados por el artículo académico titulado “Adaptive Machine Translation with Large Language Models”, exploraremos las siguientes preguntas:

¿Cómo logran los LLMs la traducción sin ningún entrenamiento o ajuste adicional?
¿Qué estrategias se pueden emplear para mejorar su rendimiento en traducción?
¿Cómo podemos adoptar estas estrategias para que nuestro propio LLM sea experto en traducción?
¿Qué direcciones futuras prometen mejorar la traducción con LLMs?

Si te interesa, ¡sigue leyendo!

¿Cómo Realizan los Modelos de Lenguaje Grandes las Tareas de Traducción?

Preentrenamiento:

Los LLMs comienzan con una fase llamada preentrenamiento, donde se exponen a una enorme cantidad de datos de texto en múltiples idiomas. Esto les ayuda a aprender patrones, gramática, vocabulario y las relaciones entre palabras y frases a través de los idiomas.

Comprensión del Contexto:

Cuando se les da una oración para traducir, el LLM utiliza su comprensión del contexto para interpretar el significado de las palabras y la estructura general de la oración.

Generación de Secuencias:

Luego, el modelo genera una traducción prediciendo la secuencia de palabras más probable en el idioma de destino que corresponde a la oración de entrada.

Naturaleza Autoregresiva:

Los LLMs a menudo utilizan un enfoque autoregresivo, donde predicen la siguiente palabra en la secuencia basándose en las palabras generadas previamente. Esto continúa hasta que el modelo genera un token de fin de oración o alcanza una longitud predefinida.

Búsqueda de Haz (Beam Search):

Para mejorar la calidad de la traducción, los LLMs pueden usar técnicas como la búsqueda de haz, que expande múltiples hipótesis de traducción simultáneamente y selecciona la más probable según una función de puntuación.

Manejo de Ambigüedad:

Los LLMs están diseñados para manejar la ambigüedad en el lenguaje eligiendo traducciones que sean estadísticamente más probables dado el contexto, incluso si múltiples traducciones son gramaticalmente correctas.

Postprocesamiento:

Después de generar una traducción, algunos modelos pueden aplicar pasos de postprocesamiento para refinar el resultado, como corregir la gramática, ajustar el orden de las palabras o resolver cualquier anomalía.

¿Cómo Pueden los Modelos de Lenguaje Grandes Realizar Mejor la Tarea de Traducción?

Los experimentos del artículo “Adaptive Machine Translation with Large Language Models” se realizaron utilizando el modelo GPT-3.5 textdavinci-003 a través de su API oficial. La configuración incluyó varios parámetros como top-p 1, ajustes de temperatura y multiplicadores de longitud de token para diferentes idiomas. Se utilizó el conjunto de datos de contexto TICO-19, con 3070 segmentos únicos, para simular escenarios específicos de dominio. El estudio involucró cinco pares de idiomas diversos: inglés a árabe, inglés a chino, inglés a francés, inglés a kinyarwanda e inglés a español.

El artículo explora varias estrategias para mejorar el rendimiento de los LLMs en tareas de traducción:

Traducción Automática Adaptativa con Coincidencias Parciales (Fuzzy Matches):

Objetivo: Evaluar la capacidad de los LLMs para adaptar traducciones en tiempo real aprovechando el contexto de segmentos similares previamente traducidos (coincidencias parciales).
Método: Se utilizó la recuperación basada en similitud de incrustaciones (embeddings) para extraer coincidencias parciales de un conjunto de datos y presentarlas junto con una nueva oración a traducir.
Ejemplo: Si la nueva oración a traducir es “The quick brown fox jumps over the lazy dog”, el sistema podría recuperar oraciones similares del conjunto de datos y usarlas para influir en el estilo de traducción.

Comparación con Modelos MT Codificador-Decodificador:

Objetivo: Evaluar la calidad de traducción de GPT-3.5 frente a modelos codificador-decodificador establecidos.
Método: Se compararon las salidas de traducción de GPT-3.5 con las de varias API y modelos utilizando el mismo texto fuente.
Ejemplo: Para una oración dada en inglés, cada modelo (GPT-3.5, DeepL, Google Cloud, etc.) generaría una traducción en el idioma de destino, y se compararían las métricas de calidad (spBLEU, chrF++, etc.).

Incorporación de MT Codificador-Decodificador:

Objetivo: Explorar si la combinación de las salidas de modelos codificador-decodificador (por ejemplo, DeepL) con el aprendizaje en contexto de los LLMs podría mejorar la calidad de la traducción.
Método: Se añadió la traducción de un modelo codificador-decodificador a las coincidencias parciales utilizadas en el prompt de contexto para GPT-3.5.
Ejemplo: Si se proporcionan las coincidencias parciales y el nuevo segmento a traducir a GPT-3.5, también incluir las traducciones de un modelo codificador-decodificador para esos segmentos para enriquecer el contexto.

Extracción de Terminología Bilingüe:

Objetivo: Extraer automáticamente y utilizar términos específicos del dominio para mejorar la consistencia y precisión de las traducciones.
Método: Se entrenó a GPT-3.5 para identificar y extraer términos clave de pares de oraciones y luego usar estos términos para restringir las traducciones.
Ejemplo: Dado un par de oraciones que contienen términos médicos, GPT-3.5 extraería términos como “influenza” y “vaccination” y aseguraría que estos términos se usen de manera consistente en la traducción.

Traducción Automática Restringida por Terminología:

Objetivo: Integrar terminología específica del dominio en el proceso de traducción para mejorar la adherencia a estilos y vocabularios particulares.
Método: Se utilizó un glosario predefinido o términos extraídos de coincidencias parciales para restringir las traducciones.
Ejemplo: Para una oración a traducir dentro de un contexto médico, el sistema usaría términos de un glosario médico, como “malignant” o “benign”, para asegurar que la traducción utilice la terminología correcta.

¿Cuánto Mejor Pueden Ser los Modelos de Lenguaje Grandes en la Traducción?

Traducción Automática Adaptativa con Coincidencias Parciales:

El artículo demostró que el uso de coincidencias parciales (segmentos previamente traducidos con alta similitud al texto fuente) como contexto mejoró significativamente la calidad de traducción de LLMs como GPT-3.5.

Por ejemplo, en el par inglés a árabe (EN-AR), usar una sola coincidencia parcial mejoró las puntuaciones spBLEU de 27.6 (zero-shot) a 36.38. Con dos coincidencias parciales, la puntuación aumentó aún más a 38.41. Se observaron mejoras similares en otros pares de idiomas, mostrando la efectividad del aprendizaje en contexto con coincidencias parciales.

Comparación con Modelos MT Codificador-Decodificador:

La calidad de traducción few-shot de GPT-3.5 se comparó con varios sistemas MT codificador-decodificador, incluyendo DeepL, Google Cloud Translation API, OPUS y NLLB.

Para idiomas con muchos recursos, GPT-3.5 con 5 o 10 coincidencias parciales superó a los sistemas convencionales en ciertos pares de idiomas. Por ejemplo, en inglés a español (EN-ES), GPT-3.5 con traducción 5-shot alcanzó una puntuación spBLEU de 61.77, superando las puntuaciones de otros sistemas.

Incorporación de MT Codificador-Decodificador:

Al añadir la traducción automática del nuevo segmento de un modelo codificador-decodificador a las coincidencias parciales, el artículo observó mejoras sustanciales en la calidad de traducción.

Por ejemplo, en inglés a árabe, añadir OPUS MT a 5 coincidencias parciales mejoró la puntuación spBLEU de 41.33 a 45.9.

Extracción de Terminología Bilingüe:

Se asignó a GPT-3.5 la tarea de extraer 5 términos bilingües de cada par de oraciones en el conjunto de datos de contexto. La evaluación humana mostró que la mayoría de los términos (más del 95%) extraídos por GPT-3 para los pares EN-AR, EN-ES y EN-FR eran precisos.

Traducción Automática Restringida por Terminología:

El artículo encontró que integrar términos de un glosario en el proceso de traducción mejoró la calidad de traducción, especialmente en escenarios zero-shot. Por ejemplo, en inglés a árabe, la traducción zero-shot con términos del glosario mejoró la puntuación spBLEU de 27.6 a 35.38.

La evaluación humana de la traducción restringida por terminología mostró que el modelo transfería los términos del glosario al destino con más frecuencia que sin la incorporación de terminología.

Modelos ChatGPT, BLOOM y BLOOMZ:

El artículo comparó brevemente GPT-3.5 con modelos conversacionales más nuevos como GPT-3.5 Turbo y GPT-4. GPT-4 mostró mejor calidad de traducción zero-shot, mientras que GPT-3.5 Turbo fue más eficiente pero con calidad comparable para traducción few-shot.

Al comparar GPT-3.5 con los modelos multilingües de código abierto BLOOM y BLOOMZ, GPT-3.5 generalmente superó a ambos en la mayoría de los pares de idiomas, excepto en inglés a árabe, donde BLOOM mostró un rendimiento comparable.

¿Cómo Obtengo un LLM Experto en Traducción?

Siguiendo los enfoques presentados por el autor, ¡aquí tienes un paso a paso!

Paso 1 Obtener Acceso a una API de LLM:

Regístrate para obtener una clave de API para acceder a un modelo de lenguaje grande. Novita AI LLM API proporciona a los desarrolladores muchas opciones de LLM rentables, incluyendo Llama3–8b, Llama3–70b, Mythomax-13b, etc.

Paso 2 Preparar una Memoria de Traducción ™ Específica del Dominio:

Recopila un conjunto de pares de traducción aprobados (llamados “coincidencias parciales”) en tu dominio de interés.
Estructura los datos de la TM con la oración en el idioma fuente seguida de la oración correspondiente en el idioma de destino.

Paso 3 Implementar Aprendizaje en Contexto para la Traducción:

Cuando necesites traducir una nueva oración fuente, construye un prompt para el LLM que incluya: 1. La nueva oración fuente en el idioma original que deseas traducir; 2. Los pares de traducción de “coincidencias parciales” relevantes de tu TM.
Organiza el prompt con los pares de idiomas fuente y destino en orden descendente de similitud con la nueva oración fuente.
Envía este prompt a la API del LLM y deja que genere la salida traducida. El LLM adaptará su traducción para que coincida con el estilo y la terminología utilizados en la TM.

Paso 4 Optimizar el Aprendizaje en Contexto:

Experimenta con el número de pares de traducción de “coincidencias parciales” a incluir en el prompt, apuntando a 5–10 pares relevantes.
Monitorea la calidad de la traducción y realiza ajustes en el formato del prompt, número de ejemplos y otros parámetros para obtener los mejores resultados.

Paso 5 Combinar con Modelos MT Codificador-Decodificador:

Si está disponible, incorpora la salida de un modelo de traducción automática codificador-decodificador fuerte en el prompt, junto con los pares de traducción de “coincidencias parciales”.
Esto puede ayudar a mejorar aún más la calidad de la traducción, especialmente para pares de idiomas donde el LLM por sí solo aún no iguala el rendimiento del modelo codificador-decodificador.

Paso 6 Refinar y Expandir Continuamente la TM:

Actualiza tu TM con nuevos pares de traducción aprobados a medida que traduzcas más contenido.
Revisa y cura periódicamente la TM para asegurarte de que siga siendo relevante y precisa para tus necesidades específicas del dominio.

Puedes encontrar los códigos exactos para los enfoques mencionados en el artículo (por ejemplo, extraer las coincidencias parciales) aquí: https://github.com/ymoslem/Adaptive-MT-LLM

¿Cuáles Son las Direcciones Futuras para la Traducción con Modelos de Lenguaje Grandes?

El artículo “Adaptive Machine Translation with Large Language Models” sugiere varias direcciones futuras para la traducción con modelos de lenguaje grandes (LLMs). Aquí hay algunas áreas clave identificadas para mayor exploración y desarrollo:

Selección Dinámica de Ejemplos Few-Shot:

En lugar de usar un número fijo de coincidencias parciales, el proceso de selección podría ser dinámico, eligiendo solo coincidencias de alta calidad por encima de un cierto puntaje de similitud. Esto podría mejorar potencialmente el rendimiento al proporcionar un contexto más relevante.

Incorporación de Términos del Glosario o Salidas de MT Basada en Calidad:

Al integrar términos de un glosario o salidas de traducción automática de otros sistemas, seleccionar aquellos con características de calidad específicas podría ser beneficioso. Esta integración selectiva podría conducir a una mejor calidad de traducción.

Extracción de Terminología Basada en Frases:

El artículo sugiere explorar el uso de frases más largas en lugar de términos individuales para la extracción de terminología. Esto podría ser particularmente útil para idiomas con pocos recursos donde un contexto más largo puede mejorar la precisión de la traducción.

Ajuste Fino para Idiomas con Pocos Recursos y Dominios Raros:

Mientras que el artículo se enfoca en el rendimiento fuera de la caja, el trabajo futuro podría implicar el ajuste fino de los modelos para idiomas con pocos recursos y dominios específicos. Esto podría ayudar a mejorar tanto la calidad como la eficiencia de las traducciones en estas áreas.

Experimentación con LLMs de Código Abierto:

Los autores proponen expandir los experimentos con LLMs de código abierto como BLOOM y BLOOMZ para cubrir más aspectos de las tareas de traducción. Esto podría proporcionar información sobre el rendimiento de estos modelos en comparación con modelos propietarios como GPT-3.5.

Estimación de Calidad y Selección Automática:

Desarrollar métodos automáticos de estimación de calidad para seleccionar la mejor traducción entre múltiples alternativas podría ser un área valiosa de investigación. Esto podría implicar comparar traducciones con y sin el uso de coincidencias parciales y/o terminología.

Mejora de la Tokenización para Idiomas No Latinos:

Abordar los problemas de tokenización para idiomas no latinos, como se observó con GPT-3.5 y el árabe, podría ser crucial para mejorar el rendimiento de los LLMs en más pares de idiomas.

Investigación sobre Implementación a Gran Escala e Integración de Comentarios de Usuarios:

Investigar cómo los LLMs pueden implementarse efectivamente a escala en escenarios de traducción del mundo real, incluyendo la integración de comentarios de usuarios para mejorar continuamente las traducciones.

Exploración del Uso de Entradas Multimodales:

La investigación futura podría analizar el uso de entradas multimodales (por ejemplo, imágenes, audio) junto con texto para proporcionar contexto adicional para las tareas de traducción, especialmente para tareas que involucren contenido descriptivo o técnico.

Consideraciones Éticas y Mitigación de Sesgos:

Como con todas las aplicaciones de IA, será importante estudiar y abordar posibles preocupaciones éticas, incluido el sesgo en las traducciones, y desarrollar métodos para mitigar estos problemas.

Robustez y Generalización:

Asegurar que los LLMs puedan generalizar bien en diferentes dominios y mantener un rendimiento robusto incluso con datos limitados para ciertos pares de idiomas.

Conclusión

En conclusión, el viaje para optimizar los modelos de lenguaje grandes para tareas de traducción es multifacético y dinámico. Reflexionando sobre las ideas de “Adaptive Machine Translation with Large Language Models”, hemos explorado diversas estrategias y experimentos que subrayan el potencial de mejoras significativas en la calidad de la traducción. Desde aprovechar el aprendizaje en contexto con coincidencias parciales hasta integrar modelos codificador-decodificador y extracción de terminología específica del dominio, los avances discutidos aquí allanan el camino para una mayor precisión y eficiencia en la traducción de idiomas.

De cara al futuro, las direcciones de investigación futuras destacadas en el artículo, como la selección dinámica de ejemplos, las entradas multimodales y las consideraciones éticas, ofrecen vías prometedoras para una mayor exploración. Estos esfuerzos apuntan no solo a refinar las capacidades técnicas de los LLMs en varios idiomas y dominios, sino también a abordar implicaciones sociales más amplias y garantizar un acceso equitativo a herramientas de traducción de alta calidad.

Referencias

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

Novita AI es la plataforma integral en la nube que impulsa tus ambiciones de IA. Con API integradas sin problemas, computación serverless y aceleración GPU, proporcionamos las herramientas rentables que necesitas para construir y escalar rápidamente tu negocio impulsado por IA. Elimina los dolores de cabeza de infraestructura y comienza gratis — Novita AI hace realidad tus sueños de IA.

Introducción

¿Cómo Realizan los Modelos de Lenguaje Grandes las Tareas de Traducción?

Preentrenamiento:

Comprensión del Contexto:

Generación de Secuencias:

Naturaleza Autoregresiva:

Búsqueda de Haz (Beam Search):

Manejo de Ambigüedad:

Postprocesamiento:

¿Cómo Pueden los Modelos de Lenguaje Grandes Realizar Mejor la Tarea de Traducción?

Traducción Automática Adaptativa con Coincidencias Parciales (Fuzzy Matches):

Comparación con Modelos MT Codificador-Decodificador:

Incorporación de MT Codificador-Decodificador:

Extracción de Terminología Bilingüe:

Traducción Automática Restringida por Terminología:

¿Cuánto Mejor Pueden Ser los Modelos de Lenguaje Grandes en la Traducción?

Traducción Automática Adaptativa con Coincidencias Parciales:

Comparación con Modelos MT Codificador-Decodificador:

Incorporación de MT Codificador-Decodificador:

Extracción de Terminología Bilingüe:

Traducción Automática Restringida por Terminología:

Modelos ChatGPT, BLOOM y BLOOMZ:

¿Cómo Obtengo un LLM Experto en Traducción?

Paso 1 Obtener Acceso a una API de LLM:

Paso 2 Preparar una Memoria de Traducción ™ Específica del Dominio:

Paso 3 Implementar Aprendizaje en Contexto para la Traducción:

Paso 4 Optimizar el Aprendizaje en Contexto:

Paso 5 Combinar con Modelos MT Codificador-Decodificador:

Paso 6 Refinar y Expandir Continuamente la TM:

¿Cuáles Son las Direcciones Futuras para la Traducción con Modelos de Lenguaje Grandes?

Selección Dinámica de Ejemplos Few-Shot:

Incorporación de Términos del Glosario o Salidas de MT Basada en Calidad:

Extracción de Terminología Basada en Frases:

Ajuste Fino para Idiomas con Pocos Recursos y Dominios Raros:

Experimentación con LLMs de Código Abierto:

Estimación de Calidad y Selección Automática:

Mejora de la Tokenización para Idiomas No Latinos:

Investigación sobre Implementación a Gran Escala e Integración de Comentarios de Usuarios:

Exploración del Uso de Entradas Multimodales:

Consideraciones Éticas y Mitigación de Sesgos:

Robustez y Generalización:

Conclusión

Referencias

Publicaciones relacionadas

Product

RESOURCES

Partners

Company