Como tornar os LLMs melhores em tradução?

Introdução

Neste blog, mergulhamos no fascinante mundo dos grandes modelos de linguagem (LLMs) e suas capacidades na realização de tarefas de tradução. Inspirados pelo artigo acadêmico intitulado “Adaptive Machine Translation with Large Language Models”, exploraremos as seguintes questões:

Como os LLMs realizam tradução sem qualquer treinamento adicional ou ajuste fino (fine-tuning)?
Quais estratégias podem ser empregadas para melhorar seu desempenho em tradução?
Como podemos adotar essas estratégias para tornar nosso próprio LLM habilidoso em tradução?
Quais direções futuras são promissoras para melhorar a tradução com LLMs?

Se você está interessado, continue lendo!

Como os Grandes Modelos de Linguagem Realizam Tarefas de Tradução?

Pré-treinamento:

Os LLMs começam com uma fase chamada pré-treinamento, onde são expostos a uma vasta quantidade de dados textuais em vários idiomas. Isso os ajuda a aprender padrões, gramática, vocabulário e as relações entre palavras e frases em diferentes línguas.

Compreensão do Contexto:

Quando recebem uma frase para traduzir, o LLM usa sua compreensão do contexto para interpretar o significado das palavras e a estrutura geral da frase.

Geração de Sequência:

O modelo então gera uma tradução prevendo a sequência mais provável de palavras no idioma de destino que corresponde à frase de entrada.

Natureza Autoregressiva:

Os LLMs frequentemente usam uma abordagem autoregressiva, onde preveem a próxima palavra na sequência com base nas palavras geradas anteriormente. Isso continua até que o modelo gere um token de fim de frase ou atinja um comprimento predefinido.

**Busca em Feixe (Beam Search):**

Para melhorar a qualidade da tradução, os LLMs podem usar técnicas como a busca em feixe, que expande múltiplas hipóteses de tradução simultaneamente e seleciona a mais provável com base em uma função de pontuação.

Lidando com Ambiguidade:

Os LLMs são projetados para lidar com a ambiguidade na linguagem, escolhendo traduções que são estatisticamente mais prováveis dado o contexto, mesmo que múltiplas traduções sejam gramaticalmente corretas.

Pós-processamento:

Após gerar uma tradução, alguns modelos podem aplicar etapas de pós-processamento para refinar a saída, como corrigir gramática, ajustar a ordem das palavras ou resolver quaisquer anomalias.

Como os Grandes Modelos de Linguagem Podem Fazer Melhores Traduções?

Os experimentos no artigo “Adaptive Machine Translation with Large Language Models” foram conduzidos usando o modelo GPT-3.5 textdavinci-003 através de sua API oficial. A configuração incluiu vários parâmetros como top-p 1, ajustes de temperatura e multiplicadores de comprimento de token para diferentes idiomas. O conjunto de dados de contexto TICO-19, com 3070 segmentos únicos, foi usado para simular cenários específicos de domínio. O estudo envolveu cinco pares de idiomas diversos: Inglês-Árabe, Inglês-Chinês, Inglês-Francês, Inglês-Quiniaruanda e Inglês-Espanhol.

O artigo explora várias estratégias para melhorar o desempenho dos LLMs em tarefas de tradução:

**TM Adaptativa com Correspondências Aproximadas (Fuzzy Matches):**

Objetivo: Avaliar a capacidade dos LLMs de adaptar traduções em tempo real, aproveitando o contexto de segmentos semelhantes previamente traduzidos (correspondências aproximadas).
Método: Utilizou recuperação baseada em similaridade de embeddings para extrair correspondências aproximadas de um conjunto de dados e apresentá-las junto com uma nova frase a ser traduzida.
Exemplo: Se a nova frase a traduzir for “The quick brown fox jumps over the lazy dog”, o sistema pode recuperar frases semelhantes do conjunto de dados e usá-las para influenciar o estilo da tradução.

Comparação com Modelos MT Codificador-Decodificador:

Objetivo: Avaliar a qualidade da tradução do GPT-3.5 em comparação com modelos codificador-decodificador estabelecidos.
Método: Comparou as saídas de tradução do GPT-3.5 com as de várias APIs e modelos usando o mesmo texto fonte.
Exemplo: Para uma determinada frase em inglês, cada modelo (GPT-3.5, DeepL, Google Cloud, etc.) geraria uma tradução no idioma de destino, e as métricas de qualidade (spBLEU, chrF++, etc.) seriam comparadas.

Incorporando MT Codificador-Decodificador:

Objetivo: Explorar se a combinação das saídas de modelos codificador-decodificador (ex: DeepL) com a aprendizagem em contexto (in-context learning) dos LLMs poderia melhorar a qualidade da tradução.
Método: Anexou a tradução de um modelo codificador-decodificador às correspondências aproximadas usadas no prompt de contexto do GPT-3.5.
Exemplo: Se as correspondências aproximadas e o novo segmento a ser traduzido são fornecidos ao GPT-3.5, incluir também as traduções de um modelo codificador-decodificador para esses segmentos para enriquecer o contexto.

Extração Bilíngue de Terminologia:

Objetivo: Extrair e utilizar automaticamente termos específicos do domínio para melhorar a consistência e precisão das traduções.
Método: Treinou o GPT-3.5 para identificar e extrair termos-chave de pares de frases e, em seguida, usar esses termos para restringir as traduções.
Exemplo: Dado um par de frases contendo termos médicos, o GPT-3.5 extrairia termos como “influenza” e “vaccination” e garantiria que esses termos fossem usados consistentemente na tradução.

TM Restrita por Terminologia:

Objetivo: Integrar terminologia específica do domínio no processo de tradução para melhorar a adesão a estilos e vocabulários específicos.
Método: Usou um glossário predefinido ou termos extraídos de correspondências aproximadas para restringir as traduções.
Exemplo: Para uma frase a ser traduzida num contexto médico, o sistema usaria termos de um glossário médico, como “maligno” ou “benigno”, para garantir que a tradução use a terminologia correta.

Quanto Melhor os Grandes Modelos de Linguagem Podem Ser em Tradução?

TM Adaptativa com Correspondências Aproximadas:

O artigo demonstrou que o uso de correspondências aproximadas (segmentos previamente traduzidos com alta similaridade ao texto fonte) como contexto melhorou significativamente a qualidade da tradução de LLMs como o GPT-3.5.

Por exemplo, no par Inglês-Árabe (EN-AR), usar uma única correspondência aproximada melhorou as pontuações spBLEU de 27,6 (zero-shot) para 36,38. Com duas correspondências aproximadas, a pontuação aumentou ainda mais para 38,41. Melhorias semelhantes foram observadas em outros pares de idiomas, mostrando a eficácia da aprendizagem em contexto com correspondências aproximadas.

Comparação com Modelos MT Codificador-Decodificador:

A qualidade da tradução few-shot do GPT-3.5 foi comparada com vários sistemas MT codificador-decodificador, incluindo DeepL, Google Cloud Translation API, OPUS e NLLB.

Para idiomas com muitos recursos, o GPT-3.5 com 5 ou 10 correspondências aproximadas superou os sistemas convencionais em certos pares de idiomas. Por exemplo, em Inglês-Espanhol (EN-ES), o GPT-3.5 com tradução 5-shot alcançou uma pontuação spBLEU de 61,77, superando as pontuações de outros sistemas.

Incorporando MT Codificador-Decodificador:

Ao anexar a tradução automática do novo segmento de um modelo codificador-decodificador às correspondências aproximadas, o artigo observou melhorias substanciais na qualidade da tradução.

Por exemplo, em Inglês-Árabe, anexar a MT do OPUS a 5 correspondências aproximadas melhorou a pontuação spBLEU de 41,33 para 45,9.

Extração Bilíngue de Terminologia:

O GPT-3.5 foi encarregado de extrair 5 termos bilíngues de cada par de frases no conjunto de dados de contexto. A avaliação humana mostrou que a maioria dos termos (mais de 95%) extraídos pelo GPT-3 para os pares EN-AR, EN-ES e EN-FR eram precisos.

TM Restrita por Terminologia:

O artigo descobriu que integrar termos de um glossário no processo de tradução melhorou a qualidade da tradução, especialmente em cenários zero-shot. Por exemplo, em Inglês-Árabe, a tradução zero-shot com termos do glossário melhorou a pontuação spBLEU de 27,6 para 35,38.

A avaliação humana da TM restrita por terminologia mostrou que o modelo conseguiu transferir os termos do glossário para o alvo com mais frequência do que sem a incorporação da terminologia.

Modelos ChatGPT, BLOOM e BLOOMZ:

O artigo comparou brevemente o GPT-3.5 com modelos conversacionais mais recentes como GPT-3.5 Turbo e GPT-4. O GPT-4 mostrou melhor qualidade de tradução zero-shot, enquanto o GPT-3.5 Turbo foi mais eficiente, mas teve qualidade comparável para tradução few-shot.

Ao comparar o GPT-3.5 com os modelos multilíngues de código aberto BLOOM e BLOOMZ, o GPT-3.5 geralmente superou ambos para a maioria dos pares de idiomas, exceto para Inglês-Árabe, onde o BLOOM mostrou desempenho comparável.

Como Posso Tornar um LLM Habilidoso em Tradução?

Seguindo as abordagens apresentadas pelo autor, aqui está um passo a passo para você!

Passo 1: Obter Acesso a uma API de LLM:

Inscreva-se para obter uma chave de API para acessar um grande modelo de linguagem (LLM). A Novita AI LLM API fornece aos desenvolvedores muitas opções de LLM de baixo custo, incluindo Llama3–8b, Llama3–70b, Mythomax-13b, etc.

Passo 2: Preparar uma Memória de Tradução ™ Específica de Domínio:

Colete um conjunto de pares de tradução aprovados (chamados de “correspondências aproximadas”) no seu domínio de interesse.
Estruture os dados da TM com a frase no idioma de origem seguida pela frase correspondente no idioma de destino.

Passo 3: Implementar Aprendizagem em Contexto para Tradução:

Quando precisar traduzir uma nova frase de origem, construa um prompt para o LLM que inclua: 1. A nova frase de origem no idioma original que você deseja traduzir; 2. Os pares de tradução de “correspondências aproximadas” relevantes da sua TM
Organize o prompt com os pares de idiomas de origem e destino em ordem decrescente de similaridade com a nova frase de origem.
Passe este prompt para a API do LLM e deixe-o gerar a saída traduzida. O LLM adaptará sua tradução para corresponder ao estilo e terminologia usados na TM.

Passo 4: Otimizar a Aprendizagem em Contexto:

Experimente com o número de pares de tradução de “correspondências aproximadas” a incluir no prompt, visando 5–10 pares relevantes.
Monitore a qualidade da tradução e faça ajustes no formato do prompt, número de exemplos e outros parâmetros para alcançar os melhores resultados.

Passo 5: Combinar com Modelos MT Codificador-Decodificador:

Se disponível, incorpore a saída de um modelo de tradução automática (MT) codificador-decodificador robusto no prompt, juntamente com os pares de tradução de “correspondências aproximadas”.
Isso pode ajudar a melhorar ainda mais a qualidade da tradução, especialmente para pares de idiomas onde o LLM sozinho pode ainda não igualar o desempenho do modelo codificador-decodificador.

Passo 6: Refinar e Expandir Continuamente a TM:

Atualize sua TM com novos pares de tradução aprovados à medida que traduz mais conteúdo.
Revise e selecione periodicamente a TM para garantir que ela permaneça relevante e precisa para suas necessidades específicas de domínio.

Você pode encontrar os códigos exatos para as abordagens mencionadas no artigo (ex: extrair as correspondências aproximadas) aqui: https://github.com/ymoslem/Adaptive-MT-LLM

Quais São as Direções Futuras para Tradução com Grandes Modelos de Linguagem?

O artigo “Adaptive Machine Translation with Large Language Models” sugere várias direções futuras para a tradução com grandes modelos de linguagem (LLMs). Aqui estão algumas áreas-chave identificadas para exploração e desenvolvimento adicionais:

Seleção Dinâmica de Exemplos Few-Shot:

Em vez de usar um número fixo de correspondências aproximadas, o processo de seleção poderia ser dinâmico, escolhendo apenas correspondências de alta qualidade acima de uma certa pontuação de similaridade. Isso poderia potencialmente melhorar o desempenho, fornecendo um contexto mais relevante.

Incorporação de Termos de Glossário ou Saídas de MT com Base na Qualidade:

Ao integrar termos de um glossário ou saídas de tradução automática de outros sistemas, selecionar aqueles com características de qualidade específicas poderia ser benéfico. Essa integração seletiva poderia levar a uma melhor qualidade de tradução.

Extração de Terminologia Baseada em Frases:

O artigo sugere explorar o uso de frases mais longas em vez de termos individuais para extração de terminologia. Isso poderia ser particularmente útil para idiomas com poucos recursos, onde um contexto mais longo pode melhorar a precisão da tradução.

**Ajuste Fino (Fine-Tuning) para Idiomas com Poucos Recursos e Domínios Raros:**

Embora o artigo se concentre no desempenho imediato (out-of-the-box), o trabalho futuro poderia envolver o ajuste fino dos modelos para idiomas com poucos recursos e domínios específicos. Isso poderia ajudar a melhorar tanto a qualidade quanto a eficiência das traduções nessas áreas.

Experimentação com LLMs de Código Aberto:

Os autores propõem expandir os experimentos com LLMs de código aberto como BLOOM e BLOOMZ para cobrir mais aspectos das tarefas de tradução. Isso poderia fornecer insights sobre o desempenho desses modelos em comparação com modelos proprietários como o GPT-3.5.

Estimativa de Qualidade e Seleção Automática:

Desenvolver métodos automáticos de estimativa de qualidade para selecionar a melhor tradução entre múltiplas alternativas poderia ser uma área valiosa de pesquisa. Isso poderia envolver a comparação de traduções com e sem o uso de correspondências aproximadas e/ou terminologia.

Melhoria da Tokenização para Idiomas Não Latinos:

Abordar os problemas de tokenização para idiomas não latinos, como observado com o GPT-3.5 e o árabe, poderia ser crucial para melhorar o desempenho dos LLMs em mais pares de idiomas.

Investigação sobre Implantação em Grande Escala e Integração de Feedback do Usuário:

Pesquisar como os LLMs podem ser implantados eficazmente em escala em cenários reais de tradução, incluindo a integração de feedback do usuário para melhorar continuamente as traduções.

Exploração do Uso de Entradas Multimodais:

Pesquisas futuras poderiam analisar o uso de entradas multimodais (ex: imagens, áudio) juntamente com texto para fornecer contexto adicional para tarefas de tradução, especialmente para tarefas que envolvem conteúdo descritivo ou técnico.

Considerações Éticas e Mitigação de Viés:

Como em todas as aplicações de IA, será importante estudar e abordar potenciais preocupações éticas, incluindo viés nas traduções, e desenvolver métodos para mitigar esses problemas.

Robustez e Generalização:

Garantir que os LLMs possam generalizar bem entre diferentes domínios e manter um desempenho robusto mesmo com dados limitados para certos pares de idiomas.

Conclusão

Em conclusão, a jornada para otimizar grandes modelos de linguagem para tarefas de tradução é multifacetada e dinâmica. Refletindo sobre os insights de “Adaptive Machine Translation with Large Language Models”, exploramos diversas estratégias e experimentos que destacam o potencial para melhorias significativas na qualidade da tradução. Desde o aproveitamento da aprendizagem em contexto com correspondências aproximadas até a integração de modelos codificador-decodificador e extração de terminologia específica de domínio, os avanços discutidos aqui abrem caminho para maior precisão e eficiência na tradução de idiomas.

Olhando para o futuro, as direções de pesquisa futuras destacadas no artigo, como seleção dinâmica de exemplos, entradas multimodais e considerações éticas, oferecem caminhos promissores para exploração adicional. Esses esforços visam não apenas refinar as capacidades técnicas dos LLMs em vários idiomas e domínios, mas também abordar implicações sociais mais amplas e garantir acesso equitativo a ferramentas de tradução de alta qualidade.

Referências

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

A Novita AI é a plataforma em nuvem completa que impulsiona suas ambições de IA. Com APIs perfeitamente integradas, computação serverless e aceleração de GPU, fornecemos as ferramentas econômicas que você precisa para construir e escalar rapidamente seu negócio orientado por IA. Elimine as dores de cabeça de infraestrutura e comece gratuitamente — a Novita AI torna seus sonhos de IA realidade.

Introdução

Como os Grandes Modelos de Linguagem Realizam Tarefas de Tradução?

Pré-treinamento:

Compreensão do Contexto:

Geração de Sequência:

Natureza Autoregressiva:

Busca em Feixe (Beam Search):

Lidando com Ambiguidade:

Pós-processamento:

Como os Grandes Modelos de Linguagem Podem Fazer Melhores Traduções?

TM Adaptativa com Correspondências Aproximadas (Fuzzy Matches):

Comparação com Modelos MT Codificador-Decodificador:

Incorporando MT Codificador-Decodificador:

Extração Bilíngue de Terminologia:

TM Restrita por Terminologia:

Quanto Melhor os Grandes Modelos de Linguagem Podem Ser em Tradução?

TM Adaptativa com Correspondências Aproximadas:

Comparação com Modelos MT Codificador-Decodificador:

Incorporando MT Codificador-Decodificador:

Extração Bilíngue de Terminologia:

TM Restrita por Terminologia:

Modelos ChatGPT, BLOOM e BLOOMZ:

Como Posso Tornar um LLM Habilidoso em Tradução?

Passo 1: Obter Acesso a uma API de LLM:

Passo 2: Preparar uma Memória de Tradução ™ Específica de Domínio:

Passo 3: Implementar Aprendizagem em Contexto para Tradução:

Passo 4: Otimizar a Aprendizagem em Contexto:

Passo 5: Combinar com Modelos MT Codificador-Decodificador:

Passo 6: Refinar e Expandir Continuamente a TM:

Quais São as Direções Futuras para Tradução com Grandes Modelos de Linguagem?

Seleção Dinâmica de Exemplos Few-Shot:

Incorporação de Termos de Glossário ou Saídas de MT com Base na Qualidade:

Extração de Terminologia Baseada em Frases:

Ajuste Fino (Fine-Tuning) para Idiomas com Poucos Recursos e Domínios Raros:

Experimentação com LLMs de Código Aberto:

Estimativa de Qualidade e Seleção Automática:

Melhoria da Tokenização para Idiomas Não Latinos:

Investigação sobre Implantação em Grande Escala e Integração de Feedback do Usuário:

Exploração do Uso de Entradas Multimodais:

Considerações Éticas e Mitigação de Viés:

Robustez e Generalização:

Conclusão

Referências

Posts relacionados

Product

RESOURCES

Partners

Company

**Busca em Feixe (Beam Search):**

**TM Adaptativa com Correspondências Aproximadas (Fuzzy Matches):**

**Ajuste Fino (Fine-Tuning) para Idiomas com Poucos Recursos e Domínios Raros:**