Как улучшить качество перевода больших языковых моделей?

Введение

В этом блоге мы погружаемся в увлекательный мир больших языковых моделей (LLM) и их возможностей в выполнении задач перевода. Вдохновляясь академической статьей «Adaptive Machine Translation with Large Language Models», мы рассмотрим следующие вопросы:

Как LLM выполняют перевод без какого-либо дополнительного обучения или тонкой настройки?
Какие стратегии можно применить для улучшения их производительности при переводе?
Как мы можем применить эти стратегии, чтобы наша собственная LLM научилась переводить?
Какие будущие направления обещают улучшить перевод с помощью LLM?

Если вам интересно, просто читайте дальше!

Как большие языковые модели выполняют задачи перевода?

Предварительное обучение:

LLM начинают с фазы предварительного обучения, где они подвергаются воздействию огромного объема текстовых данных на нескольких языках. Это помогает им изучать шаблоны, грамматику, словарный запас и связи между словами и фразами на разных языках.

Понимание контекста:

Когда LLM дается предложение для перевода, она использует свое понимание контекста, чтобы интерпретировать значение слов и общую структуру предложения.

Генерация последовательности:

Затем модель генерирует перевод, предсказывая наиболее вероятную последовательность слов на целевом языке, соответствующую исходному предложению.

Авторегрессивный характер:

LLM часто используют авторегрессивный подход, когда предсказывают следующее слово в последовательности на основе ранее сгенерированных слов. Это продолжается до тех пор, пока модель не сгенерирует токен конца предложения или не достигнет заданной длины.

Поиск луча:

Чтобы улучшить качество перевода, LLM могут использовать такие методы, как поиск луча (beam search), который одновременно расширяет несколько гипотез перевода и выбирает наиболее вероятную на основе функции оценки.

Обработка неоднозначности:

LLM спроектированы так, чтобы справляться с неоднозначностью в языке, выбирая переводы, которые статистически более вероятны с учетом контекста, даже если несколько вариантов перевода грамматически правильны.

Постобработка:

После генерации перевода некоторые модели могут применять этапы постобработки для улучшения вывода, такие как исправление грамматики, корректировка порядка слов или устранение любых аномалий.

Как большие языковые модели могут лучше выполнять задачи перевода?

Эксперименты в статье «Adaptive Machine Translation with Large Language Models» проводились с использованием модели GPT-3.5 textdavinci-003 через ее официальный API. Настройка включала различные параметры, такие как top-p 1, регулировка температуры и множители длины токенов для разных языков. Для моделирования сценариев предметной области использовался набор контекстных данных TICO-19, содержащий 3070 уникальных сегментов. В исследовании участвовали пять различных языковых пар: английский-арабский, английский-китайский, английский-французский, английский-киньяруанда и английский-испанский.

В статье исследуется несколько стратегий повышения производительности LLM в задачах перевода:

Адаптивный машинный перевод с нечеткими совпадениями:

Цель: Оценить способность LLM адаптировать переводы в реальном времени, используя контекст из похожих, ранее переведенных сегментов (нечеткие совпадения).
Метод: Использование поиска на основе сходства эмбеддингов для извлечения нечетких совпадений из набора данных и предоставление их вместе с новым предложением для перевода.
Пример: Если новое предложение для перевода — «The quick brown fox jumps over the lazy dog», система может извлечь похожие предложения из набора данных и использовать их для влияния на стиль перевода.

Сравнение с моделями MT типа «кодировщик-декодировщик»:

Цель: Оценить качество перевода GPT-3.5 по сравнению с устоявшимися моделями типа «кодировщик-декодировщик».
Метод: Сравнение результатов перевода GPT-3.5 с результатами различных API и моделей, использующих один и тот же исходный текст.
Пример: Для заданного предложения на английском языке каждая модель (GPT-3.5, DeepL, Google Cloud и т.д.) будет генерировать перевод на целевой язык, и затем сравниваются показатели качества (spBLEU, chrF++ и т.д.).

Включение машинного перевода типа «кодировщик-декодировщик»:

Цель: Исследовать, может ли комбинирование выходных данных моделей типа «кодировщик-декодировщик» (например, DeepL) с контекстным обучением LLM улучшить качество перевода.
Метод: Добавление перевода от модели типа «кодировщик-декодировщик» к нечетким совпадениям, используемым в контекстном промпте для GPT-3.5.
Пример: Если GPT-3.5 предоставлены нечеткие совпадения и новый сегмент для перевода, также включаются переводы от модели типа «кодировщик-декодировщик» для этих сегментов, чтобы обогатить контекст.

Извлечение двуязычной терминологии:

Цель: Автоматически извлекать и использовать специфические для домена термины для улучшения согласованности и точности переводов.
Метод: Обучение GPT-3.5 идентифицировать и извлекать ключевые термины из пар предложений, а затем использовать эти термины для ограничения переводов.
Пример: Для пары предложений, содержащих медицинские термины, GPT-3.5 извлечет такие термины, как «influenza» и «vaccination», и обеспечит их последовательное использование в переводе.

Перевод с ограничением по терминологии:

Цель: Интегрировать доменную терминологию в процесс перевода для повышения соответствия определенным стилям и словарному запасу.
Метод: Использование предопределенного глоссария или извлеченных из нечетких совпадений терминов для ограничения переводов.
Пример: Для перевода предложения в медицинском контексте система будет использовать термины из медицинского глоссария, такие как «malignant» или «benign», чтобы обеспечить использование правильной терминологии.

Насколько лучше большие языковые модели могут переводить?

Адаптивный машинный перевод с нечеткими совпадениями:

Статья показала, что использование нечетких совпадений (ранее переведенных сегментов с высокой степенью сходства с исходным текстом) в качестве контекста значительно улучшает качество перевода LLM, таких как GPT-3.5.

Например, для пары английский-арабский (EN-AR) использование одного нечеткого совпадения улучшило оценку spBLEU с 27,6 (zero-shot) до 36,38. С двумя нечеткими совпадениями оценка дополнительно повысилась до 38,41. Аналогичные улучшения наблюдались и для других языковых пар, демонстрируя эффективность контекстного обучения с нечеткими совпадениями.

Сравнение с моделями MT типа «кодировщик-декодировщик»:

Качество перевода GPT-3.5 с несколькими примерами (few-shot) сравнивалось с несколькими системами MT типа «кодировщик-декодировщик», включая DeepL, Google Cloud Translation API, OPUS и NLLB.

Для языков с высокими ресурсами GPT-3.5 с 5 или 10 нечеткими совпадениями превзошла обычные системы в определенных языковых парах. Например, в паре английский-испанский (EN-ES) GPT-3.5 с 5-shot переводом достигла оценки spBLEU 61,77, превысив показатели других систем.

Включение машинного перевода типа «кодировщик-декодировщик»:

Добавляя машинный перевод нового сегмента от модели типа «кодировщик-декодировщик» к нечетким совпадениям, авторы наблюдали значительное улучшение качества перевода.

Например, для пары английский-арабский добавление OPUS MT к 5 нечетким совпадениям улучшило оценку spBLEU с 41,33 до 45,9.

Извлечение двуязычной терминологии:

GPT-3.5 было поручено извлечь 5 двуязычных терминов из каждой пары предложений в контекстном наборе данных. Оценка людьми показала, что большинство терминов (более 95%), извлеченных GPT-3 для языковых пар EN-AR, EN-ES и EN-FR, были точными.

Перевод с ограничением по терминологии:

Статья показала, что интеграция терминов из глоссария в процесс перевода улучшает качество перевода, особенно в сценариях zero-shot. Например, для пары английский-арабский zero-shot перевод с терминами из глоссария улучшил оценку spBLEU с 27,6 до 35,38.

Оценка людьми перевода с ограничением по терминологии показала, что модель успешно переносит термины из глоссария в целевой язык чаще, чем без включения терминологии.

Модели ChatGPT, BLOOM и BLOOMZ:

В статье кратко сравнивается GPT-3.5 с более новыми диалоговыми моделями, такими как GPT-3.5 Turbo и GPT-4. GPT-4 показала лучшее качество перевода zero-shot, в то время как GPT-3.5 Turbo была более эффективной, но имела сопоставимое качество для перевода с несколькими примерами.

При сравнении GPT-3.5 с открытыми мультиязычными моделями BLOOM и BLOOMZ GPT-3.5 в целом превзошла обе для большинства языковых пар, за исключением пары английский-арабский, где BLOOM показала сопоставимые результаты.

Как мне получить LLM, умеющую переводить?

Следуя подходам, представленным автором, вот пошаговая инструкция для вас!

Шаг 1: Получить доступ к API LLM:

Зарегистрируйтесь для получения ключа API для доступа к большой языковой модели. **Novita AI LLM API предоставляет разработчикам множество экономически эффективных вариантов LLM, включая Llama3–8b, Llama3–70b, Mythomax-13b и другие.

Шаг 2: Подготовить доменную память переводов ™:

Соберите набор одобренных пар перевода (называемых «нечеткими совпадениями») в вашей предметной области.
Структурируйте данные TM как предложение на исходном языке, за которым следует соответствующее предложение на целевом языке.

Шаг 3: Реализовать контекстное обучение для перевода:

Когда вам нужно перевести новое исходное предложение, составьте промпт для LLM, который включает: 1. Новое исходное предложение на исходном языке, которое вы хотите перевести; 2. Соответствующие пары перевода «нечетких совпадений» из вашей TM.
Расположите пары исходного и целевого языков в промпте в порядке убывания сходства с новым исходным предложением.
Передайте этот промпт в API LLM и позвольте ей сгенерировать переведенный вывод. LLM адаптирует свой перевод в соответствии со стилем и терминологией, используемыми в TM.

Шаг 4: Оптимизировать контекстное обучение:

Экспериментируйте с количеством пар перевода «нечетких совпадений», включаемых в промпт, стремясь к 5–10 релевантным парам.
Отслеживайте качество перевода и вносите корректировки в формат промпта, количество примеров и другие параметры для достижения наилучших результатов.

Шаг 5: Комбинировать с моделями MT типа «кодировщик-декодировщик»:

Если доступно, добавьте вывод мощной модели машинного перевода типа «кодировщик-декодировщик» в промпт вместе с парами перевода «нечетких совпадений».
Это может помочь дополнительно улучшить качество перевода, особенно для языковых пар, где одна LLM еще не может сравниться с производительностью модели типа «кодировщик-декодировщик».

Шаг 6: Постоянно совершенствовать и расширять TM:

Обновляйте свою TM новыми одобренными парами перевода по мере перевода большего количества контента.
Периодически просматривайте и курируйте TM, чтобы она оставалась актуальной и точной для ваших доменных потребностей.

Вы можете найти точные коды для подходов, упомянутых в статье (например, извлечение нечетких совпадений), здесь: https://github.com/ymoslem/Adaptive-MT-LLM

Каковы будущие направления перевода с помощью больших языковых моделей?

В статье «Adaptive Machine Translation with Large Language Models» предлагается несколько будущих направлений для перевода с помощью больших языковых моделей (LLM). Вот некоторые ключевые области, определенные для дальнейшего изучения и развития:

Динамический выбор нескольких примеров:

Вместо использования фиксированного количества нечетких совпадений процесс выбора может быть динамическим, выбирая только высококачественные совпадения выше определенного порога сходства. Это может потенциально повысить производительность за счет предоставления более релевантного контекста.

Включение терминов из глоссария или выходных данных MT на основе качества:

При интеграции терминов из глоссария или выходных данных машинного перевода из других систем, выбор тех, которые обладают определенными качественными характеристиками, может быть полезным. Такое избирательное включение может привести к лучшему качеству перевода.

Извлечение терминологии на основе фраз:

В статье предлагается изучить использование более длинных фраз вместо отдельных терминов для извлечения терминологии. Это может быть особенно полезно для языков с низкими ресурсами, где более длинный контекст может улучшить точность перевода.

Тонкая настройка для языков с низкими ресурсами и редких доменов:

Хотя статья сосредоточена на производительности «из коробки», будущая работа может включать тонкую настройку моделей для языков с низкими ресурсами и специфических доменов. Это может помочь в повышении как качества, так и эффективности переводов в этих областях.

Эксперименты с открытыми LLM:

Авторы предлагают расширить эксперименты с открытыми LLM, такими как BLOOM и BLOOMZ, чтобы охватить больше аспектов задач перевода. Это может дать представление о производительности этих моделей по сравнению с проприетарными моделями, такими как GPT-3.5.

Оценка качества и автоматический выбор:

Разработка методов автоматической оценки качества для выбора лучшего перевода из нескольких альтернатив может быть ценной областью исследований. Это может включать сравнение переводов с использованием нечетких совпадений и/или терминологии и без них.

Улучшение токенизации для языков, не использующих латиницу:

Решение проблем токенизации для языков, не использующих латиницу, как было отмечено для GPT-3.5 и арабского языка, может быть критически важным для улучшения производительности LLM в большем количестве языковых пар.

Исследование крупномасштабного развертывания и интеграции обратной связи от пользователей:

Исследования того, как LLM могут быть эффективно развернуты в масштабе в реальных сценариях перевода, включая интеграцию обратной связи от пользователей для непрерывного улучшения переводов.

Изучение использования мультимодальных входных данных:

Будущие исследования могут изучить использование мультимодальных входных данных (например, изображений, аудио) вместе с текстом для предоставления дополнительного контекста для задач перевода, особенно для задач, связанных с описательным или техническим контентом.

Этические соображения и смягчение предвзятости:

Как и во всех приложениях ИИ, важно будет изучить и решить потенциальные этические проблемы, включая предвзятость в переводах, и разработать методы смягчения этих проблем.

Устойчивость и обобщаемость:

Обеспечение того, чтобы LLM могли хорошо обобщать разные домены и сохранять устойчивую производительность даже при ограниченных данных для определенных языковых пар.

Заключение

В заключение, путь к оптимизации больших языковых моделей для задач перевода является многогранным и динамичным. Размышляя над идеями из «Adaptive Machine Translation with Large Language Models», мы изучили различные стратегии и эксперименты, которые подчеркивают потенциал для значительных улучшений качества перевода. От использования контекстного обучения с нечеткими совпадениями до интеграции моделей типа «кодировщик-декодировщик» и извлечения доменной терминологии — обсуждаемые здесь достижения прокладывают путь к повышению точности и эффективности языкового перевода.

Заглядывая вперед, будущие направления исследований, выделенные в статье, такие как динамический выбор примеров, мультимодальные входные данные и этические соображения, открывают многообещающие пути для дальнейшего изучения. Эти усилия направлены не только на совершенствование технических возможностей LLM в различных языках и доменах, но также на решение более широких социальных последствий и обеспечение равного доступа к высококачественным инструментам перевода.

Ссылки

Moslem, Y., Haque, R., Kelleher, J. D., & Way, A. (2023). Adaptive machine translation with large language models. arXiv. https://doi.org/10.48550/arXiv.2301.13294

Novita AI — это универсальная облачная платформа, которая расширяет ваши AI-амбиции. С помощью легко интегрируемых API, бессерверных вычислений и ускорения GPU мы предоставляем экономически эффективные инструменты, необходимые для быстрой разработки и масштабирования вашего AI-бизнеса. Устраните проблемы с инфраструктурой и начните бесплатно — Novita AI превращает ваши AI-мечты в реальность.

Введение

Как большие языковые модели выполняют задачи перевода?

Предварительное обучение:

Понимание контекста:

Генерация последовательности:

Авторегрессивный характер:

Поиск луча:

Обработка неоднозначности:

Постобработка:

Как большие языковые модели могут лучше выполнять задачи перевода?

Адаптивный машинный перевод с нечеткими совпадениями:

Сравнение с моделями MT типа «кодировщик-декодировщик»:

Включение машинного перевода типа «кодировщик-декодировщик»:

Извлечение двуязычной терминологии:

Перевод с ограничением по терминологии:

Насколько лучше большие языковые модели могут переводить?

Адаптивный машинный перевод с нечеткими совпадениями:

Сравнение с моделями MT типа «кодировщик-декодировщик»:

Включение машинного перевода типа «кодировщик-декодировщик»:

Извлечение двуязычной терминологии:

Перевод с ограничением по терминологии:

Модели ChatGPT, BLOOM и BLOOMZ:

Как мне получить LLM, умеющую переводить?

Шаг 1: Получить доступ к API LLM:

Шаг 2: Подготовить доменную память переводов ™:

Шаг 3: Реализовать контекстное обучение для перевода:

Шаг 4: Оптимизировать контекстное обучение:

Шаг 5: Комбинировать с моделями MT типа «кодировщик-декодировщик»:

Шаг 6: Постоянно совершенствовать и расширять TM:

Каковы будущие направления перевода с помощью больших языковых моделей?

Динамический выбор нескольких примеров:

Включение терминов из глоссария или выходных данных MT на основе качества:

Извлечение терминологии на основе фраз:

Тонкая настройка для языков с низкими ресурсами и редких доменов:

Эксперименты с открытыми LLM:

Оценка качества и автоматический выбор:

Улучшение токенизации для языков, не использующих латиницу:

Исследование крупномасштабного развертывания и интеграции обратной связи от пользователей:

Изучение использования мультимодальных входных данных:

Этические соображения и смягчение предвзятости:

Устойчивость и обобщаемость:

Заключение

Ссылки

Похожие статьи

Product

RESOURCES

Partners

Company