Введение
Вы исследователь или разработчик, интересующийся областью диалогового реферирования? Если да, то вы не захотите пропустить новаторский датасет SAMSum — уникальный набор данных, который способен изменить современное состояние дел.
В этом посте, ссылаясь на статью «SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization», мы подробно рассмотрим датасет SAMSum, раскроем его ключевые особенности и изучим, как вы можете использовать этот мощный ресурс с вашим LLM API. Будь то тонкая настройка языковых моделей, бенчмаркинг подходов к реферированию или просто желание оставаться впереди — этот всесторонний обзор вам поможет. Давайте погрузимся!
Что такое датасет SAMSum?

Создатели
Корпус SAMSum (SAMSum Dataset) был создан исследователями из Samsung R&D Institute Poland — Богданом Глива (Bogdan Gliwa), Ивоной Мохол (Iwona Mochol), Мацеем Бисеком (Maciej Biesek) и Александром Вавером (Aleksander Wawer).
Язык
Диалоги в SAMSum Corpus написаны на английском языке.
Структура данных
- Экземпляры данных: датасет содержит 16 369 чат-диалогов. Ниже приведен пример диалога и резюме из SAMSum Corpus:

- Поля данных: каждый диалог включает собственно текст диалога, каждое высказывание помечено именем говорящего. Также каждый диалог имеет вручную написанное абстрактное резюме.
- Разделение данных: датасет разбит на 14 732 диалогов для обучения, 818 для валидации и 819 для тестирования.
Исходные данные
Поскольку не существовало готового датасета разговоров в стиле мессенджеров, исследователи решили создать SAMSum Dataset с нуля. Лингвистам, свободно владеющим английским, было предложено составить естественно звучащие чат-диалоги, отражающие темы и стили, типичные для реальных разговоров в мессенджерах.
Аннотаторы данных
В статье «SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization» явно не указаны личности аннотаторов данных для SAMSum Dataset. В ней говорится, что диалоги были созданы «лингвистами, свободно владеющими английским», а ручные резюме также были написаны «языковыми экспертами».
Таким образом, аннотаторами данных были, скорее всего, профессиональные лингвисты и языковые эксперты, нанятые исследователями из Samsung R&D Institute Poland для создания диалогов и написания резюме. Однако их конкретные личности в статье не указаны.
Зачем был создан датасет SAMSum?
Авторы отмечают, что основные исследовательские усилия в области текстового реферирования до сих пор были сосредоточены на реферировании одноголосых документов, таких как новостные статьи, из-за наличия больших высококачественных новостных датасетов с резюме. Однако комплексный датасет для диалогового реферирования отсутствовал.
Авторы утверждают, что задачи, возникающие при абстрактном диалоговом реферировании, требуют специализированных моделей и подходов к оценке, выходящих за рамки того, что было разработано для новостного реферирования. Создавая SAMSum Corpus, исследователи стремились предоставить высококачественный датасет чат-диалогов с ручными абстрактными резюме, который может быть использован научным сообществом для дальнейшего изучения и развития диалогового реферирования.
Как настроить мою LLM с помощью датасета SAMSum?
Вот шаги, которым вы можете следовать для тонкой настройки большой языковой модели (LLM) с использованием датасета SAMSum:
Шаг 1: Получить LLM API
- Зарегистрируйтесь для получения ключа API или токена доступа, чтобы использовать LLM в своем коде.
- Novita AI предлагает разработчикам разнообразные варианты LLM API, предоставляя доступ к передовым моделям, таким как llama-3–8b-instruct, llama-3–70b-instruct, mistral-7b-instruct и hermes-2-pro-llama-3–8b.

- Кроме того, настраиваемые параметры, такие как top-p, temperature, presence penalty и max tokens, позволяют вам кастомизировать производительность LLM.

- Вы можете свободно сравнивать и оценивать эти различные варианты LLM на Novita AI Playground, что поможет вам выбрать наиболее подходящую модель для ваших конкретных нужд.
Шаг 2: Загрузить датасет SAMSum
- Датасет SAMSum доступен для загрузки на Hugging Face.
- Следуйте инструкциям для загрузки датасета и распаковки файлов.
Шаг 3: Предобработка данных
- Датасет SAMSum содержит диалоги и соответствующие им абстрактные резюме.
- Вам нужно предобработать данные, чтобы они были совместимы с форматами ввода и вывода, ожидаемыми вашей LLM.
- Это может включать токенизацию текста, разделение диалогов и резюме и, возможно, добавление специальных токенов или форматирования.
Шаг 4: Тонкая настройка LLM
- В зависимости от используемой LLM процесс тонкой настройки может незначительно отличаться.
- В общем, вам нужно будет дообучить модель на датасете SAMSum, используя диалоги как входные данные, а резюме как целевой вывод.
- Это можно сделать с помощью API тонкой настройки LLM или реализовав собственный тренировочный цикл.
- Возможно, вам придется экспериментировать с различными гиперпараметрами, такими как скорость обучения, размер батча и количество эпох обучения, чтобы достичь наилучшей производительности.
Шаг 5: Оценка дообученной модели
- Используйте тестовый набор из датасета SAMSum для оценки производительности вашей дообученной модели.
- Метрики, такие как ROUGE, использованные в оригинальной статье, могут быть полезны для оценки качества сгенерированных резюме.
- Вы также можете провести ручную оценку или оценку с участием людей, чтобы получить более полное представление о производительности модели.
Шаг 6: Итерация и улучшение
- На основе результатов оценки вам может потребоваться изменить процесс тонкой настройки, попробовать другие архитектуры LLM или изучить другие методы для улучшения производительности модели в задаче диалогового реферирования.
- Датасет SAMSum предоставляет ценный ресурс для итераций и продвижения современного уровня в этой задаче.
Каковы ограничения датасета SAMSum?
На основе исследовательской статьи Gliwa et al. (2019), вот некоторые ключевые ограничения датасета SAMSum:
Ограниченное разнообразие диалогов
- Диалоги в датасете SAMSum были созданы лингвистами, а не взяты из реальных чат-разговоров.
- Хотя исследователи стремились, чтобы диалоги отражали типичные разговоры в мессенджерах, датасет может не охватывать всю широту и разнообразие реальных чат-взаимодействий.
- Диалогам может не хватать нюансов и idiosyncrasies, которые естественным образом возникают в спонтанных разговорах.
Потенциальная предвзятость в резюме
- Резюме для диалогов также были написаны языковыми экспертами, а не реальными пользователями.
- Это означает, что резюме могут отражать предвзятости и точки зрения аннотаторов, а не то, как реальные пользователи резюмировали бы разговоры.
- Резюме также могут быть подвержены влиянию инструкций, данных аннотаторам, например, требование включать имена собеседников и быть написанными от третьего лица.
Ограниченный размер
- Датасет SAMSum, хотя и относительно большой по сравнению с некоторыми другими датасетами диалогового реферирования, все же относительно мал по сравнению с датасетами новостного реферирования, такими как CNN/Daily Mail.
- Ограниченный размер датасета может ограничивать способность моделей изучать устойчивые и обобщаемые возможности диалогового реферирования.
Отсутствие контекстной информации
- Датасет включает только текст диалога и резюме, без какой-либо дополнительной контекстной информации об участниках, теме разговора или обстановке.
- Это отсутствие контекстной информации может ограничивать способность моделей улавливать нюансы и подтекст диалогов.
Возможный шум и несоответствия
- Несмотря на процесс очистки, датасет все еще может содержать некоторый шум, опечатки или несоответствия, поскольку он был создан вручную лингвистами.
- Это может создавать проблемы для моделей, пытающихся изучить закономерности и обобщить данные.
В целом, датасет SAMSum представляет собой ценный вклад в область исследований диалогового реферирования, но он также имеет некоторые внутренние ограничения, о которых исследователи должны знать при использовании и оценке датасета. Устранение этих ограничений может быть областью для будущей работы по расширению и улучшению датасетов диалогового реферирования.
Заключение
Датасет SAMSum представляет собой важный вклад в область исследований диалогового реферирования. Предоставляя высококачественный датасет разговоров в стиле мессенджеров с ручными абстрактными резюме, создатели стремились стимулировать дальнейшие продвижения в этой области.
Однако датасет также имеет некоторые внутренние ограничения, о которых исследователи должны знать, такие как синтетическая природа диалогов, потенциальная предвзятость в резюме и относительно небольшой размер по сравнению с датасетами новостного реферирования.
Устранение этих ограничений и дальнейшее расширение датасета могут быть ценными направлениями для будущей работы. В целом, датасет SAMSum — это ценный ресурс, который может помочь продвинуть прогресс в сложной задаче абстрактного диалогового реферирования.
Ссылки
Gliwa, B., Mochol, I., Biesek, M., & Wawer, A. (2019). SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization. arXiv preprint arXiv:1911.12237.
Novita AI — это универсальная облачная платформа, которая поддерживает ваши AI-амбиции. Благодаря бесшовно интегрированным API, бессерверным вычислениям и GPU-ускорению, мы предоставляем экономически эффективные инструменты, необходимые для быстрого создания и масштабирования вашего AI-бизнеса. Устраните инфраструктурные головные боли и начните бесплатно — Novita AI воплощает ваши AI-мечты в реальность.
Рекомендуемое чтение
