Всё, что нужно знать о датасете SAMSum

Всё, что нужно знать о датасете SAMSum

Введение

Вы исследователь или разработчик, интересующийся областью диалогового реферирования? Если да, то вы не захотите пропустить новаторский датасет SAMSum — уникальный набор данных, который способен изменить современное состояние дел.

В этом посте, ссылаясь на статью «SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization», мы подробно рассмотрим датасет SAMSum, раскроем его ключевые особенности и изучим, как вы можете использовать этот мощный ресурс с вашим LLM API. Будь то тонкая настройка языковых моделей, бенчмаркинг подходов к реферированию или просто желание оставаться впереди — этот всесторонний обзор вам поможет. Давайте погрузимся!

Что такое датасет SAMSum?

Создатели

Корпус SAMSum (SAMSum Dataset) был создан исследователями из Samsung R&D Institute Poland — Богданом Глива (Bogdan Gliwa), Ивоной Мохол (Iwona Mochol), Мацеем Бисеком (Maciej Biesek) и Александром Вавером (Aleksander Wawer).

Язык

Диалоги в SAMSum Corpus написаны на английском языке.

Структура данных

  • Экземпляры данных: датасет содержит 16 369 чат-диалогов. Ниже приведен пример диалога и резюме из SAMSum Corpus:

  • Поля данных: каждый диалог включает собственно текст диалога, каждое высказывание помечено именем говорящего. Также каждый диалог имеет вручную написанное абстрактное резюме.
  • Разделение данных: датасет разбит на 14 732 диалогов для обучения, 818 для валидации и 819 для тестирования.

Исходные данные

Поскольку не существовало готового датасета разговоров в стиле мессенджеров, исследователи решили создать SAMSum Dataset с нуля. Лингвистам, свободно владеющим английским, было предложено составить естественно звучащие чат-диалоги, отражающие темы и стили, типичные для реальных разговоров в мессенджерах.

Аннотаторы данных

В статье «SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization» явно не указаны личности аннотаторов данных для SAMSum Dataset. В ней говорится, что диалоги были созданы «лингвистами, свободно владеющими английским», а ручные резюме также были написаны «языковыми экспертами».

Таким образом, аннотаторами данных были, скорее всего, профессиональные лингвисты и языковые эксперты, нанятые исследователями из Samsung R&D Institute Poland для создания диалогов и написания резюме. Однако их конкретные личности в статье не указаны.

Зачем был создан датасет SAMSum?

Авторы отмечают, что основные исследовательские усилия в области текстового реферирования до сих пор были сосредоточены на реферировании одноголосых документов, таких как новостные статьи, из-за наличия больших высококачественных новостных датасетов с резюме. Однако комплексный датасет для диалогового реферирования отсутствовал.

Авторы утверждают, что задачи, возникающие при абстрактном диалоговом реферировании, требуют специализированных моделей и подходов к оценке, выходящих за рамки того, что было разработано для новостного реферирования. Создавая SAMSum Corpus, исследователи стремились предоставить высококачественный датасет чат-диалогов с ручными абстрактными резюме, который может быть использован научным сообществом для дальнейшего изучения и развития диалогового реферирования.

Как настроить мою LLM с помощью датасета SAMSum?

Вот шаги, которым вы можете следовать для тонкой настройки большой языковой модели (LLM) с использованием датасета SAMSum:

Шаг 1: Получить LLM API

  • Зарегистрируйтесь для получения ключа API или токена доступа, чтобы использовать LLM в своем коде.
  • Novita AI предлагает разработчикам разнообразные варианты LLM API, предоставляя доступ к передовым моделям, таким как llama-3–8b-instruct, llama-3–70b-instruct, mistral-7b-instruct и hermes-2-pro-llama-3–8b.

  • Кроме того, настраиваемые параметры, такие как top-p, temperature, presence penalty и max tokens, позволяют вам кастомизировать производительность LLM.

  • Вы можете свободно сравнивать и оценивать эти различные варианты LLM на Novita AI Playground, что поможет вам выбрать наиболее подходящую модель для ваших конкретных нужд.

Шаг 2: Загрузить датасет SAMSum

  • Датасет SAMSum доступен для загрузки на Hugging Face.
  • Следуйте инструкциям для загрузки датасета и распаковки файлов.

Шаг 3: Предобработка данных

  • Датасет SAMSum содержит диалоги и соответствующие им абстрактные резюме.
  • Вам нужно предобработать данные, чтобы они были совместимы с форматами ввода и вывода, ожидаемыми вашей LLM.
  • Это может включать токенизацию текста, разделение диалогов и резюме и, возможно, добавление специальных токенов или форматирования.

Шаг 4: Тонкая настройка LLM

  • В зависимости от используемой LLM процесс тонкой настройки может незначительно отличаться.
  • В общем, вам нужно будет дообучить модель на датасете SAMSum, используя диалоги как входные данные, а резюме как целевой вывод.
  • Это можно сделать с помощью API тонкой настройки LLM или реализовав собственный тренировочный цикл.
  • Возможно, вам придется экспериментировать с различными гиперпараметрами, такими как скорость обучения, размер батча и количество эпох обучения, чтобы достичь наилучшей производительности.

Шаг 5: Оценка дообученной модели

  • Используйте тестовый набор из датасета SAMSum для оценки производительности вашей дообученной модели.
  • Метрики, такие как ROUGE, использованные в оригинальной статье, могут быть полезны для оценки качества сгенерированных резюме.
  • Вы также можете провести ручную оценку или оценку с участием людей, чтобы получить более полное представление о производительности модели.

Шаг 6: Итерация и улучшение

  • На основе результатов оценки вам может потребоваться изменить процесс тонкой настройки, попробовать другие архитектуры LLM или изучить другие методы для улучшения производительности модели в задаче диалогового реферирования.
  • Датасет SAMSum предоставляет ценный ресурс для итераций и продвижения современного уровня в этой задаче.

Каковы ограничения датасета SAMSum?

На основе исследовательской статьи Gliwa et al. (2019), вот некоторые ключевые ограничения датасета SAMSum:

Ограниченное разнообразие диалогов

  • Диалоги в датасете SAMSum были созданы лингвистами, а не взяты из реальных чат-разговоров.
  • Хотя исследователи стремились, чтобы диалоги отражали типичные разговоры в мессенджерах, датасет может не охватывать всю широту и разнообразие реальных чат-взаимодействий.
  • Диалогам может не хватать нюансов и idiosyncrasies, которые естественным образом возникают в спонтанных разговорах.

Потенциальная предвзятость в резюме

  • Резюме для диалогов также были написаны языковыми экспертами, а не реальными пользователями.
  • Это означает, что резюме могут отражать предвзятости и точки зрения аннотаторов, а не то, как реальные пользователи резюмировали бы разговоры.
  • Резюме также могут быть подвержены влиянию инструкций, данных аннотаторам, например, требование включать имена собеседников и быть написанными от третьего лица.

Ограниченный размер

  • Датасет SAMSum, хотя и относительно большой по сравнению с некоторыми другими датасетами диалогового реферирования, все же относительно мал по сравнению с датасетами новостного реферирования, такими как CNN/Daily Mail.
  • Ограниченный размер датасета может ограничивать способность моделей изучать устойчивые и обобщаемые возможности диалогового реферирования.

Отсутствие контекстной информации

  • Датасет включает только текст диалога и резюме, без какой-либо дополнительной контекстной информации об участниках, теме разговора или обстановке.
  • Это отсутствие контекстной информации может ограничивать способность моделей улавливать нюансы и подтекст диалогов.

Возможный шум и несоответствия

  • Несмотря на процесс очистки, датасет все еще может содержать некоторый шум, опечатки или несоответствия, поскольку он был создан вручную лингвистами.
  • Это может создавать проблемы для моделей, пытающихся изучить закономерности и обобщить данные.

В целом, датасет SAMSum представляет собой ценный вклад в область исследований диалогового реферирования, но он также имеет некоторые внутренние ограничения, о которых исследователи должны знать при использовании и оценке датасета. Устранение этих ограничений может быть областью для будущей работы по расширению и улучшению датасетов диалогового реферирования.

Заключение

Датасет SAMSum представляет собой важный вклад в область исследований диалогового реферирования. Предоставляя высококачественный датасет разговоров в стиле мессенджеров с ручными абстрактными резюме, создатели стремились стимулировать дальнейшие продвижения в этой области.

Однако датасет также имеет некоторые внутренние ограничения, о которых исследователи должны знать, такие как синтетическая природа диалогов, потенциальная предвзятость в резюме и относительно небольшой размер по сравнению с датасетами новостного реферирования.

Устранение этих ограничений и дальнейшее расширение датасета могут быть ценными направлениями для будущей работы. В целом, датасет SAMSum — это ценный ресурс, который может помочь продвинуть прогресс в сложной задаче абстрактного диалогового реферирования.

Ссылки

Gliwa, B., Mochol, I., Biesek, M., & Wawer, A. (2019). SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization. arXiv preprint arXiv:1911.12237.

Novita AI — это универсальная облачная платформа, которая поддерживает ваши AI-амбиции. Благодаря бесшовно интегрированным API, бессерверным вычислениям и GPU-ускорению, мы предоставляем экономически эффективные инструменты, необходимые для быстрого создания и масштабирования вашего AI-бизнеса. Устраните инфраструктурные головные боли и начните бесплатно — Novita AI воплощает ваши AI-мечты в реальность.

Рекомендуемое чтение

Red Pajama LLM: Анализ публичного датасета раскрыт