Tout ce que vous devez savoir sur le jeu de données SAMSum

Tout ce que vous devez savoir sur le jeu de données SAMSum

Introduction

Vous êtes chercheur ou développeur intéressé par le domaine du résumé de dialogues ? Si oui, vous ne voudrez pas manquer le jeu de données révolutionnaire SAMSum — un ensemble de données unique prêt à transformer l’état de l’art.

Dans cet article de blog, en nous référant à l’article « SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization », nous allons plonger en profondeur dans le jeu de données SAMSum, découvrir ses principales caractéristiques et explorer comment vous pouvez tirer parti de cette ressource puissante avec votre API LLM. Que vous cherchiez à affiner des modèles de langage, à comparer des approches de résumé ou simplement à rester à la pointe, cet aperçu complet a tout ce qu’il vous faut. C’est parti !

Qu’est-ce que le jeu de données SAMSum ?

Créateur

Le Corpus SAMSum, ou jeu de données SAMSum, a été créé par des chercheurs du Samsung R&D Institute Poland — Bogdan Gliwa, Iwona Mochol, Maciej Biesek et Aleksander Wawer.

Langue

Les dialogues du Corpus SAMSum sont en anglais.

Structure des données

  • Instances de données : le jeu de données contient 16 369 dialogues de chat. Voici un exemple de dialogue et de résumé tiré du Corpus SAMSum :

  • Champs de données : chaque instance de dialogue inclut le texte du dialogue proprement dit, chaque énoncé étant étiqueté avec le nom de l’interlocuteur. Chaque dialogue possède également un résumé abstractif rédigé manuellement.
  • Divisions des données : le jeu de données est divisé en 14 732 dialogues pour l’entraînement, 818 pour la validation et 819 pour le test.

Données sources

Comme il n’existait pas de jeu de données de conversations de type messagerie, les chercheurs ont décidé de créer le jeu de données SAMSum à partir de zéro. Des linguistes parlant couramment anglais ont été invités à construire des dialogues de chat naturels reflétant les sujets et les styles typiques des conversations de messagerie réelles.

Annotateurs de données

L’article « SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization » ne mentionne pas explicitement l’identité des annotateurs de données pour le jeu de données SAMSum. Il indique que les dialogues ont été créés par des « linguistes parlant couramment anglais » et que les résumés manuels ont également été rédigés par des « experts en langue ».

Les annotateurs étaient donc probablement des linguistes professionnels et des experts en langue recrutés par les chercheurs du Samsung R&D Institute Poland pour construire les dialogues et rédiger les résumés. Cependant, leur identité précise n’est pas fournie dans l’article.

Pourquoi a-t-on créé le jeu de données SAMSum ?

Les auteurs notent que les principaux efforts de recherche en résumé de textes se sont jusqu’à présent concentrés sur le résumé de documents à un seul locuteur, comme les articles de presse, en raison de la disponibilité de grands jeux de données de qualité avec résumés. Cependant, un jeu de données complet pour le résumé de dialogues faisait défaut.

Les auteurs soutiennent que les défis posés par le résumé abstractif de dialogues nécessitent des modèles et des approches d’évaluation dédiés, au-delà de ce qui a été développé pour le résumé d’articles. En créant le Corpus SAMSum, les chercheurs ont cherché à fournir un jeu de données de haute qualité de dialogues de chat avec des résumés abstractifs manuels, pouvant être utilisé par la communauté de recherche pour étudier et faire progresser le résumé de dialogues.

Comment puis-je affiner mon LLM avec le jeu de données SAMSum ?

Voici les étapes à suivre pour affiner un grand modèle de langage (LLM) à l’aide du jeu de données SAMSum :

Étape 1 : Obtenir une API LLM

  • Inscrivez-vous pour obtenir une clé API ou un jeton d’accès afin d’utiliser le LLM dans votre code.
  • Novita AI propose aux développeurs une gamme variée d’API LLM, donnant accès à des modèles de pointe comme llama-3–8b-instruct, llama-3–70b-instruct, mistral-7b-instruct et hermes-2-pro-llama-3–8b.

  • De plus, des paramètres ajustables tels que top-p, temperature, presence penalty et max tokens vous permettent de personnaliser les performances du LLM.

  • Vous pouvez librement comparer et évaluer ces différents choix de LLM sur Novita AI Playground, ce qui vous aide à sélectionner le modèle le plus adapté à vos besoins spécifiques.

Étape 2 : Télécharger le jeu de données SAMSum

  • Le jeu de données SAMSum est disponible en téléchargement sur Hugging Face.
  • Suivez les instructions pour télécharger le jeu de données et décompresser les fichiers.

Étape 3 : Prétraiter les données

  • Le jeu de données SAMSum contient des dialogues et leurs résumés abstractifs correspondants.
  • Vous devrez prétraiter les données pour qu’elles soient compatibles avec les formats d’entrée et de sortie attendus par votre LLM.
  • Cela peut impliquer de tokeniser le texte, de séparer les dialogues et les résumés, et éventuellement d’ajouter des tokens spéciaux ou de formater.

Étape 4 : Affiner le LLM

  • Selon le LLM que vous utilisez, le processus d’affinage peut légèrement différer.
  • En général, vous devrez affiner le modèle sur le jeu de données SAMSum, en utilisant les dialogues comme entrée et les résumés comme sortie cible.
  • Cela peut être fait à l’aide de l’API d’affinage du LLM ou en implémentant une boucle d’entraînement personnalisée.
  • Vous devrez peut-être expérimenter avec différents hyperparamètres, tels que le taux d’apprentissage, la taille de lot et le nombre d’époques d’entraînement, pour obtenir les meilleures performances.

Étape 5 : Évaluer le modèle affiné

  • Utilisez l’ensemble de test du jeu de données SAMSum pour évaluer les performances de votre modèle affiné.
  • Des métriques comme les scores ROUGE, telles qu’utilisées dans l’article original, peuvent être utiles pour évaluer la qualité des résumés générés.
  • Vous pouvez également effectuer une évaluation manuelle ou une évaluation humaine pour mieux comprendre les performances du modèle.

Étape 6 : Itérer et améliorer

  • Sur la base des résultats de l’évaluation, vous devrez peut-être ajuster votre processus d’affinage, essayer différentes architectures de LLM ou explorer d’autres techniques pour améliorer les performances du modèle sur le résumé de dialogues.
  • Le jeu de données SAMSum fournit une ressource précieuse pour itérer et faire progresser l’état de l’art dans cette tâche.

Quelles sont les limitations du jeu de données SAMSum ?

D’après l’article de recherche de Gliwa et al. (2019), voici quelques-unes des limitations clés du jeu de données SAMSum :

Diversité limitée des dialogues

  • Les dialogues du jeu de données SAMSum ont été créés par des linguistes, plutôt que d’être issus de conversations de chat réelles.
  • Bien que les chercheurs aient cherché à ce que les dialogues reflètent les conversations typiques de messagerie, le jeu de données peut ne pas capturer toute la diversité et la variété des interactions de chat réelles.
  • Les dialogues peuvent manquer des nuances et des idiosyncrasies qui se produisent naturellement dans les conversations spontanées.

Biais potentiel dans les résumés

  • Les résumés des dialogues ont également été rédigés par des experts en langue, plutôt que d’être issus d’utilisateurs réels.
  • Cela signifie que les résumés peuvent refléter les biais et les perspectives des annotateurs, plutôt que de représenter la façon dont les utilisateurs réels résumeraient les conversations.
  • Les résumés peuvent également être influencés par les instructions données aux annotateurs, comme l’exigence d’inclure les noms des interlocuteurs et d’être rédigés à la troisième personne.

Taille limitée

  • Le jeu de données SAMSum, bien que relativement grand par rapport à certains autres jeux de données de résumé de dialogues, est encore relativement petit par rapport à des jeux de données de résumé d’articles comme CNN/Daily Mail.
  • La taille limitée du jeu de données peut limiter la capacité des modèles à apprendre des capacités de résumé de dialogues robustes et généralisables.

Manque d’informations contextuelles

  • Le jeu de données ne comprend que le texte du dialogue et le résumé, sans aucune information contextuelle supplémentaire sur les participants, le sujet de la conversation ou le cadre.
  • Ce manque d’informations contextuelles peut limiter la capacité des modèles à capturer les nuances et les implications des dialogues.

Bruit et incohérences potentiels

  • Malgré le processus de nettoyage, le jeu de données peut encore contenir du bruit, des fautes de frappe ou des incohérences, car il a été créé manuellement par des linguistes.
  • Cela pourrait introduire des défis pour les modèles qui tentent d’apprendre des schémas et de généraliser à partir des données.

Dans l’ensemble, le jeu de données SAMSum représente une contribution précieuse au domaine de la recherche sur le résumé de dialogues, mais il présente également certaines limitations inhérentes dont les chercheurs doivent être conscients lorsqu’ils utilisent et évaluent le jeu de données. Remédier à ces limitations pourrait être un domaine de travail futur pour l’expansion et l’amélioration des jeux de données de résumé de dialogues.

Conclusion

Le jeu de données SAMSum représente une contribution importante au domaine de la recherche sur le résumé de dialogues. En fournissant un jeu de données de haute qualité de conversations de type messagerie avec des résumés abstractifs manuels, les créateurs ont cherché à stimuler de nouvelles avancées dans ce domaine.

Cependant, le jeu de données présente également certaines limitations inhérentes dont les chercheurs doivent être conscients, comme la nature synthétique des dialogues, les biais potentiels dans les résumés et la taille relativement petite par rapport aux jeux de données de résumé d’articles.

Remédier à ces limitations et étendre davantage le jeu de données pourrait être un domaine précieux pour les travaux futurs. Dans l’ensemble, le jeu de données SAMSum est une ressource précieuse qui peut aider à faire progresser la tâche difficile du résumé abstractif de dialogues.

Références

Gliwa, B., Mochol, I., Biesek, M., & Wawer, A. (2019). SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization. arXiv preprint arXiv:1911.12237.

Novita AI est la plateforme cloud tout-en-un qui alimente vos ambitions en matière d’IA. Grâce à des API intégrées de manière transparente, à l’informatique sans serveur et à l’accélération GPU, nous vous fournissons les outils rentables dont vous avez besoin pour créer et développer rapidement votre entreprise pilotée par l’IA. Éliminez les problèmes d’infrastructure et commencez gratuitement — Novita AI fait de vos rêves d’IA une réalité.

Lectures recommandées

Red Pajama LLM : Analyse du jeu de données public révélée