Introdução
Você é um pesquisador ou desenvolvedor interessado na área de sumarização de diálogos? Se sim, você não vai querer perder o inovador Dataset SAMSum — um dataset único que está pronto para transformar o estado da arte.
Neste post do blog, referenciando o artigo “SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization”, vamos mergulhar fundo no Dataset SAMSum, descobrindo suas principais características e explorando como você pode aproveitar esse recurso poderoso com sua LLM API. Esteja você procurando ajustar modelos de linguagem, avaliar abordagens de sumarização ou simplesmente ficar à frente da curva, esta visão geral abrangente tem tudo o que você precisa. Vamos nessa!
O que é o Dataset SAMSum?

Criador
O Corpus SAMSum, ou Dataset SAMSum, foi criado por pesquisadores do Samsung R&D Institute Poland — Bogdan Gliwa, Iwona Mochol, Maciej Biesek e Aleksander Wawer.
Idioma
Os diálogos no Corpus SAMSum estão em inglês.
Estrutura dos Dados
- Instâncias de Dados: O dataset contém 16.369 diálogos de chat. Aqui está um exemplo de diálogo e resumo do Corpus SAMSum:

- Campos de Dados: Cada instância de diálogo inclui o texto real do diálogo, com cada fala rotulada com o nome do falante. Cada diálogo também possui um resumo abstrativo escrito manualmente.
- Divisões dos Dados: O dataset é dividido em 14.732 diálogos para treinamento, 818 para validação e 819 para teste.
Dados de Origem
Como não existia um dataset de conversas no estilo messenger disponível, os pesquisadores decidiram criar o Dataset SAMSum do zero. Linguistas fluentes em inglês foram solicitados a construir diálogos de chat com som natural, refletindo os tópicos e estilos típicos de conversas reais em messengers.
Anotadores dos Dados
O artigo “SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization” não menciona explicitamente as identidades dos anotadores de dados do Dataset SAMSum. Ele afirma que os diálogos foram criados por “linguistas fluentes em inglês” e que os resumos manuais também foram escritos por “especialistas em linguagem”.
Portanto, os anotadores de dados provavelmente eram linguistas profissionais e especialistas em linguagem recrutados pelos pesquisadores do Samsung R&D Institute Poland para construir os diálogos e escrever os resumos. No entanto, suas identidades específicas não são fornecidas no artigo.
Por que as Pessoas Criaram o Dataset SAMSum?
Os autores observam que os principais esforços de pesquisa em sumarização de texto até agora se concentraram em resumir documentos de um único falante, como artigos de notícias, devido à disponibilidade de grandes datasets de notícias de alta qualidade com resumos. No entanto, faltava um dataset abrangente para sumarização de diálogos.
Os autores argumentam que os desafios impostos pela sumarização abstrativa de diálogos exigem modelos e abordagens de avaliação dedicados, além do que foi desenvolvido para sumarização de notícias. Ao criar o Corpus SAMSum, os pesquisadores visavam fornecer um dataset de alta qualidade de diálogos de chat com resumos abstrativos manuais, que pudesse ser usado pela comunidade de pesquisa para estudar e avançar ainda mais a sumarização de diálogos.
Como Posso Ajustar Meu LLM com o Dataset SAMSum?
Aqui estão os passos que você pode seguir para ajustar um modelo de linguagem grande (LLM) usando o dataset SAMSum:
Passo 1: Obter uma API de LLM
- Inscreva-se para obter uma chave de API ou token de acesso para usar o LLM em seu código.
- A Novita AI oferece aos desenvolvedores uma gama diversificada de opções de LLM API, fornecendo acesso a modelos de ponta como llama-3–8b-instruct, llama-3–70b-instruct, mistral-7b-instruct e hermes-2-pro-llama-3–8b.

- Além disso, parâmetros ajustáveis como top-p, temperatura, penalty de presença e max tokens permitem personalizar o desempenho do LLM.

- Você pode comparar e avaliar livremente essas diferentes opções de LLM no Novita AI Playground, ajudando a selecionar o modelo mais adequado para suas necessidades específicas.
Passo 2: Baixar o dataset SAMSum
- O dataset SAMSum está disponível para download no Hugging Face.
- Siga as instruções para baixar o dataset e descompactar os arquivos.
Passo 3: Pré-processar os dados
- O dataset SAMSum contém diálogos e seus resumos abstrativos correspondentes.
- Você precisará pré-processar os dados para que sejam compatíveis com os formatos de entrada e saída esperados pelo seu LLM.
- Isso pode envolver tokenizar o texto, separar os diálogos e resumos, e potencialmente adicionar tokens especiais ou formatação.
Passo 4: Ajustar o LLM
- Dependendo do LLM que você está usando, o processo de ajuste pode diferir ligeiramente.
- Geralmente, você precisará ajustar o modelo no dataset SAMSum, usando os diálogos como entrada e os resumos como saída alvo.
- Isso pode ser feito usando a API de ajuste fino do LLM ou implementando um loop de treinamento personalizado.
- Você pode precisar experimentar diferentes hiperparâmetros, como taxa de aprendizado, tamanho do lote e número de épocas de treinamento, para alcançar o melhor desempenho.
Passo 5: Avaliar o modelo ajustado
- Use o conjunto de teste do dataset SAMSum para avaliar o desempenho do seu modelo ajustado.
- Métricas como pontuações ROUGE, conforme usadas no artigo original, podem ser úteis para avaliar a qualidade dos resumos gerados.
- Você também pode querer realizar avaliação manual ou avaliação humana para ter uma noção melhor do desempenho do modelo.
Passo 6: Iterar e melhorar
- Com base nos resultados da avaliação, você pode precisar ajustar seu processo de fine-tuning, tentar diferentes arquiteturas de LLM ou explorar outras técnicas para melhorar o desempenho do modelo na sumarização de diálogos.
- O dataset SAMSum fornece um recurso valioso para iterar e avançar o estado da arte nesta tarefa.
Quais são as Limitações do Dataset SAMSum?
Com base no artigo de pesquisa de Gliwa et al. (2019), aqui estão algumas das principais limitações do dataset SAMSum:
Diversidade Limitada de Diálogos
- Os diálogos no dataset SAMSum foram criados por linguistas, em vez de serem originados de conversas reais de chat.
- Embora os pesquisadores tenham buscado fazer com que os diálogos refletissem conversas típicas de messenger, o dataset pode não capturar toda a amplitude e diversidade das interações de chat do mundo real.
- Os diálogos podem carecer das nuances e idiossincrasias que ocorrem naturalmente em conversas espontâneas.
Viés Potencial nos Resumos
- Os resumos dos diálogos também foram escritos por especialistas em linguagem, em vez de serem originados de usuários reais.
- Isso significa que os resumos podem refletir os vieses e perspectivas dos anotadores, em vez de representar como os usuários reais resumiriam as conversas.
- Os resumos também podem ser influenciados pelas instruções dadas aos anotadores, como o requisito de incluir nomes dos interlocutores e serem escritos na terceira pessoa.
Tamanho Limitado
- O dataset SAMSum, embora relativamente grande em comparação com alguns outros datasets de sumarização de diálogos, ainda é relativamente pequeno em comparação com datasets de sumarização de notícias como CNN/Daily Mail.
- O tamanho limitado do dataset pode restringir a capacidade dos modelos de aprender capacidades de sumarização de diálogos robustas e generalizáveis.
Falta de Informações Contextuais
- O dataset inclui apenas o texto do diálogo e o resumo, sem qualquer informação contextual adicional sobre os participantes, o tópico da conversa ou o ambiente.
- Essa falta de informações contextuais pode limitar a capacidade dos modelos de capturar as nuances e implicações dos diálogos.
Potencial Ruído e Inconsistências
- Apesar do processo de limpeza, o dataset pode ainda conter algum ruído, erros de digitação ou inconsistências, pois foi criado manualmente por linguistas.
- Isso pode introduzir desafios para modelos que tentam aprender padrões e generalizar a partir dos dados.
No geral, o dataset SAMSum representa uma contribuição valiosa para o campo da pesquisa em sumarização de diálogos, mas também tem algumas limitações inerentes que os pesquisadores devem estar cientes ao usar e avaliar o dataset. Abordar essas limitações pode ser uma área para trabalhos futuros na expansão e aprimoramento de datasets de sumarização de diálogos.
Conclusão
O Dataset SAMSum representa uma importante contribuição para o campo da pesquisa em sumarização de diálogos. Ao fornecer um dataset de alta qualidade de conversas no estilo messenger com resumos abstrativos manuais, os criadores visaram impulsionar novos avanços nesta área.
No entanto, o dataset também possui algumas limitações inerentes que os pesquisadores devem estar cientes, como a natureza sintética dos diálogos, potenciais vieses nos resumos e o tamanho relativamente pequeno em comparação com datasets de sumarização de notícias.
Abordar essas limitações e expandir ainda mais o dataset podem ser áreas valiosas para trabalhos futuros. No geral, o Dataset SAMSum é um recurso valioso que pode ajudar a impulsionar o progresso na desafiadora tarefa de sumarização abstrativa de diálogos.
Referências
Gliwa, B., Mochol, I., Biesek, M., & Wawer, A. (2019). SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization. arXiv preprint arXiv:1911.12237.
Novita AI é a plataforma completa em nuvem que impulsiona suas ambições de IA. Com APIs integradas perfeitamente, computação serverless e aceleração GPU, fornecemos as ferramentas econômicas que você precisa para construir e escalar rapidamente seu negócio orientado por IA. Elimine as dores de cabeça de infraestrutura e comece gratuitamente — a Novita AI torna seus sonhos de IA realidade.
Leitura Recomendada
