Chain-of-Thought Prompting Desencadeia Raciocínio em Grandes Modelos de Linguagem

Chain-of-Thought Prompting Desencadeia Raciocínio em Grandes Modelos de Linguagem

Explore sua eficácia em tarefas de raciocínio aritmético, simbólico e de senso comum, revelando seus benefícios de escalabilidade. Testemunhe as impressionantes melhorias de desempenho em vários benchmarks e entenda seu potencial para generalização de comprimento.

Introdução

O campo de PLN passou por uma transformação significativa graças aos avanços recentes em modelos de linguagem. Aumentar a escala desses modelos demonstrou oferecer várias vantagens, incluindo desempenho aprimorado e eficiência na aprendizagem a partir de amostras. No entanto, apenas aumentar o tamanho dos modelos não se mostrou suficiente para alcançar alta proficiência em tarefas exigentes, como aritmética, raciocínio de senso comum e raciocínio simbólico.

Este artigo explora como as capacidades de raciocínio de grandes modelos de linguagem podem ser aprimoradas através de uma abordagem direta impulsionada por dois conceitos-chave. Primeiro, enfatiza a importância de gerar explicações em linguagem natural que elucidem as etapas que levam a uma solução, particularmente benéfico em tarefas de raciocínio aritmético. Além disso, destaca o potencial de grandes modelos de linguagem para aprendizado few-shot em contexto através de prompting. Em vez de ajustar um modelo separado para cada nova tarefa, essa abordagem envolve fornecer ao modelo alguns exemplos de entrada-saída que ilustram a tarefa, o que tem mostrado sucesso notável em várias tarefas simples de resposta a perguntas.

O prompting Chain-of-Thought permite que grandes modelos de linguagem abordem tarefas complexas de raciocínio aritmético, de senso comum e simbólico.

O que é Chain-of-Thought Prompting

O prompting Chain-of-Thought apresenta várias qualidades atraentes como uma abordagem para aprimorar o raciocínio em modelos de linguagem.

  1. Primeiro, permite que os modelos dividam problemas complexos em etapas intermediárias, permitindo alocação adicional de computação para problemas que exigem múltiplas etapas de raciocínio.
  2. Segundo, uma chain-of-thought oferece uma visão compreensível do comportamento do modelo, indicando como ele pode ter chegado a uma resposta específica e oferecendo oportunidades para identificar e corrigir erros no processo de raciocínio (embora compreender completamente os cálculos do modelo que suportam uma resposta continue sendo um desafio).
  3. Terceiro, o raciocínio chain-of-thought é aplicável a várias tarefas, como problemas de palavras matemáticas, raciocínio de senso comum e manipulação simbólica, potencialmente se estendendo a qualquer tarefa solucionável por humanos através da linguagem.
  4. Finalmente, o raciocínio chain-of-thought pode ser facilmente incorporado em modelos de linguagem pré-treinados suficientemente grandes, incluindo exemplos de sequências chain-of-thought nos exemplares few-shot prompting, tornando-o uma ferramenta versátil para melhorar o desempenho do modelo.

Se você quiser saber mais informações gerais sobre chain-of-thought em LLMs, pode conferir nosso blog: Unlocking the Potential of Chain-of-Thought Prompting in Large-Scale Language Models

Raciocínio Aritmético

Embora o raciocínio aritmético possa parecer direto para humanos, os modelos de linguagem frequentemente encontram dificuldades com ele. Notavelmente, quando aplicado a um modelo de linguagem de 540 bilhões de parâmetros, o prompting chain-of-thought produz desempenho comparável a modelos ajustados especificamente para a tarefa em várias tarefas. Ele até alcança um novo estado da arte no desafiador benchmark GSM8K.

Configuração Experimental

Investigamos a eficácia do prompting chain-of-thought em vários modelos de linguagem em múltiplos benchmarks de problemas de palavras matemáticas. Esses benchmarks incluem o benchmark GSM8K, conjunto de dados SVAMP, conjunto de dados ASDiv, conjunto de dados AQuA e o benchmark MAWPS, cada um oferecendo desafios distintos na resolução de problemas de palavras matemáticas. Fornecemos problemas de exemplo na Tabela 12 do Apêndice para referência.

Benchmarks.

Para nossa comparação de linha de base, empregamos a técnica padrão de few-shot prompting amplamente utilizada. Este método envolve apresentar ao modelo de linguagem exemplos em contexto de pares entrada-saída antes de fazer previsões em exemplos de teste. Esses exemplares são estruturados como perguntas e respostas, com o modelo gerando diretamente a resposta.

Prompting padrão

Em contraste, nossa abordagem proposta, prompting chain-of-thought, aprimora cada exemplar no few-shot prompting com uma chain-of-thought detalhada ligada à resposta associada. Como a maioria dos conjuntos de dados fornece apenas uma divisão de avaliação, criamos manualmente um conjunto de oito exemplares few-shot com chains-of-thought para prompting. Um desses exemplares chain-of-thought é ilustrado na Figura 1, e o conjunto completo está disponível na Tabela 20 do Apêndice. É importante notar que esses exemplares não passaram por engenharia de prompt; exploramos sua robustez na Seção 3.4 e no Apêndice A.2.

Nosso objetivo é investigar se essa forma de prompting chain-of-thought pode efetivamente estimular o raciocínio bem-sucedido em uma ampla gama de cenários de problemas de palavras matemáticas.

Modelos de linguagem

Avaliamos o desempenho de cinco grandes modelos de linguagem. O primeiro é GPT-3, para o qual utilizamos as variantes text-ada-001, text-babbage-001, text-curie-001 e text-davinci-002, correspondendo aos modelos InstructGPT de 350M, 1.3B, 6.7B e 175B parâmetros, respectivamente. O segundo modelo é LaMDA, disponível nas versões com 422M, 2B, 8B, 68B e 137B parâmetros. O terceiro modelo é PaLM, oferecendo modelos com 8B, 62B e 540B parâmetros. O quarto modelo é UL2 20B, e o quinto é Codex.

Amostramos desses modelos usando decodificação gulosa, embora pesquisas subsequentes sugiram que o prompting chain-of-thought pode ser refinado agregando a resposta final majoritária ao longo de várias gerações amostradas. Para LaMDA, apresentamos resultados médios em cinco sementes aleatórias, com cada semente empregando uma ordem diferente embaralhada aleatoriamente dos exemplares. Como os experimentos com LaMDA não mostraram variância significativa entre diferentes sementes, para otimizar recursos computacionais, relatamos resultados com base em uma única ordem de exemplar para todos os outros modelos.

Resultados

O prompting chain-of-thought capacita grandes modelos de linguagem a resolver problemas matemáticos difíceis. Notavelmente, a capacidade de raciocinar através de chains-of-thought emerge à medida que os modelos escalam.

Raciocínio de Senso Comum

Embora a metodologia chain-of-thought seja particularmente eficaz para abordar problemas de palavras matemáticas, sua abordagem baseada em linguagem a torna aplicável a uma ampla gama de tarefas de raciocínio de senso comum. O raciocínio de senso comum envolve entender interações físicas e humanas com base em conhecimento geral de fundo, uma habilidade ainda desafiadora para os sistemas atuais de compreensão de linguagem natural (Talmor et al., 2021).

Benchmarks

Avaliamos essa abordagem em cinco conjuntos de dados representando vários tipos de raciocínio de senso comum. O conjunto de dados CSQA envolve responder a perguntas de senso comum sobre o mundo, frequentemente exigindo conhecimento prévio de semânticas complexas. StrategyQA requer que os modelos deduzam estratégias de múltiplas etapas para responder perguntas. Além disso, utilizamos dois conjuntos de avaliação especializados da iniciativa BIG-bench: Date Understanding, focado em inferir datas a partir do contexto, e Sports Understanding, que envolve determinar a plausibilidade de frases relacionadas a esportes. Por último, o conjunto de dados SayCan envolve mapear instruções em linguagem natural para sequências de ações de robôs a partir de um conjunto discreto. Exemplos com anotações chain-of-thought para todos os conjuntos de dados são ilustrados.

Prompts.

Em termos de configuração experimental, seguimos uma abordagem semelhante à da seção anterior. Para CSQA e StrategyQA, selecionamos aleatoriamente exemplos do conjunto de treino e criamos manualmente chains-of-thought para eles servirem como exemplares few-shot. Como as duas tarefas BIG-bench não possuem conjuntos de treino, usamos os primeiros dez exemplos do conjunto de avaliação como exemplares few-shot e reportamos resultados no restante do conjunto de avaliação. Para SayCan, utilizamos seis exemplos do conjunto de treino e criamos chains-of-thought manualmente.

Resultados

Os resultados, destacados na Figura 7 para PaLM (com resultados completos para LaMDA, GPT-3 e diferentes escalas de modelo mostrados na Tabela 4), revelam que aumentar o tamanho do modelo melhora o desempenho do prompting padrão em todas as tarefas. Além disso, o prompting chain-of-thought leva a ganhos adicionais de desempenho, com as melhorias mais significativas observadas para PaLM 540B. Com o prompting chain-of-thought, PaLM 540B alcança resultados impressionantes, superando o estado da arte anterior em StrategyQA (75,6% vs 69,4%) e até superando entusiastas de esportes não assistidos em compreensão esportiva (95,4% vs 84%). Essas descobertas ressaltam o potencial do prompting chain-of-thought para melhorar o desempenho em uma variedade de tarefas de raciocínio de senso comum, embora os ganhos tenham sido mínimos em CSQA.

Raciocínio Simbólico

Em nossa avaliação experimental conclusiva, focamos no raciocínio simbólico, uma tarefa que é direta para humanos, mas pode representar desafios para modelos de linguagem. Demonstramos que o prompting chain-of-thought não apenas capacita modelos de linguagem a lidar com tarefas de raciocínio simbólico que são difíceis sob condições padrão de prompting, mas também auxilia na generalização de comprimento, permitindo que os modelos lidem com entradas de inferência mais longas do que aquelas encontradas nos exemplares few-shot.

Tarefas

Empregamos as duas tarefas simples a seguir para nossa análise:

  1. Concatenação da última letra: Nesta tarefa, o modelo tem a tarefa de concatenar as últimas letras das palavras em um nome dado (por exemplo, “Amy Brown” → “yn”). Apresenta uma versão mais desafiadora da tarefa de concatenação da primeira letra, que modelos de linguagem já podem realizar sem a necessidade de chain-of-thought. Geramos nomes completos combinando aleatoriamente nomes dos mil primeiros nomes e sobrenomes obtidos de dados censitários de nomes.
  2. Lançamento de moeda: Esta tarefa requer que o modelo determine se uma moeda ainda está com a face para cima depois que pessoas a viram ou não (por exemplo, “Uma moeda está com a face para cima. Phoebe vira a moeda. Osvaldo não vira a moeda. A moeda ainda está com a face para cima?” → “não”).

resultados

Na figura abaixo, apresentamos os resultados das avaliações dentro do domínio e fora do domínio (OOD) para PaLM, com resultados LaMDA detalhados na Tabela 5 do Apêndice. Notavelmente, com PaLM 540B, o prompting chain-of-thought atinge taxas de sucesso de quase 100%, embora o prompting padrão já realize tarefas de lançamento de moeda com PaLM 540B (embora não para LaMDA 137B).

Essas avaliações dentro do domínio envolvem “tarefas de brinquedo”, onde estruturas de solução perfeitas são fornecidas pelas chains-of-thought nos exemplares few-shot. Apesar disso, modelos menores ainda lutam, demonstrando que a capacidade de manipular conceitos abstratos em símbolos não vistos só emerge em uma escala de 100B parâmetros de modelo.

Nas avaliações OOD, o prompting padrão falha para ambas as tarefas. No entanto, com o prompting chain-of-thought, os modelos de linguagem exibem curvas de escala ascendentes, embora com desempenho inferior em comparação com o cenário dentro do domínio. Isso indica que o prompting chain-of-thought facilita a generalização de comprimento além de chains-of-thought familiares para modelos de linguagem adequadamente escalados.

Conclusão

Nossa exploração do prompting chain-of-thought revela sua eficácia como uma técnica simples e amplamente aplicável para aprimorar as capacidades de raciocínio em modelos de linguagem. Em experimentos abrangendo raciocínio aritmético, simbólico e de senso comum, observamos que o raciocínio chain-of-thought emerge como uma propriedade da escala do modelo. Isso permite que grandes modelos de linguagem suficientemente grandes lidem efetivamente com tarefas de raciocínio que, de outra forma, exibem curvas de escala planas.

Ao expandir o repertório de tarefas de raciocínio que os modelos de linguagem podem manejar proficientemente, pretendemos estimular a exploração contínua e o desenvolvimento de abordagens baseadas em linguagem para o raciocínio.

novita.ai, a plataforma única para criatividade ilimitada que oferece acesso a mais de 100 APIs. Desde geração de imagens e processamento de linguagem até aprimoramento de áudio e manipulação de vídeo, com pagamento conforme o uso, ela libera você das dores de cabeça da manutenção de GPU enquanto constrói seus próprios produtos. Experimente gratuitamente.

Leitura recomendada

Qual é a diferença entre LLM e GPT

Previsões do LLM Leaderboard 2024 Reveladas

Novita AI LLM Inference Engine: a maior taxa de transferência e a inferência mais barata disponível