O que é o Raciocínio Cumulativo com Grandes Modelos de Linguagem?

O que é o Raciocínio Cumulativo com Grandes Modelos de Linguagem?

Introdução

O que é raciocínio cumulativo com grandes modelos de linguagem? Por que precisamos de raciocínio cumulativo para LLMs? Como é o raciocínio cumulativo com LLMs? Os LLMs conseguem fazer raciocínio cumulativo bem? Neste blog, discutiremos essas perguntas uma a uma de forma simples e direta, referenciando o artigo intitulado “Cumulative Reasoning with Large Language Models” de Yifan Zhang, Jingqin Yang, Yang Yuan e Andrew Chi-Chih Yao.

O Que é Raciocínio Cumulativo?

A ideia central por trás da estrutura de raciocínio cumulativo é decompor problemas de raciocínio complexos em etapas menores e, em seguida, construir iterativamente a solução final acumulando e verificando cada etapa intermediária.

Inspirando-se nos processos cognitivos humanos, o raciocínio cumulativo introduz papéis especializados como o “propositor” para sugerir etapas de raciocínio potenciais, “verificadores” para validar propostas em relação ao contexto e um “relator” para sintetizar pontos acumulados em uma solução final.

O raciocínio cumulativo permite o armazenamento dinâmico e a composição de proposições intermediárias verificadas, formando um grafo acíclico dirigido (DAG).

Especificamente, na estrutura de raciocínio cumulativo:

  1. O propositor sugere etapas de raciocínio potenciais com base no contexto atual, que são representadas como novos nós no DAG.
  2. O(s) verificador(es) avaliam se as sugestões do propositor estão corretas e incorporam etapas válidas no contexto da solução em evolução, o que corresponde a adicionar novas arestas direcionadas ao DAG.
  3. O relator determina se o contexto acumulado chegou a uma solução final com base no estado atual. Se sim, ele produz o resultado.

Portanto, todo o processo de raciocínio pode ser representado como um DAG construído dinamicamente, onde os nós são etapas de raciocínio intermediárias e as arestas direcionadas capturam como novas etapas de raciocínio são derivadas das anteriores. O DAG permite que o processo de raciocínio se ramifique e reconverja, e possibilita revisitar e reutilizar resultados de raciocínio anteriores, refletindo melhor o processo de pensamento flexível e de múltiplos caminhos dos humanos ao resolver problemas complexos.

Por que Precisamos de Raciocínio Cumulativo para LLMs?

Apesar dos avanços recentes dos grandes modelos de linguagem (LLMs) em várias aplicações, sua capacidade de resolver problemas complexos de raciocínio com várias etapas continua limitada. Métodos existentes como Cadeia de Pensamento (CoT) e Árvore de Pensamento (ToT), embora tentem guiar os LLMs por um processo de raciocínio passo a passo mais estruturado, carecem de mecanismos dinâmicos para armazenar e aproveitar resultados intermediários gerados durante o processo de raciocínio. Essa incapacidade de construir e compor efetivamente proposições anteriores restringe seu desempenho em problemas intrincados e multifacetados que exigem raciocínio diferenciado em várias etapas.

Inspirando-se nos processos cognitivos humanos, o raciocínio cumulativo introduz papéis especializados como o “propositor” para sugerir etapas de raciocínio potenciais, “verificadores” para validar propostas em relação ao contexto e um “relator” para sintetizar pontos acumulados em uma solução final. Essa decomposição em ciclos iterativos de proposta, verificação e relatório permite que os LLMs dividam tarefas complexas em componentes gerenciáveis.

Crucialmente, o raciocínio cumulativo permite o armazenamento dinâmico e a composição de proposições intermediárias verificadas, formando um grafo acíclico dirigido (DAG) em vez de apenas uma cadeia linear ou estrutura de árvore. Essa flexibilidade estrutural para aproveitar um contexto mais amplo de validações anteriores espelha o raciocínio diferenciado e não linear empregado pelos humanos para lidar com problemas complexos de várias etapas. Assim, o raciocínio cumulativo desbloqueia capacidades de raciocínio mais robustas e versáteis para grandes modelos de linguagem.

Como é o Raciocínio Cumulativo com LLMs?

Construindo Papéis do Modelo de Linguagem

Seguindo a estrutura de Raciocínio Cumulativo, os autores construíram três papéis do modelo de linguagem:

  • Propositor: Sugere etapas de raciocínio potenciais com base no contexto atual
  • Verificador: Avalia as sugestões do propositor quanto à correção e incorpora etapas válidas no contexto
  • Relator: Determina se o contexto acumulado leva a uma solução definitiva

Esses três papéis podem usar o mesmo grande modelo de linguagem, com prompts específicos para atribuir diferentes papéis.

Configurando Linhas de Base

Para avaliar a eficácia do Raciocínio Cumulativo, os autores configuraram as seguintes linhas de base:

  • Prompt direto de entrada e saída (Direct)
  • Prompt de Cadeia de Pensamento (CoT)
  • Prompt de Cadeia de Pensamento com Autoverificação (CoT-SC)
  • Prompt de Árvore de Pensamento (ToT)

Seguindo Procedimentos Experimentais

Os autores testaram vários grandes modelos de linguagem, incluindo GPT-3.5, GPT-4 e modelos LLaMA. Os procedimentos experimentais são os seguintes:

  • Para cada problema em um conjunto de dados, insira o problema no propositor
  • O propositor gera uma série de sugestões de raciocínio como etapas intermediárias
  • Alimente as etapas intermediárias ao verificador, que avalia cada etapa
  • Etapas válidas são incorporadas ao contexto, enquanto etapas inválidas são descartadas
  • Repita o processo acima até que o relator determine que uma solução final pode ser dada
  • Em alguns experimentos, a votação majoritária ou outras estratégias são usadas para melhorar a robustez

Selecionando Conjuntos de Dados de Avaliação

Os autores selecionaram vários conjuntos de dados em diferentes tipos de tarefas de raciocínio complexo para avaliação, incluindo:

  • Tarefas de inferência lógica: conjunto de dados FOLIO wiki, conjunto de dados AutoTNLI
  • Quebra-cabeça matemático Game of 24
  • Resolução de problemas matemáticos: conjunto de dados MATH

Os LLMs Conseguem Fazer Raciocínio Cumulativo Bem?

A resposta simples é: Sim! Os resultados experimentais demonstram que a estrutura CR supera significativamente os métodos de linha de base em todas as tarefas avaliadas.

Desempenho Geral

No conjunto de dados FOLIO wiki, melhora a precisão de 85,02% para 98,04%; no conjunto de dados AutoTNLI, mostra uma melhoria relativa de até 9,3% em relação à Cadeia de Pensamento; no Game of 24, atinge 98% de precisão, marcando uma melhoria de 24% em relação ao melhor método anterior; no conjunto de dados MATH, o CR obtém uma melhoria absoluta de 4,2% e um ganho relativo de 43% nos problemas mais desafiadores de nível 5. Notavelmente, ao integrar o CR com um ambiente de código, os autores alcançam 72,2% de precisão no conjunto de dados MATH, superando o melhor anterior em 38,8% relativamente.

Superioridade sobre Cadeia de Pensamento (CoT) e Árvore de Pensamento (ToT)

O Raciocínio Cumulativo (CR) demonstra sua superioridade sobre a Cadeia de Pensamento (CoT) e a Árvore de Pensamento (ToT) por meio de uma série de resultados empíricos em várias tarefas. Em tarefas de inferência lógica usando conjuntos de dados como FOLIO wiki e AutoTNLI, o CR mostrou desempenho notável, alcançando uma taxa de precisão de 98,04% no conjunto de dados FOLIO curado, que é um salto significativo em relação aos 96,09% do CoT-SC. Esse avanço é atribuído à capacidade do CR de armazenar e aproveitar dinamicamente resultados intermediários, formando um Grafo Acíclico Dirigido (DAG) que permite um contexto mais amplo de proposições validadas.

No Game of 24, um quebra-cabeça matemático, o CR se destacou com uma taxa de precisão de 98%, melhorando o ToT em 24% e fazendo isso com apenas um quarto dos estados visitados, destacando sua eficiência e capacidade de resolução de problemas.

Além disso, no conjunto de dados MATH, o CR não apenas estabeleceu novos marcos com um aumento de 4,2% em relação aos métodos anteriores, mas também mostrou uma melhoria relativa de 43% nos problemas mais difíceis. A integração do CR com um ambiente de código Python levou a uma impressionante precisão de 72,2%, superando métodos como PoT e PAL em 38,8%. Esses resultados ilustram coletivamente a adaptabilidade, robustez e capacidades de raciocínio aprimoradas do CR em comparação com CoT e ToT.

Quais São os Direcionamentos Futuros do Raciocínio Cumulativo com LLMs?

Integração com Sistemas Simbólicos

O artigo discute o potencial de combinar o CR com um ambiente de código Python para aproveitar as capacidades computacionais e de raciocínio lógico dos LLMs. Trabalhos futuros podem explorar uma integração mais profunda com sistemas simbólicos, grafos de conhecimento ou provadores de teoremas formais para melhorar ainda mais a precisão e a complexidade do raciocínio.

Aprimoramento das Capacidades de Generalização

Embora o CR tenha mostrado sucesso em domínios específicos, estender suas capacidades de generalização para uma gama mais ampla de tarefas e domínios será crucial. Isso pode envolver adaptar o CR para lidar com diferentes tipos de raciocínio e resolução de problemas em várias disciplinas.

Aumento da Robustez e Tolerância a Erros

O artigo destaca a natureza tolerante a erros do CR. Trabalhos futuros podem focar em tornar o CR ainda mais robusto, especialmente no tratamento de dados ambíguos ou ruidosos, e melhorar sua capacidade de se recuperar de etapas intermediárias incorretas.

Benchmarking e Padronização

Desenvolver benchmarks padronizados e métricas de avaliação especificamente para tarefas de raciocínio cumulativo pode ajudar a avaliar sistematicamente o progresso e comparar diferentes abordagens.

Como Posso Implementar Raciocínio Cumulativo com Grandes Modelos de Linguagem?

A maioria dos códigos fornecidos pelos autores requer uma conexão com a API da OpenAI para modelos GPT 3.5 e 4, que deve ser o seu primeiro passo.

Em seguida, seja para resolver problemas de matemática, jogar Game 24 ou replicar experimentos de raciocínio cumulativo, basta executar os arquivos Python específicos fornecidos nesta página do Github: https://github.com/iiis-ai/cumulative-reasoning.

Além disso, se você quiser testar raciocínio cumulativo com modelos LLaMA como os autores fizeram no artigo ou com outros LLMs, você pode usar a Novita AI LLM API para acessar vários LLMs.

Conclusão

Em conclusão, a postagem do blog ofereceu uma visão geral abrangente do raciocínio cumulativo com LLMs, uma abordagem inovadora que aprimora significativamente as habilidades de resolução de problemas complexos dos LLMs. Ao decompor problemas complexos em etapas menores e construir iterativamente soluções por meio de um processo de proposta, verificação e relatório, o raciocínio cumulativo espelha as estratégias cognitivas humanas.

Os resultados de vários conjuntos de dados foram impressionantes, mostrando melhorias substanciais na precisão, especialmente quando o raciocínio cumulativo foi integrado a um ambiente de código. Além disso, os resultados demonstraram a superioridade do raciocínio cumulativo sobre métodos existentes como Cadeia de Pensamento e Árvore de Pensamento.

No geral, os direcionamentos futuros do raciocínio cumulativo com LLMs têm o potencial de impulsionar os LLMs a novos patamares no raciocínio de IA, levando a capacidades de resolução de problemas mais sofisticadas e semelhantes às humanas.

Referências

Zhang, Y., Yang, J., Yuan, Y., & Yao, A. C.-C. (2024). Cumulative Reasoning with Large Language Models. IIIS, Tsinghua University. https://arxiv.org/pdf/2308.04371

Novita AI, a plataforma completa para criatividade ilimitada que oferece acesso a mais de 100 APIs. Desde geração de imagens e processamento de linguagem até aprimoramento de áudio e manipulação de vídeo, com pagamento conforme o uso, ela liberta você das preocupações com manutenção de GPU enquanto constrói seus próprios produtos. Experimente gratuitamente.