Explore como o prompting de Cadeia de Pensamento (CoT) aprimora Modelos de Linguagem de Grande Escala (LLMs) em vários domínios, desde raciocínio aritmético até senso comum e raciocínio simbólico em nosso blog.
Introdução
Os Modelos de Linguagem de Grande Escala (LLMs) transformaram o panorama da inteligência artificial, oferecendo capacidades inigualáveis tanto na compreensão quanto na geração de linguagem natural. No entanto, sua proficiência na execução de tarefas de raciocínio intrincadas tem sido um ponto focal de extensa investigação. Uma abordagem promissora nessa área é o prompting de Cadeia de Pensamento (CoT). Este artigo explora as nuances do prompting CoT e suas ramificações para a trajetória futura dos LLMs.
O prompting CoT, conforme descrito em um artigo recente, é uma estratégia projetada para instruir LLMs a elucidar seus processos de raciocínio. Isso implica fornecer ao modelo um conjunto de exemplos onde a via de raciocínio é explicitamente delineada de maneira few-shot. A expectativa é que o LLM emule uma trajetória de raciocínio semelhante ao responder ao prompt. Esta metodologia demonstrou uma melhoria notável na eficácia do modelo para tarefas que exigem raciocínio complexo.

Uma vantagem primária do prompting CoT reside em sua capacidade de impulsionar o desempenho dos LLMs em tarefas que envolvem raciocínio aritmético, de senso comum e simbólico. Pesquisas indicaram melhorias substanciais de desempenho, particularmente com modelos com aproximadamente 100 bilhões de parâmetros. Por outro lado, modelos menores têm exibido tendências a gerar cadeias de pensamento ilógicas, resultando em precisão diminuída em comparação com técnicas de prompting convencionais.
Compreendendo o Prompting de Cadeia de Pensamento
Essencialmente, o prompting CoT envolve direcionar o LLM a pensar passo a passo. Isso implica apresentar ao modelo um exemplo few-shot que delineia o processo de raciocínio. O modelo é então encarregado de seguir uma cadeia de pensamento comparável ao formular sua resposta ao prompt. Tal método se mostra particularmente eficaz para tarefas intrincadas que exigem uma sequência de etapas de raciocínio antes de gerar uma resposta.
Aqui está um exemplo de um prompt CoT utilizando uma estratégia few-shot:

Aqui está como o Modelo de Linguagem de Grande Escala (fornecido pela novita.ai) responde:

O prompting CoT pode se estender também a um contexto zero-shot. Nesse cenário, envolve anexar uma frase como “Vamos abordar isso passo a passo” ao prompt inicial, o que pode complementar o prompting few-shot. Essa pequena inclusão provou ser eficaz em melhorar a eficácia do modelo para tarefas onde o prompt carece de exemplos suficientes para se basear.
O Desafio do Manual-CoT
Apesar das notáveis conquistas do Manual-CoT, a criação manual de demonstrações apresenta obstáculos. Tarefas variadas exigem demonstrações distintas, e criar as eficazes pode exigir esforço considerável. Para superar esse desafio, pesquisadores defendem uma abordagem automatizada de prompting CoT conhecida como Auto-CoT. Este método aproveita LLMs com o prompt “Vamos abordar isso passo a passo” para gerar autonomamente cadeias de raciocínio para demonstrações.
O Papel da Diversidade no Auto-CoT
Uma descoberta pivotal do estudo sublinha a importância da diversidade na construção automatizada de demonstrações. Pesquisadores observaram que cadeias de raciocínio geradas automaticamente frequentemente contêm erros. Para mitigar o impacto desses erros, eles introduzem uma técnica automatizada de prompting CoT chamada Auto-CoT. O Auto-CoT seleciona perguntas com atributos diversos e gera cadeias de raciocínio para formular demonstrações. Ao aproveitar a diversidade, o Auto-CoT busca melhorar a qualidade das demonstrações construídas automaticamente.
Benefícios do Prompting de Cadeia de Pensamento
Utilizar o prompting de Cadeia de Pensamento (CoT) com Modelos de Linguagem de Grande Escala (LLMs) oferece inúmeras vantagens, promovendo interações mais eficazes e eficientes. Aqui estão os principais benefícios:
- Precisão Aprimorada: O prompting CoT guia o modelo através de uma sequência de prompts, aumentando notavelmente a probabilidade de obter respostas precisas e pertinentes. Essa abordagem estruturada ajuda a refinar a compreensão do modelo, resultando em saídas mais precisas.
- Controle Aprimorado: Cadeias fornecem uma estrutura estruturada para interagir com LLMs, capacitando os usuários com maior controle sobre as saídas do modelo. Seguindo uma sequência de prompts, os usuários podem direcionar a conversa para a direção pretendida, minimizando o risco de resultados não intencionais ou irrelevantes.
- Retenção Consistente de Contexto: O aprendizado adaptativo dentro das cadeias garante a preservação consistente do contexto ao longo da conversa. Essa retenção de contexto promove interações mais coerentes e significativas, à medida que o modelo mantém uma memória do diálogo em andamento.
- Eficiência: O prompting CoT simplifica o processo de interação, economizando tempo ao eliminar a necessidade de múltiplas entradas. Os usuários podem alcançar resultados específicos de forma mais eficiente, especialmente quando visam um resultado específico de um prompt LLM.
- Capacidades de Raciocínio Aprimoradas: O prompting CoT incentiva os LLMs a se concentrarem em resolver problemas um passo de cada vez, em vez de considerar todo o desafio simultaneamente. Essa abordagem aumenta as capacidades de raciocínio dos LLMs, facilitando um processo de resolução de problemas mais sistemático e prático.
Tipos de Prompting de Cadeia de Pensamento
No domínio do prompting de Cadeia de Pensamento (CoT), duas estratégias eficazes surgiram, ambas cruciais para aprimorar interações com Modelos de Linguagem de Grande Escala (LLMs). Agora, vamos explorar os detalhes desses métodos:
Multimodal CoT
O prompting Multimodal CoT injeta um elemento dinâmico nas interações textuais convencionais ao integrar vários modos de entrada, incluindo imagens, áudio ou vídeo.
Os usuários iniciam a Cadeia fornecendo um prompt multimodal, apresentando um contexto mais intrincado para o LLM interpretar e abordar. Prompts de acompanhamento podem incorporar ainda mais várias modalidades, facilitando uma compreensão mais profunda da entrada do usuário. A inclusão de diversas modalidades aprimora o contexto, capacitando o modelo a captar melhor as sutilezas da intenção do usuário. Entradas multimodais podem elicitar respostas mais imaginativas do LLM, ampliando o escopo para gerar conteúdo variado e contextualmente pertinente.
Se você quiser saber mais informações sobre modelos de linguagem multimodal, pode conferir nosso blog: Large Multimodal Models(LMMs): A Gigantic Leap in AI World
Prompting do Menos para o Mais
O Prompting do Menos para o Mais (Least-to-Most Prompting) é uma estratégia que começa a cadeia com um prompt minimalista e progressivamente aumenta a complexidade em prompts subsequentes. A interação começa com um prompt básico e amplo, permitindo que o modelo ofereça uma resposta inicial. À medida que a cadeia se desenrola, os usuários podem gradualmente introduzir mais detalhes, especificações ou complexidades, orientando o modelo em direção a uma saída mais sutil e precisa. Essa abordagem incremental facilita um aprimoramento gradual da compreensão do modelo, mitigando o risco de interpretações errôneas no início da interação.
O Prompting do Menos para o Mais permite que os usuários ajustem a complexidade da tarefa com base na resposta inicial do modelo, garantindo uma interação mais personalizada e pragmática.
Implementação do Auto-CoT
O Auto-CoT envolve duas etapas principais:
- Segmentar perguntas de um conjunto de dados fornecido em oito clusters — o sentence-BERT é empregado para codificar as perguntas, após o que os clusters são estabelecidos de acordo com a similaridade de cosseno.
- Escolher uma pergunta representativa de cada cluster e criar sua cadeia de raciocínio usando Zero-Shot-CoT juntamente com heurísticas diretas — essas heurísticas envolvem evitar a seleção de perguntas que excedam 60 tokens ou cadeias de raciocínio com mais de cinco etapas. Essas heurísticas são projetadas para aumentar a probabilidade de a resposta gerada automaticamente ser precisa.

Aplicações do Prompting de Cadeia de Pensamento
O Prompting de Cadeia de Pensamento (CoT) encontra aplicação em diversos domínios, sublinhando sua versatilidade em aumentar as capacidades dos Modelos de Linguagem de Grande Escala (LLMs). Aqui estão várias aplicações notáveis juntamente com exemplos:

Raciocínio Aritmético
A dificuldade de resolver problemas de matemática em palavras para modelos de linguagem é bem conhecida. Ao integrar com um modelo de linguagem de 540 bilhões de parâmetros, o prompting CoT alcança desempenho comparável ou superior em benchmarks como MultiArith e GSM8K. Com CoT, o modelo aborda eficazmente tarefas de raciocínio aritmético, destacando-se particularmente com tamanhos de modelo maiores. Esta aplicação sublinha a capacidade do CoT de aprimorar capacidades de resolução de problemas matemáticos.
Raciocínio de Senso Comum
O impacto do CoT em melhorar as habilidades de raciocínio dos modelos de linguagem no domínio do senso comum é evidente nesta aplicação. Tarefas de raciocínio de senso comum, que envolvem compreender interações físicas e humanas com base em conhecimento geral, podem ser desafiadoras para sistemas de compreensão de linguagem natural. O prompting CoT mostra-se eficaz em tarefas como CommonsenseQA, StrategyQA, compreensão de datas e compreensão esportiva. Embora o tamanho do modelo tipicamente influencie o desempenho, o CoT introduz melhorias adicionais, beneficiando notavelmente tarefas de compreensão esportiva.
Raciocínio Simbólico
Tarefas de raciocínio simbólico frequentemente apresentam obstáculos para modelos de linguagem, particularmente com métodos de prompting padrão. No entanto, o prompting CoT capacita LLMs a lidar com tarefas como concatenação da última letra e lançamentos de moeda com taxas de resolução impressionantes. Ele facilita o raciocínio simbólico e auxilia na generalização de comprimento, permitindo que os modelos lidem com entradas mais longas durante a inferência. Esta aplicação destaca o potencial significativo do CoT em melhorar a capacidade de um modelo de executar tarefas complexas de raciocínio simbólico.
Perguntas e Respostas (QA)
O prompting CoT melhora Perguntas e Respostas (QA) ao decompor perguntas complexas em etapas lógicas. Esta metodologia ajuda o modelo a compreender a estrutura da pergunta e as interconexões entre seus elementos. O CoT promove raciocínio de múltiplas etapas (multi-hop reasoning), onde o modelo coleta e integra iterativamente informações de várias fontes. Este processo iterativo resulta em inferência aprimorada e respostas mais precisas. Ao delinear etapas de raciocínio, o CoT também mitiga erros e vieses comuns nas respostas. A aplicação do CoT em QA sublinha sua eficácia em desconstruir problemas intrincados, promovendo assim melhor raciocínio e compreensão em modelos de linguagem.
Limitações e Direções Futuras
Embora o prompting CoT tenha potencial, ele não é isento de desvantagens. Principalmente, demonstra melhorias de desempenho apenas com modelos que possuem cerca de 100 bilhões de parâmetros. Por outro lado, modelos menores frequentemente geram cadeias de pensamento irracionais, resultando em precisão diminuída em comparação com métodos de prompting convencionais. Além disso, os ganhos de eficácia do prompting CoT tipicamente se correlacionam com o tamanho do modelo.
Apesar dessas limitações, o prompting CoT marca um avanço notável em aumentar a aptidão de raciocínio dos LLMs. Esforços de pesquisa subsequentes provavelmente se concentrarão em aprimorar essa abordagem e explorar caminhos para impulsionar sua eficácia em diversas tarefas e dimensões de modelo.
Conclusão
O prompting de Cadeia de Pensamento (CoT) representa um avanço significativo no domínio da inteligência artificial, particularmente em aumentar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs). Ao instruir esses modelos a elucidar seu processo de raciocínio, o CoT demonstrou potencial em melhorar o desempenho em tarefas intrincadas que exigem raciocínio aritmético, de senso comum e simbólico. Apesar de suas limitações, o CoT anuncia perspectivas promissoras para a evolução futura dos LLMs.
À medida que empurramos os limites das capacidades dos LLMs, técnicas como o prompting CoT se mostrarão indispensáveis. Ao promover uma abordagem de pensamento passo a passo e incentivar a explicação do raciocínio, não apenas melhoramos o desempenho do modelo em tarefas complexas, mas também obtemos insights inestimáveis sobre seus mecanismos internos. Embora o caminho para alcançar LLMs totalmente raciocinadores ainda seja longo, metodologias como o prompting CoT certamente nos colocam na trajetória correta.
novita.ai, a plataforma única para criatividade ilimitada que oferece acesso a mais de 100 APIs. Desde geração de imagens e processamento de linguagem até aprimoramento de áudio e manipulação de vídeo, pagamento conforme o uso acessível, ela libera você das dores de cabeça da manutenção de GPU enquanto constrói seus próprios produtos. Experimente gratuitamente.
Leitura recomendada
Novita AI LLM Inference Engine: a maior vazão e inferência mais barata disponível
