Introdução
Como nós, humanos, discernimos as causas por trás dos efeitos que observamos ao nosso redor? Quando vemos nuvens de tempestade se formando, por que prevemos chuva, ou como concluímos que um medicamento foi eficaz quando nossa saúde melhora?
Essa habilidade, conhecida como raciocínio causal, é um componente chave da cognição humana que nos ajuda a navegar e dar sentido ao mundo. Mas será que a inteligência artificial moderna, em particular os modelos de linguagem de grande escala (LLMs) como GPT-3 e GPT-4, consegue imitar essa habilidade crítica? Quão bem esses modelos entendem a conexão entre causa e efeito, e onde eles falham? Neste blog, discutiremos essas questões sobre raciocínio causal e modelos de linguagem de grande escala uma por uma.
O que é Raciocínio Causal?
Nós, humanos, somos muito bons em entender causas e efeitos. Quando vemos algo acontecer, muitas vezes conseguimos descobrir o que o causou e quais efeitos pode ter. Essa capacidade de raciocinar sobre causas é chamada de raciocínio causal.
É uma habilidade crucial que nos ajuda a dar sentido ao mundo e a tomar boas decisões. Por exemplo, se você melhora depois de tomar um medicamento, pode inferir que o medicamento causou sua recuperação. Ou se você vê nuvens de tempestade, pode antecipar que a chuva é o efeito provável.
O raciocínio causal é vital para áreas como ciência, medicina, formulação de políticas e muito mais. Acertar as causas nos permite intervir efetivamente em problemas e evitar atribuir efeitos a causas erradas.

Tipos de Tarefas de Raciocínio Causal
Existem diferentes tipos de tarefas de raciocínio causal que exigem essa compreensão causa-efeito:
Descoberta Causal
Descobrir as relações causais entre diferentes variáveis apenas a partir de dados observacionais. Por exemplo, analisar dados de saúde para determinar se fumar causa câncer.

Estimativa de Efeito
Quantificar a magnitude do efeito de uma causa sobre uma variável de resultado. Como calcular o quanto fumar aumenta o risco de câncer.

Raciocínio Contrafactual
Considerar cenários alternativos como “Se eu não tivesse fumado, ainda teria desenvolvido câncer?”

Causação Real
Para um evento específico que ocorreu, determinar as causas reais que o fizeram acontecer. Por exemplo, se a poluição de uma fábrica foi uma causa real de problemas respiratórios em uma comunidade.

Quão Bons os LLMs São em Raciocínio Causal?
Pesquisadores (Kıcıman et al., 2023) começaram a avaliar modelos de linguagem de grande escala (LLMs) como GPT-3 e GPT-4 em uma variedade dessas tarefas de raciocínio causal usando benchmarks estabelecidos. Os resultados são bastante fascinantes:
Descoberta Causal Pareada: Fácil
Refere-se à tarefa de determinar a relação causal entre um par de variáveis X e Y. X está causando Y, Y está causando X, elas são apenas correlacionadas ou não há relação?
Os LLMs alcançaram uma notável precisão de 97% ao determinar a relação causal entre pares de variáveis em mais de 100 exemplos de diversos domínios como física, biologia, epidemiologia e muito mais. Isso superou substancialmente os melhores algoritmos tradicionais de descoberta causal anteriores, que atingiam no máximo 83% no benchmark Tübingen (um conjunto de dados usado para avaliar algoritmos de descoberta causal na tarefa de orientação causal pareada).
Descoberta de Grafo Causal Completo: Fácil
Indo além de pares de variáveis, isso envolve descobrir todo o modelo gráfico causal sobre um conjunto de variáveis — determinar quais variáveis causam quais outras e representá-lo como um grafo. Isso permite mapear toda a estrutura causal entre múltiplas variáveis.
Nesta tarefa mais complexa de recuperar todo o modelo gráfico causal sobre múltiplas variáveis, os métodos baseados em LLM foram competitivos com abordagens recentes de aprendizado profundo como GCAI. Em benchmarks como CADTR e CBN-Discrete, os grafos previstos pelo GPT-4 alcançaram pontuações de precisão estrutural semelhantes.
Raciocínio Contrafactual: Fácil
Isso avalia se um LLM consegue raciocinar sobre como os resultados mudariam sob diferentes cenários hipotéticos ou intervenções no sistema causal. Por exemplo, “Se esta causa não tivesse acontecido, aquele efeito ainda ocorreria?” Os contrafactuais são centrais para a cognição causal humana.
Quando avaliado neste benchmark, o GPT-4 respondeu 92% das questões corretamente. Isso representou um ganho substancial de 20 pontos percentuais em relação ao estado da arte anterior neste benchmark de contrafactuais.
Identificação de Causas Necessárias/Suficientes: Fácil
Para um evento específico que ocorreu, isso requer identificar quais causas foram necessárias para o evento acontecer, e qual subconjunto de causas foi suficiente (suficiente) para fazer o evento ocorrer. Isso chega ao cerne da determinação da causação real.
Dadas descrições curtas em vinheta de eventos específicos que ocorreram, o GPT-4 conseguiu identificar com sucesso as causas necessárias que tinham que estar presentes, bem como as causas minimamente suficientes que foram suficientes para o evento ocorrer, com 86% de precisão.
Avaliação de Normalidade: Ainda Fácil
Um componente chave do raciocínio de nível superior sobre a causação real de eventos é avaliar se alguma causa ou evento violou normas e padrões típicos. Os LLMs tiveram um desempenho moderadamente bom, com cerca de 70% de precisão neste tipo de tarefa de julgamento de normalidade do benchmark Cause18.
Os pesquisadores destacaram que os LLMs alcançaram esses resultados enquanto recebiam apenas as descrições das variáveis/eventos como prompts — sem analisar diretamente nenhum dado. Isso sugere que os LLMs podem possuir uma capacidade interessante de alavancar seu amplo conhecimento para ter um desempenho notavelmente bom em muitas tarefas de raciocínio causal.
Quais São as Limitações das Habilidades de Raciocínio Causal dos LLMs?
Nenhum Guerreiro Hexagonal
Nos experimentos de Kıcıman et al. (2023) com GPT-3 e GPT-4, nenhum LLM individual superou o outro em todos os benchmarks.

GPT-3
Pontos fortes:
- Alcançou 97% de precisão na descoberta causal pareada (benchmark Tübingen), substancialmente melhor que métodos anteriores
- Mostrou capacidade de ter bom desempenho em algumas tarefas de raciocínio causal apesar de não acessar dados diretamente
Pontos fracos:
- Não foi explicitamente avaliado em tarefas mais complexas como descoberta de grafo causal completo ou contrafactuais
- Exibiu falhas imprevisíveis e fragilidade a variações no prompt (limitação notada para LLMs em geral)
GPT-4
Pontos fortes:
- Desempenho forte em múltiplas tarefas:
- 92% de precisão no raciocínio contrafactual
- 86% na identificação de causas necessárias/suficientes
- Competitivo com métodos de aprendizado profundo na descoberta de grafo causal completo
- Representou um ganho significativo de capacidade sobre o GPT-3
Pontos fracos:
- Ainda tinha algumas lacunas de desempenho em tarefas como avaliação de normalidade de eventos (70% de precisão)
- Faltava robustez a variações no prompt impactando o desempenho (limitação geral dos LLMs)
Falhas Imprevistas
- Interpretação Contextual Incorreta: LLMs frequentemente falham ao interpretar corretamente contextos causais, particularmente em situações que se desviam dos padrões comuns vistos em seus dados de treinamento. Isso pode resultar em explicações causais não apenas incorretas, mas também enganosas, especialmente em cenários complexos envolvendo múltiplos fatores interagentes.
- Erros Lógicos: Mesmo com modelos sofisticados como GPT-4, LLMs são suscetíveis a cometer erros básicos de lógica. Eles podem demonstrar um forte entendimento em um exemplo e depois falhar em outro sob condições ligeiramente diferentes. Essas falhas muitas vezes decorrem das limitações do modelo em aplicar raciocínio lógico mais profundo de forma consistente em contextos variados.
Falta de Robustez
- Dependência do Prompt: O desempenho dos LLMs no raciocínio causal é grandemente influenciado pela forma como as perguntas são formuladas. Pequenas mudanças na redação podem levar a resultados significativamente diferentes, refletindo a dependência do modelo em pistas linguísticas específicas, em vez de uma compreensão genuína dos mecanismos causais.
- Inconsistência nas Respostas: LLMs podem produzir respostas diferentes para a mesma pergunta quando perguntados várias vezes ou sob condições ligeiramente alteradas. Essa inconsistência destaca a falta de estabilidade no processo de raciocínio do modelo, tornando-o não confiável para tarefas onde uma análise causal consistente e precisa é crítica.
Por que os LLMs Têm Bom Desempenho em Raciocínio Causal, mas Ainda Cometem Erros Básicos?
A resposta simples é: LLMs são apenas “Papagaios Causais: Modelos de Linguagem de Grande Escala Podem Falar de Causalidade, Mas Não São Causais”.
Falta de Compreensão Causal Genuína
Correlação vs. Causalidade: LLMs operam fundamentalmente com base em correlações estatísticas derivadas de vastas quantidades de dados nos quais são treinados. Eles não têm a capacidade de distinguir inerentemente entre correlação e causalidade, que é um aspecto crítico do raciocínio causal genuíno. Os modelos não têm acesso aos mecanismos causais subjacentes, mas apenas a padrões que podem imitar a causalidade.
Meta Modelos Causais Estruturais (meta SCMs)
Zečević, Willig, Dhami e Kersting (2023) introduzem o conceito de meta SCMs para explicar instâncias onde LLMs parecem realizar raciocínio causal. Esses modelos codificam fatos causais sobre outros SCMs dentro de suas variáveis, sugerindo que LLMs só podem imitar a aparência de causalidade quando recitam ou refletem as correlações aprendidas durante o treinamento que são estruturadas como fatos causais.
Treinamento em Dados Correlacionados
O termo “papagaios causais” usado no artigo de Zečević, Willig, Dhami e Kersting (2023) ilustra que LLMs, como papagaios, meramente repetem as informações (incluindo relações causais) a que foram expostos em seus dados de treinamento sem compreensão real. Essa repetição é baseada nos padrões e correlações nos dados, em vez de qualquer compreensão real da causalidade.
Quais São as Direções Futuras para a Pesquisa em Raciocínio Causal sobre LLMs?
Compreendendo as Capacidades de Raciocínio Causal dos LLMs
Mais pesquisas são necessárias para entender os mecanismos pelos quais LLMs realizam tarefas de raciocínio causal. Isso inclui investigar como LLMs capturam e aplicam conhecimento de senso comum e domínio em cenários causais.
Melhorando a Robustez e Confiabilidade
LLMs apresentam altas precisões médias, mas também cometem erros simples e imprevisíveis. Pesquisas futuras devem focar em aumentar a robustez dos LLMs, possivelmente por meio de ferramentas externas ou instâncias adicionais dos próprios LLMs.
Integração com Métodos Causais Existentes
Há potencial para LLMs serem integrados com métodos causais existentes, servindo como proxy para o conhecimento humano de domínio e reduzindo o esforço necessário para configurar análises causais.
Descoberta Causal Baseada em Conhecimento
Explorar como LLMs podem aproveitar metadados e descrições em linguagem natural para inferir estruturas causais, potencialmente reformulando o problema de descoberta causal para incluir metadados de variáveis e conhecimento existente codificado por meio de LLMs.
Raciocínio Contrafactual
Desenvolver métodos que guiem LLMs no uso de primitivas causais como necessidade e suficiência para responder a questões de julgamento causal real de nível superior, possivelmente usando a teoria formal de causação real como guia.
Colaboração Humano-LLM
Pesquisar as melhores formas de facilitar a colaboração entre humanos e LLMs para tarefas como criação de grafos, onde LLMs podem sugerir arestas do grafo e fornecer feedback sobre grafos gerados manualmente.
Inferência de Efeito Causal
Investigar como LLMs podem auxiliar na identificação de conjuntos de ajuste válidos para inferência de efeito causal e sugerir variáveis instrumentais potenciais para tarefas causais.
Sistematização da Causação Real e Atribuição
Utilizar LLMs para apoiar a inferência causal real em domínios como direito e análise de inteligência, onde analistas precisam sintetizar explicações sobre o grau em que eventos contribuem para outros eventos.
Criação de Benchmarks para Descoberta Causal
Aproveitar LLMs para ajudar a identificar arestas potencialmente ausentes ou mal rotuladas em benchmarks de descoberta causal, dada sua capacidade de processar grandes quantidades de texto.
Explorando Capacidades dos LLMs em Várias Tarefas Causais
Mais pesquisas são necessárias para explorar as capacidades dos LLMs em uma ampla gama de tarefas causais, incluindo descoberta causal, inferência de efeito e causação real.
Unindo Raciocínio Baseado em Covariância e Lógica
Investigar como LLMs podem facilitar uma união da análise causal baseada em covariância e baseada em lógica por meio de interfaces de linguagem natural.
Conclusão
Em conclusão, a exploração do raciocínio causal no âmbito dos modelos de linguagem de grande escala (LLMs) revela uma faca de dois gumes. Por um lado, LLMs como GPT-3 e GPT-4 demonstraram proficiência notável em tarefas de raciocínio causal. Por outro lado, as limitações dos LLMs no raciocínio causal não são triviais. Apesar de sua alta precisão em certas tarefas, eles ainda cometem erros básicos e exibem modos de falha imprevisíveis. Isso é amplamente atribuído à sua falta de compreensão causal genuína, pois operam com base em correlações estatísticas, em vez de mecanismos causais verdadeiros.
À medida que continuamos a desvendar as complexidades das habilidades de raciocínio causal dos LLMs, é crucial abordar sua integração em aplicações do mundo real com cautela. Embora prometam aumentar a expertise humana em análises causais, não devem substituir o rigor dos frameworks formais de raciocínio causal. Em vez disso, LLMs devem ser vistos como ferramentas complementares que podem democratizar o acesso a ferramentas e conhecimento causais, facilitando interações mais fluidas e baseadas em linguagem natural para realizar análise causal. O caminho a seguir está em aproveitar os pontos fortes dos LLMs, enquanto reconhecemos e abordamos suas limitações, rumo a um futuro onde o raciocínio causal em IA seja ao mesmo tempo sofisticado e confiável.
Referências
Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper nº 23–05002). arXiv. https://arxiv.org/abs/2305.05002
Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Recuperado de https://arxiv.org/abs/2308.13067
Novita AI, a plataforma única para criatividade sem limites que lhe dá acesso a mais de 100 APIs. Desde geração de imagens e processamento de linguagem até aprimoramento de áudio e manipulação de vídeo, pagamento conforme o uso e barato, libera você das preocupações com manutenção de GPU enquanto constrói seus próprios produtos. Experimente gratuitamente.
