Introducción
¿Cómo los humanos discernimos las causas detrás de los efectos que observamos a nuestro alrededor? Cuando vemos nubes de tormenta acumulándose, ¿por qué predecimos lluvia, o cómo concluimos que un medicamento fue efectivo cuando nuestra salud mejora?
Esta capacidad, conocida como razonamiento causal, es un componente clave de la cognición humana que nos ayuda a navegar y dar sentido al mundo. Pero, ¿puede la inteligencia artificial moderna, particularmente los grandes modelos de lenguaje (LLMs) como GPT-3 y GPT-4, emular esta habilidad crítica? ¿Qué tan bien entienden estos modelos la conexión entre causa y efecto, y dónde se quedan cortos? En este blog, discutiremos estas preguntas sobre el razonamiento causal y los grandes modelos de lenguaje una por una.
¿Qué es el razonamiento causal?
Los humanos somos realmente buenos para entender causas y efectos. Cuando vemos que ocurre algo, a menudo podemos averiguar qué lo causó y qué efectos podría tener. Esta capacidad de razonar sobre las causas se llama razonamiento causal.
Es una habilidad crucial que nos ayuda a dar sentido al mundo y tomar buenas decisiones. Por ejemplo, si mejoras después de tomar un medicamento, puedes inferir que el medicamento causó tu recuperación. O si ves nubes de tormenta, puedes anticipar que la lluvia es el efecto probable.
El razonamiento causal es vital para campos como la ciencia, la medicina, la formulación de políticas y más. Acertar con las causas nos permite intervenir eficazmente en los problemas y evitar atribuir erróneamente efectos a causas equivocadas.

Tipos de tareas de razonamiento causal
Existen diferentes tipos de tareas de razonamiento causal que requieren esta comprensión causa-efecto:
Descubrimiento causal
Descubrir las relaciones causales entre diferentes variables solo a partir de datos observacionales. Por ejemplo, analizar datos de salud para determinar si fumar causa cáncer.

Estimación del efecto
Cuantificar la magnitud del efecto de una causa sobre una variable de resultado. Como calcular cuánto aumenta el riesgo de cáncer al fumar.

Razonamiento contrafáctico
Considerar escenarios alternativos como “Si no hubiera fumado, ¿aún así habría tenido cáncer?”

Causación real
Para un evento específico que ocurrió, determinar las causas reales que lo hicieron suceder. Por ejemplo, si la contaminación de una fábrica fue una causa real de problemas respiratorios en una comunidad.

¿Qué tan buenos son los LLMs en el razonamiento causal?
Investigadores (Kıcıman et al., 2023) han comenzado a evaluar grandes modelos de lenguaje (LLMs) como GPT-3 y GPT-4 en una variedad de estas tareas de razonamiento causal utilizando puntos de referencia establecidos. Los resultados son bastante fascinantes:
Descubrimiento causal por pares: Fácil
Esto se refiere a la tarea de determinar la relación causal entre un par de variables X e Y. ¿X causa Y, Y causa X, están simplemente correlacionadas o no hay relación?
Los LLMs lograron una notable precisión del 97% para determinar la relación causal entre pares de variables en más de 100 ejemplos de diversos dominios como física, biología, epidemiología y más. Esto superó sustancialmente a los mejores algoritmos tradicionales de descubrimiento causal, que alcanzaban un máximo del 83% en el punto de referencia de Tübingen (un conjunto de datos utilizado para evaluar algoritmos de descubrimiento causal en la tarea de orientación causal por pares).
Descubrimiento completo del grafo causal: Fácil
Más allá de los pares de variables, esto implica descubrir el modelo gráfico causal completo sobre un conjunto de variables: determinar qué variables causan cuáles y representarlo como un grafo. Esto permite mapear toda la estructura causal entre múltiples variables.
En esta tarea más compleja de recuperar el modelo gráfico causal completo sobre múltiples variables, los métodos basados en LLMs fueron competitivos con enfoques recientes de aprendizaje profundo como GCAI. En puntos de referencia como CADTR y CBN-Discrete, los grafos predichos por GPT-4 alcanzaron puntuaciones de precisión estructural similares.
Razonamiento contrafáctico: Fácil
Esto evalúa si un LLM puede razonar sobre cómo cambiarían los resultados bajo diferentes escenarios hipotéticos o intervenciones en el sistema causal. Por ejemplo, “Si esta causa no hubiera ocurrido, ¿ese efecto aún ocurriría?” Los contrafácticos son centrales en la cognición causal humana.
Cuando se evaluó en este punto de referencia, GPT-4 respondió correctamente el 92% de las preguntas. Esto supuso una ganancia sustancial de 20 puntos porcentuales sobre el estado del arte anterior en este punto de referencia de contrafácticos.
Identificación de causas necesarias/suficientes: Fácil
Para un evento específico que ocurrió, esto requiere identificar qué causas fueron necesarias para que ocurriera el evento, y qué subconjunto de causas fue suficiente para que el evento ocurriera. Esto llega al núcleo de la determinación de la causación real.
Dadas descripciones cortas de viñetas de eventos específicos que ocurrieron, GPT-4 pudo identificar con éxito las causas necesarias que debían estar presentes, así como las causas mínimamente suficientes para que ocurriera el evento, con una precisión del 86%.
Evaluación de la normalidad: Aún fácil
Un componente clave del razonamiento de nivel superior sobre la causación real de eventos es evaluar si alguna causa o evento violó las normas y valores predeterminados típicos. Los LLMs tuvieron un rendimiento moderado, con alrededor del 70% de precisión en este tipo de tarea de juicio de normalidad del punto de referencia Cause18.
Los investigadores destacaron que los LLMs lograron estos resultados mientras solo se les proporcionaban las descripciones de variables/eventos como indicaciones, sin analizar directamente ningún dato. Esto sugiere que los LLMs pueden poseer una capacidad interesante para aprovechar su amplio conocimiento y desempeñarse notablemente bien en muchas tareas de razonamiento causal.
¿Cuáles son las limitaciones de las habilidades de razonamiento causal de los LLMs?
Sin guerrero hexagonal
En los experimentos de Kıcıman et al. (2023) con GPT-3 y GPT-4, ningún LLM superó a los demás en todos los puntos de referencia.

GPT-3
Fortalezas:
- Alcanzó un 97% de precisión en el descubrimiento causal por pares (punto de referencia de Tübingen), sustancialmente mejor que los métodos anteriores.
- Mostró capacidad para desempeñarse bien en algunas tareas de razonamiento causal a pesar de no acceder directamente a los datos.
Debilidades:
- No fue evaluado explícitamente en tareas más complejas como el descubrimiento completo del grafo causal o contrafácticos.
- Exhibió fallos impredecibles y fragilidad ante variaciones en las indicaciones (limitación señalada para los LLMs en general).
GPT-4
Fortalezas:
- Rendimiento sólido en múltiples tareas:
- 92% de precisión en razonamiento contrafáctico.
- 86% en identificación de causas necesarias/suficientes.
- Competitivo con métodos de aprendizaje profundo en el descubrimiento completo del grafo causal.
- Representó una ganancia de capacidad significativa sobre GPT-3.
Debilidades:
- Aún tenía algunas brechas de rendimiento en tareas como evaluar la normalidad de eventos (70% de precisión).
- Carecía de robustez ante variaciones en las indicaciones que afectaban el rendimiento (limitación general de los LLMs).
Fallos impredecibles
- Malinterpretación contextual: Los LLMs a menudo fallan en interpretar correctamente contextos causales, particularmente en situaciones que se desvían de los patrones comunes vistos en sus datos de entrenamiento. Esto puede resultar en explicaciones causales que no solo son incorrectas, sino también engañosas, especialmente en escenarios complejos que involucran múltiples factores interactuantes.
- Errores lógicos: Incluso con modelos sofisticados como GPT-4, los LLMs son susceptibles de cometer errores básicos en lógica. Pueden mostrar una comprensión sólida en un caso y luego fallar en otro bajo condiciones ligeramente diferentes. Estos fallos a menudo provienen de las limitaciones del modelo para aplicar un razonamiento lógico más profundo de manera consistente en contextos variados.
Falta de robustez
- Dependencia de la indicación: El rendimiento de los LLMs en razonamiento causal está muy influenciado por cómo se formulan las preguntas. Pequeños cambios en la redacción pueden llevar a resultados significativamente diferentes, reflejando la dependencia del modelo en señales lingüísticas específicas en lugar de una comprensión genuina de los mecanismos causales.
- Inconsistencia en las respuestas: Los LLMs pueden producir respuestas diferentes a la misma pregunta cuando se les pregunta varias veces o bajo condiciones ligeramente alteradas. Esta inconsistencia resalta una falta de estabilidad en el proceso de razonamiento del modelo, haciéndolo poco confiable para tareas donde un análisis causal consistente y preciso es crítico.
¿Por qué los LLMs se desempeñan bien en razonamiento causal pero aún cometen errores básicos?
La respuesta simple es: los LLMs son solo “Loros causales: los grandes modelos de lenguaje pueden hablar de causalidad pero no son causales”.
Falta de comprensión causal genuina
Correlación vs. Causalidad: Los LLMs operan fundamentalmente sobre correlaciones estadísticas derivadas de grandes cantidades de datos con los que son entrenados. Carecen de la capacidad para distinguir inherentemente entre correlación y causalidad, que es un aspecto crítico del razonamiento causal genuino. Los modelos no tienen acceso a los mecanismos causales subyacentes, solo a patrones que pueden imitar la causalidad.
Modelos causales estructurales meta (meta SCMs)
Zečević, Willig, Dhami y Kersting (2023) introducen el concepto de meta SCMs para explicar instancias donde los LLMs parecen realizar razonamiento causal. Estos modelos codifican hechos causales sobre otros SCMs dentro de sus variables, sugiriendo que los LLMs solo pueden imitar la apariencia de causalidad cuando recitan o reflejan las correlaciones aprendidas durante el entrenamiento que están estructuradas como hechos causales.
Entrenamiento con datos correlacionados
El término “loros causales” utilizado en el artículo de Zečević, Willig, Dhami y Kersting (2023) ilustra que los LLMs, como los loros, simplemente repiten la información (incluyendo relaciones causales) a la que han estado expuestos en sus datos de entrenamiento sin una comprensión real. Esta repetición se basa en los patrones y correlaciones en los datos, en lugar de cualquier comprensión real de la causalidad.
¿Cuáles son las direcciones futuras para la investigación de razonamiento causal sobre LLMs?
Comprender las capacidades de razonamiento causal de los LLMs
Se necesita más investigación para comprender los mecanismos mediante los cuales los LLMs realizan tareas de razonamiento causal. Esto incluye investigar cómo los LLMs capturan y aplican el sentido común y el conocimiento del dominio en escenarios causales.
Mejorar la robustez y confiabilidad
Los LLMs exhiben altas precisiones promedio pero también cometen errores simples e impredecibles. La investigación futura debería centrarse en aumentar la robustez de los LLMs, posiblemente mediante herramientas externas o instancias adicionales de los propios LLMs.
Integración con métodos causales existentes
Existe potencial para que los LLMs se integren con métodos causales existentes, sirviendo como un proxy del conocimiento del dominio humano y reduciendo el esfuerzo requerido para configurar análisis causales.
Descubrimiento causal basado en conocimiento
Explorar cómo los LLMs pueden aprovechar metadatos y descripciones en lenguaje natural para inferir estructuras causales, potencialmente reformulando el problema de descubrimiento causal para incluir metadatos de variables y conocimiento existente codificado a través de LLMs.
Razonamiento contrafáctico
Desarrollar métodos que guíen a los LLMs en el uso de primitivas causales como necesidad y suficiencia para responder preguntas de juicio causal real de nivel superior, posiblemente utilizando la teoría formal de causalidad real como guía.
Colaboración humano-LLM
Investigar las mejores formas de facilitar la colaboración entre humanos y LLMs para tareas como la creación de grafos, donde los LLMs pueden sugerir aristas de grafos y proporcionar retroalimentación sobre grafos generados manualmente.
Inferencia de efectos causales
Investigar cómo los LLMs pueden ayudar a identificar conjuntos de ajuste válidos para la inferencia de efectos causales y sugerir posibles variables instrumentales para tareas causales.
Sistematización de la causalidad real y la atribución
Utilizar LLMs para apoyar la inferencia causal real en dominios como el derecho y el análisis de inteligencia, donde los analistas necesitan sintetizar explicaciones sobre el grado en que los eventos contribuyen a otros eventos.
Creación de puntos de referencia para el descubrimiento causal
Aprovechar los LLMs para ayudar a identificar posibles aristas faltantes o mal etiquetadas en puntos de referencia de descubrimiento causal, dada su capacidad para procesar grandes cantidades de texto.
Explorar las capacidades de los LLMs en diversas tareas causales
Se necesita más investigación para explorar las capacidades de los LLMs en una amplia gama de tareas causales, incluyendo descubrimiento causal, inferencia de efectos y causalidad real.
Fusión de razonamiento basado en covarianza y lógica
Investigar cómo los LLMs pueden facilitar una fusión del análisis causal basado en covarianza y lógica a través de interfaces de lenguaje natural.
Conclusión
En conclusión, la exploración del razonamiento causal en el ámbito de los grandes modelos de lenguaje (LLMs) revela una espada de doble filo. Por un lado, LLMs como GPT-3 y GPT-4 han demostrado una notable competencia en tareas de razonamiento causal. Por otro lado, las limitaciones de los LLMs en el razonamiento causal no son triviales. A pesar de su alta precisión en ciertas tareas, aún cometen errores básicos y exhiben modos de fallo impredecibles. Esto se atribuye en gran medida a su falta de comprensión causal genuina, ya que operan basándose en correlaciones estadísticas en lugar de mecanismos causales reales.
A medida que continuamos desentrañando las complejidades de las habilidades de razonamiento causal de los LLMs, es crucial abordar su integración en aplicaciones del mundo real con precaución. Si bien prometen aumentar la experiencia humana en análisis causales, no deberían reemplazar el rigor de los marcos formales de razonamiento causal. En cambio, los LLMs deben ser vistos como herramientas complementarias que pueden democratizar el acceso a herramientas y conocimientos causales, facilitando interacciones más fluidas y basadas en lenguaje natural para realizar análisis causales. El camino a seguir radica en aprovechar las fortalezas de los LLMs mientras se reconocen y abordan sus limitaciones, dirigiendo hacia un futuro donde el razonamiento causal en IA sea tanto sofisticado como confiable.
Referencias
Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper №23-05002). arXiv. https://arxiv.org/abs/2305.05002
Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Recuperado de https://arxiv.org/abs/2308.13067
Novita AI, la plataforma integral para la creatividad sin límites que te ofrece acceso a más de 100 APIs. Desde generación de imágenes y procesamiento de lenguaje hasta mejora de audio y manipulación de video, pago por uso económico, te libera de las molestias del mantenimiento de GPU mientras construyes tus propios productos. Pruébalo gratis.
