대규모 언어 모델은 인과 추론을 할 수 있을까?

대규모 언어 모델은 인과 추론을 할 수 있을까?

소개

우리 인간은 주변에서 관찰되는 효과 뒤에 있는 원인을 어떻게 식별할까? 폭풍우 구름이 모이는 것을 볼 때 왜 비가 올 것이라고 예측하며, 건강이 좋아졌을 때 약이 효과가 있었다고 어떻게 결론을 내릴까?

인과 추론(causal reasoning)이라고 알려진 이 능력은 인간 인지의 핵심 구성 요소로, 세상을 이해하고 탐색하는 데 도움을 줍니다. 하지만 현대의 인공지능, 특히 GPT-3, GPT-4 같은 대규모 언어 모델(LLM)이 이 중요한 능력을 모방할 수 있을까요? 이 모델들은 원인과 결과 사이의 연결을 얼마나 잘 이해하며, 어떤 부분에서 부족할까요? 이 블로그에서는 인과 추론과 대규모 언어 모델에 관한 이러한 질문들을 하나씩 다루어 보겠습니다.

인과 추론이란 무엇인가?

우리 인간은 원인과 결과를 이해하는 데 매우 능숙합니다. 어떤 일이 일어나는 것을 보면, 종종 그 원인이 무엇인지, 어떤 결과를 초래할지 알아낼 수 있습니다. 원인에 대해 추론하는 이러한 능력을 인과 추론이라고 합니다.

이는 세상을 이해하고 올바른 결정을 내리는 데 도움을 주는 중요한 능력입니다. 예를 들어, 약을 먹고 나아졌다면 약이 회복을 일으켰다고 추론할 수 있습니다. 또는 폭풍우 구름을 보면 비가 내릴 가능성이 높다는 것을 예상할 수 있습니다.

인과 추론은 과학, 의학, 정책 결정 등 다양한 분야에서 필수적입니다. 원인을 정확히 파악해야 문제에 효과적으로 개입할 수 있고, 결과를 잘못된 원인에 귀속시키는 오류를 피할 수 있습니다.

인과 추론 작업의 유형

이러한 원인-결과 이해를 필요로 하는 다양한 유형의 인과 추론 작업이 있습니다.

인과 발견

관측 데이터만으로 여러 변수 간의 인과 관계를 파악하는 것입니다. 예를 들어, 건강 데이터를 분석하여 흡연이 암을 유발하는지 확인하는 것입니다.

효과 추정

결과 변수에 대한 원인의 효과 크기를 정량화하는 것입니다. 예를 들어, 흡연이 암 위험을 얼마나 증가시키는지 계산하는 것입니다.

반사실적 추론

"만약 내가 담배를 피우지 않았다면, 그래도 암에 걸렸을까?"와 같은 대안적 시나리오를 고려하는 것입니다.

실제 인과

발생한 특정 사건에 대해, 그 사건을 일으킨 실제 원인을 결정하는 것입니다. 예를 들어, 공장의 오염이 지역 사회의 호흡기 문제의 실제 원인이었는지 여부를 판단하는 것입니다.

LLM은 인과 추론을 얼마나 잘할까?

연구자들(Kıcıman et al., 2023)은 GPT-3, GPT-4 같은 대규모 언어 모델(LLM)이 다양한 인과 추론 작업에서 얼마나 성능을 내는지 기존 벤치마크를 사용해 평가하기 시작했습니다. 결과는 상당히 흥미롭습니다.

쌍별 인과 발견: 쉬움

이는 두 변수 X와 Y 사이의 인과 관계를 결정하는 작업을 말합니다. X가 Y를 일으키는가, Y가 X를 일으키는가, 단순히 상관관계가 있는가, 아니면 관계가 전혀 없는가?

LLM은 물리학, 생물학, 역학 등 다양한 분야의 100개 이상의 예제에서 변수 쌍 간의 인과 관계를 결정하는 데 놀라운 97%의 정확도를 달성했습니다. 이는 튀빙겐 벤치마크(쌍별 인과 방향 결정 작업을 평가하는 데이터셋)에서 이전 최고의 전통적 인과 발견 알고리즘(최대 83%)을 크게 능가한 것입니다.

전체 인과 그래프 발견: 쉬움

변수 쌍을 넘어, 이는 여러 변수에 걸친 전체 인과 그래프 모델을 발견하는 작업입니다. 즉, 어떤 변수가 어떤 다른 변수를 일으키는지 결정하고 이를 그래프로 표현하는 것입니다. 이를 통해 여러 변수 간의 전체 인과 구조를 매핑할 수 있습니다.

여러 변수에 걸친 전체 인과 그래프 모델을 복원하는 이 더 복잡한 작업에서 LLM 방법은 GCAI와 같은 최신 딥러닝 접근법과 경쟁력이 있었습니다. CADTR 및 CBN-Discrete 같은 벤치마크에서 GPT-4가 예측한 그래프는 유사한 구조적 정확도 점수를 보였습니다.

반사실적 추론: 쉬움

이는 LLM이 인과 시스템에 대한 다양한 가상 시나리오나 개입 하에서 결과가 어떻게 달라질지 추론할 수 있는지 평가합니다. 예를 들어, “이 원인이 발생하지 않았다면, 그 효과는 여전히 발생했을까?” 반사실은 인간의 인과 인지의 핵심입니다.

이 벤치마크에서 평가했을 때, GPT-4는 질문의 92%를 정확히 답변했습니다. 이는 이 반사실적 벤치마크에서 이전 최고 성능보다 20% 포인트 향상된 것입니다.

필요/충분 원인 식별: 쉬움

발생한 특정 사건에 대해, 사건이 발생하는 데 필요한 원인과 사건을 발생시키기에 충분한 원인 부분 집합을 식별해야 합니다. 이는 실제 인과를 결정하는 핵심입니다.

발생한 특정 사건에 대한 짧은 설명이 주어졌을 때, GPT-4는 존재해야 했던 필요 원인과 사건 발생에 충분한 최소한의 충분 원인을 86%의 정확도로 성공적으로 식별했습니다.

정상성 평가: 여전히 쉬움

사건의 실제 인과에 대한 고차원적 추론의 핵심 구성 요소는 어떤 원인이나 사건이 일반적인 규범과 기본값을 위반했는지 평가하는 것입니다. LLM은 Cause18 벤치마크의 이러한 정상성 판단 작업에서 약 70%의 정확도로 중간 정도의 성능을 보였습니다.

연구자들은 LLM이 데이터를 직접 분석하지 않고 변수/사건 설명만 프롬프트로 제공받았음에도 이러한 결과를 달성했다고 강조했습니다. 이는 LLM이 광범위한 지식을 활용하여 많은 인과 추론 작업에서 놀라운 성능을 발휘할 수 있는 흥미로운 능력을 가질 수 있음을 시사합니다.

LLM의 인과 추론 능력의 한계는 무엇인가?

육각형 전사는 없다

Kıcıman et al. (2023)의 실험에서 GPT-3와 GPT-4 중 어느 하나도 모든 벤치마크에서 다른 하나를 능가하지 못했습니다.

GPT-3
강점:

  • 쌍별 인과 발견(튀빙겐 벤치마크)에서 97% 정확도, 이전 방법보다 훨씬 우수
  • 데이터에 직접 접근하지 않았음에도 일부 인과 추론 작업에서 좋은 성능을 보임

약점:

  • 전체 인과 그래프 발견이나 반사실과 같은 더 복잡한 작업에 대해 명시적으로 평가되지 않음
  • 예측 불가능한 실패와 프롬프트 변형에 대한 취약성을 보임(LLM 일반의 한계로 지적됨)

GPT-4
강점:

  • 여러 작업에서 강력한 성능:
  • 반사실적 추론 92% 정확도
  • 필요/충분 원인 식별 86% 정확도
  • 전체 인과 그래프 발견에서 딥러닝 방법과 경쟁력
  • GPT-3에 비해 상당한 능력 향상

약점:

  • 사건 정상성 평가 같은 작업에서 여전히 성능 격차 존재(70% 정확도)
  • 프롬프트 변형에 영향을 받는 견고성 부족(일반적인 LLM 한계)

예측 불가능한 실패

  • 맥락 오해석: LLM은 특히 훈련 데이터에서 흔히 볼 수 있는 패턴에서 벗어난 상황에서 인과 맥락을 올바르게 해석하지 못하는 경우가 많습니다. 이는 여러 상호 작용 요소가 포함된 복잡한 시나리오에서 오해를 불러일으킬 수 있는 잘못된 인과 설명을 초래할 수 있습니다.
  • 논리적 오류: GPT-4 같은 정교한 모델에서도 LLM은 기본적인 논리 오류를 범하기 쉽습니다. 한 경우에서는 강력한 이해를 보이다가 약간 다른 조건에서 또 다른 경우에는 실패할 수 있습니다. 이러한 실패는 종종 다양한 맥락에서 일관되게 심층 논리 추론을 적용하는 모델의 한계에서 비롯됩니다.

견고성 부족

  • 프롬프트 의존성: LLM의 인과 추론 성능은 질문이 어떻게 표현되는지에 크게 영향을 받습니다. 문구의 작은 변화가 크게 다른 결과를 초래할 수 있으며, 이는 인과 메커니즘에 대한 진정한 이해보다는 특정 언어적 단서에 대한 의존성을 반영합니다.
  • 응답의 불일치: LLM은 동일한 질문에 대해 여러 번 질문하거나 약간 다른 조건에서 다른 답변을 생성할 수 있습니다. 이러한 불일치는 모델 추론 과정의 안정성 부족을 강조하며, 일관되고 정확한 인과 분석이 중요한 작업에서 신뢰성을 떨어뜨립니다.

LLM이 인과 추론에서 좋은 성능을 보이면서도 기본적인 실수를 하는 이유는 무엇인가?

간단한 답변은: LLM은 단지 “인과 앵무새: 대규모 언어 모델은 인과성을 말할 수 있지만 인과적이지는 않다” 이기 때문입니다.

진정한 인과 이해의 부족

상관관계 vs. 인과관계: LLM은 기본적으로 훈련된 방대한 데이터에서 얻은 통계적 상관관계에 따라 작동합니다. 이들은 상관관계와 인과관계를 본질적으로 구별할 수 있는 능력이 부족하며, 이는 진정한 인과 추론의 중요한 측면입니다. 모델은 기저 인과 메커니즘에 접근할 수 없고, 인과성을 모방할 수 있는 패턴만을 가지고 있습니다.

메타 구조적 인과 모델

Zečević, Willig, Dhami, and Kersting (2023)은 LLM이 인과 추론을 수행하는 것처럼 보이는 경우를 설명하기 위해 메타 SCM 개념을 도입했습니다. 이 모델들은 변수 내에 다른 SCM에 대한 인과 사실을 인코딩하여, LLM이 훈련 중에 학습한 상관관계(인과 사실처럼 구조화된)를 암기하거나 반영할 때만 인과성의 외양을 모방할 수 있음을 시사합니다.

상관 데이터에 대한 훈련

Zečević, Willig, Dhami, and Kersting (2023)의 논문에서 사용된 “인과 앵무새” 라는 용어는 LLM이 앵무새처럼 실제 이해 없이 훈련 데이터에 노출된 정보(인과 관계 포함)를 단순히 반복한다는 것을 설명합니다. 이러한 반복은 인과성에 대한 실제 이해보다는 데이터의 패턴과 상관관계에 기반합니다.

LLM의 인과 추론 연구의 미래 방향은 무엇인가?

LLM 인과 추론 능력 이해

LLM이 인과 추론 작업을 수행하는 메커니즘을 이해하기 위한 추가 연구가 필요합니다. 여기에는 LLM이 인과 시나리오에서 상식과 도메인 지식을 어떻게 포착하고 적용하는지 조사하는 것이 포함됩니다.

견고성과 신뢰성 향상

LLM은 높은 평균 정확도를 보이지만 단순하고 예측 불가능한 실수도 합니다. 향후 연구는 외부 도구나 LLM 자체의 추가 인스턴스를 통해 LLM의 견고성을 높이는 데 초점을 맞춰야 합니다.

기존 인과 방법과의 통합

LLM을 기존 인과 방법과 통합하여 인간 도메인 지식의 대리 역할을 하고 인과 분석 설정에 필요한 노력을 줄일 수 있는 잠재력이 있습니다.

지식 기반 인과 발견

LLM이 메타데이터와 자연어 설명을 활용하여 인과 구조를 추론하는 방법을 탐구하고, 변수 메타데이터와 LLM을 통해 인코딩된 기존 지식을 포함하도록 인과 발견 문제를 재구성할 수 있습니다.

반사실적 추론

필요성과 충분성 같은 인과 원시 개념을 사용하여 LLM이 더 높은 수준의 실제 인과 판단 질문에 답하도록 안내하는 방법을 개발하고, 형식적 실제 인과 이론을 가이드로 사용할 수 있습니다.

인간-LLM 협업

그래프 생성과 같은 작업에서 인간과 LLM 간의 협업을 촉진하는 최선의 방법을 연구합니다. LLM이 그래프 엣지를 제안하고 수동 생성 그래프에 대한 피드백을 제공할 수 있습니다.

인과 효과 추론

LLM이 인과 효과 추론을 위한 유효한 조정 집합을 식별하고 인과 작업에 대한 잠재적 도구 변수를 제안하는 데 어떻게 도움을 줄 수 있는지 조사합니다.

실제 인과와 귀인의 체계화

법률 및 정보 분석과 같은 분야에서 실제 인과 추론을 지원하기 위해 LLM을 활용합니다. 분석가는 사건이 다른 사건에 기여하는 정도에 대한 설명을 종합해야 합니다.

인과 발견을 위한 벤치마크 생성

LLM이 대량의 텍스트를 처리할 수 있는 능력을 고려하여 인과 발견 벤치마크에서 누락되거나 잘못 레이블된 엣지를 식별하는 데 활용합니다.

다양한 인과 작업에서 LLM 능력 탐구

인과 발견, 효과 추론, 실제 인과를 포함한 광범위한 인과 작업에 걸쳐 LLM의 능력을 탐구하는 추가 연구가 필요합니다.

공분산 기반 추론과 논리 기반 추론의 병합

LLM이 자연어 인터페이스를 통해 공분산 기반 및 논리 기반 인과 분석의 병합을 어떻게 촉진할 수 있는지 조사합니다.

결론

결론적으로, 대규모 언어 모델(LLM) 영역에서 인과 추론에 대한 탐구는 양날의 검을 드러냅니다. 한편으로, GPT-3와 GPT-4 같은 LLM은 인과 추론 작업에서 놀라운 능숙함을 입증했습니다. 다른 한편으로, LLM의 인과 추론 한계는 사소하지 않습니다. 특정 작업에서 높은 정확도를 보이지만 여전히 기본적인 실수를 하고 예측 불가능한 실패 모드를 보입니다. 이는 주로 진정한 인과 메커니즘보다는 통계적 상관관계를 기반으로 작동하기 때문에 진정한 인과 이해가 부족하기 때문입니다.

LLM의 인과 추론 능력의 복잡성을 계속해서 풀어나가는 동안, 실제 응용 프로그램에 통합할 때는 신중하게 접근하는 것이 중요합니다. 이는 인과 분석에서 인간 전문성을 보강할 가능성이 있지만, 형식적 인과 추론 프레임워크의 엄격함을 대체해서는 안 됩니다. 대신, LLM은 인과 도구와 지식에 대한 접근을 민주화하고, 인과 분석을 수행하기 위한 더 유연하고 자연어 기반 상호 작용을 촉진하는 보완 도구로 보아야 합니다. 앞으로 나아갈 길은 LLM의 강점을 활용하면서 한계를 인정하고 해결하여, AI의 인과 추론이 정교하고 신뢰할 수 있는 미래로 나아가는 것입니다.

참고 문헌

Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper №23-05002). arXiv. https://arxiv.org/abs/2305.05002

Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Retrieved from https://arxiv.org/abs/2308.13067

Novita AI는 무한한 창의성을 위한 원스톱 플랫폼으로, 100개 이상의 API에 접근할 수 있습니다. 이미지 생성, 언어 처리, 오디오 향상, 비디오 조작에 이르기까지 저렴한 종량제 요금제로 GPU 유지 관리의 번거로움 없이 자체 제품을 구축할 수 있습니다. 무료로 체험해 보세요.