Могут ли большие языковые модели выполнять каузальные рассуждения?

Могут ли большие языковые модели выполнять каузальные рассуждения?

Введение

Как мы, люди, различаем причины эффектов, которые наблюдаем вокруг? Когда мы видим собирающиеся грозовые облака, почему мы предсказываем дождь, или как мы заключаем, что лекарство было эффективным, когда наше здоровье улучшается?

Эта способность, известная как каузальное рассуждение, является ключевым компонентом человеческого познания, помогающим нам ориентироваться в мире и осмысливать его. Но может ли современный искусственный интеллект, особенно большие языковые модели (LLM), такие как GPT-3 и GPT-4, эмулировать этот важный навык? Насколько хорошо эти модели понимают связь между причиной и следствием, и в чем их недостатки? В этом блоге мы обсудим эти вопросы, касающиеся каузального рассуждения и больших языковых моделей, один за другим.

Что такое каузальное рассуждение?

Мы, люди, действительно хорошо понимаем причины и следствия. Когда мы видим, как происходит одно событие, мы часто можем понять, что его вызвало и какие последствия оно может иметь. Эта способность рассуждать о причинах называется каузальным рассуждением.

Это важнейший навык, который помогает нам осмысливать мир и принимать правильные решения. Например, если вам стало лучше после приема лекарства, вы можете сделать вывод, что лекарство стало причиной вашего выздоровления. Или, увидев грозовые облака, вы можете предположить, что вероятным следствием будет дождь.

Каузальное рассуждение жизненно важно для таких областей, как наука, медицина, разработка политики и многое другое. Правильное понимание причин позволяет нам эффективно вмешиваться в проблемы и избегать ошибочного приписывания следствий не тем причинам.

Типы задач каузального рассуждения

Существуют различные типы задач каузального рассуждения, требующие понимания причинно-следственных связей:

Обнаружение причинности

Выявление причинно-следственных связей между различными переменными только на основе наблюдательных данных. Например, анализ данных о здоровье, чтобы определить, вызывает ли курение рак.

Оценка эффекта

Количественная оценка величины воздействия причины на результирующую переменную. Например, расчет того, насколько курение увеличивает риск рака.

Контрфактическое рассуждение

Рассмотрение альтернативных сценариев, таких как: «Если бы я не курил, заболел бы я все равно раком?»

Фактическая причинность

Для конкретного произошедшего события определение фактических причин, которые его вызвали. Например, было ли загрязнение фабрики фактической причиной респираторных проблем в сообществе.

Насколько хороши LLM в каузальном рассуждении?

Исследователи (Kıcıman et al., 2023) начали оценивать большие языковые модели (LLM), такие как GPT-3 и GPT-4, на различных задачах каузального рассуждения с использованием установленных бенчмарков. Результаты довольно интересны:

Парное обнаружение причинности: легко

Это относится к задаче определения причинно-следственной связи между парой переменных X и Y. Вызывает ли X Y, вызывает ли Y X, просто ли они коррелированы, или связи нет?

LLM достигли замечательной точности в 97% при определении причинно-следственной связи между парами переменных в более чем 100 примерах из разных областей, таких как физика, биология, эпидемиология и другие. Это существенно превзошло предыдущие лучшие традиционные алгоритмы обнаружения причинности, которые достигли максимум 83% на бенчмарке Tübingen (набор данных, используемый для оценки алгоритмов обнаружения причинности в задаче ориентации парной причинности).

Полное обнаружение графа причинности: легко

Выходя за рамки пар переменных, это включает обнаружение всей каузальной графической модели на множестве переменных — определение того, какие переменные вызывают какие другие, и представление этого в виде графа. Это позволяет составить полную причинно-следственную структуру между несколькими переменными.

В этой более сложной задаче восстановления всей каузальной графической модели для нескольких переменных методы LLM были конкурентоспособны с недавними подходами глубокого обучения, такими как GCAI. На бенчмарках CADTR и CBN-Discrete предсказанные графы GPT-4 достигли аналогичных показателей структурной точности.

Контрфактическое рассуждение: легко

Это оценивает, может ли LLM рассуждать о том, как изменились бы результаты при различных гипотетических сценариях или вмешательствах в каузальную систему. Например: «Если бы эта причина не произошла, произошел бы этот эффект?» Контрфактики являются центральными для человеческого каузального познания.

При оценке на этом бенчмарке GPT-4 правильно ответил на 92% вопросов. Это был существенный прирост на 20 процентных пунктов по сравнению с предыдущим состоянием дел в этом бенчмарке контрфактиков.

Определение необходимых / достаточных причин: легко

Для конкретного произошедшего события требуется определить, какие причины были необходимы для наступления события, и какое подмножество причин было достаточно (достаточным) для наступления события. Это касается сердцевины определения фактической причинности.

Учитывая короткие описания (виньетки) конкретных произошедших событий, GPT-4 смог успешно определить необходимые причины, которые должны были присутствовать, а также минимально достаточные причины, которые были достаточны для наступления события, с точностью 86%.

Оценка нормальности: все еще легко

Ключевым компонентом рассуждений более высокого уровня о фактической причинности событий является оценка того, нарушало ли некоторое причина или событие типичные нормы и значения по умолчанию. LLM показали умеренные результаты с точностью около 70% в этой задаче оценки нормальности из бенчмарка Cause18.

Исследователи подчеркнули, что LLM достигли этих результатов, имея только описания переменных/событий в качестве подсказок — без прямого анализа каких-либо данных. Это предполагает, что LLM могут обладать интересной способностью использовать свои обширные знания для достижения выдающихся результатов во многих задачах каузального рассуждения.

Каковы ограничения способностей LLM к каузальному рассуждению?

Никакого универсального воина

В экспериментах Kıcıman et al. (2023) с GPT-3 и GPT-4 ни одна LLM не превзошла другую на всех бенчмарках.

GPT-3
Сильные стороны:

  • Достигла 97% точности в парном обнаружении причинности (бенчмарк Tübingen), что значительно лучше предыдущих методов
  • Показала способность хорошо справляться с некоторыми задачами каузального рассуждения, несмотря на отсутствие прямого доступа к данным

Слабые стороны:

  • Не была явно оценена на более сложных задачах, таких как полное обнаружение графа причинности или контрфактики
  • Продемонстрировала непредсказуемые сбои и хрупкость по отношению к вариациям подсказок (ограничение, отмеченное для LLM в целом)

GPT-4
Сильные стороны:

  • Стабильная производительность по нескольким задачам:
  • 92% точности в контрфактическом рассуждении
  • 86% в определении необходимых/достаточных причин
  • Конкурентоспособность с методами глубокого обучения в полном обнаружении графа причинности
  • Представляет значительное улучшение возможностей по сравнению с GPT-3

Слабые стороны:

  • Все еще имела некоторые пробелы в производительности на таких задачах, как оценка нормальности событий (70% точности)
  • Не хватало устойчивости к вариациям подсказок, что влияло на производительность (общее ограничение LLM)

Непредсказуемые сбои

  • Контекстуальная интерпретация: LLM часто неверно интерпретируют каузальные контексты, особенно в ситуациях, отклоняющихся от распространенных паттернов, встречающихся в их обучающих данных. Это может приводить к каузальным объяснениям, которые не только неверны, но и вводят в заблуждение, особенно в сложных сценариях с множеством взаимодействующих факторов.
  • Логические ошибки: Даже с такими сложными моделями, как GPT-4, LLM подвержены базовым ошибкам в логике. Они могут демонстрировать глубокое понимание в одном случае и терпеть неудачу в другом при немного измененных условиях. Эти сбои часто возникают из-за ограничений модели в последовательном применении более глубокого логического рассуждения в различных контекстах.

Отсутствие устойчивости

  • Зависимость от подсказок: Производительность LLM в каузальном рассуждении сильно зависит от формулировки вопросов. Небольшие изменения в формулировках могут привести к значительно отличающимся результатам, что отражает зависимость модели от конкретных лингвистических сигналов, а не от подлинного понимания каузальных механизмов.
  • Несогласованность ответов: LLM могут давать разные ответы на один и тот же вопрос при многократном вопрошании или при немного измененных условиях. Эта несогласованность подчеркивает отсутствие стабильности в процессе рассуждений модели, что делает ее ненадежной для задач, требующих последовательного и точного каузального анализа.

Почему LLM хорошо справляются с каузальным рассуждением, но все же допускают базовые ошибки?

Простой ответ: LLM — это просто «Каузальные попугаи: большие языковые модели могут говорить о причинности, но не являются каузальными».

Отсутствие подлинного каузального понимания

Корреляция против причинности: LLM в основе своей работают на статистических корреляциях, извлеченных из огромных объемов данных, на которых они обучаются. Им не хватает способности по своей сути различать корреляцию и причинность, что является критическим аспектом подлинного каузального рассуждения. Модели не имеют доступа к underlying каузальным механизмам, а только к паттернам, которые могут имитировать причинность.

Мета-структурные каузальные модели (meta SCMs)

Zečević, Willig, Dhami и Kersting (2023) вводят концепцию meta SCM для объяснения случаев, когда LLM, по-видимому, выполняют каузальное рассуждение. Эти модели кодируют каузальные факты о других SCM в своих переменных, что предполагает, что LLM могут имитировать видимость причинности только тогда, когда они воспроизводят или отражают корреляции, изученные во время обучения, которые структурированы как каузальные факты.

Обучение на коррелированных данных

Термин «каузальные попугаи», использованный в статье Zečević, Willig, Dhami и Kersting (2023), иллюстрирует, что LLM, подобно попугаям, просто повторяют информацию (включая каузальные отношения), с которой они столкнулись в своих обучающих данных, без реального понимания. Это повторение основано на паттернах и корреляциях в данных, а не на каком-либо реальном понимании причинности.

Каковы будущие направления исследований каузального рассуждения в контексте LLM?

Понимание способностей LLM к каузальному рассуждению

Необходимы дальнейшие исследования для понимания механизмов, с помощью которых LLM выполняют задачи каузального рассуждения. Это включает изучение того, как LLM захватывают и применяют здравый смысл и знания предметной области в каузальных сценариях.

Повышение устойчивости и надежности

LLM демонстрируют высокую среднюю точность, но также совершают простые непредсказуемые ошибки. Будущие исследования должны сосредоточиться на повышении устойчивости LLM, возможно, с помощью внешних инструментов или дополнительных экземпляров самих LLM.

Интеграция с существующими каузальными методами

Существует потенциал для интеграции LLM с существующими каузальными методами, чтобы они служили заменой человеческих знаний в предметной области и уменьшали усилия, необходимые для настройки каузального анализа.

Обнаружение причинности на основе знаний

Изучение того, как LLM могут использовать метаданные и описания на естественном языке для вывода каузальных структур, возможно, переформулируя проблему обнаружения причинности, включая метаданные переменных и существующие знания, закодированные через LLM.

Контрфактическое рассуждение

Разработка методов, которые направляют LLM в использовании каузальных примитивов, таких как необходимость и достаточность, для ответа на вопросы о фактической причинности более высокого уровня, возможно, используя формальную теорию фактической причинности в качестве руководства.

Сотрудничество человека и LLM

Исследование наилучших способов содействия сотрудничеству между людьми и LLM для таких задач, как создание графов, где LLM могут предлагать ребра графа и предоставлять обратную связь по вручную созданным графам.

Вывод каузальных эффектов

Исследование того, как LLM могут помочь в определении допустимых корректирующих наборов для вывода каузальных эффектов и предложении потенциальных инструментальных переменных для каузальных задач.

Систематизация фактической причинности и атрибуции

Использование LLM для поддержки фактического каузального вывода в таких областях, как право и разведывательный анализ, где аналитики должны синтезировать объяснения степени, в которой события способствуют другим событиям.

Создание бенчмарков для обнаружения причинности

Использование LLM для помощи в идентификации потенциально пропущенных или неправильно помеченных ребер в бенчмарках обнаружения причинности, учитывая их способность обрабатывать большие объемы текста.

Изучение возможностей LLM в различных каузальных задачах

Необходимы дальнейшие исследования для изучения возможностей LLM в широком круге каузальных задач, включая обнаружение причинности, вывод эффектов и фактическую причинность.

Слияние рассуждений на основе ковариации и логики

Исследование того, как LLM могут способствовать слиянию каузального анализа на основе ковариации и логики через интерфейсы на естественном языке.

Заключение

В заключение, исследование каузального рассуждения в контексте больших языковых моделей (LLM) выявляет обоюдоострый меч. С одной стороны, LLM, такие как GPT-3 и GPT-4, продемонстрировали замечательное мастерство в задачах каузального рассуждения. С другой стороны, ограничения LLM в каузальном рассуждении нетривиальны. Несмотря на высокую точность в определенных задачах, они все еще совершают базовые ошибки и демонстрируют непредсказуемые сбои. Это в значительной степени связано с отсутствием подлинного каузального понимания, поскольку они работают на основе статистических корреляций, а не истинных каузальных механизмов.

Пока мы продолжаем распутывать сложности способностей LLM к каузальному рассуждению, крайне важно подходить к их интеграции в реальные приложения с осторожностью. Хотя они многообещающи для дополнения человеческого опыта в каузальном анализе, они не должны заменять строгость формальных рамок каузального рассуждения. Вместо этого следует рассматривать LLM как дополнительные инструменты, которые могут демократизировать доступ к каузальным инструментам и знаниям, облегчая более гибкое и естественное языковое взаимодействие для проведения каузального анализа. Путь вперед лежит в использовании сильных сторон LLM, признавая и устраняя их ограничения, направляясь к будущему, в котором каузальное рассуждение в ИИ будет одновременно сложным и надежным.

Ссылки

Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper №23–05002). arXiv. https://arxiv.org/abs/2305.05002

Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Retrieved from https://arxiv.org/abs/2308.13067

Novita AI, универсальная платформа для безграничного творчества, предоставляющая доступ к более чем 100 API. От генерации изображений и обработки языка до улучшения аудио и манипуляции видео, недорогая модель оплаты по мере использования, она освобождает вас от забот по обслуживанию GPU при создании собственных продуктов. Попробуйте бесплатно.