Изучите её эффективность в задачах арифметики, символьного рассуждения и рассуждений, основанных на здравом смысле, раскрывая преимущества масштабируемости. Станьте свидетелем впечатляющих улучшений производительности на различных бенчмарках и поймите её потенциал для обобщения длины.
Введение
В области NLP произошли значительные изменения благодаря недавним достижениям в языковых моделях. Было показано, что увеличение масштаба этих моделей даёт различные преимущества, включая повышение производительности и эффективности обучения на примерах. Тем не менее, простое увеличение размера моделей оказалось недостаточным для достижения высокой квалификации в сложных задачах, таких как арифметика, рассуждения на основе здравого смысла и символьные рассуждения.
В этой статье рассматривается, как возможности рассуждения больших языковых моделей могут быть улучшены с помощью простого подхода, основанного на двух ключевых концепциях. Во-первых, подчёркивается важность генерации объяснений на естественном языке, которые проясняют шаги, ведущие к решению, что особенно полезно в задачах арифметического рассуждения. Кроме того, подчёркивается потенциал больших языковых моделей для обучения в контексте с несколькими примерами (few-shot learning) с помощью промптинга. Вместо тонкой настройки отдельной модели для каждой новой задачи этот подход предполагает предоставление модели нескольких примеров ввода-вывода, иллюстрирующих задачу, что показало замечательные результаты в различных простых задачах ответов на вопросы.

Промптинг с цепочкой рассуждений позволяет большим языковым моделям решать сложные задачи арифметики, здравого смысла и символьного рассуждения.
Что такое промптинг с цепочкой рассуждений
Промптинг с цепочкой рассуждений обладает несколькими привлекательными качествами как подход к улучшению рассуждений в языковых моделях.
- Во-первых, он позволяет моделям разбивать сложные проблемы на промежуточные шаги, что позволяет выделять дополнительные вычислительные ресурсы для задач, требующих нескольких шагов рассуждения.
- Во-вторых, цепочка рассуждений даёт понятное представление о поведении модели, показывая, как она могла прийти к определённому ответу, и предоставляет возможности для выявления и исправления ошибок в процессе рассуждения (хотя полное понимание вычислений модели, поддерживающих ответ, остаётся сложной задачей).
- В-третьих, рассуждение с цепочкой рассуждений применимо к различным задачам, таким как математические текстовые задачи, рассуждения на основе здравого смысла и символьные манипуляции, и потенциально может быть распространено на любую задачу, решаемую человеком с помощью языка.
- Наконец, рассуждение с цепочкой рассуждений может быть легко интегрировано в достаточно большие предварительно обученные языковые модели путём включения примеров последовательностей цепочек рассуждений в демонстрационные примеры для few-shot промптинга, что делает его универсальным инструментом для повышения производительности модели.
Если вы хотите узнать больше об общей информации о цепочке рассуждений в LLM, вы можете ознакомиться с нашим блогом: Раскрытие потенциала промптинга с цепочкой рассуждений в крупномасштабных языковых моделях
Арифметическое рассуждение
Хотя арифметическое рассуждение может показаться простым для людей, языковые модели часто испытывают с ним трудности. Примечательно, что при применении к языковой модели с 540 миллиардами параметров промптинг с цепочкой рассуждений показывает производительность, сопоставимую с моделями, точно настроенными для конкретных задач, на нескольких задачах. Он даже достигает нового передового уровня на сложном бенчмарке GSM8K.
Экспериментальная установка
Мы изучаем эффективность промптинга с цепочкой рассуждений на различных языковых моделях на нескольких бенчмарках математических текстовых задач. Эти бенчмарки включают GSM8K, SVAMP, ASDiv, AQuA и MAWPS, каждый из которых предлагает различные сложности в решении математических задач. Примеры задач приведены в Приложении, Таблица 12.
Бенчмарки.
Для базового сравнения мы используем широко распространённый метод стандартного few-shot промптинга. Этот метод заключается в предоставлении языковой модели контекстных примеров пар ввод-вывод перед прогнозированием на тестовых примерах. Эти примеры представлены в виде вопросов и ответов, и модель напрямую выводит ответ.
Стандартный промптинг
В отличие от этого, наш предлагаемый подход, промптинг с цепочкой рассуждений, дополняет каждый пример в few-shot промптинге подробной цепочкой рассуждений, связанной с соответствующим ответом. Поскольку большинство наборов данных предоставляют только оценочный раздел, мы вручную создали набор из восьми примеров с цепочками рассуждений для промптинга. Один такой пример цепочки рассуждений показан на Рисунке 1, а полный набор доступен в Приложении, Таблица 20. Важно отметить, что эти примеры не подвергались инженерии промптов; мы исследуем их устойчивость в Разделе 3.4 и Приложении A.2.
Наша цель — изучить, может ли такая форма промптинга с цепочкой рассуждений эффективно стимулировать успешное рассуждение в разнообразных сценариях математических текстовых задач.

Языковые модели
Мы оцениваем производительность пяти больших языковых моделей. Первая — GPT-3, для которой мы используем варианты text-ada-001, text-babbage-001, text-curie-001 и text-davinci-002, соответствующие моделям InstructGPT с 350M, 1.3B, 6.7B и 175B параметров соответственно. Вторая модель — LaMDA, доступная в версиях с 422M, 2B, 8B, 68B и 137B параметров. Третья модель — PaLM, предлагающая модели с 8B, 62B и 540B параметров. Четвёртая модель — UL2 20B, и пятая — Codex.
Мы используем декодирование с жадным поиском (greedy decoding) для этих моделей, хотя последующие исследования показывают, что промптинг с цепочкой рассуждений может быть улучшен путём агрегирования окончательного ответа большинством голосов по нескольким сгенерированным вариантам. Для LaMDA мы представляем усреднённые результаты по пяти случайным сидам, причём каждый сид использует другой случайно перемешанный порядок примеров. Поскольку эксперименты с LaMDA не показали значительной дисперсии между разными сидами, для оптимизации вычислительных ресурсов мы сообщаем результаты на основе одного порядка примеров для всех остальных моделей.
Результаты
Промптинг с цепочкой рассуждений позволяет большим языковым моделям решать сложные математические задачи. Примечательно, что способность рассуждать с помощью цепочек рассуждений проявляется по мере масштабирования моделей.

Рассуждения на основе здравого смысла
Хотя методология цепочки рассуждений особенно эффективна для решения математических текстовых задач, её языковой подход делает её применимой к широкому кругу задач рассуждений на основе здравого смысла. Такое рассуждение включает понимание физических и человеческих взаимодействий на основе общих фоновых знаний — навык, который всё ещё сложен для современных систем понимания естественного языка (Talmor et al., 2021).
Бенчмарки
Мы оцениваем этот подход на пяти наборах данных, представляющих различные типы рассуждений на основе здравого смысла. Набор данных CSQA включает ответы на вопросы о мире, требующие здравого смысла, часто предполагающие предварительное знание сложной семантики. StrategyQA требует от моделей вывода многошаговых стратегий для ответа на вопросы. Кроме того, мы используем два специализированных оценочных набора из инициативы BIG-bench: Date Understanding, посвящённый выводу дат из контекста, и Sports Understanding, который включает определение правдоподобия предложений, связанных со спортом. Наконец, набор данных SayCan включает преобразование инструкций на естественном языке в последовательности действий робота из дискретного набора. Примеры с аннотациями цепочек рассуждений для всех наборов данных проиллюстрированы.
Промпты.
Что касается экспериментальной установки, мы следуем подходу, аналогичному описанному в предыдущем разделе. Для CSQA и StrategyQA мы случайным образом выбираем примеры из обучающего набора и вручную создаём для них цепочки рассуждений, которые служат few-shot примерами. Поскольку две задачи BIG-bench не имеют обучающих наборов, мы используем первые десять примеров из оценочного набора в качестве few-shot примеров и сообщаем результаты по остальной части оценочного набора. Для SayCan мы используем шесть примеров из обучающего набора и вручную создаём цепочки рассуждений.
Результаты
Результаты, выделенные на Рисунке 7 для PaLM (полные результаты для LaMDA, GPT-3 и различных масштабов моделей показаны в Таблице 4), показывают, что увеличение размера модели улучшает производительность стандартного промптинга во всех задачах. Более того, промптинг с цепочкой рассуждений приводит к дополнительному приросту производительности, причём наиболее значительные улучшения наблюдаются для PaLM 540B. С помощью промптинга с цепочкой рассуждений PaLM 540B достигает впечатляющих результатов, превосходя предыдущее передовое состояние на StrategyQA (75.6% против 69.4%) и даже превосходя неассистированных любителей спорта в задаче понимания спорта (95.4% против 84%). Эти результаты подчёркивают потенциал промптинга с цепочкой рассуждений для повышения производительности в ряде задач рассуждений на основе здравого смысла, хотя прирост был минимальным на CSQA.

Символьное рассуждение
В нашем заключительном экспериментальном оценивании мы сосредотачиваемся на символьном рассуждении — задаче, которая проста для людей, но может быть сложной для языковых моделей. Мы демонстрируем, что промптинг с цепочкой рассуждений не только позволяет языковым моделям решать задачи символьного рассуждения, которые трудно выполнить в условиях стандартного промптинга, но также помогает в обобщении по длине, позволяя моделям обрабатывать входные данные на этапе вывода, длина которых превышает длину примеров, представленных в few-shot примерах.
Задачи
Для анализа мы используем следующие две простые задачи:
- Конкатенация последних букв: в этой задаче модель должна конкатенировать последние буквы слов в заданном имени (например, “Amy Brown” → “yn”). Это более сложная версия задачи конкатенации первых букв, которую языковые модели уже могут выполнять без необходимости в цепочке рассуждений. Мы генерируем полные имена, случайным образом комбинируя имена из тысячи самых популярных имён и фамилий, взятых из данных переписи населения.
- Подбрасывание монеты: эта задача требует от модели определить, остаётся ли монета орлом вверх после того, как люди либо подбрасывают, либо не подбрасывают её (например, “Монета лежит орлом вверх. Фиби подбрасывает монету. Освальдо не подбрасывает монету. Осталась ли монета орлом вверх?” → “нет”).
Результаты
На рисунке ниже представлены результаты внутридоменной и внедоменной (OOD) оценки для PaLM, результаты для LaMDA подробно описаны в Приложении, Таблица 5. Примечательно, что с PaLM 540B промптинг с цепочкой рассуждений достигает почти 100% успеха, хотя стандартный промптинг уже справляется с задачами подбрасывания монеты с PaLM 540B (но не с LaMDA 137B).
Эти внутридоменные оценки включают «игрушечные задачи», где идеальные структуры решений предоставляются цепочками рассуждений в few-shot примерах. Несмотря на это, меньшие модели всё ещё испытывают трудности, что демонстрирует, что способность манипулировать абстрактными концепциями на невидимых символах проявляется только при масштабе в 100 миллиардов параметров модели.
При внедоменных оценках стандартный промптинг не работает ни для одной из задач. Однако с помощью промптинга с цепочкой рассуждений языковые модели демонстрируют восходящие кривые масштабирования, хотя производительность ниже по сравнению с внутридоменной настройкой. Это указывает на то, что промптинг с цепочкой рассуждений способствует обобщению по длине за пределами знакомых цепочек рассуждений для адекватно масштабированных языковых моделей.

Заключение
Наше исследование промптинга с цепочкой рассуждений выявило его эффективность как простого и широко применимого метода для улучшения способностей рассуждения в языковых моделях. В ходе экспериментов, охватывающих арифметические, символьные задачи и задачи на здравый смысл, мы наблюдаем, что рассуждение с цепочкой рассуждений проявляется как свойство масштаба модели. Это позволяет достаточно большим языковым моделям эффективно справляться с задачами рассуждения, которые в противном случае демонстрируют плоские кривые масштабирования.
Расширяя репертуар задач рассуждения, которые языковые модели могут умело выполнять, мы стремимся стимулировать дальнейшее исследование и развитие языковых подходов к рассуждению.
novita.ai — универсальная платформа для безграничного творчества, предоставляющая доступ к более чем 100 API. От генерации изображений и обработки языка до улучшения аудио и манипуляции видео, недорогая оплата по мере использования — она освобождает вас от хлопот по обслуживанию GPU, позволяя создавать собственные продукты. Попробуйте бесплатно.
Рекомендуемое чтение
Novita AI LLM Inference Engine: максимальная пропускная способность и самый дешёвый инференс
