Введение
Являются ли эмерджентные способности больших языковых моделей миражом? Краткий ответ на этот вопрос: в основном, да. Некоторые учёные из Стэнфорда утверждают, что всё дело в метриках. Точнее, LLM развивают свои способности постепенно, а не скачкообразно, согласно большинству метрик, в то время как эти эмерджентные чудеса проявляются только в определённых измерениях. В этом блоге мы рассмотрим исходное определение эмерджентных способностей больших языковых моделей, то, как эти учёные оспаривают данное утверждение, и значение их выводов для мира ИИ.

Что такое эмерджентные способности больших языковых моделей?
Эмерджентные способности — это новые возможности или поведения, возникающие в сложных системах по мере увеличения их размера или сложности. В контексте LLM это неожиданные навыки или улучшения производительности, которые якобы отсутствовали у меньших моделей, но появляются по мере роста модели.
Характеристика 1: Резкость
Резкость в контексте эмерджентных способностей относится к внезапному и драматическому увеличению производительности в конкретной задаче. Это похоже на «момент озарения» модели, когда она переходит от полной неспособности выполнять задачу к её безупречному выполнению. Это часто визуализируется как крутая кривая на графике, показывающая, что показатель производительности, такой как точность или процент завершения задачи, скачком переходит от низкого значения к высокому без значительного промежуточного состояния.
Представьте, что у вас есть серия языковых моделей разных размеров — от маленьких до очень больших. Вы проверяете их способность переводить текст с английского на французский. Меньшие модели могут испытывать трудности, давая плохой перевод с множеством ошибок. Однако, по мере тестирования всё более крупных моделей, вы можете внезапно обнаружить, что при определённом размере переводы модели становятся почти идеальными, с очень малым количеством ошибок или без них. Это внезапное улучшение и называется «резкостью» эмерджентной способности.

Характеристика 2: Непредсказуемость
Непредсказуемость заключается в сложности предвидения того, когда или при каком размере модели проявится эмерджентная способность. Нет чёткого постепенного тренда, на который можно было бы указать и сказать: «Когда мы достигнем такого размера или сложности, модель сможет делать X». Вместо этого появление этих способностей кажется неожиданным, без очевидного шаблона или предупреждения.
Продолжая пример с переводом, можно ожидать, что с увеличением размера модели её способность к переводу будет неуклонно улучшаться. Однако непредсказуемость означает, что невозможно надёжно предсказать, при каком именно размере модели переводы станут отличными. Одна модель может показать скачок способностей при 100 миллионах параметров, а другая не покажет такого же скачка до миллиарда параметров. Не существует чёткого правила, которое бы указывало, когда это произойдёт, что делает появление способности непредсказуемым.

Оспаривание утверждения об эмерджентности: всего лишь мираж
Статья под названием «Являются ли эмерджентные способности больших языковых моделей миражом?» авторов Райлана Шеффера, Брандо Миранды и Санми Койехо из факультета компьютерных наук Стэнфордского университета оспаривает представление о том, что LLM проявляют эмерджентные способности. Как всегда, если вам не интересны детали исследования, просто запомните вывод и переходите к следующему разделу: воспринимаемые «эмерджентные способности» больших языковых моделей на самом деле могут быть иллюзией, созданной выбором метрик производительности, а не подлинным и внезапным изменением возможностей моделей по мере их масштабирования.
Предпосылки исследования и исследовательский вопрос
Статья начинается с обсуждения концепции эмерджентных свойств в сложных системах, которая привлекла внимание в машинном обучении благодаря наблюдениям, что большие языковые модели (LLM) демонстрируют способности, не наблюдаемые у меньших моделей. Эти эмерджентные способности характеризуются своей резкостью и непредсказуемостью.
Исследовательский вопрос, поставленный статьёй, заключается в том, являются ли эти эмерджентные способности фундаментальным свойством масштабирования ИИ-моделей или артефактом метрик, используемых для измерения производительности.
Дизайн эксперимента
Авторы предлагают альтернативное объяснение эмерджентных способностей, предполагая, что они могут быть результатом выбора метрики, а не внутреннего поведения модели. Они представляют математическую модель для демонстрации этого и проверяют свою гипотезу с помощью трёх взаимодополняющих подходов:
- Они проверили свою идею на хорошо известном семействе ИИ-моделей (InstructGPT/GPT-3) на задачах, где, по утверждениям, проявлялись эти особые навыки. Они посмотрели, как изменение оценок тестов (метрик) меняет то, что мы видим.
- Они провели мета-анализ эмерджентных способностей на наборе тестов (BIG-Bench), чтобы выяснить, проявляются ли эти особые навыки только при использовании определённых способов оценки (метрик).
- Они вызвали кажущиеся эмерджентными способности в нескольких задачах компьютерного зрения на различных глубоких сетях, изменив метрики оценки.
Результаты
- Результаты тестов: Когда исследователи изменили способ измерения производительности ИИ (метрики), они увидели кое-что интересное. Вместо внезапного скачка способностей ИИ они обнаружили плавное и устойчивое улучшение по мере увеличения моделей ИИ. Это было противоположно тому, что они ожидали, если бы у ИИ действительно были «особые навыки», появляющиеся из ниоткуда.

- Разные метрики — разные истории: Они обнаружили, что определённые способы измерения производительности создавали впечатление, что ИИ становится намного лучше очень быстро. Но когда они использовали другие метрики, которые оценивали ИИ более справедливо, улучшения были более постепенными. Это было похоже на то, как если бы ИИ не становился вдруг умнее; просто его тестировали способом, который создавал такое впечатление.

- Большой тест (мета-анализ): Когда они рассмотрели множество различных тестов (BIG-Bench), они увидели, что эти «особые навыки» проявлялись только при использовании определённых метрик. Создавалось впечатление, что эти навыки скрыты и появляются только при определённой настройке теста.
- Создание навыков: Наконец, исследователи показали, что могут заставить эти «особые навыки» появиться в других типах задач ИИ (например, распознавание изображений), просто изменив способ измерения производительности ИИ. Это было похоже на магию, но вместо настоящего фокуса дело было в том, как они оценивали способности ИИ.

Значение для исследований и разработок в области ИИ
Выбор метрик
Исследователи должны тщательно выбирать метрики при оценке моделей ИИ. Статья предполагает, что нелинейные или прерывистые метрики могут создать вводящее в заблуждение восприятие возможностей модели. Выбор подходящих метрик, точно отражающих постепенные улучшения, имеет решающее значение для достоверной и надёжной оценки.
Проектирование бенчмарков
При проектировании бенчмарков следует учитывать потенциальное влияние выбора метрики на воспринимаемые способности моделей ИИ. Бенчмарки должны использовать разнообразные метрики для обеспечения всесторонней оценки и избегать чрезмерного акцентирования результатов метрик, которые могут создавать видимость эмерджентных способностей.
Интерпретация результатов
Исследователи должны быть осторожны при интерпретации результатов, предполагающих эмерджентные способности. Статья призывает к более тонкому пониманию производительности модели, принимая во внимание возможность того, что наблюдаемое «эмерджентное» поведение может быть артефактом процесса измерения.
Прозрачность модели и воспроизводимость
Статья подчёркивает важность открытого доступа к моделям и их результатам для независимой проверки. Такая прозрачность необходима научному сообществу для проверки утверждений и воспроизведения результатов, обеспечивая целостность исследований ИИ.
Безопасность ИИ и согласование
Если эмерджентные способности воспринимаются как возникающие непредсказуемо, это может иметь последствия для безопасности ИИ и согласования. Однако если эти способности являются результатом выбора метрики, это говорит о том, что исследователи имеют больше контроля над развитием возможностей ИИ, чем считалось ранее, что можно использовать для направления развития ИИ к полезным результатам.
Распределение ресурсов
Понимание того, что эмерджентные способности могут быть миражом, может повлиять на распределение ресурсов в разработке ИИ. Вместо того чтобы сосредотачиваться на масштабировании моделей для достижения непредсказуемых способностей, ресурсы, возможно, лучше потратить на усовершенствование алгоритмов, наборов данных и процессов обучения для получения желаемых результатов более предсказуемым образом.
Этические соображения
Этические последствия возможностей ИИ тесно связаны с нашим пониманием того, что ИИ может и не может делать. Если эмерджентные способности менее распространены или менее резки, чем считалось, это может повлиять на то, как мы подходим к этическим руководствам и регулированию разработки и развёртывания ИИ.
Публичная коммуникация
Важно точно сообщать общественности о возможностях ИИ для управления ожиданиями и решения проблем, связанных с ИИ. Выводы статьи предполагают, что следует проявлять осторожность, чтобы не преувеличивать возможности ИИ, и давать реалистичную и ясную картину текущих и потенциальных будущих возможностей ИИ.
Приоритеты в исследованиях
Эти выводы могут побудить исследователей уделять первоочередное внимание пониманию фундаментальных механизмов, лежащих в основе улучшения производительности ИИ, а не поиску неуловимых эмерджентных способностей. Это может включать больше внимания алгоритмическим улучшениям, качеству данных и методам обучения.
Получите практический опыт работы с возможностями LLM
Хотя авторы отрицают, что способности LLM являются эмерджентными, это не означает, что способности LLM не являются реальными. Возможности LLM решать задачи в реальных жизненных сценариях не вызывают сомнений. Если вы хотите получить практический опыт работы с возможностями LLM, Novita AI предоставляет стартапам в области ИИ LLM API для использования возможностей LLM.

Вы можете использовать нашу бесплатную пробную версию LLM для сравнения производительности различных LLM, которые впоследствии интегрированы в наш API. Кроме того, в бесплатном чате разрешена настройка параметров и системных подсказок для удовлетворения ваших конкретных потребностей в выводах LLM.


Заключение
Дебаты о том, проявляют ли большие языковые модели (LLM) подлинные эмерджентные способности или же это мираж, как предполагают исследователи из Стэнфорда, выдвигают на первый план ключевую роль метрик производительности в оценке ИИ. Исследование постулирует, что резкие и непредсказуемые улучшения, приписываемые LLM, могут быть артефактом определённых метрик, а не внутренней способностью модели.
Эта точка зрения побуждает сообщество ИИ пересмотреть дизайн бенчмарков и интерпретацию результатов, выступая за прозрачность, разнообразие метрик и более глубокое понимание постепенного прогресса ИИ. Последствия очевидны: по мере продвижения исследований ИИ мы должны критически анализировать инструменты нашей оценки, чтобы обеспечить реалистичный и этичный путь развития, соответствующий социальным ожиданиям и стандартам безопасности.
Оставайтесь с нами, чтобы исследовать новейшие открытия академического ИИ!
Novita AI — это универсальная платформа для безграничного творчества, предоставляющая доступ к 100+ API. От генерации изображений и обработки языка до улучшения аудио и управления видео, недорогая оплата по мере использования, она освобождает вас от хлопот по обслуживанию GPU при создании собственных продуктов. Попробуйте бесплатно.
Рекомендуемое чтение
Как и почему большие языковые модели по-разному обучаются в контексте?
Всё, что нужно знать об автоматическом побуждении цепочки мыслей в больших языковых моделях
