Введение
Недавно LLM всего с 70B параметрами превзошла GPT‑3. Эта LLM, названная Chinchilla, была разработана Хоффманном и его коллегами. В своей работе они утверждают, что современные LLM не являются вычислительно-оптимальными. Почему это так? Как они обучали свою так называемую вычислительно-оптимальную LLM Chinchilla? В чём ограничения такого подхода и как их преодолеть? В этом блоге мы по порядку рассмотрим эти вопросы.

Что такое вычислительно-оптимальные большие языковые модели?
Основная идея вычислительно-оптимальной LLM заключается в нахождении правильного баланса между размером модели (количеством параметров) и объёмом обучающих данных. Это контрастирует с предыдущими подходами, где размер модели увеличивался более агрессивно, чем объём данных, что приводило к значительной недообученности моделей относительно их ёмкости.
Каковы основные характеристики вычислительно-оптимальной LLM?
Характеристика 1: Сбалансированное масштабирование размера модели и обучающих данных
Вместо экспоненциального увеличения размера модели при незначительном увеличении объёма обучающих данных вычислительно-оптимальные LLM увеличивают как размер модели, так и объём данных в равной пропорции. Это гарантирует, что ёмкость модели полностью используется доступными данными.
Характеристика 2: Оптимизация общей вычислительной эффективности
Цель состоит в том, чтобы найти оптимальное соотношение между размером модели и обучающими данными, которое обеспечивает наилучшую производительность на единицу вычислений. Это позволяет максимизировать возможности модели при фиксированном вычислительном бюджете, а не просто гнаться за рекордным размером модели.
Характеристика 3: Меньшие вычислительные ресурсы для дообучения и инференса
Это дополнительно повышает эффективность и практичность использования модели, делая её развёртывание и применение более экономичным.
Разве эти популярные LLM не являются вычислительно-оптимальными?
К сожалению, согласно Hoffmann et al. (2022), эти популярные LLM не являются вычислительно-оптимальными. Давайте сначала вспомним, какие идеи повлияли на современные LLM.
Фокус на размер модели
Ранее Kaplan et al. (2020) продемонстрировали убедительный степенной закон связи между размером языковой модели и её производительностью. В частности, они обнаружили, что при экспоненциальном увеличении числа параметров модели её производительность на различных бенчмарках улучшалась с постоянной степенной скоростью.
Эта основополагающая работа оказала глубокое влияние на область больших языковых моделей (LLM), заставив исследователей и инженеров сосредоточиться в основном на увеличении размера модели как на главном направлении улучшений. Логика была ясна: если производительность так предсказуемо зависит от размера модели, то путь к лучшим LLM — просто строить всё более крупные модели.

Перефокусировка на объём обучающих данных
Hoffmann et al. (2022) утверждают, что такая исключительная концентрация на масштабировании моделей обошлась дорого. Они считают, что современные LLM на самом деле сильно недообучены, поскольку исследовательский упор делался на увеличение размера модели, а не на пропорциональное увеличение объёма обучающих данных.
Это критическое замечание является важным вкладом их статьи. Авторы утверждают, что поле исследований потеряло из виду фундаментальный компромисс между моделью и данными, увлёкшись погоней за рекордным количеством параметров без обеспечения адекватного обучения на соразмерном объёме качественных данных. Результатом, по их мнению, является ситуация, когда LLM могут иметь впечатляющее количество параметров, но в конечном итоге их производительность неоптимальна с учётом затраченных на обучение вычислительных ресурсов.
Перенаправив внимание на этот ключевой компромисс между ёмкостью модели и обучающими данными, авторы подготовили почву для эмпирического исследования истинного оптимального баланса между этими двумя факторами. Их результаты, подробно описанные в следующих разделах, предлагают новую парадигму для разработки вычислительно-эффективных больших языковых моделей.
Как обучать вычислительно-оптимальные большие языковые модели?
В этом разделе мы углубимся в статью Hoffmann et al. (2022) под названием «Training Compute-Optimal Large Language Models». Как всегда, если технические детали кажутся слишком сложными, просто запомните вывод и пропустите этот раздел: для вычислительно-оптимального обучения размер модели и количество токенов обучения должны масштабироваться одинаково — при каждом удвоении размера модели количество обучающих токенов также должно удваиваться.
Эмпирическая оценка оптимального компромисса между моделью и данными
Чтобы исследовать оптимальное соотношение между размером модели и объёмом обучающих данных, авторы обучили более 400 моделей с числом параметров от 70 миллионов до 16 миллиардов на наборах данных объёмом от 5 до 500 миллиардов токенов. Они смоделировали финальную предобучающую потерю как функцию как размера модели, так и количества обучающих токенов.

Ключевые результаты
Авторы обнаружили, что для вычислительно-оптимального обучения размер модели и количество обучающих токенов должны масштабироваться одинаково — при каждом удвоении размера модели количество обучающих токенов также должно удваиваться. Это противоречит рекомендациям Kaplan et al., которые предполагали меньшее увеличение числа токенов по сравнению с размером модели.
Обучение вычислительно-оптимальной модели: Chinchilla
Применяя свои выводы, авторы обучили модель с 70 миллиардами параметров под названием Chinchilla, используя тот же вычислительный бюджет, что и для модели Gopher с 280 миллиардами параметров. Chinchilla значительно превзошла Gopher, GPT-3, Jurassic-1 и Megatron-Turing NLG в широком спектре downstream-задач, одновременно требуя значительно меньше вычислительных ресурсов для дообучения и инференса.


Заключительные замечания
Статья демонстрирует, что современные большие языковые модели значительно недообучены, и предлагает принципиальный подход к определению оптимального размера модели и объёма обучающих данных для заданного вычислительного бюджета. Это имеет важное значение для эффективной разработки будущих крупномасштабных языковых моделей.
Если вы хотите узнать больше технических деталей, можете ознакомиться с оригинальной статьёй.
Ограничения подхода к обучению вычислительно-оптимальных больших языковых моделей
Хотя описанный в этой статье подход к вычислительно-оптимальным большим языковым моделям представляет собой убедительную теоретическую основу, у него есть несколько потенциальных ограничений:
Доступность больших объёмов обучающих данных
- Принципы основаны на доступе к чрезвычайно большим и качественным наборам данных для обучения моделей.
- Сбор и курирование таких массивных датасетов может быть сложным, трудоёмким и дорогостоящим.
- Это может ограничить возможность практической реализации подхода, особенно для небольших исследовательских групп или организаций.
Ограничения по аппаратному обеспечению и вычислительным ресурсам
- Обучение очень больших моделей с пропорциональным объёмом данных требует огромных вычислительных мощностей.
- Доступ к необходимому оборудованию (например, мощным GPU, TPU) и требуемой инфраструктуре для электропитания и охлаждения может быть ограничивающим фактором.
- Общие вычислительные затраты, связанные с таким подходом, могут быть непомерно высокими для многих.
Производительность в предметных областях
- Статья фокусируется на языковых моделях общего назначения, однако оптимальный баланс между размером модели и объёмом данных может различаться для моделей, нацеленных на конкретные домены или задачи.
- Некоторые приложения могут требовать иного компромисса для достижения наилучших результатов.
Отсутствие эмпирического подтверждения
- Хотя изложенные принципы логически обоснованы, в статье не приводится эмпирических свидетельств или примеров, демонстрирующих эффективность вычислительно-оптимального подхода.
- Для проверки утверждений и количественной оценки преимуществ потребуются дальнейшие исследования и практическая реализация.
Потенциальное социальное воздействие
- Масштабирование размера модели и объёма данных может усугубить проблемы, связанные с безопасностью ИИ, надёжностью и воздействием на окружающую среду крупномасштабного машинного обучения.
- Эти социальные последствия не рассматриваются в статье и требуют тщательного изучения.
В целом, практическая реализация подхода вычислительно-оптимальных LLM может столкнуться с серьёзными проблемами, связанными с данными, оборудованием, домен-специфичностью и более широкими аспектами влияния. Для полной оценки его осуществимости и преимуществ необходимы эмпирическая оценка и дальнейшие исследования.
Альтернативный способ повышения производительности LLM
Хотя описанный ранее вычислительно-оптимальный подход представляет собой убедительную основу для разработки высокопроизводительных LLM, существует альтернативное решение, которое может обеспечить ещё большую гибкость и эффективность: LLM API.
Вместо того чтобы полагаться на одну фиксированную LLM, Novita AI LLM API предоставляет доступ к разнообразным языковым моделям, каждая из которых обладает уникальными возможностями и специализацией. Это позволяет пользователям выбирать наиболее подходящую модель для своих конкретных задач.

Более того, Novita AI Model API предоставляет пользователям возможность легко настраивать ключевые параметры модели, такие как top p (управляет процессом выбора слов моделью, способствуя более разнообразной и осмысленной генерации текста), temperature (регулирует степень случайности и исследования в генерации текста), max tokens (ограничивает длину выходного текста) и presence penalty (штрафует модель за чрезмерное повторение слов, стимулируя генерацию более разнообразного текста). Такой уровень настройки позволяет тонко подстроить производительность LLM под уникальные требования каждого проекта или сценария использования, обеспечивая более оптимальные и индивидуальные результаты.

Помимо настраиваемых параметров, ещё одной выдающейся особенностью Novita AI Model API является поддержка ввода системных промптов. Пользователи могут предоставлять собственные промпты или шаблоны для управления поведением языковой модели, что позволяет получать более направленные и целенаправленные ответы. Это может быть особенно полезно для приложений, требующих определённого тона, стиля или знаний в предметной области.

Заключение
Работа Hoffmann et al. представляет собой значительный шаг вперёд в оптимизации обучения больших языковых моделей в рамках практических вычислительных ограничений. Их основная идея — балансирование ёмкости модели и масштаба обучающих данных — является как теоретически обоснованной, так и эмпирически подтверждённой на примере модели Chinchilla. Избегая ловушек сильной недообученности, этот вычислительно-оптимальный подход открывает новые уровни производительности и эффективности по сравнению с предыдущими передовыми LLM, такими как GPT-3.
Однако реализация такого вычислительно-оптимального обучения в масштабе не лишена проблем. Курирование огромных высококачественных наборов данных вызывает трудности. Доступность достаточных вычислительных ресурсов — от аппаратного обеспечения до стоимости энергии — также может препятствовать внедрению, особенно для небольших организаций. Альтернативный подход, обеспечивающий большую гибкость, заключается в использовании продвинутых языковых API, таких как Novita AI Model API. Эти API предоставляют пользователям доступ к разнообразным предобученным моделям, адаптированным для различных сценариев использования.
Novita AI — это единая платформа для безграничного творчества, предоставляющая доступ к более чем 100 API. От генерации изображений и обработки языка до улучшения аудио и манипуляции видео — недорогое «плати по мере использования» освобождает вас от необходимости обслуживать GPU при создании собственных продуктов. Попробуйте бесплатно.
Рекомендуемое чтение
Что произойдёт, когда большие языковые модели закодируют клинические знания?
