Введение
По мере того как большие языковые модели (LLM), такие как GPT-3, PaLM, ChatGPT и другие, приобретают огромную популярность, необходимость тщательной оценки их возможностей становится критически важной. Эти передовые модели ИИ могут понимать и генерировать человекоподобный текст, что делает их мощными инструментами в различных приложениях.
Однако с большой силой приходит большая ответственность — мы должны гарантировать, что LLM надежны, непредвзяты, а их потенциальные риски хорошо понятны. В этом блоге мы обсудим научную статью «A Survey on Evaluation of Large Language Models», которая дает всесторонний обзор того, как эффективно оценивать LLM.

Что такое большие языковые модели?
Большие языковые модели (LLM) представляют собой категорию продвинутых моделей глубокого обучения, которые произвели революцию в области обработки естественного языка (NLP). Эти модели отличаются огромным размером и обширным предварительным обучением на огромных объемах текстовых данных, полученных из Интернета. Базовая архитектура, лежащая в основе многих LLM, известна как Transformer, которая состоит из слоев модулей кодировщика и декодировщика, оснащенных механизмами самовнимания.
Архитектура Transformer позволяет LLM превосходно понимать и генерировать человекоподобный текст. В отличие от традиционных моделей, которые обрабатывают текст последовательно, Transformer могут обрабатывать целые последовательности данных параллельно, используя вычислительную мощность графических процессоров (GPU) для значительного ускорения времени обучения. Эта возможность параллельной обработки имеет решающее значение для работы со сложностью и масштабом данных, участвующих в обучении больших моделей.
LLM обучаются без учителя или с самоконтролем, то есть они учатся предсказывать следующее слово или последовательность слов в тексте, основываясь исключительно на закономерностях и структуре, присущих данным. Такой подход позволяет LLM улавливать сложные лингвистические закономерности, синтаксические правила и семантические связи между языками и областями.

Более того, LLM способны к трансферному обучению, когда их можно донастраивать на конкретных задачах с относительно небольшими объемами данных, специфичных для задачи. Эта адаптивность делает их универсальными инструментами для широкого спектра приложений, включая, но не ограничиваясь переводом языка, анализом тональности, суммаризацией текста, ответами на вопросы и даже творческим написанием текстов или генерацией кода. Многие компании, например Novita AI, предоставляют LLM API для программистов, чтобы использовать возможности LLM.
Какие аспекты LLM следует оценивать?
В статье «A Survey on Evaluation of Large Language Models» оценка LLM категоризируется по нескольким ключевым областям:
Обработка естественного языка (NLP)
Тестирование основных NLP-способностей, таких как классификация текстов, вывод на естественном языке, суммаризация, перевод, ответы на вопросы и т.д.
Рассуждение
Оценка способностей к логическому рассуждению, рассуждению на основе здравого смысла, многошаговому арифметическому рассуждению.
Робастность
Изучение производительности модели при adversarial входах, выбросах распределения, искажениях данных и т.д.
Этика и предвзятости
Оценка предвзятостей, связанных с полом, расой, религией, и проверка соблюдения этических принципов.
Доверие
Измерение надежности, правдивости, фактической точности выходов модели.
И многие другие области, такие как многоязычная производительность, медицинские приложения, инженерия, математика и научные ответы на вопросы.
Где оценивать LLM?
Для всесторонней оценки LLM авторы статьи «A Survey on Evaluation of Large Language Models» отмечают, что нам нужны тщательно подобранные наборы данных и бенчмарки в разных областях:
Общие бенчмарки:
- BIG-bench, HELM, PromptBench тестируют различные способности в одном бенчмарке
Специализированные NLP-бенчмарки:
- GLUE, SuperGLUE для общего понимания языка
- SQuAD, NarrativeQA для ответов на вопросы
Бенчмарки для рассуждений:
- StrategyQA, PIE для рассуждений на основе здравого смысла/многошаговых рассуждений
Бенчмарки для робастности:
- GLUE-X, CheckList для оценки устойчивости к различным возмущениям
Бенчмарки для этики и предвзятости:
- Winogender, CrowS-Pairs для гендерной предвзятости
- CANDELA для оценки языка вражды
Многоязычные бенчмарки:
- XGLUE, XTREME для кросс-лингвальной генерализации
- M3Exam для многоязычных способностей
Специализированные бенчмарки для математики, науки, кода, тестирования личности и других областей.
Мультимодальные бенчмарки:
- Комбинирование текста с изображениями, аудио, видео и т.д.
- MMBench, MMLU, LAMM, MME и другие
Как оценивать LLM?
«A Survey on Evaluation of Large Language Models» обсуждает различные протоколы для оценки LLM:
Автоматическая оценка:
- Использование метрик, таких как BLEU, ROUGE, F1, Accuracy, для оценки выходов по сравнению с эталонными
- Работает для четко определенных задач, но имеет ограничения Оценка:
- Привлечение людей для субъективной оценки выходов
- Более дорого, но может охватить аспекты с открытым концом
- Используется для рассуждений на основе здравого смысла, генерации с открытым концом
Человек в цикле:
- Люди интерактивно предоставляют обратную связь для улучшения промптов/выходов модели
- Например, AdaFilter, который фильтрует токсичные выходы
Краудсорсинговое тестирование:
- Краудсорсинг шаблонов от людей для создания новых тестовых случаев
- Платформы, такие как DynaBench, проводят непрерывное стресс-тестирование
Контрольные списки:
- Тщательно подобранные тестовые случаи, охватывающие возможности и режимы сбоев
- Вдохновлено контрольными списками тестирования программного обеспечения

Какие LLM с выдающимися показателями в бенчмарках?
Anthropic: Claude 3.5 Sonnet
Claude 3.5 Sonnet обеспечивает возможности лучше, чем Opus, скорость выше, чем Sonnet, по тем же ценам Sonnet. Sonnet особенно хорош в кодировании, дополнении экспертизы человека в Data Science, навигации по неструктурированным данным с использованием нескольких инструментов для получения инсайтов, визуальной обработке и агентских задачах. Claude 3.5 Sonnet API предоставляется компанией Anthropic.

Meta: Llama 3 70B Instruct
Новейший класс моделей Meta (Llama 3) был запущен с разнообразием размеров и вариантов. Эта версия 70B, донастроенная на инструкции, была оптимизирована для высококачественных диалоговых сценариев. Она продемонстрировала высокую производительность по сравнению с ведущими закрытыми моделями в человеческих оценках. Основные провайдеры API Llama 3 70B Instruct включают DeepInfra, Novita AI, OctoAI, Lepton, Together, Fireworks и Perplexity.

OpenAI: GPT-4o
GPT-4o («o» от «omni») — это новейшая модель ИИ от OpenAI, поддерживающая как текстовые, так и графические входы с текстовыми выходами. Она сохраняет уровень интеллекта GPT-4 Turbo, будучи в два раза быстрее и на 50% более экономичной. GPT-4o также предлагает улучшенную производительность при обработке неанглийских языков и расширенные визуальные возможности. Основные провайдеры GPT-4o включают OpenAI и Azure.

WizardLM-2 8x22B
WizardLM-2 8x22B — это самая передовая модель Wizard от Microsoft AI. Она демонстрирует высококонкурентную производительность по сравнению с ведущими проприетарными моделями и стабильно превосходит все существующие современные модели с открытым исходным кодом. Основные провайдеры API WizardLM-2 8x22B включают Novita AI, DeepInfra, Lepton, OctoAI и Together.

Mistral: Mistral 7B Instruct
Mistral 7B Instruct — это высокопроизводительная, отраслевая модель с 7,3B параметрами, с оптимизациями для скорости и длины контекста. Основные провайдеры Mistral 7B Instruct включают Novita AI, Lepton, DeepInfra, OctoAI и Together.

Каковы будущие вызовы в оценке LLM?
Авторы «A Survey on Evaluation of Large Language Models» указывают на некоторые будущие вызовы, которые читателям следует учитывать:
Разработка бенчмарков для AGI:
- Нужны бенчмарки, которые могут всесторонне тестировать искусственный общий интеллект
- Должны охватывать многозадачные, мультимодальные, открытые способности
Полное поведенческое тестирование:
- Стресс-тест для всех возможных распределений входных данных и поведений
- Обеспечить надежность и безопасность в реальных развертываниях
Оценка робастности:
- Атакующие атаки, сдвиги распределения, риски безопасности
- Нужны принципиальные рамки, выходящие за пределы текущих ad-hoc методов
Динамическая оценка:
- Обновление оценок по мере развития LLM для обработки новых рисков/возможностей
- Например, LLM становятся лучше в кодировании или математических рассуждениях
Унифицированная оценка:
- Нужны унифицированные рамки для последовательной оценки разнообразных LLM
- Текущий подход ad-hoc и не имеет стандартизации
Доверительная оценка:
- Сам процесс оценки должен быть непредвзятым, безопасным, достоверным
- Предотвратить мошенничество со стороны LLM или ненадежные аннотации людей
Заключение
Тщательная оценка больших языковых моделей имеет решающее значение для построения доверия и обеспечения их безопасного и этичного развертывания. «A Survey on Evaluation of Large Language Models» предоставляет всесторонний обзор ключевых аспектов, наборов данных, протоколов и открытых проблем в оценке LLM. По мере того как эти мощные модели ИИ продолжают развиваться, исследования в области оценки должны идти в ногу, чтобы тщательно изучать их производительность и защищать от потенциальных рисков для общества. Следование принципиальным практикам оценки жизненно важно для ответственного использования преобразующего потенциала LLM.
Ссылки
Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2018). A survey on evaluation of large language models. Journal of the ACM, 37(4), Article 111. https://arxiv.org/abs/2307.03109
Novita AI — это облачная платформа «все в одном», которая расширяет ваши AI-амбиции. С бесшовно интегрированными API, бессерверными вычислениями и ускорением GPU мы предоставляем экономически эффективные инструменты, необходимые для быстрого создания и масштабирования вашего AI-бизнеса. Устраните проблемы с инфраструктурой и начните бесплатно — Novita AI превращает ваши AI-мечты в реальность.
