Ускорение работы с RXT4080: советы по GPU-облаку

Ускорение работы с RXT4080: советы по GPU-облаку

Ключевые моменты

  • Введение Mixtral: Mixtral теперь самая популярная бесплатная открытая большая языковая модель.
  • Проблемы при запуске LLM с RTX4080: Недостаток видеопамяти, медленный TTFT и огромные затраты.
  • Как исправить эти проблемы: Улучшить производительность Mixtral, использовать несколько видеокарт или расширенную память.
  • Преимущества использования GPU-инстансов: Более высокая масштабируемость, низкая стоимость, оплата по мере использования и низкие затраты на обслуживание.
  • Связанные руководства: Учебник по запуску Mixtral локально и учебник по использованию GPU-инстансов.

Введение

В этом блоге мы рассмотрим, как заставить семейство продуктов Mixtral лучше работать на GPU RTX 4080 — разновидности потребительского оборудования, такого как ноутбуки. Мы поговорим об управлении памятью и настройке GPU для эффективного использования их ресурсов, включая использование как минимум двух GPU с 16 ГБ видеопамяти каждый для оптимальной производительности. Мы также сравним запуск LLM-моделей на вашем компьютере с использованием GPU-инстансов, которые могут дать лучшую производительность благодаря использованию видеопамяти в качестве высокоскоростного буфера для эффективной загрузки и предотвращения проблем с производительностью.

Раскройте возможности открытой модели Mixtral

Прежде чем раскрыть потенциал Mixtral, сначала нужно узнать, что такое Mixtral. Кроме того, понимание различных версий Mixtral поможет пользователям выбрать подходящее оборудование в зависимости от версии LLM.

Что такое модель Mixtral?

Mixtral — это бесплатная открытая большая языковая модель, созданная компанией Mistral.ai. В списке Imsys 2023 года Mixtral 8x7b стала одной из самых высоко оцененных пользователями открытых LLM-моделей.

Рейтинг самых популярных LLM-моделей среди пользователей

Рейтинг LLM

Она использует метод разреженного смешивания экспертов (MoE). Это отличается от обычных LLM тем, что не все части Mixtral используются одновременно. Вместо этого активируются только несколько секций «экспертов» в зависимости от задачи.

Сколько версий Mistral существует?

К 2024 году Mistral.ai выпустила четыре бесплатные открытые LLM-модели:

  • Mistral 7B
  • Mixtral 8x7B
  • Mixtral 8x22B

С развитием продуктов серии Mixtral способность к рассуждению, многоязычная способность и способность к математическому кодированию этой серии продуктов значительно улучшились.

Однако эти улучшения также требуют от пользователей использования большего объема памяти и более высокой производительности. Например, аппаратные требования для запуска Mixtral 8x22b на ПК требуют GPU с примерно 300 ГБ памяти для плавной работы этой LLM-модели.

Запуск Mixtral на 4080

Сейчас некоторые пользователи выбирают RTX4080 для запуска Mixtral. Например, Slaghton успешно запустил Mixtral 8x7b на двух RTX4080. Однако из-за ограничений памяти локального GPU эта LLM может работать только с минимальной производительностью. В этом случае LLM может генерировать только около 7–8 токенов в секунду.

Как запустить Mixtral 8x7b с использованием локальных GPU?

Видеоурок: Install Mixtral 8x7B Locally on Windows on Laptop

Шаг 1: Вам нужно достаточно большое дисковое пространство для работы, поэтому начните с очистки компьютера!

Шаг 2: Установите необходимые библиотеки Python и инструменты, такие как TensorFlow, PyTorch и т.д. Эти библиотеки и инструменты можно установить через pip или conda.

Шаг 3: Загрузите файл модели Mixtral 8x7B с официального канала. Файл модели обычно предоставляется в виде сжатого пакета, содержащего веса и файлы конфигурации модели.

Шаг 4: Распакуйте загруженный файл модели в указанную директорию.

Шаг 5: В соответствии с файлом конфигурации модели установите необходимые переменные окружения, такие как путь к модели, тип устройства (CPU/GPU) и т.д.

Что происходит при запуске Mixtral на локальном RTX4080?

Люди, пытающиеся запустить LLM с потребительской видеокартой, могут столкнуться со следующими проблемами.

  • Недостаток видеопамяти: RXT4080 имеет максимум 16 ГБ видеопамяти, но для плавной работы Mixtral может потребоваться около 200–300 ГБ.
  • Медленный TTFT: Судя по опыту нескольких авторов на Reddit, запускавших Mistral 7b и Mixtral 8x7b на 4060, 4080 и 4090, скорость TTFT при использовании потребительской видеокарты для запуска LLM-модели может достигать только 1 т/с — 8 т/с.
  • Огромные затраты: Эти авторы часто используют несколько видеокарт или внешнюю память для запуска Mixtral. Согласно ценам на Amazon, видеокарта RTX4080 стоит $999.

Как улучшить производительность 4080 при запуске Mixtral?

  • Тонкая настройка параметров LLM очень важна для достижения наилучшей производительности на 16 ГБ видеопамяти RTX 4080. Один из ключевых параметров — «размер батча» (batch size). Этот параметр определяет, сколько входных образцов обрабатывается одновременно. Если уменьшить размер батча, это может снизить использование видеопамяти.
  • Также хорошей идеей является расширение памяти видеокарты 4080 с помощью дополнительной памяти.
  • Использовать несколько видеокарт.

Будущие тенденции в запуске Mixtral

С развитием LLM вычислительная мощность и объем видеопамяти, необходимые для запуска LLM, постоянно растут. Возможность для отдельного человека запустить LLM с помощью потребительской видеокарты становится всё меньше. Новый способ запуска LLM становится популярным среди частных лиц и предприятий, работающих с LLM, — это использование GPU-инстансов.

Что такое GPU-инстансы?

GPU-инстансы — это виртуальные машины или вычислительные ресурсы, предоставляемые в облачной среде, которые оснащены графическими процессорами (GPU).

Сценарии применения:

  • Глубокое обучение: Обучение моделей нейронных сетей требует大量的 матричных операций, и возможности параллельной обработки GPU могут значительно ускорить обучение.
  • Рендеринг графики: Используется в разработке игр, производстве фильмов и других областях для обеспечения высококачественного вывода графики.
  • Научные вычисления: Сложные симуляции и расчеты в физике, химии, биологии и других областях.

GPU-инстанс VS локальный GPU

  1. Использование GPU-инстансов дешевле: Цена GPU-инстанса с использованием RTX 4090 составляет менее 1 $/ч. Но согласно Amazon, локальный RTX4090 стоит около $1,660.

Стоимость GPU-инстанса

  1. Более высокая масштабируемость: Пользователи GPU-инстансов могут динамически регулировать количество и производительность GPU-инстансов в зависимости от потребности одним щелчком мыши.

  2. Оплата по мере использования: Пользователи могут платить в зависимости от использования, без первоначальных вложений в оборудование.

  3. Более низкие затраты на обслуживание: Использование виртуальных GPU-ресурсов позволяет не беспокоиться о том, что программа не работает из-за повреждения оборудования.

Как использовать GPU-облако?

Шаг 1: Перейдите на сайт Novita.ai и нажмите “Produce” — “GPU Instance”

Страница сайта Novita.ai

Шаг 2: Нажмите “Start Building Now”

Страница сайта Novita.ai

Шаг 3: Выберите нужный тип видеокарты и объем памяти и нажмите “Deploy”.

Страница сайта Novita.ai

Подробнее о создании GPU-инстанса см. в руководстве How to Use Llama 3 on Novita AI GPU Instance.

Часто задаваемые вопросы

Сколько ОЗУ нужно Mixtral?

Mixtral обычно требует как минимум 8 ГБ ОЗУ для нормальной работы. Если ваши задачи более сложные, больший объем ОЗУ может помочь. Важно иметь достаточный объем ОЗУ для плавной работы Mixtral и эффективной обработки задач.

Какой GPU нужен для Mixtral 8x22B?

Для эффективного использования Mixtral 8x22B требуется мощный GPU. Лучше всего иметь как минимум 48 ГБ видеопамяти. NVIDIA A100 — хороший вариант для достижения наилучшей производительности от Mixtral.

Какова скорость генерации токенов у Mistral 7B?

Mistral 7B демонстрирует отличную скорость генерации токенов. Эти скорости могут меняться в зависимости от вашего оборудования и настроек. На высокопроизводительном потребительском GPU, таком как RTX 4080, она обычно генерирует от 10 до 20 токенов в секунду.

Novita AI — это универсальная облачная платформа, расширяющая ваши AI-амбиции. Интегрированные API, serverless, GPU-инстансы — экономически эффективные инструменты, которые вам нужны. Устраните инфраструктуру, начните бесплатно и воплотите свое AI-видение в реальность.

Рекомендуемое чтение

Mixtral 8x22b Secrets Revealed: A Comprehensive Guide

LLM Model Comparison: Your Comprehensive Guide

5 Best GPUs for AI 2024: Your Ultimate Guide