Ключевые моменты
- Введение Mixtral: Mixtral теперь самая популярная бесплатная открытая большая языковая модель.
- Проблемы при запуске LLM с RTX4080: Недостаток видеопамяти, медленный TTFT и огромные затраты.
- Как исправить эти проблемы: Улучшить производительность Mixtral, использовать несколько видеокарт или расширенную память.
- Преимущества использования GPU-инстансов: Более высокая масштабируемость, низкая стоимость, оплата по мере использования и низкие затраты на обслуживание.
- Связанные руководства: Учебник по запуску Mixtral локально и учебник по использованию GPU-инстансов.
Введение
В этом блоге мы рассмотрим, как заставить семейство продуктов Mixtral лучше работать на GPU RTX 4080 — разновидности потребительского оборудования, такого как ноутбуки. Мы поговорим об управлении памятью и настройке GPU для эффективного использования их ресурсов, включая использование как минимум двух GPU с 16 ГБ видеопамяти каждый для оптимальной производительности. Мы также сравним запуск LLM-моделей на вашем компьютере с использованием GPU-инстансов, которые могут дать лучшую производительность благодаря использованию видеопамяти в качестве высокоскоростного буфера для эффективной загрузки и предотвращения проблем с производительностью.
Раскройте возможности открытой модели Mixtral
Прежде чем раскрыть потенциал Mixtral, сначала нужно узнать, что такое Mixtral. Кроме того, понимание различных версий Mixtral поможет пользователям выбрать подходящее оборудование в зависимости от версии LLM.
Что такое модель Mixtral?
Mixtral — это бесплатная открытая большая языковая модель, созданная компанией Mistral.ai. В списке Imsys 2023 года Mixtral 8x7b стала одной из самых высоко оцененных пользователями открытых LLM-моделей.

Рейтинг LLM
Она использует метод разреженного смешивания экспертов (MoE). Это отличается от обычных LLM тем, что не все части Mixtral используются одновременно. Вместо этого активируются только несколько секций «экспертов» в зависимости от задачи.
Сколько версий Mistral существует?
К 2024 году Mistral.ai выпустила четыре бесплатные открытые LLM-модели:
- Mistral 7B
- Mixtral 8x7B
- Mixtral 8x22B
С развитием продуктов серии Mixtral способность к рассуждению, многоязычная способность и способность к математическому кодированию этой серии продуктов значительно улучшились.
Однако эти улучшения также требуют от пользователей использования большего объема памяти и более высокой производительности. Например, аппаратные требования для запуска Mixtral 8x22b на ПК требуют GPU с примерно 300 ГБ памяти для плавной работы этой LLM-модели.
Запуск Mixtral на 4080
Сейчас некоторые пользователи выбирают RTX4080 для запуска Mixtral. Например, Slaghton успешно запустил Mixtral 8x7b на двух RTX4080. Однако из-за ограничений памяти локального GPU эта LLM может работать только с минимальной производительностью. В этом случае LLM может генерировать только около 7–8 токенов в секунду.
Как запустить Mixtral 8x7b с использованием локальных GPU?
Видеоурок: Install Mixtral 8x7B Locally on Windows on Laptop
Шаг 1: Вам нужно достаточно большое дисковое пространство для работы, поэтому начните с очистки компьютера!
Шаг 2: Установите необходимые библиотеки Python и инструменты, такие как TensorFlow, PyTorch и т.д. Эти библиотеки и инструменты можно установить через pip или conda.
Шаг 3: Загрузите файл модели Mixtral 8x7B с официального канала. Файл модели обычно предоставляется в виде сжатого пакета, содержащего веса и файлы конфигурации модели.
Шаг 4: Распакуйте загруженный файл модели в указанную директорию.
Шаг 5: В соответствии с файлом конфигурации модели установите необходимые переменные окружения, такие как путь к модели, тип устройства (CPU/GPU) и т.д.
Что происходит при запуске Mixtral на локальном RTX4080?
Люди, пытающиеся запустить LLM с потребительской видеокартой, могут столкнуться со следующими проблемами.
- Недостаток видеопамяти: RXT4080 имеет максимум 16 ГБ видеопамяти, но для плавной работы Mixtral может потребоваться около 200–300 ГБ.
- Медленный TTFT: Судя по опыту нескольких авторов на Reddit, запускавших Mistral 7b и Mixtral 8x7b на 4060, 4080 и 4090, скорость TTFT при использовании потребительской видеокарты для запуска LLM-модели может достигать только 1 т/с — 8 т/с.
- Огромные затраты: Эти авторы часто используют несколько видеокарт или внешнюю память для запуска Mixtral. Согласно ценам на Amazon, видеокарта RTX4080 стоит $999.
Как улучшить производительность 4080 при запуске Mixtral?
- Тонкая настройка параметров LLM очень важна для достижения наилучшей производительности на 16 ГБ видеопамяти RTX 4080. Один из ключевых параметров — «размер батча» (batch size). Этот параметр определяет, сколько входных образцов обрабатывается одновременно. Если уменьшить размер батча, это может снизить использование видеопамяти.
- Также хорошей идеей является расширение памяти видеокарты 4080 с помощью дополнительной памяти.
- Использовать несколько видеокарт.
Будущие тенденции в запуске Mixtral
С развитием LLM вычислительная мощность и объем видеопамяти, необходимые для запуска LLM, постоянно растут. Возможность для отдельного человека запустить LLM с помощью потребительской видеокарты становится всё меньше. Новый способ запуска LLM становится популярным среди частных лиц и предприятий, работающих с LLM, — это использование GPU-инстансов.
Что такое GPU-инстансы?
GPU-инстансы — это виртуальные машины или вычислительные ресурсы, предоставляемые в облачной среде, которые оснащены графическими процессорами (GPU).
Сценарии применения:
- Глубокое обучение: Обучение моделей нейронных сетей требует大量的 матричных операций, и возможности параллельной обработки GPU могут значительно ускорить обучение.
- Рендеринг графики: Используется в разработке игр, производстве фильмов и других областях для обеспечения высококачественного вывода графики.
- Научные вычисления: Сложные симуляции и расчеты в физике, химии, биологии и других областях.
GPU-инстанс VS локальный GPU
- Использование GPU-инстансов дешевле: Цена GPU-инстанса с использованием RTX 4090 составляет менее 1 $/ч. Но согласно Amazon, локальный RTX4090 стоит около $1,660.

Стоимость GPU-инстанса
-
Более высокая масштабируемость: Пользователи GPU-инстансов могут динамически регулировать количество и производительность GPU-инстансов в зависимости от потребности одним щелчком мыши.
-
Оплата по мере использования: Пользователи могут платить в зависимости от использования, без первоначальных вложений в оборудование.
-
Более низкие затраты на обслуживание: Использование виртуальных GPU-ресурсов позволяет не беспокоиться о том, что программа не работает из-за повреждения оборудования.
Как использовать GPU-облако?
Шаг 1: Перейдите на сайт Novita.ai и нажмите “Produce” — “GPU Instance”

Страница сайта Novita.ai
Шаг 2: Нажмите “Start Building Now”

Страница сайта Novita.ai
Шаг 3: Выберите нужный тип видеокарты и объем памяти и нажмите “Deploy”.

Страница сайта Novita.ai
Подробнее о создании GPU-инстанса см. в руководстве How to Use Llama 3 on Novita AI GPU Instance.
Часто задаваемые вопросы
Сколько ОЗУ нужно Mixtral?
Mixtral обычно требует как минимум 8 ГБ ОЗУ для нормальной работы. Если ваши задачи более сложные, больший объем ОЗУ может помочь. Важно иметь достаточный объем ОЗУ для плавной работы Mixtral и эффективной обработки задач.
Какой GPU нужен для Mixtral 8x22B?
Для эффективного использования Mixtral 8x22B требуется мощный GPU. Лучше всего иметь как минимум 48 ГБ видеопамяти. NVIDIA A100 — хороший вариант для достижения наилучшей производительности от Mixtral.
Какова скорость генерации токенов у Mistral 7B?
Mistral 7B демонстрирует отличную скорость генерации токенов. Эти скорости могут меняться в зависимости от вашего оборудования и настроек. На высокопроизводительном потребительском GPU, таком как RTX 4080, она обычно генерирует от 10 до 20 токенов в секунду.
Novita AI — это универсальная облачная платформа, расширяющая ваши AI-амбиции. Интегрированные API, serverless, GPU-инстансы — экономически эффективные инструменты, которые вам нужны. Устраните инфраструктуру, начните бесплатно и воплотите свое AI-видение в реальность.
Рекомендуемое чтение
Mixtral 8x22b Secrets Revealed: A Comprehensive Guide
