Расшифровка Mixtral of Experts: Полное руководство

Расшифровка Mixtral of Experts: Полное руководство

Mixtral of Experts означает Mixtral 8x7B и Mixtral 8x22B, использующие архитектуру SMoE. Изучите возможности и применение Mixtral of Experts в нашем блоге.

Ключевые моменты

  • Mixtral 8x7B и Mixtral 8x22B — ведущие открытые языковые модели, разработанные компанией Mistral AI.
  • Эти модели используют архитектуру разреженного смешения экспертов (SMoE), при этом Mixtral 8x22B использует только 39 млрд активных параметров из 141 млрд.
  • Mixtral отлично справляется с различными задачами, включая генерацию кода, многоязычное понимание и обработку длинных контекстов, превосходя более крупные языковые модели по производительности.
  • Исключительная производительность в сочетании с открытым исходным кодом делает Mixtral мощным инструментом для разработчиков, стремящихся интегрировать расширенные возможности ИИ в свои приложения.

Введение

Область обработки естественного языка (NLP) постоянно развивается. Новые достижения продолжают расширять наши возможности, и модель Mixtral является ярким тому примером. В этом руководстве мы подробно рассмотрим Mixtral, работающий на основе смешения экспертов в рамках архитектуры трансформера. Блог охватит его особенности, функциональность и потенциальные сферы применения в отраслях, зависящих от обработки языка.

Что такое Mixtral of Experts?

Что такое Mixtral 8x7B и Mixtral 8x22B?

Mixtral 8x7B и Mixtral 8x22B, разработанные Mistral AI, являются передовыми большими языковыми моделями с открытыми весами, известными своей высокой эффективностью. Эти модели распространяются по лицензии Apache 2.0, что обеспечивает улучшенную доступность. Они особенно ценны для задач, требующих настройки и тонкой подстройки, и предлагают более высокую производительность, повышенную переносимость и лучший контроль в качестве ключевых преимуществ.

Что такое разреженное смешение экспертов?

Mixtral использует подход разреженного смешения экспертов (SMoE) для эффективности. Вместо использования всех параметров одновременно, модель применяет сеть-маршрутизатор для выбора небольшой группы экспертов для каждого входного токена. Этот целенаправленный выбор повышает производительность, фокусируясь на релевантных компонентах модели, и выполняется с помощью управляющей сети в слое MoE. Активируя только необходимые параметры, Mixtral достигает более высокой пропускной способности и обрабатывает информацию быстрее, что делает её идеальной для сложных задач NLP с большими наборами данных.

Архитектура разреженного смешения экспертов

Возможности Mixtral

Используя такие инновации, как Grouped-Query Attention (GQA) и Sliding Window Attention (SWA), Mixtral отлично справляется с быстрым выполнением сложных задач, применяя параллелизм модели. Mixtral может разделять сложные проблемы на более простые с помощью продвинутых стратегий обучения. Взвешенная сумма выходов различных экспертов в слое MoE повышает производительность, улавливая сложности, которые могут быть упущены моделями с единой структурой.

Технические характеристики Mixtral of Experts

Mixtral 8x7B

  • Многоязычные способности в английском, французском, итальянском, немецком и испанском языках
  • Высокая производительность в написании кода
  • Донастроен для следования инструкциям
  • Контекстное окно 32k токенов

Mixtral 8x22B

  • Контекстное окно 64K токенов
  • Свободно владеет английским, французским, итальянским, немецким и испанским
  • Отличные математические способности и навыки программирования
  • Встроенная поддержка вызова функций

Сравнение производительности Mixtral

Ниже представлен график производительности Mixtral 8x22B и Mixtral 8x7B. Он основан на моделях, предоставленных сообществом. Mixtral 8x22B — самая новая модель в семействе открытых моделей Mistral. Благодаря разреженным паттернам активации, она является гораздо более мощной альтернативой модели 70B и превосходит другие модели с открытыми весами. Доступность в качестве базовой модели делает её идеальной для тонкой настройки под различные сценарии использования.

Производительность Mixtral 8x22B и Mixtral 8x7B (MMLU)

В задачах рассуждения Mixtral 8x7B и Mixtral 8x22B также превосходят Llama 2 70B, текущую фундаментальную модель для расширения больших языковых моделей на широко распространённые, но недостаточно представленные в обучающих данных языки.

Сравнение Mixtral 8x7B и Mixtral 8x22B в здравом смысле и рассуждениях

Эти модели экспертов Mixtral демонстрируют отличные способности в кодировании и математике. Mixtral превосходит своего предшественника Llama 2 70B, используя всего 13 миллиардов активных параметров на токен, что является значительным сокращением с 70 миллиардов для экономии вычислительных затрат.

Производительность Mixtral 8x7B и Mixtral 8x22B в кодировании

Novita AI предоставляет обе эти модели. Подробную информацию можно найти в нашем LLM Model API.

Описание и цена модели Novita AI Mixtral 8x22B

Описание и цена модели Novita AI Mixtral 8x7B

Практические применения Mixtral

Техническое мастерство Mixtral выходит за рамки его возможностей. Способность генерировать человекоподобный текст делает его идеальным для программирования, перевода и создания контента. Будучи открытым проектом, Mixtral доступен для широкого круга отраслей. Разработчики могут адаптировать модель под конкретные требования, что способствует развитию новых методов и приложений.

Генерация контента

Одним из основных применений Mixtral of Experts и любой LLM является генерация текста на основе начальных подсказок. В основе этой функциональности лежит обширное обучение модели на разнообразных наборах данных, содержащих огромное количество текстов из различных областей. Благодаря этому обучению модель может освоить различные стили письма, темы и языковые структуры, что позволяет ей отлично создавать текст, соответствующий определённым требованиям к тону или содержанию.

Тестирование генерации контента с помощью Novita AI Mixtral 8x22B

Анализ эмоций

Анализ эмоций в Mistral, основанный на глубоком обучении, точно определяет положительные, отрицательные и нейтральные эмоции в тексте во время чата. Он использует обширное обучение на разнообразных наборах данных для определения эмоционального тона и различения эмоций в различных типах контента. Вы можете попросить Mistral проанализировать эмоции в конкретном тексте.

Тестирование анализа эмоций с помощью Novita AI Mixtral 8x22B

Пример кода для Mixtral 8x22B

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Get the Novita AI API Key by referring: /docs/get-started/quickstart.htmll#_3-create-an-api-key
    api_key="<YOUR Novita AI API Key>",
)

model = "cognitivecomputations/dolphin-mixtral-8x22b"
stream = True # or False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Act like you are a helpful assistant.",
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Перевод текста и многоязычные задачи

Mistral также демонстрирует отличные способности в решении многоязычных задач. Благодаря специальному обучению Mistral может понимать и генерировать текст на разных языках, особенно на французском, немецком, испанском и итальянском. Mistral особенно ценен для компаний и пользователей, которым необходимо общаться на нескольких языках.

Тестирование перевода текста и многоязычных возможностей Novita AI Mixtral 8x7B

Генерация кода

На основе введённых данных модель Mixtral of Experts отлично справляется с генерацией кода, преобразуя описания высокого уровня в эффективный код на нескольких языках программирования. Она использует обучение на репозиториях кода, технической документации и форумах разработчиков, чтобы соответствовать требованиям и обеспечивать функциональность и оптимизацию.

Тестирование генерации кода с помощью Novita AI Mixtral 8x7B

Пример кода для Mixtral 8x7B

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Get the Novita AI API Key by referring: /docs/get-started/quickstart.htmll#_3-create-an-api-key
    api_key="<YOUR Novita AI API Key>",
)

model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # or False
max_tokens = 512

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Act like you are a helpful assistant.",
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

Руководство разработчика по использованию Mixtral: LLM API

Добавление модели Mixtral в приложения — это захватывающая возможность для разработчиков. Она имеет открытый исходный код и может быть адаптирована под конкретные нужды. Для эффективного использования Mixtral разработчики должны понимать её функциональность и API. Мы рекомендуем Novita AI для экономичной интеграции LLM API, так как эта AI API платформа оснащена популярными моделями и доступными LLM-решениями.

Начало работы с API Novita AI

  • Шаг 1: Перейдите на сайт Novita AI и создайте аккаунт. Вы можете войти через Google или GitHub. Первый вход создаст новую учётную запись. Также можно зарегистрироваться, используя адрес электронной почты.

Сайт Novita AI, вход для регистрации

  • Шаг 2: Управление API-ключом. Novita AI аутентифицирует API-доступ с помощью Bearer-аутентификации, используя API-ключ в заголовке запроса. Перейдите в раздел “Key Management” для управления ключами. После первого входа автоматически создаётся ключ по умолчанию. Вы также можете нажать “+ Add new key”.

Управление ключами Novita AI, API-ключ

  • Шаг 3: Выполните API-запрос. Перейдите в Model API Reference и введите ваш API-ключ, чтобы продолжить.

Справочник LLM API Novita AI для разработчиков, примеры, образец кода

Вот пример с использованием Python-клиента с Chat Completions API Novita AI.

pip install 'openai>=1.0.0'
from openai import OpenAIclient = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    # Get the Novita AI API Key by referring: https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key.
    api_key="<YOUR Novita AI API Key>",
)model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # or False
max_tokens = 512chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": "Act like you are a helpful assistant.",
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
 )if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  • Шаг 4: Пополните баланс. Как упоминалось на первом шаге, у вас есть ваучер с кредитами для тестирования продуктов, но он ограничен. Чтобы добавить больше средств, перейдите в раздел Billing and Payments и следуйте руководству по Payment Methods.

Заключение

В заключение, Mixtral of Experts с архитектурой MoE в своей основе — это новая технология, которая сочетает интеллектуальные возможности ИИ с реальным применением в разных отраслях. Она работает лучше в конкретных задачах, таких как генерация кода, историй и перевод. Это делает её особенным инструментом в современном цифровом мире машинного обучения. Компании могут использовать всю её мощь, интегрируя Mixtral с текущими системами и следуя лучшим практикам, что поможет им быть более креативными и опережать конкурентов. Примите силу Mixtral, чтобы добиться успеха в быстро меняющемся мире ИИ.

Часто задаваемые вопросы

В чем разница между Mistral и Mixtral?

Mixtral с архитектурой разреженного смешения экспертов обладает расширенными возможностями по сравнению с Mistral. Она превосходно справляется со сложными языковыми задачами с высокой скоростью и эффективностью, требуя меньше вычислительной мощности.

На каких данных обучена Mixtral?

Mixtral прошла обучение с большим контекстным окном в 32 000 токенов и демонстрирует производительность, сравнимую с Llama 2 70B и GPT-3.5, на различных тестах.

Нужен ли для Mixtral GPU?

Для выполнения инференса с Mixtral 8X22B необходим GPU с минимум 300 ГБ памяти. Для Mixtral 8x7B обычно требуется около 94 ГБ видеопамяти в соответствии со стандартными рекомендациями.

Можно ли использовать Mixtral в коммерческих целях?

Обе модели, Mixtral 8x7B и Mixtral 8x7B — Instruct, доступны по лицензии Apache 2.0, что позволяет использовать их как в академических, так и в коммерческих целях.

Novita AI — это универсальная облачная платформа, которая помогает воплотить ваши AI-амбиции. Интегрированные API, бессерверные вычисления, GPU Instance — нужные вам экономичные инструменты. Избавьтесь от инфраструктуры, начните бесплатно и воплотите своё AI-видение в реальность.

Рекомендуемое чтение

  1. Представляем Mixtral-8x22B: новейшая и крупнейшая модель смешения экспертов

  2. Секреты Mixtral 8x22b раскрыты: полное руководство

  3. Представляем модель Mixtral 8x7B от Mistral: всё, что нужно знать