Серия MiniMax Speech 2.8 на Novita AI: выразительный TTS с тегами эмоциональной интонации для любых голосовых приложений

Серия MiniMax Speech 2.8 на Novita AI: выразительный TTS с тегами эмоциональной интонации для любых голосовых приложений

Серия MiniMax Speech 2.8 — это последнее обновление ведущей линейки синтеза речи от MiniMax, в котором представлены теги эмоциональной интонации — встроенные маркеры вроде (laughs), (sighs) и (gasps), которые делают речь, сгенерированную ИИ, по-настоящему человеческой. На Novita AI доступны четыре варианта серии 2.8 (HD Sync, HD Async, Turbo Sync, Turbo Async): она сохраняет ценообразование предшественницы, но получает набор функций, которые конкуренты просто не предлагают на этом уровне. Если вы разрабатываете голосовых агентов, аудиокниги или любой конвейер аудиоконтента, это именно та серия моделей TTS, которую стоит оценить прямо сейчас.

Что такое серия MiniMax Speech 2.8?

MiniMax стабильно занимает верхние позиции в Artificial Analysis Speech Arena и Hugging Face TTS Arena, обгоняя таких отраслевых гигантов, как OpenAI, в слепых тестированиях.

Серия Speech 2.8 — это последнее развитие этой линейки. Она построена на авторегрессионной архитектуре Transformer от MiniMax с декодером Flow-VAE и генерирует речь в обученном латентном пространстве, вместо того чтобы полагаться на традиционные вокодеры мел-спектрограмм — в результате получается аудио, которое звучит удивительно естественно, с правильной интонацией, паузами на вдохе и эмоциональными нюансами.

Главная особенность серии 2.8: теги эмоциональной интонации. Впервые вы можете встраивать естественные восклицания прямо в ваш текстовый ввод, и модель отображает их как аутентичные человеческие звуки в потоке речи.

Теперь Novita AI размещает полную серию Speech 2.8, предоставляя разработчикам мгновенный доступ по API без холодных стартов.

Ключевые особенности и нововведения

Теги эмоциональной интонации

Главное нововведение. Вставляйте теги в скобках в любое место вашего текста, и модель бесшовно вплетает их в сгенерированную речь:

Тег Эффект Пример
(laughs) Смех “Это очень смешно (laughs)
(chuckle) Лёгкий смех “Хорошая шутка (chuckle)
(sighs) Вздох “Ну что ж (sighs), поехали”
(gasps) Вздох удивления “Стой (gasps)! Серьёзно?”
(clears throat) Очистка горла (clears throat) Начнём”
(coughs) Кашель “Простите (coughs)
(sneezes) Чихание “Апчхи (sneezes)! Извините”

Это не просто новинка — это решение реальной проблемы. Раньше для того, чтобы вывод TTS звучал спонтанно, требовалась постобработка или ручное наложение звуковых эффектов. С тегами интонации выразительность уже заложена прямо в конвейер генерации.

Режим непрерывного звука

Новый параметр continuous_sound сглаживает переходы между предложениями, устраняя тонкие аудио«швы», из-за которых синтезированная речь может казаться склеенной. Это особенно заметно в длинных отрывках.

Унаследовано от серии MiniMax Speech

Серия Speech 2.8 сохраняет полный набор функций предшественниц:

  • 40+ языков с параметром language_boost для улучшенного распознавания малораспространённых языков и диалектов
  • 9 пресетов эмоций: счастливый, грустный, злой, испуганный, отвращение, удивление, спокойный, плавный, шёпот
  • Клонирование голоса: используйте системные голоса, клонированные голоса или голоса, сгенерированные из текста
  • Смешение голосов: совмещайте до 4 голосов с заданными весами через параметр timber_weights
  • Модификация голоса: независимо регулируйте высоту тона, тембр и интенсивность (диапазон от -100 до 100)
  • Звуковые эффекты: просторное эхо, эхо зала, телефонное искажение, роботизированный звук
  • Форматы аудиовыхода: MP3, PCM, FLAC, WAV
  • Частоты дискретизации: от 8000 до 44100 Гц
  • Словарь произношения: пользовательские правила для названий брендов, аббревиатур и специализированных терминов
  • Потоковый вывод: для приложений реального времени
  • Лимит текста: до 10 000 символов на запрос (синхронный режим), до 1 000 000 символов (асинхронный режим)

Варианты моделей: HD против Turbo, синхронный против асинхронного

Novita AI предлагает четыре конечные точки в серии Speech 2.8:

Вариант Конечная точка Для чего подходит
Speech 2.8 HD Sync POST``/v3/minimax-speech-2.8-hd Премиум качество, реальное время — аудиокниги, профессиональное озвучивание
Speech 2.8 HD Async POST /v3/async/minimax-speech-2.8-hd Премиум качество, длинный контент — массовое производство аудиокниг, пакетная обработка
Speech 2.8 Turbo Sync POST /v3/minimax-speech-2.8-turbo Низкая задержка, реальное время — голосовые агенты, чат-боты, live-поддержка клиентов
Speech 2.8 Turbo Async POST /v3/async/minimax-speech-2.8-turbo Быстрая обработка, длинный контент — массовая генерация контента, крупномасштабное дублирование

HD против Turbo: HD обеспечивает студийное качество аудио — более богатые детали тона, более тонкая передача эмоций. Turbo оптимизирован для скорости с немного более низким качеством, что делает его идеальным для сценариев реального времени с интерактивностью.

Синхронный против асинхронного: Синхронный режим возвращает аудио в ответе API (до 10 000 символов). Асинхронный принимает до 1 000 000 символов и возвращает task_id для опроса — идеально подходит для аудиокниг и пакетных рабочих процессов.

Сравнение с серией Speech 2.6

Функция Speech 2.6 Speech 2.8
Качество аудио Отличное Отличное
Теги эмоциональной интонации ✅ (laughs, sighs, gasps и т.д.)
Режим непрерывного звука
40+ языков
Клонирование голоса
Смешение голосов (до 4)
Пресеты эмоций (9 типов)

Путь обновления очевиден: серия Speech 2.8 предоставляет все возможности Speech 2.6, а также теги эмоциональной интонации и режим непрерывного звука за ту же цену. Нет причин не переходить на неё.

Ценообразование на Novita AI

Ценообразование серии MiniMax Speech 2.8 на Novita AI соответствует структуре цен серии 2.6:

Модель Цена
Speech 2.8 Turbo (синхронный и асинхронный) $60 за 1 млн символов
Speech 2.8 HD (синхронный и асинхронный) $100 за 1 млн символов

Для актуальных данных по ценам посетите консоль ценообразования Novita AI.

Готовы попробовать серию MiniMax Speech 2.8? Зарегистрируйтесь в Novita AI и получите бесплатные кредиты, чтобы начать генерировать выразительную, похожую на человеческую речь за несколько минут. Не требуется настройка инфраструктуры.

Создайте аккаунт

Кто какой вариант должен использовать

Представьте, что вы выбираете вариант, подходящий для вашего проекта. Вот краткое руководство на основе реальных кейсов:

🎙️ «Я разрабатываю платформу для подкастов или аудиокниг»

→ Speech 2.8 HD Async

Вам нужно максимальное качество аудио, а ваш контент длинный. Асинхронная конечная точка обрабатывает до 1 млн символов на запрос — отправьте целую главу и получите аудио, когда оно будет готово. Сочетайте теги интонации с пресетами эмоций, чтобы оживить персонажей: диктор, который (sighs) при неожиданном повороте сюжета или (laughs) над шуткой, делает процесс прослушивания значительно более увлекательным.

🤖 «Я разрабатываю голосового агента или чат-бота реального времени»

→ Speech 2.8 Turbo Sync

Задержка — это всё. Turbo Sync разработан для ответов в реальном времени, сохраняя естественность разговоров. Добавьте (chuckle), когда ваш агент рассказывает шутку, или (clears throat) перед передачей важной информации — небольшие детали, которые делают взаимодействие с ИИ менее роботизированным.

🎮 «Я добавляю голос игровым NPC или интерактивным приложениям»

→ Speech 2.8 HD Sync

Игровым персонажам нужны выразительные, высококачественные голоса. HD Sync предоставляет аудио студийного качества в реальном времени. Используйте смешение голосов для создания уникальных тембров персонажей, и добавляйте теги интонации для драматических моментов — злодей, который зловеще (laughs), или спутник, который (gasps) от открытий.

📹 «Я занимаюсь массовым производством озвучки для видео»

→ Speech 2.8 Turbo Async

Вам нужна быстрая пакетная обработка без лишних расходов. Turbo Async балансирует между скоростью и качеством для большого объёма видеоконтента — обучающих роликов, клипов для социальных сетей, учебных материалов. Отправляйте сценарии пачками и получайте готовые отполированные аудиофайлы.

Как начать работу на Novita AI

Шаг 1: Попробуйте в Playground

Прежде чем написать хотя бы одну строку кода, изучите серию MiniMax Speech 2.8 прямо в Playground Novita AI:

Playground Novita AI

Шаг 2: Получите ваш API-ключ

  1. Зарегистрируйте аккаунт Novita AI (доступен бесплатный тариф)
  2. Перейдите в раздел API-ключей в вашей панели управления
  3. Сгенерируйте новый ключ и сохраните его

Как получить API-ключ

Шаг 3: Сделайте первый вызов API

MiniMax Speech 2.8 поддерживает два режима вызова:

Режим Для чего подходит Тип ответа
Синхронный Диалог в реальном времени, мгновенные ответы Аудио возвращается сразу
Асинхронный Аудиокниги, длинный контент, пакетная обработка ID задачи → опрос для получения результата

Вариант А: Синхронный вызов (мгновенное аудио)

Используйте его для короткого текста, когда вам нужны мгновенные результаты.

Пример для cURL:

curl --request POST \
  --url https://api.novita.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Пример на Python:
import requests

url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "stream": True,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "force_cbr": True,
        "sample_rate": 123
    },
    "output_format": "<string>",
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "stream_options": { "exclude_aggregated_audio": True },
    "timber_weights": [
        {
            "weight": 123,
            "voice_id": "<string>"
        }
    ],
    "subtitle_enable": True,
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

Вариант Б: Асинхронный вызов (для длинного текста)

Используйте его для длинного текста или когда вы хотите отправить несколько запросов пакетом.

1. Отправка задачи
  • cURL
curl --request POST \
  --url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Python
import requests

url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)
2. Опрос готовности
  • cURL
 curl --request GET \
  --url https://api.novita.ai/v3/async/task-result \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>'
  • Python
import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

Шаг 4: Изучите продвинутые возможности

Как только у вас получится запустить базовый пример, попробуйте следующее:

  • Смешение голосов: совмещайте до 4 голосов для уникального тембра с помощью параметра timber_weights
  • Звуковые эффекты: добавьте фильтр spacious_echo или robotic через параметр voice_modify.sound_effects
  • Словарь произношения: задайте пользовательские правила произношения для названий брендов и аббревиатур
  • Режим потоковой передачи: установите "stream": true для доставки аудио в реальном времени в интерактивных приложениях
  • Модификация голоса: точно настройте pitch, timbre и intensity в параметре voice_modify (диапазон от -100 до 100 для каждого параметра)

Заключение

Серия MiniMax Speech 2.8 представляет собой значительное обновление уже топовой линейки моделей TTS. Добавление тегов эмоциональной интонации и режима непрерывного звука решает две самые распространённые проблемы синтеза речи с помощью ИИ: сделать речь спонтанной и устранить неестественные переходы между предложениями.

Благодаря четырём вариантам на Novita AI — HD и Turbo, каждый в синхронном и асинхронном режиме — серия покрывает все варианты использования: от голосовых агентов реального времени до крупномасштабного производства аудиокниг. Ценообразование остаётся таким же, как у серии 2.6, так что вы получаете однозначно больше возможностей за ту же стоимость.

Если вы сейчас используете Speech 2.6 или оцениваете варианты TTS, серия Speech 2.8 является простым и очевидным обновлением. Попробуйте её в Playground Novita AI или начните работу с API уже сегодня.

Novita AI — это облачная ИИ-платформа, которая предоставляет разработчикам простой способ развёртывания ИИ-моделей через наш простой API, а также доступное и надёжное облако GPU для построения и масштабирования решений.

Часто задаваемые вопросы

Какой вариант выбрать: HD или Turbo?

Выбирайте HD, если приоритетом является качество аудио — аудиокниги, профессиональное озвучивание, премиум-контент.
Выбирайте Turbo, если важна задержка — голосовые агенты, чат-боты, интерактивные приложения реального времени. Оба варианта поддерживают полный набор функций, включая теги интонации.

Когда использовать синхронный, а когда асинхронный режим?

Используйте синхронный режим для текста реального времени, от короткого до среднего объёма (до 10 000 символов).
Используйте асинхронный режим для длинного контента (до 1 000 000 символов) или рабочих процессов пакетной обработки.

Предлагает ли Novita AI бесплатный тариф для тестирования?

Да. Зарегистрируйте аккаунт Novita AI, чтобы получить бесплатные кредиты, которые вы можете использовать для тестирования серии Speech 2.8 и других моделей в Playground или через API.