MiniMax Speech 2.8 シリーズが Novita AI に登場:感情トーンタグで表現力豊かな TTS をあらゆる音声アプリケーションに

MiniMax Speech 2.8 シリーズが Novita AI に登場:感情トーンタグで表現力豊かな TTS をあらゆる音声アプリケーションに

MiniMax Speech 2.8 シリーズは、MiniMax のトップクラスのテキスト読み上げラインアップにおける最新アップグレードであり、感情トーンタグを導入しています。(laughs)(sighs)(gasps) といったインラインマーカーにより、AI 生成音声が本当の人間のように聞こえます。Novita AI では 4 つのバリエーション(HD Sync、HD Async、Turbo Sync、Turbo Async)で提供される 2.8 シリーズは、前世代と同じ価格を維持しながら、このティアでは競合他社が提供していない機能セットを追加しています。ボイスエージェント、オーディオブック、またはあらゆる音声コンテンツパイプラインを構築しているなら、今すぐ評価すべき TTS モデルシリーズです。

MiniMax Speech 2.8 シリーズとは?

MiniMax は、Artificial Analysis Speech ArenaHugging Face TTS Arena で常にトップポジションを維持しており、ブラインド評価では OpenAI などの業界大手を凌駕しています。

Speech 2.8 シリーズは、その系譜の最新進化形です。MiniMax の自己回帰型 Transformer アーキテクチャと Flow-VAE デコーダーを基盤としており、従来のメルスペクトログラムボコーダーに頼らず、学習された潜在空間で音声を生成します。その結果、適切なイントネーション、呼吸、感情のニュアンスを備えた、驚くほど自然な音声が得られます。

2.8 シリーズの目玉機能:感情トーンタグ。テキスト入力に自然な間投詞を直接埋め込むことができ、モデルはそれらを音声の流れの中で本物の人間の音としてレンダリングします。

Novita AI は現在、フルスペックの Speech 2.8 シリーズをホストしており、開発者はコールドスタートなしで即座に API アクセスできます。

主な機能と新機能

感情トーンタグ

最も際立った追加機能です。テキストの任意の場所に括弧付きのタグを挿入すると、モデルが生成音声にシームレスに織り込みます:

タグ 効果
(laughs) 笑い声 「That’s hilarious (laughs)
(chuckle) 軽い笑い 「Good one (chuckle)
(sighs) ため息 「Oh well (sighs), here we go」
(gasps) 驚きの息遣い 「Wait (gasps)! Really?」
(clears throat) 咳払い (clears throat) Let’s begin」
(coughs) 「Excuse me (coughs)
(sneezes) くしゃみ 「Achoo (sneezes)! Sorry」

これは単なる目新しさではなく、実際の問題を解決します。これまで TTS 出力を自然に見せるには、ポストプロダクション編集や手動での効果音レイヤリングが必要でした。トーンタグを使えば、表現力が生成パイプラインに直接組み込まれます。

連続サウンドモード

新しい continuous_sound パラメータにより、節間の遷移が滑らかになり、合成音声が継ぎ接ぎに聞こえる原因となる微妙な音声の「継ぎ目」が排除されます。これは長いパッセージで特に顕著です。

MiniMax Speech シリーズから継承

Speech 2.8 シリーズは、前世代の全機能セットを保持しています:

  • 40以上の言語language_boost によるマイナー言語・方言認識の強化
  • 9種類の感情プリセット: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper
  • 音声クローン: システム音声、クローン音声、テキスト生成音声の使用
  • 音声ミキシング: timber_weights による重み付き比率で最大4つの音声をブレンド
  • 音声変更: ピッチ、音色、強度を独立して調整(範囲 -100 から 100)
  • サウンドエフェクト: 広がりのあるエコー、講堂エコー、電話ひずみ、ロボット
  • 音声出力形式: MP3、PCM、FLAC、WAV
  • サンプルレート: 8,000 ~ 44,100 Hz
  • 発音辞書: ブランド名、頭字語、専門用語のカスタムルール
  • ストリーミング出力: リアルタイムアプリケーション向け
  • テキスト制限: リクエストあたり最大10,000文字(同期)、最大1,000,000文字(非同期)

モデルバリアント:HD vs Turbo、Sync vs Async

Novita AI では、Speech 2.8 シリーズに4つのエンドポイントを提供しています:

バリアント エンドポイント 最適用途
Speech 2.8 HD Sync POST /v3/minimax-speech-2.8-hd 高品質、リアルタイム — オーディオブック、プロフェッショナルなナレーション
Speech 2.8 HD Async POST /v3/async/minimax-speech-2.8-hd 高品質、長文 — 大量オーディオブック制作、バッチ処理
Speech 2.8 Turbo Sync POST /v3/minimax-speech-2.8-turbo 低レイテンシ、リアルタイム — ボイスエージェント、チャットボット、ライブカスタマーサポート
Speech 2.8 Turbo Async POST /v3/async/minimax-speech-2.8-turbo 高速処理、長文 — 大量コンテンツ生成、大規模吹き替え

HD vs Turbo: HD はスタジオグレードのオーディオ忠実度を提供 — より豊かな音色の細部、よりニュアンスのある感情レンダリング。Turbo は若干忠実度を落として速度を最適化し、リアルタイム対話シナリオに最適です。

Sync vs Async: Sync は API レスポンスでオーディオを返します(最大10,000文字)。Async は最大1,000,000文字を受け付け、task_id を返してポーリングします — オーディオブックやバッチワークフローに最適です。

Speech 2.6 との比較

機能 Speech 2.6 Speech 2.8
音声品質 優秀 優秀
感情トーンタグ ✅ (laughs, sighs, gasps など)
連続サウンドモード
40以上の言語
音声クローン
音声ミキシング(最大4)
感情プリセット(9種類)

アップグレードの道筋は明確です:Speech 2.8 シリーズは、Speech 2.6 のすべてに加えて、感情トーンタグと連続サウンドモードを同じ価格で提供します。移行しない理由はありません。

Novita AI での料金

Novita AI 上の MiniMax Speech 2.8 シリーズは、2.6 シリーズと同じ料金体系に従います:

モデル 料金
Speech 2.8 Turbo(Sync & Async) 100万文字あたり $60
Speech 2.8 HD(Sync & Async) 100万文字あたり $100

最新の料金詳細は、Novita AI 料金コンソール をご覧ください。

MiniMax Speech 2.8 シリーズをお試しになりたいですか? Novita AI にサインアップ して、無料クレジットを入手すれば、数分で表現豊かで人間らしい音声を生成できます。インフラストラクチャのセットアップは不要です。

アカウントを作成する

各バリアントの活用シーン

あなたのプロジェクトに合ったバリアントを選ぶと想像してみてください。実際のユースケースに基づいた簡単なガイドです:

🎙️ 「ポッドキャストやオーディオブックプラットフォームを構築しています」

→ Speech 2.8 HD Async

最高のオーディオ忠実度が必要で、コンテンツは長文形式です。非同期エンドポイントはリクエストあたり最大100万文字を処理 — 章全体を送信し、準備ができたときに音声を取得します。トーンタグと感情プリセットを組み合わせてキャラクターに命を吹き込みましょう:プロットのひねりに (sighs) するナレーターや、ジョークに (laughs) するナレーターは、リスニング体験を劇的に魅力的にします。

🤖 「リアルタイムのボイスエージェントやチャットボットを構築しています」

→ Speech 2.8 Turbo Sync

レイテンシがすべてです。Turbo Sync はリアルタイム応答向けに設計されており、会話を自然に保ちます。エージェントがジョークを言うときに (chuckle) を追加したり、重要な情報を伝える前に (clears throat) を追加したり — AI インタラクションをよりロボット的に感じさせない小さなタッチです。

🎮 「ゲーム NPC やインタラクティブアプリに音声を追加しています」

→ Speech 2.8 HD Sync

ゲームキャラクターには表現力豊かで高品質な音声が必要です。HD Sync はリアルタイムでスタジオグレードの音声を提供します。音声ミキシングを使用してユニークなキャラクター音色を作成し、劇的な瞬間にトーンタグを散りばめましょう — 不気味に (laughs) する悪役、発見に (gasps) する仲間。

📹 「動画ナレーションを大量に制作しています」

→ Speech 2.8 Turbo Async

予算を抑えつつ高速なバッチ処理が必要です。Turbo Async は大量の動画コンテンツ(解説、ソーシャルメディアクリップ、トレーニング教材)向けに速度と品質のバランスを取ります。スクリプトをまとめて送信し、完成した音声ファイルを取得します。

Novita AI での開始方法

ステップ 1: プレイグラウンドで試す

コードを書く前に、Novita AI プレイグラウンドで MiniMax Speech 2.8 シリーズを直接試してみましょう:

Novita プレイグラウンド

ステップ 2: API キーを取得する

  1. Novita AI アカウントにサインアップ(無料ティアあり)
  2. ダッシュボードの「API Keys」セクションに移動
  3. 新しいキーを生成して保存

APIキーの取得方法

ステップ 3: 初めての API 呼び出しを行う

MiniMax Speech 2.8 は2つの呼び出しモードをサポートしています:

モード 最適用途 レスポンスタイプ
Sync リアルタイム対話、即時応答 オーディオを即座に返却
Async オーディオブック、長文コンテンツ、バッチ処理 タスクID → ポーリングで結果取得

オプション A: Sync 呼び出し(即時オーディオ)

短いテキストで即座に結果が必要な場合に使用します。

cURL 例:

curl --request POST \
  --url https://api.novita.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Python 例:
import requests

url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "stream": True,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "force_cbr": True,
        "sample_rate": 123
    },
    "output_format": "<string>",
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "stream_options": { "exclude_aggregated_audio": True },
    "timber_weights": [
        {
            "weight": 123,
            "voice_id": "<string>"
        }
    ],
    "subtitle_enable": True,
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

オプション B: Async 呼び出し(長文向け)

長文テキストや複数のリクエストをバッチ処理する場合に使用します。

1. タスクの送信
  • cURL
curl --request POST \
  --url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Python
import requests

url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)
2. 完了をポーリング
  • cURL
 curl --request GET \
  --url https://api.novita.ai/v3/async/task-result \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>'
  • Python
import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

ステップ 4: 高度な機能を試す

基本が動いたら、次の機能を試してみてください:

  • 音声ミキシング: timber_weights を使用して最大4つの音声をブレンドし、ユニークな音色を実現
  • サウンドエフェクト: voice_modify.sound_effectsspacious_echorobotic フィルターを追加
  • 発音辞書: ブランド名や頭字語のカスタム発音ルールを定義
  • ストリーミングモード: インタラクティブアプリでリアルタイムオーディオ配信のために "stream": true を設定
  • 音声変更: voice_modifypitchtimbreintensity を微調整(各 -100 から 100)

結論

MiniMax Speech 2.8 シリーズは、すでにトップクラスの TTS モデルファミリーに有意義なアップグレードをもたらします。感情トーンタグと連続サウンドモードの追加は、AI 音声合成における2つの最も一般的な痛点、つまり音声を自然に聞こえるようにすることと、節間の不自然な遷移を排除することを解決します。

Novita AI では HD と Turbo、それぞれ Sync と Async の4つのバリアントが利用可能で、このシリーズはリアルタイムのボイスエージェントから大規模なオーディオブック制作まで、あらゆるユースケースをカバーします。価格は 2.6 シリーズと変わらないため、同じコストでより多くの機能を得られます。

現在 Speech 2.6 を使用している場合や TTS オプションを評価している場合、Speech 2.8 シリーズは明白なアップグレードです。Novita AI プレイグラウンドでお試しください、またはAPI を使い始めるを今すぐどうぞ。

Novita AI は、開発者がシンプルな API を使用して AI モデルを簡単にデプロイできる AI クラウドプラットフォームです。また、手頃で信頼性の高い GPU クラウドを提供し、構築とスケーリングを支援します。

よくある質問

HD と Turbo、どちらのバリアントを選ぶべきですか?

音声品質が最優先の場合は HD を選択 — オーディオブック、プロフェッショナルなナレーション、プレミアムコンテンツ。
レイテンシが重要な場合は Turbo を選択 — ボイスエージェント、チャットボット、リアルタイムインタラクティブアプリケーション。どちらもトーンタグを含む全機能セットをサポートします。

Sync と Async はいつ使うべきですか?

リアルタイムで短~中程度のテキスト(最大10,000文字)の場合は Sync を使用。
長文コンテンツ(最大1,000,000文字)やバッチ処理ワークフローの場合は Async を使用。

Novita AI にはテスト用の無料ティアがありますか?

はい。Novita AI アカウントにサインアップすると、無料クレジットが提供され、プレイグラウンドや API 経由で Speech 2.8 シリーズや他のモデルをテストするために使用できます。