Novita AI 上的 MiniMax Speech 02:模型、功能與快速入門指南

Novita AI 上的 MiniMax Speech 02:模型、功能與快速入門指南

Novita AI 在 MiniMax Speech 02 系列中提供了四種不同的模型。每種模型都針對不同場景設計,無論您需要錄音室品質的旁白還是快速互動語音。

在接下來的章節中,我們將更詳細地探討這些模型之間的差異,幫助您為特定的使用案例選擇最佳選項。

Minimax Speech 02 演算法

‘02’ 指的是什麼?

術語 含義
02 指 MiniMax Speech 模型系列的第二代。
TTS 文字轉語音(Text-to-Speech):將書面文字轉換為口語音訊的技術。
Async 非同步(Asynchronous):語音在背景生成並在準備好後傳送,適用於長文本。
HD 高解析度/高保真(High Definition/High Fidelity):專注於產生非常逼真且高品質的音訊。
Turbo Turbo(低延遲):優先考慮速度和快速響應,非常適合即時互動。

Minimax Speech 02 模型比較

模型/API 名稱 適用場景 優勢 支援的文字長度
speech‑02‑hd 文字轉語音 短文本、即時對話 極高的音訊品質與自然度 最多約 5,000 個字元
speech‑02‑hd 非同步長篇 TTS 有聲書、長篇內容 支援長文本且保持相同音訊品質 最多數十萬至數百萬字元,以佇列處理
speech‑02‑turbo 文字轉語音 即時語音互動 快速響應、低延遲 最多約 5,000 個字元
speech‑02‑turbo 非同步長篇 TTS 即時互動中的長文本 平衡速度與可擴展性 也支援長文本,處理速度比同步模式更快

Minimax Speech 02 自訂選項

  • 廣泛的語音庫:
    存取超過 300 種真實自然的語音庫,支援粵語、中文、日文、韓文等許多主要語言的逼真表達。
  • 進階語音控制:
    輕鬆調整每種語音的情感、音量、語速和輸出格式,完美符合您的需求。
  • 創新的語音混合:
    結合多種現有語音,創造全新且獨特的聲音設定檔。
  • 多種音訊格式:
    以多種格式輸出音訊,包括 FLAC、WAV、MP3 和 PCM,以獲得最大相容性。
  • 即時串流:
    享受即時音訊傳送,無縫整合至您的應用程式。
  • 高並發支援:
    強大的基礎架構確保即使在高負載和高請求量的情況下也能可靠運作。

Minimax 如何改善語音合成?

Minimax 如何改善語音合成?

創新驅動,MiniMax 排名第一

minimax speech02 排名第一

Artificial Analysis Arena

適用於即時或強健語音辨識的 MiniMax Speech 02

情境類型 核心目標 關鍵模型能力 Speech‑02 適應方法
即時語音合成 快速響應與串流播放 超低延遲、即時輸出、自然音色與語調、多語言支援 Speech‑02‑Turbo 即時產生音訊,支援最多約 5,000 字元的串流輸出,延遲極低,適合對話式應用
強健語音辨識(用於 ASR) 合成的語音必須清晰、可辨認且高品質 卓越的語音清晰度、準確的發音且錯誤率低、良好的節奏與語調 Speech‑02‑HD 用於產生高保真語音,具有低詞錯誤率、高說話者相似度以及出色的音訊品質

如何存取 MiniMax Speech 02?

步驟 1:登入並存取模型庫

登入您的帳戶,然後點擊 Model Library 按鈕。

登入並存取模型庫

步驟 2:選擇您的模型

瀏覽可用選項,選擇適合您需求的模型。

步驟 2:選擇您的模型

立即試用 MiniMax Speech 02!

步驟 3:開始免費試用

開始免費試用,探索所選模型的功能。

步驟 3:開始免費試用

點擊 “Try it” 查看每個欄位的含義,並選擇數值以自訂您的 API 設定。

點擊 "Try it" 查看每個欄位的含義,並選擇數值以自訂您的 API 設定。

步驟 4:取得您的 API 金鑰

為了驗證 API,我們將提供您一組新的 API 金鑰。進入「Settings」頁面,您可以按照圖片所示複製 API 金鑰。

取得 API 金鑰

步驟 5:安裝 API

安裝完成後,將必要的程式庫匯入您的開發環境。使用您的 API 金鑰初始化 API,開始與 Novita AI LLM 互動。以下是針對 Python 使用者 的使用聊天完成 API 的範例。

import requests

url = "https://api.novita.ai/v3/minimax-speech-02-hd"

payload = {
    "text": "<string>",
    "voice_setting": {
        "speed": 123,
        "vol": 123,
        "pitch": 123,
        "voice_id": "<string>",
        "emotion": "<string>",
        "english_normalization": True
    },
    "audio_setting": {
        "sample_rate": 123,
        "bitrate": 123,
        "format": "<string>",
        "channel": 123
    },
    "pronunciation_dict": { "tone": [{}] },
    "timber_weights": [
        {
            "voice_id": "<string>",
            "weight": 123
        }
    ],
    "stream": True,
    "language_boost": "<string>",
    "output_format": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

步驟 6:切換至其他模型

您可以點擊左上角的側邊欄來選擇不同的音訊模型。Novita AI 也提供語音複製功能。

您可以點擊左上角的側邊欄來選擇不同的音訊模型。Novita AI 也提供語音複製功能。

MiniMax Speech 02 作為頂尖的文字轉語音解決方案脫穎而出,同時提供高保真與低延遲的音訊生成。憑藉廣泛的語音選項、進階控制以及對即時與大規模應用的強大支援,MiniMax Speech 02 適用於多種語音合成場景。其創新功能與簡易自訂性,使其在語音 AI 模型中獲得第一名的佳績。

常見問題

MiniMax Speech 02 中的 “02” 是什麼意思?

「02」指 MiniMax Speech 模型系列的第二代,代表品質與速度的顯著提升。

MiniMax Speech 02 可以處理長文本嗎?

可以。非同步模型(HD Async 和 Turbo Async)專為處理長篇內容(如有聲書)而設計,支援多達數百萬字元。

它支援即時串流嗎?

是的。MiniMax Speech 02 的 Turbo 模式提供超低延遲的即時串流,非常適合互動式或對話式應用。

Novita AI 是一站式雲端平台,助您實現 AI 抱負。整合 API、無伺服器、GPU 實例——您所需的經濟高效工具。消除基礎設施負擔,免費開始,讓您的 AI 願景成真。

推薦閱讀