MiniMax Speech 02 | Novita AI:模型、功能与快速入门指南

MiniMax Speech 02 | Novita AI:模型、功能与快速入门指南

Novita AI 在 MiniMax Speech 02 系列中提供了四种不同的模型。每种模型针对不同场景进行设计,无论是需要录音室级别的旁白,还是快速交互式语音。

在接下来的部分中,我们将更详细地探讨这些模型之间的差异,帮助您为特定用例选择最佳选项。

MiniMax Speech 02 算法

“02”指的是什么?

术语 含义
02 指 MiniMax Speech 模型的第二代。
TTS 文本转语音:将书面文字转换为口头音频的技术。
异步 异步:语音在后台生成,并在准备好后交付,适用于长文本。
HD 高清/高保真:专注于生成非常逼真且高质量的音频。
Turbo 涡轮(低延迟):优先考虑速度和快速响应,适用于实时交互。

MiniMax Speech 02 模型对比

模型/API 名称 适用场景 优势 支持文本长度
speech‑02‑hd 文本转语音 短文本、实时对话 极高的音频质量和自然度 最多约 5,000 字符
speech‑02‑hd 异步长文本 TTS 有声书、长内容 支持长文本,音频质量相同 最多数十万至数百万字符,排队处理
speech‑02‑turbo 文本转语音 实时语音交互 响应快速、低延迟 最多约 5,000 字符
speech‑02‑turbo 异步长文本 TTS 实时交互中的长文本 平衡速度与可扩展性 支持长文本,处理速度快于同步模式

MiniMax Speech 02 自定义选项

  • 丰富的语音库:
    提供超过 300 种真实自然的声音,支持粤语、普通话、日语、韩语及多种主要语言的逼真输出。
  • 高级语音控制:
    可轻松调节每种语音的情感、音量、语速和输出格式,完美满足您的需求。
  • 创新语音混合:
    将多个现有声音组合,创建全新且独特的声音档案。
  • 多种音频格式:
    输出包括 FLAC、WAV、MP3 和 PCM 在内的多种音频格式,兼容性极佳。
  • 实时流式传输:
    享受无缝实时流式传输的即时音频交付,确保顺利集成到您的应用中。
  • 高并发支持:
    强大的基础设施即使在高负载和高请求量下也能保证可靠的性能。

MiniMax 如何改进语音合成?

MiniMax 如何改进语音合成?

创新驱动,MiniMax 排名第一

minimax speech02 排名第一

来自 Artificial Analysis Arena

MiniMax Speech 02 用于实时或鲁棒语音识别

场景类型 核心目标 关键模型能力 Speech‑02 适配方式
实时语音合成 快速响应与流式播放 超低延迟、实时输出、自然音色语调、多语言支持 Speech‑02‑Turbo 即时生成音频,支持最多约 5,000 字符流式输出,延迟极小,适合对话应用
鲁棒语音识别(用于 ASR) 合成语音必须清晰、可识别且高质量 卓越的语音清晰度、发音准确且错误率低、节奏语调良好 Speech‑02‑HD 用于生成高保真语音,词错误率低、说话人相似度高、音频质量优良

如何接入 MiniMax Speech 02?

步骤 1:登录并进入模型库

登录您的账户,点击 模型库 按钮。

登录并进入模型库

步骤 2:选择您的模型

浏览可用选项,选择适合您需求的模型。

步骤 2:选择您的模型

立即试用 MiniMax Speech 02!

步骤 3:开始免费试用

开始免费试用,探索所选模型的功能。

步骤 3:开始免费试用

点击 “试用” 查看每个字段的含义,并选择值以自定义您的 API 设置。

点击“试用”查看每个字段的含义,并选择值以自定义您的 API 设置。

步骤 4:获取您的 API 密钥

为了通过 API 进行身份验证,我们将为您提供一个新的 API 密钥。进入“设置”页面,您可以按照图片所示复制 API 密钥。

获取 API 密钥

步骤 5:安装 API

安装后,将必要的库导入到您的开发环境中。使用您的 API 密钥初始化 API,开始与 Novita AI LLM 交互。以下是面向 Python 用户 使用聊天补全 API 的示例。

import requests

url = "https://api.novita.ai/v3/minimax-speech-02-hd"

payload = {
    "text": "<string>",
    "voice_setting": {
        "speed": 123,
        "vol": 123,
        "pitch": 123,
        "voice_id": "<string>",
        "emotion": "<string>",
        "english_normalization": True
    },
    "audio_setting": {
        "sample_rate": 123,
        "bitrate": 123,
        "format": "<string>",
        "channel": 123
    },
    "pronunciation_dict": { "tone": [{}] },
    "timber_weights": [
        {
            "voice_id": "<string>",
            "weight": 123
        }
    ],
    "stream": True,
    "language_boost": "<string>",
    "output_format": "<string>"
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

步骤 6:切换到其他模型

您可以点击左上角的侧边栏来选择不同的音频模型。Novita AI 还提供语音克隆功能。

您可以点击左上角的侧边栏来选择不同的音频模型。Novita AI 还提供语音克隆功能。

MiniMax Speech 02 是一款表现出色的文本转语音解决方案,能够生成高保真且低延迟的音频。凭借丰富的语音选项、高级控制以及对实时和大规模应用的强大支持,MiniMax Speech 02 适用于广泛的语音合成场景。其创新特性和易于自定义的特点,使其在语音 AI 模型中名列第一。

常见问题

MiniMax Speech 02 中的“02”是什么意思?

“02”指 MiniMax Speech 模型的第二代,代表了质量和速度方面的显著提升。

MiniMax Speech 02 能处理长文本吗?

可以。异步模型(HD 异步和 Turbo 异步)专为处理长内容(如有声书)而设计,支持多达数百万字符。

它支持实时流式传输吗?

支持。MiniMax Speech 02 的 Turbo 模式提供超低延迟的实时流式传输,非常适合交互式或对话式应用。

Novita AI 是全方位云平台,助力您的 AI 梦想。集成 API、无服务器、GPU 实例——您需要的经济高效工具。无需基础设施,免费开始,让您的 AI 愿景成为现实。

推荐阅读