Novita AI 扩展了其语音生成套件,全面支持 MiniMax Speech-2.6 系列,包含四种先进的变体。此次发布带来了更强的多语言表现力、更准确的语音复制,以及覆盖 40 种语言的更广泛支持,非常适合实时应用和长音频生成。
在本文中,我们将介绍 Minimax Speech-2.6 的新功能,解释其特性和亮点,并展示如何在 Novita AI 上通过 API 快速上手。
Minimax Speech-2.6 是什么?
MiniMax Speech 2.6 是最新一代语音技术,带来了大幅提升,例如超低延迟、改进的格式兼容性,以及更流畅、更逼真的语音输出,使其非常适合为自然且响应迅速的语音助手体验提供动力。该系列包含四种专用变体:MiniMax Speech-2.6-hd 文本转语音、MiniMax Speech-2.6-hd 异步长文本 TTS、MiniMax Speech-2.6-turbo 文本转语音和 MiniMax Speech-2.6-turbo 异步长文本 TTS,每种变体都针对不同的应用需求而设计。
Minimax Speech-2.6:HD 与 Turbo 对比
| 功能 | Minimax Speech HD | Minimax Speech Turbo |
|---|---|---|
| 音频质量 | 超逼真,录音室级清晰度 | 高清,但表现力略逊 |
| 处理速度 | 较高延迟,优先保证质量 | 低延迟,即时生成 |
| 成本 | 因保真度而较高 | 比 HD 更便宜 |
| 情感支持 | 高级情感表达 | 支持情感,但略欠细腻 |
| 最佳使用场景 | 有声书、媒体、旁白 | 聊天机器人、助手、实时应用 |
| 参数控制 | SSML、音素控制、高级选项 | 快速 TTS、情感、多语言、API 友好 |
Minimax Speech-2.6:同步与异步对比
| 模式 | 描述 | 最佳使用场景 |
|---|---|---|
| 同步 | 实时将文本转为语音 | 实时语音助手、聊天机器人 |
| 异步 | 分开处理文本,稍后返回结果 | 有声书、批量任务、公告 |
Minimax Speech 2.6:主要亮点
1. 低延迟,高响应:实现无缝实时交互
整个音频生成管道经过了彻底重构,端到端延迟低于 250 毫秒,达到了行业最高标准之一。这一突破确保了即使在需要即时反馈的场景中(如实时语音对话或交互式助手),音频生成也能保持流畅不间断。其结果是实现更顺畅、更自然的交流流程,让每一次交互都感觉即时且人性化。
2. 更智能处理特殊格式:实现流畅、准确的信息传递
Speech 2.6 引入了对多种语言中各类特殊文本格式的智能处理,包括 URL、电子邮件地址、电话号码、日期和货币表达。系统现在可以直接解读并朗读这些格式,无需依赖外部预处理步骤或额外脚本。这使得它在与大型语言模型或管理动态实时数据的应用程序配合使用时尤为有效。通过确保每条信息从一开始就被正确、自然地读出,Speech 2.6 为复杂内容提供了更连贯、高效且听起来更人性化的传递方式。
3. 增强自然度:传递真实且富有表现力的声音
除了在韵律和语音调性上的改进,Speech 2.6 还引入了新的 Fluent LoRA 技术,旨在实现更流畅、更真实的语音生成。在 Speech 2.5 高保真语音克隆的基础上,该版本以极高的精度捕捉了诸如个人口音、节奏和说话习惯等细微特征。即使源录音包含不完美的样本或非母语发音,Fluent LoRA 也能忠实再现语音的音色,同时生成既流畅又富有表现力的语音。这一进步使 Speech 2.6 能够展现出每种声音的自然个性和清晰度,让数字语音比以往任何时候都更具吸引力和情感共鸣。
Minimax Speech 2.6:应用场景
| 模型变体 | 类型 | 主要优势 | 理想应用场景 |
|---|---|---|---|
| MiniMax Speech-2.6-HD 文本转语音 | 高清实时 TTS | 录音室级清晰度、富有表现力的语调控制、准确的情感渲染 | 高级虚拟助手、有声书、播客、数字人像(注重自然与声音丰富度) |
| MiniMax Speech-2.6-HD 异步长文本 TTS | 高清异步长文本 TTS | 稳定、高质量生成长内容,长时间输出失真低 | 电子学习旁白、长篇故事讲述、视频配音、自动化新闻朗读 |
| MiniMax Speech-2.6-Turbo 文本转语音 | 快速实时 TTS | 超低延迟,轻量级,快速响应 | 交互式语音助手、实时客服机器人、实时通讯工具 |
| MiniMax Speech-2.6-Turbo 异步长文本 TTS | 快速异步长文本 TTS | 针对快速批量合成长文本优化 | 海量内容生成、大规模配音、快速有声书或媒体制作流水线 |
如何在 Novita AI 上使用 Minimax Speech-2.6 进行快速语音克隆?
Novita AI 提供了使用 Minimax Speech-2.6 进行语音克隆的 REST API。在 Novita AI 上,MiniMax Speech-2.6 Turbo 模型起价 每 100 万字符 60 美元,HD 模型起价 每 100 万字符 100 美元。按照下面的 API 指南,只需几个简单步骤即可开始。
步骤 1:设置参数
请求头
| Header | 类型 | 必需 | 含义 / 描述 |
|---|---|---|---|
| Content-Type | string | 是 | 指定请求体的媒体类型。使用 application/json。 |
| Authorization | string | 是 | 用于 API 身份验证的 Bearer token。格式:Bearer {API Key}。示例:Bearer sk-xxxxxx |
请求体
| 参数 | 类型 | 含义 / 描述 |
|---|---|---|
speed |
number | 范围:[0.5, 2],默认值为 1.0。 |
emotion |
string | 控制合成语音的情感。目前支持 7 种情感:happy、sad、angry、fearful、disgusted、surprised、neutral。 |
text |
string | 要合成的文本(同步:少于 10,000 字符 / 异步:少于 50,000 字符)。结果以音频 URL 形式返回。 |
model |
string | 指定预览用的语音模型。选项:speech-2.6-hd、speech-2.6-turbo |
voice id |
string | 支持系统声音(ID)和克隆声音(ID)。可用的系统声音 ID 包括:Wise_Woman、Friendly_Person、Inspirational_girl、Deep_Voice_Man、Calm_Woman…… |
步骤 2:获取 API 密钥

步骤 3:Python 示例
import requests
url = "https://api.novita.ai/v3/minimax-speech-2.6-hd"
payload = {
"text": "<string>",
"voice_setting": {
"speed": 123,
"vol": 123,
"pitch": 123,
"voice_id": "<string>",
"emotion": "<string>",
"text_normalization": True
},
"audio_setting": {
"sample_rate": 123,
"bitrate": 123,
"format": "<string>",
"channel": 123
},
"pronunciation_dict": { "tone": [{}] },
"timbre_weights": [
{
"voice_id": "<string>",
"weight": 123
}
],
"stream": True,
"language_boost": "<string>",
"output_format": "<string>",
"voice_modify": {
"pitch": 123,
"intensity": 123,
"timbre": 123,
"sound_effects": "<string>"
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
常见问题
MiniMax Speech-2.6 相比上一版本有哪些新功能?
MiniMax Speech-2.6 是 MiniMax 语音合成技术的最新版本,在延迟、自然度和格式处理方面进行了重大升级。它能够生成更逼真、更富有表现力的语音,支持 40 种语言,多语言流畅性更强。
MiniMax Speech-2.6 的主要变体有哪些?
MiniMax Speech-2.6 包含四种专用变体:Speech-2.6-HD 文本转语音、Speech-2.6-HD 异步长文本 TTS、Speech-2.6-Turbo 文本转语音和 Speech-2.6-Turbo 异步长文本 TTS,每种变体针对实时响应或长篇叙述等不同用例进行了优化。
MiniMax Speech-2.6 能否自动处理非标准文本格式?
可以。MiniMax Speech-2.6 能够直接解读多种语言中的 URL、电子邮件地址、电话号码、日期和货币表达,无需手动进行文本预处理。
Novita AI 是一个一站式云平台,助力您的 AI 梦想。集成 API、无服务器、GPU 实例——您需要的经济高效工具。消除基础设施负担,免费开始,让您的 AI 愿景成为现实。
