MiniMax Speech 2.8 系列是 MiniMax 领先文本转语音产品线的最新升级,引入了情感语气标签——像 (laughs)、(sighs) 和 (gasps) 这样的内联标记,让 AI 生成的语音听起来更真实。该系列在 Novita AI 上提供四种变体(HD Sync、HD Async、Turbo Sync、Turbo Async),在保持与前代产品相同定价的同时,增加了竞争对手在这一级别中无法提供的特性。如果你正在构建语音代理、有声书或任何音频内容管线,这款 TTS 模型系列值得立即评估。
MiniMax Speech 2.8 系列是什么?
MiniMax 一直稳居 Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 的榜首,在盲评中击败了 OpenAI 等行业巨头。
Speech 2.8 系列是该系列的延续。它基于 MiniMax 的自回归 Transformer 架构和 Flow-VAE 解码器,在学习的潜在空间中生成语音,而不是依赖传统的梅尔频谱声码器——结果是音频听起来非常自然,具有恰当的语调、呼吸和情感细微差别。
2.8 系列的亮点功能:情感语气标签。首次可以将自然的感叹词直接嵌入文本输入中,模型会在语音流中将它们渲染为真实的人类声音。
Novita AI 现已提供完整的 Speech 2.8 系列,开发者可以即时通过 API 访问,无需冷启动。
主要功能和新增内容
情感语气标签
最突出的新增功能。在文本中的任何位置插入带括号的标签,模型就会无缝地将它们融入生成的语音中:
| 标签 | 效果 | 示例 |
(laughs) |
大笑 | “That’s hilarious (laughs)” |
(chuckle) |
轻笑 | “Good one (chuckle)” |
(sighs) |
叹气 | “Oh well (sighs), here we go” |
(gasps) |
惊讶的吸气 | “Wait (gasps)! Really?” |
(clears throat) |
清嗓子 | “(clears throat) Let’s begin” |
(coughs) |
咳嗽 | “Excuse me (coughs)” |
(sneezes) |
打喷嚏 | “Achoo (sneezes)! Sorry” |
这不仅仅是新奇——它解决了一个实际问题。在此之前,让 TTS 输出听起来自然需要后期编辑或手动叠加音效。有了语气标签,表现力直接嵌入到生成管线中。
连续声音模式
新增的 continuous_sound 参数平滑了从句之间的过渡,消除了可能让合成语音感觉拼接的细微音频“接缝”。在较长的段落中尤其明显。
继承自 MiniMax Speech 系列
Speech 2.8 系列保留了前代产品的全部功能:
- 40 多种语言,支持
language_boost增强对次要语言/方言的识别 - 9 种情感预设:高兴、悲伤、愤怒、恐惧、厌恶、惊讶、平静、流畅、低语
- 语音克隆:使用系统声音、克隆声音或文本生成的声音
- 语音混合:通过
timber_weights以加权比例混合最多 4 种声音 - 语音修改:独立调整音高、音色和强度(范围 -100 到 100)
- 音效:空间回声、礼堂回声、电话失真、机器人音
- 音频输出格式:MP3、PCM、FLAC、WAV
- 采样率:8,000 到 44,100 Hz
- 发音词典:用于品牌名称、缩写和术语的自定义发音规则
- 流式输出:适用于实时应用
- 文本限制:每个请求最多 10,000 个字符(同步),最多 1,000,000 个字符(异步)
模型变体:HD 与 Turbo,Sync 与 Async
Novita AI 提供 Speech 2.8 系列的四个端点:
| 变体 | 端点 | 最佳用途 |
| Speech 2.8 HD Sync | POST``/v3/minimax-speech-2.8-hd |
高级质量,实时——有声书、专业配音 |
| Speech 2.8 HD Async | POST /v3/async/minimax-speech-2.8-hd |
高级质量,长文本——批量有声书制作、批量处理 |
| Speech 2.8 Turbo Sync | POST /v3/minimax-speech-2.8-turbo |
低延迟,实时——语音代理、聊天机器人、实时客户支持 |
| Speech 2.8 Turbo Async | POST /v3/async/minimax-speech-2.8-turbo |
快速处理,长文本——大规模内容生成、大规模配音 |
HD vs. Turbo:HD 提供录音室级的音频保真度——更丰富的音调细节、更细腻的情感表现。Turbo 在略低的保真度下优化速度,非常适合实时交互场景。
Sync vs. Async:Sync 在 API 响应中直接返回音频(最长 10,000 个字符)。Async 接受最长 1,000,000 个字符,并返回一个 task_id 用于轮询——非常适合有声书和批量工作流。
与 Speech 2.6 的对比
| 功能 | Speech 2.6 | Speech 2.8 |
| 音频质量 | 优秀 | 优秀 |
| 情感语气标签 | ❌ | ✅ (laughs, sighs, gasps 等) |
| 连续声音模式 | ❌ | ✅ |
| 40 多种语言 | ✅ | ✅ |
| 语音克隆 | ✅ | ✅ |
| 语音混合(最多 4 种) | ✅ | ✅ |
| 情感预设(9 种) | ✅ | ✅ |
升级路径清晰:Speech 2.8 系列提供了 Speech 2.6 所具有的一切,加上情感语气标签和连续声音模式,且价格相同。没有理由不迁移。
Novita AI 上的定价
Novita AI 上的 MiniMax Speech 2.8 系列遵循与 2.6 系列相同的定价结构:
| 模型 | 价格 |
| Speech 2.8 Turbo(Sync 和 Async) | $60 / 1M 字符 |
| Speech 2.8 HD(Sync 和 Async) | $100 / 1M 字符 |
有关最新定价详情,请访问 Novita AI 定价控制台。
准备好试用 MiniMax Speech 2.8 系列了吗? 注册 Novita AI 即可获得免费额度,几分钟内开始生成富有表现力、类似人类的语音。无需基础设施设置。
谁应该使用哪种变体
想象一下你要决定哪种变体适合你的项目。以下是根据实际用例快速参考:
🎙️ “我正在构建播客或有声书平台”
→ Speech 2.8 HD Async
你需要最高的音频保真度,并且你的内容是长篇形式。异步端点每个请求可处理最多 1M 个字符——提交一整章,等音频准备好时再取回。将语气标签与情感预设搭配使用,让角色栩栩如生:一个在情节转折时 (sighs) 或听到笑话时 (laughs) 的旁白,会让聆听体验更加吸引人。
🤖 “我正在构建实时语音代理或聊天机器人”
→ Speech 2.8 Turbo Sync
延迟至关重要。Turbo Sync 专为实时响应设计,让对话感觉自然。在代理讲笑话时添加一个 (chuckle),或在传递重要信息前添加一个 (clears throat) ——这些小细节让 AI 互动不那么机械化。
🎮 “我正在为游戏 NPC 或互动应用添加语音”
→ Speech 2.8 HD Sync
游戏角色需要富有表现力、高质量的语音。HD Sync 实时提供录音室级音频。使用语音混合创建独特的角色音色,并在戏剧性时刻加入语气标签——一个 (laughs) 阴险恶棍,一个 (gasps) 惊喜的同伴。
📹 “我正在大规模制作视频配音”
→ Speech 2.8 Turbo Async
你需要快速批量处理且不增加成本。Turbo Async 在高容量视频内容(教程、社交媒体片段、培训材料)中平衡了速度和品质。批量提交脚本并取回精制音频文件。
如何在 Novita AI 上开始使用
第 1 步:在 Playground 中试用
在编写任何代码之前,可以直接在 Novita AI Playground 中探索 MiniMax Speech 2.8 系列:
- Speech 2.8 HD Sync Playground
- Speech 2.8 Turbo Sync Playground
- Speech 2.8 HD Async Playground
- Speech 2.8 Turbo Async Playground

Novita Playground
第 2 步:获取 API 密钥
- 注册 Novita AI 账号(提供免费层级)
- 在控制面板中导航到 API 密钥部分
- 生成一个新密钥并保存

第 3 步:发出第一个 API 调用
MiniMax Speech 2.8 支持两种调用模式:
| 模式 | 最佳用途 | 响应类型 |
| Sync | 实时对话、即时响应 | 立即返回音频 |
| Async | 有声书、长内容、批量处理 | 任务 ID → 轮询结果 |
选项 A:同步调用(即时音频)
适用于需要即时结果的短文本。
cURL 示例:
curl --request POST \
--url https://api.novita.ai/v3/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"stream": true,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": true,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": true,
"text_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"stream_options": {
"exclude_aggregated_audio": true
},
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": true,
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Python 示例:
import requests
url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"stream": True,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": True,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": True,
"text_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"stream_options": { "exclude_aggregated_audio": True },
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": True,
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
选项 B:异步调用(适用于长文本)
适用于长文本,或当你想批量处理多个请求时。
1. 提交任务
- cURL
curl --request POST \
--url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Python
import requests
url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
2. 轮询完成
- cURL
curl --request GET \
--url https://api.novita.ai/v3/async/task-result \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>'
- Python
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
第 4 步:探索高级功能
一旦基础功能正常工作,可以尝试以下:
- 语音混合:使用
timber_weights混合最多 4 种声音以获得独特音色 - 音效:通过
voice_modify.sound_effects添加spacious_echo或robotic滤镜 - 发音词典:为品牌名称和缩写定义自定义发音规则
- 流模式:在交互式应用中设置
"stream": true以实时传输音频 - 语音修改:微调
voice_modify中的pitch、timbre和intensity(每个范围 -100 到 100)
结论
MiniMax Speech 2.8 系列为本已顶级的 TTS 模型系列带来了有意义的升级。情感语气标签和连续声音模式的加入解决了 AI 语音合成中两个最常见的痛点:让语音听起来自然,以及消除从句之间不自然的过渡。
Novita AI 提供四种变体——HD 和 Turbo,各有 Sync 和 Async 模式——覆盖从实时语音代理到大规模有声书制作的所有用例。定价与 2.6 系列保持一致,因此你可以以相同成本获得更多能力。
如果你目前正在使用 Speech 2.6 或评估 TTS 选项,Speech 2.8 系列是一个直接的升级。立即在 Novita AI Playground 中试用或使用 API 开始。
Novita AI 是一个 AI 云平台,为开发者提供通过简单 API 部署 AI 模型的简便方式,同时提供经济实惠且可靠的 GPU 云用于构建和扩展。
常见问题
我应该选择哪个变体:HD 还是 Turbo?
当音频质量是首要考虑时,选择 HD——有声书、专业配音、优质内容。
当延迟重要时,选择 Turbo——语音代理、聊天机器人、实时互动应用。两者都支持完整的功能集,包括语气标签。
何时使用 Sync vs. Async?
Sync 适用于实时、短到中等长度的文本(最多 10,000 个字符)。
Async 适用于长篇内容(最多 1,000,000 个字符)或批量处理工作流。
Novita AI 提供免费层级用于测试吗?
是的。注册 Novita AI 账号即可获取免费额度,可用于在 Playground 或通过 API 测试 Speech 2.8 系列及其他模型。
