A série MiniMax Speech 2.8 é a atualização mais recente da linha de destaque de text-to-speech da MiniMax, introduzindo marcadores de tom emocional — indicadores embutidos como (laughs), (sighs) e (gasps) que fazem com que a fala gerada por IA soe genuinamente humana. Disponível em quatro variantes na Novita AI (HD Sync, HD Async, Turbo Sync, Turbo Async), a série 2.8 mantém o mesmo preço de sua versão anterior, ao mesmo tempo que adiciona um conjunto de recursos que os concorrentes simplesmente não oferecem nesse nível. Se você está construindo agentes de voz, audiolivros ou qualquer pipeline de conteúdo de áudio, esta é a série de modelos TTS a ser avaliada agora mesmo.
O que é a série MiniMax Speech 2.8?
A MiniMax ocupa consistentemente uma posição de destaque na Artificial Analysis Speech Arena e na Hugging Face TTS Arena, superando gigantes do setor como OpenAI em avaliações cegas.
A série Speech 2.8 é a evolução mais recente dessa linhagem. Construída sobre a arquitetura Transformer autorregressiva da MiniMax com um decodificador Flow-VAE, ela produz fala em um espaço latente aprendido, em vez de depender de vocoders tradicionais de mel-espectrograma — o resultado é um áudio que soa notavelmente natural, com entonação, respiração e nuances emocionais adequadas.
O recurso principal da série 2.8: marcadores de tom emocional. Pela primeira vez, você pode inserir interjeições naturais diretamente na entrada de texto, e o modelo as renderiza como sons humanos autênticos dentro do fluxo da fala.
A Novita AI agora hospeda a série completa Speech 2.8, oferecendo aos desenvolvedores acesso instantâneo à API sem cold starts.
Principais recursos e novidades
Marcadores de tom emocional
O recurso mais marcante. Insira marcadores entre parênteses em qualquer lugar do seu texto, e o modelo os tece perfeitamente na fala gerada:
| Marca | Efeito | Exemplo |
(laughs) |
Riso | “Isso é hilário (laughs)” |
(chuckle) |
Riso leve | “Boa essa (chuckle)” |
(sighs) |
Suspiro | “Ah, tudo bem (sighs), vamos lá” |
(gasps) |
Ofegante surpreso | “Espera (gasps)! Sério?” |
(clears throat) |
Limpeza de garganta | “(clears throat) Vamos começar” |
(coughs) |
Tosse | “Com licença (coughs)” |
(sneezes) |
Espirro | “Achoo (sneezes)! Desculpe” |
Isso não é apenas uma novidade — resolve um problema real. Até agora, fazer com que a saída de TTS soe espontânea exigia edição de pós-produção ou sobreposição manual de efeitos sonoros. Com os marcadores de tom, a expressividade é incorporada diretamente ao pipeline de geração.
Modo de som contínuo
Um novo parâmetro continuous_sound suaviza as transições entre orações, eliminando as sutis “costuras” de áudio que podem fazer a fala sintetizada parecer colada. Isso é especialmente perceptível em passagens mais longas.
Recursos herdados da série MiniMax Speech
A série Speech 2.8 mantém o conjunto completo de recursos de suas versões anteriores:
- Mais de 40 idiomas com
language_boostpara reconhecimento aprimorado de idiomas/dialetos menores - 9 predefinições de emoção: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper
- Clonagem de voz: use vozes do sistema, vozes clonadas ou vozes geradas por texto
- Mixagem de vozes: combine até 4 vozes com proporções ponderadas por meio de
timber_weights - Modificação de voz: ajuste pitch, timbre e intensity independentemente (faixa de -100 a 100)
- Efeitos sonoros: spacious echo, auditorium echo, telephone distortion, robotic
- Formatos de saída de áudio: MP3, PCM, FLAC, WAV
- Taxas de amostragem: 8.000 a 44.100 Hz
- Dicionário de pronúncia: regras personalizadas para nomes de marcas, acrônimos e termos especializados
- Saída em streaming: para aplicativos em tempo real
- Limite de texto: até 10.000 caracteres por solicitação (síncrono), até 1.000.000 de caracteres (assíncrono)
Variantes de modelo: HD vs. Turbo, Síncrono vs. Assíncrono
A Novita AI oferece quatro endpoints na série Speech 2.8:
| Variante | Endpoint | Melhor para |
| Speech 2.8 HD Sync | POST``/v3/minimax-speech-2.8-hd |
Qualidade premium, tempo real — audiolivros, dublagens profissionais |
| Speech 2.8 HD Async | POST /v3/async/minimax-speech-2.8-hd |
Qualidade premium, formato longo — produção em massa de audiolivros, processamento em lote |
| Speech 2.8 Turbo Sync | POST /v3/minimax-speech-2.8-turbo |
Baixa latência, tempo real — agentes de voz, chatbots, suporte ao cliente ao vivo |
| Speech 2.8 Turbo Async | POST /v3/async/minimax-speech-2.8-turbo |
Processamento rápido, formato longo — geração de conteúdo em massa, dublagem em grande escala |
HD vs. Turbo: o HD oferece fidelidade de áudio de nível de estúdio — detalhes tonais mais ricos, renderização de emoções mais nuances. O Turbo é otimizado para velocidade, com fidelidade ligeiramente menor, sendo ideal para cenários interativos em tempo real.
Síncrono vs. Assíncrono: o modo síncrono retorna o áudio na resposta da API (até 10.000 caracteres). O modo assíncrono aceita até 1.000.000 de caracteres e retorna um task_id para consulta — perfeito para audiolivros e fluxos de trabalho em lote.
Comparação com o Speech 2.6
| Recurso | Speech 2.6 | Speech 2.8 |
| Qualidade de áudio | Excelente | Excelente |
| Marcadores de tom emocional | ❌ | ✅ (laughs, sighs, gasps, etc.) |
| Modo de som contínuo | ❌ | ✅ |
| Mais de 40 idiomas | ✅ | ✅ |
| Clonagem de voz | ✅ | ✅ |
| Mixagem de vozes (até 4) | ✅ | ✅ |
| Predefinições de emoção (9 tipos) | ✅ | ✅ |
O caminho de atualização é claro: a série Speech 2.8 oferece tudo o que o Speech 2.6 faz, além de marcadores de tom emocional e modo de som contínuo, pelo mesmo preço. Não há motivo para não migrar.
Preços na Novita AI
A série MiniMax Speech 2.8 na Novita AI segue a mesma estrutura de preços da série 2.6:
| Modelo | Preço |
| Speech 2.8 Turbo (Síncrono e Assíncrono) | $60 / 1M de caracteres |
| Speech 2.8 HD (Síncrono e Assíncrono) | $100 / 1M de caracteres |
Para obter os detalhes de preços mais recentes, acesse o Novita AI Pricing Console.
Pronto para experimentar a série MiniMax Speech 2.8? Cadastre-se na Novita AI e ganhe créditos gratuitos para começar a gerar fala expressiva e semelhante à humana em minutos. Nenhuma configuração de infraestrutura necessária.
Quem deve usar qual variante
Imagine que você está decidindo qual variante se adapta ao seu projeto. Aqui está um guia rápido baseado em casos de uso reais:
🎙️ “Estou construindo uma plataforma de podcast ou audiolivros”
→ Speech 2.8 HD Async
Você precisa da maior fidelidade de áudio, e seu conteúdo é de formato longo. O endpoint assíncrono aceita até 1M de caracteres por solicitação — envie um capítulo inteiro e recupere o áudio quando estiver pronto. Combine marcadores de tom com predefinições de emoção para dar vida aos personagens: um narrador que (sighs) em uma reviravolta do enredo ou (laughs) em uma piada torna a experiência de escuta muito mais envolvente.
🤖 “Estou construindo um agente de voz ou chatbot em tempo real”
→ Speech 2.8 Turbo Sync
A latência é tudo. O Turbo Sync foi projetado para resposta em tempo real, mantendo as conversas com uma sensação natural. Adicione um (chuckle) quando seu agente fizer uma piada, ou um (clears throat) antes de entregar informações importantes — pequenos detalhes que fazem com que as interações com IA pareçam menos robóticas.
🎮 “Estou adicionando voz a NPCs de jogos ou aplicativos interativos”
→ Speech 2.8 HD Sync
Personagens de jogos precisam de vozes expressivas e de alta qualidade. O HD Sync oferece áudio de nível de estúdio em tempo real. Use a mixagem de vozes para criar timbres de personagens únicos, e adicione marcadores de tom para momentos dramáticos — um vilão que (laughs) de forma ameaçadora, um companheiro que (gasps) com descobertas.
📹 “Estou produzindo dublagens de vídeo em grande escala”
→ Speech 2.8 Turbo Async
Você precisa de processamento em lote rápido sem gastar muito. O Turbo Async equilibra velocidade e qualidade para conteúdo de vídeo de alto volume — vídeos explicativos, clipes de redes sociais, materiais de treinamento. Envie roteiros em massa e recupere arquivos de áudio polidos.
Como começar na Novita AI
Passo 1: Experimente no Playground
Antes de escrever uma única linha de código, explore a série MiniMax Speech 2.8 diretamente no Playground da Novita AI:
- Speech 2.8 HD Sync Playground
- Speech 2.8 Turbo Sync Playground
- Speech 2.8 HD Async Playground
- Speech 2.8 Turbo Async Playground

Playground da Novita
Passo 2: Obtenha sua chave de API
- Cadastre-se em uma conta Novita AI (camada gratuita disponível)
- Acesse a seção de Chaves de API no seu painel
- Gere uma nova chave e salve-a

Passo 3: Faça sua primeira chamada de API
O MiniMax Speech 2.8 suporta dois modos de chamada:
| Modo | Melhor para | Tipo de resposta |
| Síncrono | Diálogo em tempo real, respostas instantâneas | Áudio retornado imediatamente |
| Assíncrono | Audiolivros, conteúdo longo, processamento em lote | ID de tarefa → consulta para resultado |
Opção A: Chamada síncrona (áudio instantâneo)
Use isso para textos curtos quando precisar de resultados imediatos.
Exemplo cURL:
curl --request POST \
--url https://api.novita.ai/v3/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"stream": true,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": true,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": true,
"text_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"stream_options": {
"exclude_aggregated_audio": true
},
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": true,
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Exemplo em Python:
import requests
url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"stream": True,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": True,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": True,
"text_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"stream_options": { "exclude_aggregated_audio": True },
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": True,
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Opção B: Chamada assíncrona (para textos longos)
Use isso para textos longos, ou quando quiser agrupar várias solicitações em lote.
1. Envie a tarefa
- cURL
curl --request POST \
--url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Python
import requests
url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
2. Consulte a conclusão
- cURL
curl --request GET \
--url https://api.novita.ai/v3/async/task-result \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>'
- Python
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
Passo 4: Explore recursos avançados
Depois que o básico estiver funcionando, experimente estes:
- Mixagem de vozes: combine até 4 vozes para um timbre único usando
timber_weights - Efeitos sonoros: adicione o filtro
spacious_echoouroboticpor meio devoice_modify.sound_effects - Dicionário de pronúncia: defina regras de pronúncia personalizadas para nomes de marcas e acrônimos
- Modo de streaming: defina
"stream": truepara entrega de áudio em tempo real em aplicativos interativos - Modificação de voz: ajuste
pitch,timbreeintensityemvoice_modify(faixa de -100 a 100 cada)
Conclusão
A série MiniMax Speech 2.8 traz uma atualização significativa para uma família de modelos TTS que já é de nível superior. A adição de marcadores de tom emocional e modo de som contínuo resolve dois dos pontos de dor mais comuns na síntese de voz por IA: fazer a fala soar espontânea e eliminar transições não naturais entre orações.
Com quatro variantes disponíveis na Novita AI — HD e Turbo, cada uma nos modos síncrono e assíncrono — a série atende a todos os casos de uso, de agentes de voz em tempo real à produção de audiolivros em grande escala. Os preços permanecem consistentes com a série 2.6, então você obtém estritamente mais recursos pelo mesmo custo.
Se você está usando atualmente o Speech 2.6 ou avaliando opções de TTS, a série Speech 2.8 é uma atualização direta. Experimente no Playground da Novita AI ou comece a usar a API hoje mesmo.
Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer nuvem de GPU acessível e confiável para construção e escalonamento.
Perguntas Frequentes
Qual variante devo escolher: HD ou Turbo?
Escolha o HD quando a qualidade de áudio for a prioridade — audiolivros, dublagens profissionais, conteúdo premium.
Escolha o Turbo quando a latência for importante — agentes de voz, chatbots, aplicativos interativos em tempo real. Ambos suportam o conjunto completo de recursos, incluindo marcadores de tom.
Quando devo usar o modo síncrono ou assíncrono?
Use o modo síncrono para textos curtos a médios em tempo real (até 10.000 caracteres).
Use o modo assíncrono para conteúdo de formato longo (até 1.000.000 de caracteres) ou fluxos de trabalho de processamento em lote.
A Novita AI oferece uma camada gratuita para testes?
Sim. Cadastre-se em uma conta Novita AI para receber créditos gratuitos, que você pode usar para testar a série Speech 2.8 e outros modelos no Playground ou por meio da API.
