Série MiniMax Speech 2.8 na Novita AI: TTS expressivo com marcadores de tom emocional para qualquer aplicação de voz

Série MiniMax Speech 2.8 na Novita AI: TTS expressivo com marcadores de tom emocional para qualquer aplicação de voz

A série MiniMax Speech 2.8 é a atualização mais recente da linha de destaque de text-to-speech da MiniMax, introduzindo marcadores de tom emocional — indicadores embutidos como (laughs), (sighs) e (gasps) que fazem com que a fala gerada por IA soe genuinamente humana. Disponível em quatro variantes na Novita AI (HD Sync, HD Async, Turbo Sync, Turbo Async), a série 2.8 mantém o mesmo preço de sua versão anterior, ao mesmo tempo que adiciona um conjunto de recursos que os concorrentes simplesmente não oferecem nesse nível. Se você está construindo agentes de voz, audiolivros ou qualquer pipeline de conteúdo de áudio, esta é a série de modelos TTS a ser avaliada agora mesmo.

O que é a série MiniMax Speech 2.8?

A MiniMax ocupa consistentemente uma posição de destaque na Artificial Analysis Speech Arena e na Hugging Face TTS Arena, superando gigantes do setor como OpenAI em avaliações cegas.

A série Speech 2.8 é a evolução mais recente dessa linhagem. Construída sobre a arquitetura Transformer autorregressiva da MiniMax com um decodificador Flow-VAE, ela produz fala em um espaço latente aprendido, em vez de depender de vocoders tradicionais de mel-espectrograma — o resultado é um áudio que soa notavelmente natural, com entonação, respiração e nuances emocionais adequadas.

O recurso principal da série 2.8: marcadores de tom emocional. Pela primeira vez, você pode inserir interjeições naturais diretamente na entrada de texto, e o modelo as renderiza como sons humanos autênticos dentro do fluxo da fala.

A Novita AI agora hospeda a série completa Speech 2.8, oferecendo aos desenvolvedores acesso instantâneo à API sem cold starts.

Principais recursos e novidades

Marcadores de tom emocional

O recurso mais marcante. Insira marcadores entre parênteses em qualquer lugar do seu texto, e o modelo os tece perfeitamente na fala gerada:

Marca Efeito Exemplo
(laughs) Riso “Isso é hilário (laughs)
(chuckle) Riso leve “Boa essa (chuckle)
(sighs) Suspiro “Ah, tudo bem (sighs), vamos lá”
(gasps) Ofegante surpreso “Espera (gasps)! Sério?”
(clears throat) Limpeza de garganta (clears throat) Vamos começar”
(coughs) Tosse “Com licença (coughs)
(sneezes) Espirro “Achoo (sneezes)! Desculpe”

Isso não é apenas uma novidade — resolve um problema real. Até agora, fazer com que a saída de TTS soe espontânea exigia edição de pós-produção ou sobreposição manual de efeitos sonoros. Com os marcadores de tom, a expressividade é incorporada diretamente ao pipeline de geração.

Modo de som contínuo

Um novo parâmetro continuous_sound suaviza as transições entre orações, eliminando as sutis “costuras” de áudio que podem fazer a fala sintetizada parecer colada. Isso é especialmente perceptível em passagens mais longas.

Recursos herdados da série MiniMax Speech

A série Speech 2.8 mantém o conjunto completo de recursos de suas versões anteriores:

  • Mais de 40 idiomas com language_boost para reconhecimento aprimorado de idiomas/dialetos menores
  • 9 predefinições de emoção: happy, sad, angry, fearful, disgusted, surprised, calm, fluent, whisper
  • Clonagem de voz: use vozes do sistema, vozes clonadas ou vozes geradas por texto
  • Mixagem de vozes: combine até 4 vozes com proporções ponderadas por meio de timber_weights
  • Modificação de voz: ajuste pitch, timbre e intensity independentemente (faixa de -100 a 100)
  • Efeitos sonoros: spacious echo, auditorium echo, telephone distortion, robotic
  • Formatos de saída de áudio: MP3, PCM, FLAC, WAV
  • Taxas de amostragem: 8.000 a 44.100 Hz
  • Dicionário de pronúncia: regras personalizadas para nomes de marcas, acrônimos e termos especializados
  • Saída em streaming: para aplicativos em tempo real
  • Limite de texto: até 10.000 caracteres por solicitação (síncrono), até 1.000.000 de caracteres (assíncrono)

Variantes de modelo: HD vs. Turbo, Síncrono vs. Assíncrono

A Novita AI oferece quatro endpoints na série Speech 2.8:

Variante Endpoint Melhor para
Speech 2.8 HD Sync POST``/v3/minimax-speech-2.8-hd Qualidade premium, tempo real — audiolivros, dublagens profissionais
Speech 2.8 HD Async POST /v3/async/minimax-speech-2.8-hd Qualidade premium, formato longo — produção em massa de audiolivros, processamento em lote
Speech 2.8 Turbo Sync POST /v3/minimax-speech-2.8-turbo Baixa latência, tempo real — agentes de voz, chatbots, suporte ao cliente ao vivo
Speech 2.8 Turbo Async POST /v3/async/minimax-speech-2.8-turbo Processamento rápido, formato longo — geração de conteúdo em massa, dublagem em grande escala

HD vs. Turbo: o HD oferece fidelidade de áudio de nível de estúdio — detalhes tonais mais ricos, renderização de emoções mais nuances. O Turbo é otimizado para velocidade, com fidelidade ligeiramente menor, sendo ideal para cenários interativos em tempo real.

Síncrono vs. Assíncrono: o modo síncrono retorna o áudio na resposta da API (até 10.000 caracteres). O modo assíncrono aceita até 1.000.000 de caracteres e retorna um task_id para consulta — perfeito para audiolivros e fluxos de trabalho em lote.

Comparação com o Speech 2.6

Recurso Speech 2.6 Speech 2.8
Qualidade de áudio Excelente Excelente
Marcadores de tom emocional ✅ (laughs, sighs, gasps, etc.)
Modo de som contínuo
Mais de 40 idiomas
Clonagem de voz
Mixagem de vozes (até 4)
Predefinições de emoção (9 tipos)

O caminho de atualização é claro: a série Speech 2.8 oferece tudo o que o Speech 2.6 faz, além de marcadores de tom emocional e modo de som contínuo, pelo mesmo preço. Não há motivo para não migrar.

Preços na Novita AI

A série MiniMax Speech 2.8 na Novita AI segue a mesma estrutura de preços da série 2.6:

Modelo Preço
Speech 2.8 Turbo (Síncrono e Assíncrono) $60 / 1M de caracteres
Speech 2.8 HD (Síncrono e Assíncrono) $100 / 1M de caracteres

Para obter os detalhes de preços mais recentes, acesse o Novita AI Pricing Console.

Pronto para experimentar a série MiniMax Speech 2.8? Cadastre-se na Novita AI e ganhe créditos gratuitos para começar a gerar fala expressiva e semelhante à humana em minutos. Nenhuma configuração de infraestrutura necessária.

Crie sua conta

Quem deve usar qual variante

Imagine que você está decidindo qual variante se adapta ao seu projeto. Aqui está um guia rápido baseado em casos de uso reais:

🎙️ “Estou construindo uma plataforma de podcast ou audiolivros”

→ Speech 2.8 HD Async

Você precisa da maior fidelidade de áudio, e seu conteúdo é de formato longo. O endpoint assíncrono aceita até 1M de caracteres por solicitação — envie um capítulo inteiro e recupere o áudio quando estiver pronto. Combine marcadores de tom com predefinições de emoção para dar vida aos personagens: um narrador que (sighs) em uma reviravolta do enredo ou (laughs) em uma piada torna a experiência de escuta muito mais envolvente.

🤖 “Estou construindo um agente de voz ou chatbot em tempo real”

→ Speech 2.8 Turbo Sync

A latência é tudo. O Turbo Sync foi projetado para resposta em tempo real, mantendo as conversas com uma sensação natural. Adicione um (chuckle) quando seu agente fizer uma piada, ou um (clears throat) antes de entregar informações importantes — pequenos detalhes que fazem com que as interações com IA pareçam menos robóticas.

🎮 “Estou adicionando voz a NPCs de jogos ou aplicativos interativos”

→ Speech 2.8 HD Sync

Personagens de jogos precisam de vozes expressivas e de alta qualidade. O HD Sync oferece áudio de nível de estúdio em tempo real. Use a mixagem de vozes para criar timbres de personagens únicos, e adicione marcadores de tom para momentos dramáticos — um vilão que (laughs) de forma ameaçadora, um companheiro que (gasps) com descobertas.

📹 “Estou produzindo dublagens de vídeo em grande escala”

→ Speech 2.8 Turbo Async

Você precisa de processamento em lote rápido sem gastar muito. O Turbo Async equilibra velocidade e qualidade para conteúdo de vídeo de alto volume — vídeos explicativos, clipes de redes sociais, materiais de treinamento. Envie roteiros em massa e recupere arquivos de áudio polidos.

Como começar na Novita AI

Passo 1: Experimente no Playground

Antes de escrever uma única linha de código, explore a série MiniMax Speech 2.8 diretamente no Playground da Novita AI:

Playground da Novita

Passo 2: Obtenha sua chave de API

  1. Cadastre-se em uma conta Novita AI (camada gratuita disponível)
  2. Acesse a seção de Chaves de API no seu painel
  3. Gere uma nova chave e salve-a

How to get your API Key

Passo 3: Faça sua primeira chamada de API

O MiniMax Speech 2.8 suporta dois modos de chamada:

Modo Melhor para Tipo de resposta
Síncrono Diálogo em tempo real, respostas instantâneas Áudio retornado imediatamente
Assíncrono Audiolivros, conteúdo longo, processamento em lote ID de tarefa → consulta para resultado

Opção A: Chamada síncrona (áudio instantâneo)

Use isso para textos curtos quando precisar de resultados imediatos.

Exemplo cURL:

curl --request POST \
  --url https://api.novita.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Exemplo em Python:
import requests

url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "stream": True,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "force_cbr": True,
        "sample_rate": 123
    },
    "output_format": "<string>",
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "stream_options": { "exclude_aggregated_audio": True },
    "timber_weights": [
        {
            "weight": 123,
            "voice_id": "<string>"
        }
    ],
    "subtitle_enable": True,
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

Opção B: Chamada assíncrona (para textos longos)

Use isso para textos longos, ou quando quiser agrupar várias solicitações em lote.

1. Envie a tarefa
  • cURL
curl --request POST \
  --url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Python
import requests

url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)
2. Consulte a conclusão
  • cURL
 curl --request GET \
  --url https://api.novita.ai/v3/async/task-result \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>'
  • Python
import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

Passo 4: Explore recursos avançados

Depois que o básico estiver funcionando, experimente estes:

  • Mixagem de vozes: combine até 4 vozes para um timbre único usando timber_weights
  • Efeitos sonoros: adicione o filtro spacious_echo ou robotic por meio de voice_modify.sound_effects
  • Dicionário de pronúncia: defina regras de pronúncia personalizadas para nomes de marcas e acrônimos
  • Modo de streaming: defina "stream": true para entrega de áudio em tempo real em aplicativos interativos
  • Modificação de voz: ajuste pitch, timbre e intensity em voice_modify (faixa de -100 a 100 cada)

Conclusão

A série MiniMax Speech 2.8 traz uma atualização significativa para uma família de modelos TTS que já é de nível superior. A adição de marcadores de tom emocional e modo de som contínuo resolve dois dos pontos de dor mais comuns na síntese de voz por IA: fazer a fala soar espontânea e eliminar transições não naturais entre orações.

Com quatro variantes disponíveis na Novita AI — HD e Turbo, cada uma nos modos síncrono e assíncrono — a série atende a todos os casos de uso, de agentes de voz em tempo real à produção de audiolivros em grande escala. Os preços permanecem consistentes com a série 2.6, então você obtém estritamente mais recursos pelo mesmo custo.

Se você está usando atualmente o Speech 2.6 ou avaliando opções de TTS, a série Speech 2.8 é uma atualização direta. Experimente no Playground da Novita AI ou comece a usar a API hoje mesmo.

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer nuvem de GPU acessível e confiável para construção e escalonamento.

Perguntas Frequentes

Qual variante devo escolher: HD ou Turbo?

Escolha o HD quando a qualidade de áudio for a prioridade — audiolivros, dublagens profissionais, conteúdo premium.
Escolha o Turbo quando a latência for importante — agentes de voz, chatbots, aplicativos interativos em tempo real. Ambos suportam o conjunto completo de recursos, incluindo marcadores de tom.

Quando devo usar o modo síncrono ou assíncrono?

Use o modo síncrono para textos curtos a médios em tempo real (até 10.000 caracteres).
Use o modo assíncrono para conteúdo de formato longo (até 1.000.000 de caracteres) ou fluxos de trabalho de processamento em lote.

A Novita AI oferece uma camada gratuita para testes?

Sim. Cadastre-se em uma conta Novita AI para receber créditos gratuitos, que você pode usar para testar a série Speech 2.8 e outros modelos no Playground ou por meio da API.