La serie MiniMax Speech 2.8 es la última actualización de la línea líder de texto a voz de MiniMax, que introduce etiquetas de tono emocional — marcadores en línea como (risas), (suspiros) y (jadeos) que hacen que el habla generada por IA suene genuinamente humana. Disponible en cuatro variantes en Novita AI (HD Síncrono, HD Asíncrono, Turbo Síncrono, Turbo Asíncrono), la serie 2.8 mantiene el mismo precio que su predecesora mientras añade un conjunto de funciones que los competidores simplemente no ofrecen en este nivel. Si estás construyendo agentes de voz, audiolibros o cualquier canal de contenido de audio, esta es la serie de modelos TTS que debes evaluar ahora mismo.
¿Qué es la serie MiniMax Speech 2.8?
MiniMax ha mantenido consistentemente una posición superior en el Artificial Analysis Speech Arena y en el Hugging Face TTS Arena, superando a gigantes de la industria como OpenAI en evaluaciones ciegas.
La serie Speech 2.8 es la evolución más reciente de ese linaje. Construida sobre la arquitectura Transformer autorregresiva de MiniMax con un decodificador Flow-VAE, produce habla en un espacio latente aprendido en lugar de depender de vocoders tradicionales de mel-espectrograma; el resultado es un audio que suena notablemente natural, con entonación, respiración y matices emocionales adecuados.
La característica principal de la serie 2.8: etiquetas de tono emocional. Por primera vez, puedes incrustar interjecciones naturales directamente en tu entrada de texto, y el modelo las representa como sonidos humanos auténticos dentro del flujo del habla.
Novita AI ahora alberga la serie completa Speech 2.8, brindando a los desarrolladores acceso instantáneo a la API sin tiempos de inicio en frío.
Características clave y novedades
Etiquetas de tono emocional
La adición destacada. Inserta etiquetas entre paréntesis en cualquier parte de tu texto, y el modelo las integra perfectamente en el habla generada:
| Etiqueta | Efecto | Ejemplo |
(risas) |
Risa | “Eso es divertidísimo (risas)” |
(risita) |
Risa ligera | “Buena esa (risita)” |
(suspiros) |
Suspiro | “Bueno (suspiros), allá vamos” |
(jadeos) |
Jadeo de sorpresa | “Espera (jadeos)! ¿En serio?” |
(se aclara la garganta) |
Aclarar la garganta | “(se aclara la garganta) Empecemos” |
(tose) |
Tos | “Disculpa (tose)” |
(estornuda) |
Estornudo | “Achís (estornuda)! Lo siento” |
Esto no es solo una novedad: resuelve un problema real. Hasta ahora, hacer que la salida de TTS sonara espontánea requería edición en postproducción o superponer efectos de sonido manualmente. Con las etiquetas de tono, la expresividad se integra directamente en el pipeline de generación.
Modo de sonido continuo
Un nuevo parámetro continuous_sound suaviza las transiciones entre cláusulas, eliminando las sutiles “costuras” de audio que pueden hacer que el habla sintetizada se sienta entrecortada. Esto es especialmente notable en pasajes largos.
Heredado de la serie MiniMax Speech
La serie Speech 2.8 conserva el conjunto completo de características de sus predecesores:
- Más de 40 idiomas con
language_boostpara mejorar el reconocimiento de idiomas/dialectos minoritarios - 9 preajustes de emoción: feliz, triste, enojado, temeroso, disgustado, sorprendido, calmado, fluido, susurro
- Clonación de voz: usar voces del sistema, voces clonadas o voces generadas por texto
- Mezcla de voces: combinar hasta 4 voces con proporciones ponderadas mediante
timber_weights - Modificación de voz: ajustar tono, timbre e intensidad de forma independiente (rango -100 a 100)
- Efectos de sonido: eco espacioso, eco de auditorio, distorsión telefónica, robótico
- Formatos de salida de audio: MP3, PCM, FLAC, WAV
- Frecuencias de muestreo: 8,000 a 44,100 Hz
- Diccionario de pronunciación: reglas personalizadas para nombres de marcas, acrónimos y términos especializados
- Salida en streaming: para aplicaciones en tiempo real
- Límite de texto: hasta 10,000 caracteres por solicitud (síncrono), hasta 1,000,000 de caracteres (asíncrono)
Variantes del modelo: HD vs. Turbo, Síncrono vs. Asíncrono
Novita AI ofrece cuatro endpoints en la serie Speech 2.8:
| Variante | Endpoint | Mejor para |
| Speech 2.8 HD Síncrono | POST``/v3/minimax-speech-2.8-hd |
Calidad premium, tiempo real — audiolibros, locuciones profesionales |
| Speech 2.8 HD Asíncrono | POST /v3/async/minimax-speech-2.8-hd |
Calidad premium, formato largo — producción masiva de audiolibros, procesamiento por lotes |
| Speech 2.8 Turbo Síncrono | POST /v3/minimax-speech-2.8-turbo |
Baja latencia, tiempo real — agentes de voz, chatbots, atención al cliente en vivo |
| Speech 2.8 Turbo Asíncrono | POST /v3/async/minimax-speech-2.8-turbo |
Procesamiento rápido, formato largo — generación de contenido masivo, doblaje a gran escala |
HD vs. Turbo: HD ofrece fidelidad de audio de estudio — detalles tonales más ricos, representación emocional más matizada. Turbo optimiza la velocidad con una fidelidad ligeramente menor, lo que lo hace ideal para escenarios interactivos en tiempo real.
Síncrono vs. Asíncrono: Síncrono devuelve el audio en la respuesta de la API (hasta 10,000 caracteres). Asíncrono acepta hasta 1,000,000 de caracteres y devuelve un task_id para consultar el resultado — perfecto para audiolibros y flujos de trabajo por lotes.
Comparación con Speech 2.6
| Característica | Speech 2.6 | Speech 2.8 |
| Calidad de audio | Excelente | Excelente |
| Etiquetas de tono emocional | ❌ | ✅ (risas, suspiros, jadeos, etc.) |
| Modo de sonido continuo | ❌ | ✅ |
| Más de 40 idiomas | ✅ | ✅ |
| Clonación de voz | ✅ | ✅ |
| Mezcla de voces (hasta 4) | ✅ | ✅ |
| Preajustes de emoción (9 tipos) | ✅ | ✅ |
La ruta de actualización es clara: la serie Speech 2.8 te da todo lo que Speech 2.6 ofrece, más las etiquetas de tono emocional y el modo de sonido continuo, al mismo precio. No hay razón para no migrar.
Precios en Novita AI
La serie MiniMax Speech 2.8 en Novita AI sigue la misma estructura de precios que la serie 2.6:
| Modelo | Precio |
| Speech 2.8 Turbo (Síncrono y Asíncrono) | $60 / 1M caracteres |
| Speech 2.8 HD (Síncrono y Asíncrono) | $100 / 1M caracteres |
Para conocer los precios más recientes, visita la Consola de precios de Novita AI.
¿Listo para probar la serie MiniMax Speech 2.8? Regístrate en Novita AI y obtén créditos gratuitos para empezar a generar habla expresiva y similar a la humana en minutos. No se requiere configuración de infraestructura.
Quién debería usar cada variante
Imagina que estás decidiendo qué variante se adapta a tu proyecto. Aquí tienes una guía rápida basada en casos de uso reales:
🎙️ “Estoy construyendo una plataforma de podcasts o audiolibros”
→ Speech 2.8 HD Asíncrono
Necesitas la máxima fidelidad de audio y tu contenido es de formato largo. El endpoint asíncrono maneja hasta 1M de caracteres por solicitud — envía un capítulo completo y recupera el audio cuando esté listo. Combina las etiquetas de tono con los preajustes de emoción para dar vida a los personajes: un narrador que (suspiros) ante un giro argumental o (risas) ante un chiste hace que la experiencia auditiva sea mucho más atractiva.
🤖 “Estoy construyendo un agente de voz o chatbot en tiempo real”
→ Speech 2.8 Turbo Síncrono
La latencia lo es todo. Turbo Síncrono está diseñado para respuestas en tiempo real, manteniendo las conversaciones con un flujo natural. Añade un (risita) cuando tu agente haga un chiste, o un (se aclara la garganta) antes de dar información importante — pequeños detalles que hacen que las interacciones con IA se sientan menos robóticas.
🎮 “Estoy añadiendo voz a NPCs de juegos o aplicaciones interactivas”
→ Speech 2.8 HD Síncrono
Los personajes de juegos necesitan voces expresivas y de alta calidad. HD Síncrono te ofrece audio de calidad de estudio en tiempo real. Usa la mezcla de voces para crear timbres de personaje únicos, y añade etiquetas de tono para momentos dramáticos: un villano que (risas) de forma amenazante, un compañero que (jadeos) ante descubrimientos.
📹 “Estoy produciendo locuciones de video a gran escala”
→ Speech 2.8 Turbo Asíncrono
Necesitas procesamiento por lotes rápido sin gastar demasiado. Turbo Asíncrono equilibra velocidad y calidad para contenido de video de alto volumen — explicativos, clips para redes sociales, materiales de formación. Envía guiones en lote y recupera archivos de audio pulidos.
Cómo empezar en Novita AI
Paso 1: Pruébalo en el Playground
Antes de escribir una sola línea de código, explora la serie MiniMax Speech 2.8 directamente en el Playground de Novita AI:
- Playground de Speech 2.8 HD Síncrono
- Playground de Speech 2.8 Turbo Síncrono
- Playground de Speech 2.8 HD Asíncrono
- Playground de Speech 2.8 Turbo Asíncrono

Playground de Novita
Paso 2: Obtén tu clave API
- Regístrate para obtener una cuenta de Novita AI (nivel gratuito disponible)
- Navega a la sección de Claves API en tu panel de control
- Genera una nueva clave y guárdala

Paso 3: Realiza tu primera llamada a la API
MiniMax Speech 2.8 admite dos modos de llamada:
| Modo | Mejor para | Tipo de respuesta |
| Síncrono | Diálogo en tiempo real, respuestas instantáneas | Audio devuelto inmediatamente |
| Asíncrono | Audiolibros, contenido largo, procesamiento por lotes | ID de tarea → consultar resultado |
Opción A: Llamada síncrona (audio instantáneo)
Usa esto para texto corto cuando necesites resultados inmediatos.
Ejemplo en cURL:
curl --request POST \
--url https://api.novita.ai/v3/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"stream": true,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": true,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": true,
"text_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"stream_options": {
"exclude_aggregated_audio": true
},
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": true,
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Ejemplo en Python:
import requests
url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"stream": True,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": True,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": True,
"text_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"stream_options": { "exclude_aggregated_audio": True },
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": True,
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Opción B: Llamada asíncrona (para texto largo)
Usa esto para texto largo, o cuando quieras procesar varias solicitudes en lote.
1. Enviar la tarea
- cURL
curl --request POST \
--url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Python
import requests
url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
2. Consultar hasta que se complete
- cURL
curl --request GET \
--url https://api.novita.ai/v3/async/task-result \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>'
- Python
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
Paso 4: Explora funciones avanzadas
Una vez que tengas lo básico funcionando, prueba estas opciones:
- Mezcla de voces: Combina hasta 4 voces para un timbre único usando
timber_weights - Efectos de sonido: Añade filtros como
spacious_echooroboticmediantevoice_modify.sound_effects - Diccionario de pronunciación: Define reglas de pronunciación personalizadas para nombres de marcas y acrónimos
- Modo streaming: Configura
"stream": truepara entrega de audio en tiempo real en aplicaciones interactivas - Modificación de voz: Ajusta finamente
pitch,timbreeintensityenvoice_modify(rango -100 a 100 cada uno)
Conclusión
La serie MiniMax Speech 2.8 trae una mejora significativa a una familia de modelos TTS ya de primer nivel. La adición de etiquetas de tono emocional y el modo de sonido continuo aborda dos de los puntos débiles más comunes en la síntesis de voz por IA: hacer que el habla suene espontánea y eliminar transiciones no naturales entre cláusulas.
Con cuatro variantes disponibles en Novita AI — HD y Turbo, cada una en modos Síncrono y Asíncrono — la serie cubre todos los casos de uso, desde agentes de voz en tiempo real hasta producción de audiolibros a gran escala. El precio se mantiene consistente con la serie 2.6, por lo que obtienes estrictamente más capacidad por el mismo costo.
Si actualmente usas Speech 2.6 o estás evaluando opciones de TTS, la serie Speech 2.8 es una actualización directa. Pruébala en el Playground de Novita AI o comienza con la API hoy.
Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA usando nuestra API simple, al mismo tiempo que proporciona GPU en la nube asequible y confiable para construir y escalar.
Preguntas frecuentes
¿Qué variante debería elegir: HD o Turbo?
Elige HD cuando la calidad de audio sea la prioridad — audiolibros, locuciones profesionales, contenido premium.
Elige Turbo cuando la latencia importe — agentes de voz, chatbots, aplicaciones interactivas en tiempo real. Ambas admiten el conjunto completo de funciones, incluidas las etiquetas de tono.
¿Cuándo debo usar Síncrono vs. Asíncrono?
Usa Síncrono para texto de corto a mediano en tiempo real (hasta 10,000 caracteres).
Usa Asíncrono para contenido de formato largo (hasta 1,000,000 de caracteres) o flujos de trabajo de procesamiento por lotes.
¿Ofrece Novita AI un nivel gratuito para pruebas?
Sí. Regístrate para obtener una cuenta de Novita AI y recibir créditos gratuitos, que puedes usar para probar la serie Speech 2.8 y otros modelos en el Playground o a través de la API.
