Serie MiniMax Speech 2.8 en Novita AI: TTS expresivo con etiquetas de tono emocional para cada aplicación de voz

Serie MiniMax Speech 2.8 en Novita AI: TTS expresivo con etiquetas de tono emocional para cada aplicación de voz

La serie MiniMax Speech 2.8 es la última actualización de la línea líder de texto a voz de MiniMax, que introduce etiquetas de tono emocional — marcadores en línea como (risas), (suspiros) y (jadeos) que hacen que el habla generada por IA suene genuinamente humana. Disponible en cuatro variantes en Novita AI (HD Síncrono, HD Asíncrono, Turbo Síncrono, Turbo Asíncrono), la serie 2.8 mantiene el mismo precio que su predecesora mientras añade un conjunto de funciones que los competidores simplemente no ofrecen en este nivel. Si estás construyendo agentes de voz, audiolibros o cualquier canal de contenido de audio, esta es la serie de modelos TTS que debes evaluar ahora mismo.

¿Qué es la serie MiniMax Speech 2.8?

MiniMax ha mantenido consistentemente una posición superior en el Artificial Analysis Speech Arena y en el Hugging Face TTS Arena, superando a gigantes de la industria como OpenAI en evaluaciones ciegas.

La serie Speech 2.8 es la evolución más reciente de ese linaje. Construida sobre la arquitectura Transformer autorregresiva de MiniMax con un decodificador Flow-VAE, produce habla en un espacio latente aprendido en lugar de depender de vocoders tradicionales de mel-espectrograma; el resultado es un audio que suena notablemente natural, con entonación, respiración y matices emocionales adecuados.

La característica principal de la serie 2.8: etiquetas de tono emocional. Por primera vez, puedes incrustar interjecciones naturales directamente en tu entrada de texto, y el modelo las representa como sonidos humanos auténticos dentro del flujo del habla.

Novita AI ahora alberga la serie completa Speech 2.8, brindando a los desarrolladores acceso instantáneo a la API sin tiempos de inicio en frío.

Características clave y novedades

Etiquetas de tono emocional

La adición destacada. Inserta etiquetas entre paréntesis en cualquier parte de tu texto, y el modelo las integra perfectamente en el habla generada:

Etiqueta Efecto Ejemplo
(risas) Risa “Eso es divertidísimo (risas)
(risita) Risa ligera “Buena esa (risita)
(suspiros) Suspiro “Bueno (suspiros), allá vamos”
(jadeos) Jadeo de sorpresa “Espera (jadeos)! ¿En serio?”
(se aclara la garganta) Aclarar la garganta (se aclara la garganta) Empecemos”
(tose) Tos “Disculpa (tose)
(estornuda) Estornudo “Achís (estornuda)! Lo siento”

Esto no es solo una novedad: resuelve un problema real. Hasta ahora, hacer que la salida de TTS sonara espontánea requería edición en postproducción o superponer efectos de sonido manualmente. Con las etiquetas de tono, la expresividad se integra directamente en el pipeline de generación.

Modo de sonido continuo

Un nuevo parámetro continuous_sound suaviza las transiciones entre cláusulas, eliminando las sutiles “costuras” de audio que pueden hacer que el habla sintetizada se sienta entrecortada. Esto es especialmente notable en pasajes largos.

Heredado de la serie MiniMax Speech

La serie Speech 2.8 conserva el conjunto completo de características de sus predecesores:

  • Más de 40 idiomas con language_boost para mejorar el reconocimiento de idiomas/dialectos minoritarios
  • 9 preajustes de emoción: feliz, triste, enojado, temeroso, disgustado, sorprendido, calmado, fluido, susurro
  • Clonación de voz: usar voces del sistema, voces clonadas o voces generadas por texto
  • Mezcla de voces: combinar hasta 4 voces con proporciones ponderadas mediante timber_weights
  • Modificación de voz: ajustar tono, timbre e intensidad de forma independiente (rango -100 a 100)
  • Efectos de sonido: eco espacioso, eco de auditorio, distorsión telefónica, robótico
  • Formatos de salida de audio: MP3, PCM, FLAC, WAV
  • Frecuencias de muestreo: 8,000 a 44,100 Hz
  • Diccionario de pronunciación: reglas personalizadas para nombres de marcas, acrónimos y términos especializados
  • Salida en streaming: para aplicaciones en tiempo real
  • Límite de texto: hasta 10,000 caracteres por solicitud (síncrono), hasta 1,000,000 de caracteres (asíncrono)

Variantes del modelo: HD vs. Turbo, Síncrono vs. Asíncrono

Novita AI ofrece cuatro endpoints en la serie Speech 2.8:

Variante Endpoint Mejor para
Speech 2.8 HD Síncrono POST``/v3/minimax-speech-2.8-hd Calidad premium, tiempo real — audiolibros, locuciones profesionales
Speech 2.8 HD Asíncrono POST /v3/async/minimax-speech-2.8-hd Calidad premium, formato largo — producción masiva de audiolibros, procesamiento por lotes
Speech 2.8 Turbo Síncrono POST /v3/minimax-speech-2.8-turbo Baja latencia, tiempo real — agentes de voz, chatbots, atención al cliente en vivo
Speech 2.8 Turbo Asíncrono POST /v3/async/minimax-speech-2.8-turbo Procesamiento rápido, formato largo — generación de contenido masivo, doblaje a gran escala

HD vs. Turbo: HD ofrece fidelidad de audio de estudio — detalles tonales más ricos, representación emocional más matizada. Turbo optimiza la velocidad con una fidelidad ligeramente menor, lo que lo hace ideal para escenarios interactivos en tiempo real.

Síncrono vs. Asíncrono: Síncrono devuelve el audio en la respuesta de la API (hasta 10,000 caracteres). Asíncrono acepta hasta 1,000,000 de caracteres y devuelve un task_id para consultar el resultado — perfecto para audiolibros y flujos de trabajo por lotes.

Comparación con Speech 2.6

Característica Speech 2.6 Speech 2.8
Calidad de audio Excelente Excelente
Etiquetas de tono emocional ✅ (risas, suspiros, jadeos, etc.)
Modo de sonido continuo
Más de 40 idiomas
Clonación de voz
Mezcla de voces (hasta 4)
Preajustes de emoción (9 tipos)

La ruta de actualización es clara: la serie Speech 2.8 te da todo lo que Speech 2.6 ofrece, más las etiquetas de tono emocional y el modo de sonido continuo, al mismo precio. No hay razón para no migrar.

Precios en Novita AI

La serie MiniMax Speech 2.8 en Novita AI sigue la misma estructura de precios que la serie 2.6:

Modelo Precio
Speech 2.8 Turbo (Síncrono y Asíncrono) $60 / 1M caracteres
Speech 2.8 HD (Síncrono y Asíncrono) $100 / 1M caracteres

Para conocer los precios más recientes, visita la Consola de precios de Novita AI.

¿Listo para probar la serie MiniMax Speech 2.8? Regístrate en Novita AI y obtén créditos gratuitos para empezar a generar habla expresiva y similar a la humana en minutos. No se requiere configuración de infraestructura.

Crea tu cuenta

Quién debería usar cada variante

Imagina que estás decidiendo qué variante se adapta a tu proyecto. Aquí tienes una guía rápida basada en casos de uso reales:

🎙️ “Estoy construyendo una plataforma de podcasts o audiolibros”

→ Speech 2.8 HD Asíncrono

Necesitas la máxima fidelidad de audio y tu contenido es de formato largo. El endpoint asíncrono maneja hasta 1M de caracteres por solicitud — envía un capítulo completo y recupera el audio cuando esté listo. Combina las etiquetas de tono con los preajustes de emoción para dar vida a los personajes: un narrador que (suspiros) ante un giro argumental o (risas) ante un chiste hace que la experiencia auditiva sea mucho más atractiva.

🤖 “Estoy construyendo un agente de voz o chatbot en tiempo real”

→ Speech 2.8 Turbo Síncrono

La latencia lo es todo. Turbo Síncrono está diseñado para respuestas en tiempo real, manteniendo las conversaciones con un flujo natural. Añade un (risita) cuando tu agente haga un chiste, o un (se aclara la garganta) antes de dar información importante — pequeños detalles que hacen que las interacciones con IA se sientan menos robóticas.

🎮 “Estoy añadiendo voz a NPCs de juegos o aplicaciones interactivas”

→ Speech 2.8 HD Síncrono

Los personajes de juegos necesitan voces expresivas y de alta calidad. HD Síncrono te ofrece audio de calidad de estudio en tiempo real. Usa la mezcla de voces para crear timbres de personaje únicos, y añade etiquetas de tono para momentos dramáticos: un villano que (risas) de forma amenazante, un compañero que (jadeos) ante descubrimientos.

📹 “Estoy produciendo locuciones de video a gran escala”

→ Speech 2.8 Turbo Asíncrono

Necesitas procesamiento por lotes rápido sin gastar demasiado. Turbo Asíncrono equilibra velocidad y calidad para contenido de video de alto volumen — explicativos, clips para redes sociales, materiales de formación. Envía guiones en lote y recupera archivos de audio pulidos.

Cómo empezar en Novita AI

Paso 1: Pruébalo en el Playground

Antes de escribir una sola línea de código, explora la serie MiniMax Speech 2.8 directamente en el Playground de Novita AI:

Playground de Novita

Paso 2: Obtén tu clave API

  1. Regístrate para obtener una cuenta de Novita AI (nivel gratuito disponible)
  2. Navega a la sección de Claves API en tu panel de control
  3. Genera una nueva clave y guárdala

Cómo obtener tu clave API

Paso 3: Realiza tu primera llamada a la API

MiniMax Speech 2.8 admite dos modos de llamada:

Modo Mejor para Tipo de respuesta
Síncrono Diálogo en tiempo real, respuestas instantáneas Audio devuelto inmediatamente
Asíncrono Audiolibros, contenido largo, procesamiento por lotes ID de tarea → consultar resultado

Opción A: Llamada síncrona (audio instantáneo)

Usa esto para texto corto cuando necesites resultados inmediatos.

Ejemplo en cURL:

curl --request POST \
  --url https://api.novita.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Ejemplo en Python:
import requests

url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "stream": True,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "force_cbr": True,
        "sample_rate": 123
    },
    "output_format": "<string>",
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "stream_options": { "exclude_aggregated_audio": True },
    "timber_weights": [
        {
            "weight": 123,
            "voice_id": "<string>"
        }
    ],
    "subtitle_enable": True,
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

Opción B: Llamada asíncrona (para texto largo)

Usa esto para texto largo, o cuando quieras procesar varias solicitudes en lote.

1. Enviar la tarea
  • cURL
curl --request POST \
  --url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Python
import requests

url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)
2. Consultar hasta que se complete
  • cURL
 curl --request GET \
  --url https://api.novita.ai/v3/async/task-result \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>'
  • Python
import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

Paso 4: Explora funciones avanzadas

Una vez que tengas lo básico funcionando, prueba estas opciones:

  • Mezcla de voces: Combina hasta 4 voces para un timbre único usando timber_weights
  • Efectos de sonido: Añade filtros como spacious_echo o robotic mediante voice_modify.sound_effects
  • Diccionario de pronunciación: Define reglas de pronunciación personalizadas para nombres de marcas y acrónimos
  • Modo streaming: Configura "stream": true para entrega de audio en tiempo real en aplicaciones interactivas
  • Modificación de voz: Ajusta finamente pitch, timbre e intensity en voice_modify (rango -100 a 100 cada uno)

Conclusión

La serie MiniMax Speech 2.8 trae una mejora significativa a una familia de modelos TTS ya de primer nivel. La adición de etiquetas de tono emocional y el modo de sonido continuo aborda dos de los puntos débiles más comunes en la síntesis de voz por IA: hacer que el habla suene espontánea y eliminar transiciones no naturales entre cláusulas.

Con cuatro variantes disponibles en Novita AI — HD y Turbo, cada una en modos Síncrono y Asíncrono — la serie cubre todos los casos de uso, desde agentes de voz en tiempo real hasta producción de audiolibros a gran escala. El precio se mantiene consistente con la serie 2.6, por lo que obtienes estrictamente más capacidad por el mismo costo.

Si actualmente usas Speech 2.6 o estás evaluando opciones de TTS, la serie Speech 2.8 es una actualización directa. Pruébala en el Playground de Novita AI o comienza con la API hoy.

Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA usando nuestra API simple, al mismo tiempo que proporciona GPU en la nube asequible y confiable para construir y escalar.

Preguntas frecuentes

¿Qué variante debería elegir: HD o Turbo?

Elige HD cuando la calidad de audio sea la prioridad — audiolibros, locuciones profesionales, contenido premium.
Elige Turbo cuando la latencia importe — agentes de voz, chatbots, aplicaciones interactivas en tiempo real. Ambas admiten el conjunto completo de funciones, incluidas las etiquetas de tono.

¿Cuándo debo usar Síncrono vs. Asíncrono?

Usa Síncrono para texto de corto a mediano en tiempo real (hasta 10,000 caracteres).
Usa Asíncrono para contenido de formato largo (hasta 1,000,000 de caracteres) o flujos de trabajo de procesamiento por lotes.

¿Ofrece Novita AI un nivel gratuito para pruebas?

Sí. Regístrate para obtener una cuenta de Novita AI y recibir créditos gratuitos, que puedes usar para probar la serie Speech 2.8 y otros modelos en el Playground o a través de la API.