La série MiniMax Speech 2.8 est la dernière évolution de la gamme de synthèse vocale de pointe de MiniMax, introduisant des balises de ton émotionnel — des marqueurs intégrés comme (laughs), (sighs) et (gasps) qui rendent la parole générée par l’IA véritablement humaine. Disponible en quatre variantes sur Novita AI (HD Sync, HD Async, Turbo Sync, Turbo Async), la série 2.8 conserve les mêmes tarifs que sa version précédente tout en ajoutant un ensemble de fonctionnalités que les concurrents n’offrent tout simplement pas à ce niveau. Si vous développez des agents vocaux, des livres audio ou tout pipeline de contenu audio, c’est la série de modèles TTS à évaluer dès maintenant.
Qu’est-ce que la série MiniMax Speech 2.8 ?
MiniMax occupe constamment une place de premier plan sur l’Arène de synthèse vocale Artificial Analysis et l’Arène TTS Hugging Face, surpassant des poids lourds du secteur comme OpenAI lors d’évaluations à l’aveugle.
La série Speech 2.8 est la dernière évolution de cette lignée. Construite sur l’architecture Transformer autorégressive de MiniMax avec un décodeur Flow-VAE, elle génère de la parole dans un espace latent appris plutôt que de s’appuyer sur des vocoders mel-spectrogrammes traditionnels — le résultat est un audio qui sonne remarquablement naturel, avec une intonation, une respiration et des nuances émotionnelles appropriées.
La fonctionnalité phare de la série 2.8 : les balises de ton émotionnel. Pour la première fois, vous pouvez intégrer des interjections naturelles directement dans votre saisie de texte, et le modèle les rend sous forme de sons humains authentiques dans le flux de parole.
Novita AI héberge désormais l’intégralité de la série Speech 2.8, offrant aux développeurs un accès API instantané sans démarrage à froid.
Fonctionnalités clés et nouveautés
Balises de ton émotionnel
L’ajout le plus remarquable. Insérez des balises entre parenthèses n’importe où dans votre texte, et le modèle les intègre de manière transparente dans la parole générée :
| Balise | Effet | Exemple |
(laughs) |
Rire | “C’est hilarant (laughs)” |
(chuckle) |
Rire léger | “Bien joué (chuckle)” |
(sighs) |
Soupir | “Oh eh bien (sighs), on y va” |
(gasps) |
Gasp surpris | “Attends (gasps) ! Vraiment ?” |
(clears throat) |
Éclaircissement de gorge | “(clears throat) Commençons” |
(coughs) |
Toux | “Pardon (coughs)” |
(sneezes) |
Éternuement | “Atchoum (sneezes) ! Désolé” |
Ce n’est pas qu’une nouveauté — cela résout un problème réel. Jusqu’à présent, pour que la sortie TTS sonne spontanée, il fallait recourir à un montage post-production ou ajouter manuellement des effets sonores. Avec les balises de ton, l’expressivité est intégrée directement dans le pipeline de génération.
Mode de son continu
Un nouveau paramètre continuous_sound lisse les transitions entre les clauses, éliminant les petites « coutures » audio qui peuvent donner l’impression que la parole synthétisée est assemblée de manière artificielle. Cela est particulièrement perceptible dans les passages plus longs.
Fonctionnalités héritées de la série MiniMax Speech
La série Speech 2.8 conserve l’ensemble des fonctionnalités de ses versions précédentes :
- 40+ langues avec
language_boostpour une reconnaissance améliorée des langues et dialectes minoritaires - 9 préréglages d’émotion : heureux, triste, en colère, craintif, dégoûté, surpris, calme, fluide, chuchotement
- Clonage vocal : utilisez des voix système, des voix clonées ou des voix générées à partir de texte
- Mélange vocal : mélangez jusqu’à 4 voix avec des ratios pondérés via
timber_weights - Modification vocale : ajustez indépendamment la hauteur, le timbre et l’intensité (plage de -100 à 100)
- Effets sonores : écho spacieux, écho de salle de concert, distorsion téléphonique, robotique
- Formats de sortie audio : MP3, PCM, FLAC, WAV
- Fréquences d’échantillonnage : de 8 000 à 44 100 Hz
- Dictionnaire de prononciation : règles personnalisées pour les noms de marque, les acronymes et les termes spécialisés
- Sortie en streaming : pour les applications en temps réel
- Limite de texte : jusqu’à 10 000 caractères par requête (synchrone), jusqu’à 1 000 000 de caractères (asynchrone)
Variantes de modèle : HD vs Turbo, Synchrone vs Asynchrone
Novita AI propose quatre points d’accès dans la série Speech 2.8 :
| Variante | Point d’accès | Cas d’usage optimal |
| Speech 2.8 HD Sync | POST``/v3/minimax-speech-2.8-hd |
Qualité premium, temps réel — livres audio, voix off professionnelles |
| Speech 2.8 HD Async | POST /v3/async/minimax-speech-2.8-hd |
Qualité premium, contenu long — production de livres audio en masse, traitement par lots |
| Speech 2.8 Turbo Sync | POST /v3/minimax-speech-2.8-turbo |
Faible latence, temps réel — agents vocaux, chatbots, support client en direct |
| Speech 2.8 Turbo Async | POST /v3/async/minimax-speech-2.8-turbo |
Traitement rapide, contenu long — génération de contenu en masse, doublage à grande échelle |
HD vs Turbo : la version HD offre une fidélité audio de qualité studio — des détails tonaux plus riches, un rendu des émotions plus nuancé. La version Turbo est optimisée pour la vitesse avec une fidélité légèrement inférieure, ce qui la rend idéale pour les scénarios interactifs en temps réel.
Synchrone vs Asynchrone : le mode synchrone renvoie l’audio dans la réponse API (jusqu’à 10 000 caractères). Le mode asynchrone accepte jusqu’à 1 000 000 de caractères et renvoie un task_id pour le sondage — parfait pour les livres audio et les workflows de traitement par lots.
Comparaison avec la série Speech 2.6
| Fonctionnalité | Speech 2.6 | Speech 2.8 |
| Qualité audio | Excellente | Excellente |
| Balises de ton émotionnel | ❌ | ✅ (laughs, sighs, gasps, etc.) |
| Mode de son continu | ❌ | ✅ |
| 40+ langues | ✅ | ✅ |
| Clonage vocal | ✅ | ✅ |
| Mélange vocal (jusqu’à 4) | ✅ | ✅ |
| Préréglages d’émotion (9 types) | ✅ | ✅ |
Le chemin de mise à niveau est clair : la série Speech 2.8 vous offre tout ce que fait la série Speech 2.6, plus les balises de ton émotionnel et le mode de son continu, au même tarif. Il n’y a aucune raison de ne pas migrer.
Tarification sur Novita AI
La série MiniMax Speech 2.8 sur Novita AI suit la même structure tarifaire que la série 2.6 :
| Modèle | Prix |
| Speech 2.8 Turbo (Synchrone & Asynchrone) | 60 $ / 1M de caractères |
| Speech 2.8 HD (Synchrone & Asynchrone) | 100 $ / 1M de caractères |
Pour les derniers détails tarifaires, consultez la Console de tarification Novita AI.
Prêt à essayer la série MiniMax Speech 2.8 ? Inscrivez-vous sur Novita AI et obtenez des crédits gratuits pour commencer à générer de la parole expressive et humaine en quelques minutes. Aucune configuration d’infrastructure requise.
Quelle variante choisir selon votre usage
Imaginez que vous hésitez sur la variante adaptée à votre projet. Voici un guide rapide basé sur des cas d’usage réels :
🎙️ « Je développe une plateforme de podcast ou de livre audio »
→ Speech 2.8 HD Async
Vous avez besoin de la meilleure fidélité audio possible, et votre contenu est de format long. Le point d’accès asynchrone gère jusqu’à 1M de caractères par requête — soumettez un chapitre entier et récupérez l’audio une fois prêt. Associez les balises de ton aux préréglages d’émotion pour donner vie aux personnages : un narrateur qui (sighs) lors d’un retournement de situation ou qui (laughs) lors d’une blague rend l’expérience d’écoute beaucoup plus engageante.
🤖 « Je développe un agent vocal ou un chatbot en temps réel »
→ Speech 2.8 Turbo Sync
La latence est tout. Le Turbo Sync est conçu pour une réponse en temps réel, pour que les conversations restent naturelles. Ajoutez un (chuckle) lorsque votre agent fait une blague, ou un (clears throat) avant de délivrer des informations importantes — de petites touches qui rendent les interactions avec l’IA moins robotiques.
🎮 « J’ajoute de la voix aux PNJ de jeux ou aux applications interactives »
→ Speech 2.8 HD Sync
Les personnages de jeu ont besoin de voix expressives et de haute qualité. Le HD Sync vous offre un audio de qualité studio en temps réel. Utilisez le mélange vocal pour créer des timbres de personnages uniques, et ajoutez des balises de ton pour les moments dramatiques — un méchant qui (laughs) de manière menaçante, un compagnon qui (gasps) lors de découvertes.
📹 « Je produis des voix off vidéo à grande échelle »
→ Speech 2.8 Turbo Async
Vous avez besoin d’un traitement par lots rapide sans dépenser une fortune. Le Turbo Async équilibre vitesse et qualité pour des contenus vidéo à haut volume — vidéos explicatives, clips pour les réseaux sociaux, matériels de formation. Soumettez des scripts en masse et récupérez des fichiers audio polis.
Comment démarrer sur Novita AI
Étape 1 : Essayez-le dans le Playground
Avant d’écrire une seule ligne de code, explorez la série MiniMax Speech 2.8 directement dans le Playground Novita AI :
- Playground Speech 2.8 HD Sync
- Playground Speech 2.8 Turbo Sync
- Playground Speech 2.8 HD Async
- Playground Speech 2.8 Turbo Async

Playground Novita AI
Étape 2 : Récupérez votre clé API
- Inscrivez-vous pour un compte Novita AI (offre gratuite disponible)
- Accédez à la section Clés API de votre tableau de bord
- Générez une nouvelle clé et enregistrez-la

Étape 3 : Effectuez votre premier appel API
Le MiniMax Speech 2.8 prend en charge deux modes d’appel :
| Mode | Cas d’usage optimal | Type de réponse |
| Synchrone | Dialogue en temps réel, réponses instantanées | Audio renvoyé immédiatement |
| Asynchrone | Livres audio, contenu long, traitement par lots | ID de tâche → sondage pour récupérer le résultat |
Option A : Appel synchrone (audio instantané)
Utilisez ce mode pour des textes courts lorsque vous avez besoin de résultats immédiats.
Exemple cURL :
curl --request POST \
--url https://api.novita.ai/v3/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"stream": true,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": true,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": true,
"text_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"stream_options": {
"exclude_aggregated_audio": true
},
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": true,
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Exemple Python :
import requests
url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"stream": True,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": True,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": True,
"text_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"stream_options": { "exclude_aggregated_audio": True },
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": True,
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Option B : Appel asynchrone (pour les textes longs)
Utilisez ce mode pour des textes longs, ou lorsque vous souhaitez traiter plusieurs requêtes par lots.
1. Soumettre la tâche
- cURL
curl --request POST \
--url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Python
import requests
url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
2. Sonder l’avancement
- cURL
curl --request GET \
--url https://api.novita.ai/v3/async/task-result \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>'
- Python
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
Étape 4 : Explorez les fonctionnalités avancées
Une fois que vous avez maîtrisé les bases, essayez ces fonctionnalités :
- Mélange vocal : Mélangez jusqu’à 4 voix pour obtenir un timbre unique via
timber_weights - Effets sonores : Ajoutez un filtre
spacious_echoouroboticviavoice_modify.sound_effects - Dictionnaire de prononciation : Définissez des règles de prononciation personnalisées pour les noms de marque et les acronymes
- Mode streaming : Définissez
"stream": truepour une diffusion audio en temps réel dans les applications interactives - Modification vocale : Ajustez finement
pitch,timbreetintensitydansvoice_modify(plage de -100 à 100 pour chaque paramètre)
Conclusion
La série MiniMax Speech 2.8 apporte une mise à niveau significative à une famille de modèles TTS déjà de premier plan. L’ajout de balises de ton émotionnel et du mode de son continu résout deux des points de douleur les plus courants de la synthèse vocale par IA : rendre la parole spontanée et éliminer les transitions non naturelles entre les clauses.
Avec quatre variantes disponibles sur Novita AI — HD et Turbo, chacune en modes synchrone et asynchrone — la série couvre tous les cas d’usage, des agents vocaux en temps réel à la production de livres audio à grande échelle. La tarification reste identique à celle de la série 2.6, vous bénéficiez donc de strictement plus de fonctionnalités pour le même coût.
Si vous utilisez actuellement la série Speech 2.6 ou que vous évaluez des options TTS, la série Speech 2.8 est une mise à niveau simple. Essayez-la dans le Playground Novita AI ou démarrez avec l’API dès aujourd’hui.
Novita AI est une plateforme cloud IA qui offre aux développeurs un moyen simple de déployer des modèles IA via notre API intuitive, tout en fournissant un cloud GPU abordable et fiable pour construire et mettre à l’échelle vos projets.
Foire aux questions
Quelle variante choisir : HD ou Turbo ?
Choisissez la version HD lorsque la qualité audio est la priorité : livres audio, voix off professionnelles, contenu premium.
Choisissez la version Turbo lorsque la latence est importante : agents vocaux, chatbots, applications interactives en temps réel. Les deux versions prennent en charge l’ensemble des fonctionnalités, y compris les balises de ton.
Quand utiliser le mode synchrone vs asynchrone ?
Utilisez le mode synchrone pour des textes courts à moyens en temps réel (jusqu’à 10 000 caractères).
Utilisez le mode asynchrone pour des contenus longs (jusqu’à 1 000 000 de caractères) ou des workflows de traitement par lots.
Novita AI propose-t-elle une offre gratuite pour les tests ?
Oui. Inscrivez-vous pour un compte Novita AI pour recevoir des crédits gratuits, que vous pouvez utiliser pour tester la série Speech 2.8 et les autres modèles dans le Playground ou via l’API.
