Die MiniMax Speech 2.8 Serie ist das neueste Upgrade von MiniMax’s führender Text-zu-Sprache-Reihe und führt emotionale Ton-Tags ein — Inline-Marker wie (laughs), (sighs) und (gasps), die KI-generierte Sprache wirklich menschlich klingen lassen. Verfügbar in vier Varianten auf Novita AI (HD Sync, HD Async, Turbo Sync, Turbo Async) bleibt die 2.8 Serie bei dem gleichen Preis wie ihr Vorgänger, während sie einen Funktionsumfang hinzufügt, den Konkurrenten in dieser Preisklasse einfach nicht anbieten. Wenn Sie Sprachagenten, Hörbücher oder eine beliebige Audioinhalts-Pipeline entwickeln, ist dies die TTS-Modellserie, die Sie jetzt evaluieren sollten.
Was ist die MiniMax Speech 2.8 Serie?
MiniMax belegt konsequent eine Top-Position im Artificial Analysis Speech Arena und im Hugging Face TTS Arena und übertrifft in Blindtests Branchengrößen wie OpenAI.
Die Speech 2.8 Serie ist die neueste Evolution dieser Reihe. Basierend auf MiniMax’s autoregressiver Transformer-Architektur mit einem Flow-VAE-Decoder erzeugt sie Sprache in einem gelernten latenten Raum, anstatt sich auf traditionelle Mel-Spektrogramm-Vocoder zu verlassen — das Ergebnis ist Audio, das bemerkenswert natürlich klingt, mit korrekter Intonation, Atem und emotionalen Nuancen.
Das Hauptmerkmal der 2.8 Serie: emotionale Ton-Tags. Zum ersten Mal können Sie natürliche Einwürfe direkt in Ihre Texteingabe einbetten, und das Modell rendert sie als authentische menschliche Laute innerhalb des Sprachflusses.
Novita AI hostet jetzt die gesamte Speech 2.8 Serie und gibt Entwicklern sofortigen API-Zugriff ohne Kaltstarts.
Hauptmerkmale und Neuerungen
Emotionale Ton-Tags
Die herausragende Neuerung. Fügen Sie in Klammern gesetzte Tags an beliebiger Stelle in Ihren Text ein, und das Modell webt sie nahtlos in die generierte Sprache ein:
| Tag | Effekt | Beispiel |
(laughs) |
Lachen | “Das ist urkomisch (laughs)” |
(chuckle) |
Leises Lachen | “Guter Witz (chuckle)” |
(sighs) |
Seufzen | “Na gut (sighs), dann los” |
(gasps) |
Überraschter Keuchlaut | “Warte (gasps)! Wirklich?” |
(clears throat) |
Räuspern | “(clears throat) Fangen wir an” |
(coughs) |
Husten | “Entschuldigung (coughs)” |
(sneezes) |
Niesen | “Gesundheit (sneezes)! Tut mir leid” |
Das ist keine bloße Spielerei — es löst ein echtes Problem. Bisher erforderte es, dass TTS-Ausgabe spontan klingt, Nachbearbeitung oder das manuelle Hinzufügen von Soundeffekten. Mit Ton-Tags ist die Ausdrucksstärke fest in den Generierungspipeline eingebaut.
Kontinuierlicher Sound-Modus
Ein neuer continuous_sound Parameter glättet Übergänge zwischen Teilsätzen und beseitigt die subtilen Audio-“Nähte”, die synthetisierte Sprache wie zusammengenäht wirken lassen können. Das ist besonders bei längeren Passagen auffällig.
Aus der MiniMax Speech Serie übernommen
Die Speech 2.8 Serie behält den gesamten Funktionsumfang ihrer Vorgänger:
- 40+ Sprachen mit
language_boostfür verbesserte Erkennung von kleinen Sprachen/Dialekten - 9 Emotionsvoreinstellungen: fröhlich, traurig, wütend, ängstlich, angeekelt, überrascht, ruhig, fließend, flüstern
- Stimmklonung: Nutzen Sie Systemstimmen, geklonte Stimmen oder textgenerierte Stimmen
- Stimm-Mischung: Mischen Sie bis zu 4 Stimmen mit gewichteten Verhältnissen über
timber_weights - Stimmmodifikation: Passen Sie Tonhöhe, Timbre und Intensität unabhängig an (Bereich -100 bis 100)
- Soundeffekte: weiter Hall, Auditorium-Hall, Telefonverzerrung, roboterhaft
- Audio-Ausgabeformate: MP3, PCM, FLAC, WAV
- Abtastraten: 8.000 bis 44.100 Hz
- Aussprachewörterbuch: Benutzerdefinierte Regeln für Markennamen, Akronyme und Fachbegriffe
- Streaming-Ausgabe: für Echtzeitanwendungen
- Textlimit: bis zu 10.000 Zeichen pro Anfrage (Sync), bis zu 1.000.000 Zeichen (Async)
Modellvarianten: HD vs. Turbo, Sync vs. Async
Novita AI bietet vier Endpunkte in der Speech 2.8 Serie:
| Variante | Endpunkt | Am besten geeignet für |
| Speech 2.8 HD Sync | POST /v3/minimax-speech-2.8-hd |
Premium-Qualität, Echtzeit — Hörbücher, professionelle Sprachaufnahmen |
| Speech 2.8 HD Async | POST /v3/async/minimax-speech-2.8-hd |
Premium-Qualität, Langform — Massenproduktion von Hörbüchern, Stapelverarbeitung |
| Speech 2.8 Turbo Sync | POST /v3/minimax-speech-2.8-turbo |
Niedrige Latenz, Echtzeit — Sprachagenten, Chatbots, Live-Kundensupport |
| Speech 2.8 Turbo Async | POST /v3/async/minimax-speech-2.8-turbo |
Schnelle Verarbeitung, Langform — Masseninhaltserstellung, groß angelegte Synchronisation |
HD vs. Turbo: HD liefert studioqualitative Audio-Fidelität — reichere tonale Details, differenziertere Emotionsdarstellung. Turbo optimiert für Geschwindigkeit bei leicht geringerer Fidelität, was es ideal für Echtzeit-Interaktionsszenarien macht.
Sync vs. Async: Sync gibt Audio in der API-Antwort zurück (bis zu 10.000 Zeichen). Async akzeptiert bis zu 1.000.000 Zeichen und gibt eine task_id zum Abfragen zurück — perfekt für Hörbücher und Batch-Workflows.
Vergleich mit Speech 2.6
| Funktion | Speech 2.6 | Speech 2.8 |
| Audioqualität | Exzellent | Exzellent |
| Emotionale Ton-Tags | ❌ | ✅ (laughs, sighs, gasps usw.) |
| Kontinuierlicher Sound-Modus | ❌ | ✅ |
| 40+ Sprachen | ✅ | ✅ |
| Stimmklonung | ✅ | ✅ |
| Stimm-Mischung (bis zu 4) | ✅ | ✅ |
| Emotionsvoreinstellungen (9 Typen) | ✅ | ✅ |
Der Upgrade-Pfad ist klar: Die Speech 2.8 Serie bietet Ihnen alles, was die Speech 2.6 Serie kann, plus emotionale Ton-Tags und kontinuierlicher Sound-Modus, zum gleichen Preis. Es gibt keinen Grund, nicht zu migrieren.
Preise auf Novita AI
Die MiniMax Speech 2.8 Serie auf Novita AI folgt der gleichen Preisstruktur wie die 2.6 Serie:
| Modell | Preis |
| Speech 2.8 Turbo (Sync & Async) | $60 / 1M Zeichen |
| Speech 2.8 HD (Sync & Async) | $100 / 1M Zeichen |
Für die aktuellsten Preisdetails besuchen Sie die Novita AI Preiskonsole.
Bereit, die MiniMax Speech 2.8 Serie auszuprobieren? Melden Sie sich für Novita AI an und erhalten Sie kostenlose Guthaben, um innerhalb von Minuten expressive, menschenähnliche Sprache zu generieren. Keine Infrastruktur-Einrichtung erforderlich.
Wer sollte welche Variante nutzen
Stellen Sie sich vor, Sie entscheiden, welche Variante zu Ihrem Projekt passt. Hier ist eine kurze Anleitung basierend auf realen Anwendungsfällen:
🎙️ „Ich entwickle eine Podcast- oder Hörbuch-Plattform"
→ Speech 2.8 HD Async
Sie benötigen die höchste Audio-Fidelität, und Ihre Inhalte sind langformatig. Der Async-Endpunkt verarbeitet bis zu 1M Zeichen pro Anfrage — reichen Sie ein ganzes Kapitel ein und rufen Sie das Audio ab, sobald es fertig ist. Kombinieren Sie Ton-Tags mit Emotionsvoreinstellungen, um Charaktere zum Leben zu erwecken: Ein Erzähler, der bei einer Plotwende (sighs) oder bei einem Witz (laughs), macht das Hörerlebnis deutlich ansprechender.
🤖 „Ich entwickle einen Echtzeit-Sprachagenten oder Chatbot"
→ Speech 2.8 Turbo Sync
Latenz ist alles. Turbo Sync ist für Echtzeit-Antworten ausgelegt und hält Gespräche natürlich. Fügen Sie ein (chuckle) hinzu, wenn Ihr Agent einen Witz macht, oder ein (clears throat) bevor Sie wichtige Informationen übermitteln — kleine Details, die KI-Interaktionen weniger roboterhaft wirken lassen.
🎮 „Ich füge NPCs in Spielen oder interaktiven Apps Stimmen hinzu"
→ Speech 2.8 HD Sync
Spielcharaktere benötigen expressive, hochwertige Stimmen. HD Sync liefert Ihnen studioqualitative Audio in Echtzeit. Nutzen Sie Stimm-Mischung, um einzigartige Charakter-Timbres zu erstellen, und verteilen Sie Ton-Tags für dramatische Momente — ein Bösewicht, der bedrohlich (laughs), ein Begleiter, der bei Entdeckungen (gasps).
📹 „Ich produziere Video-Sprachaufnahmen im großen Maßstab"
→ Speech 2.8 Turbo Async
Sie benötigen schnelle Stapelverarbeitung, ohne das Budget zu sprengen. Turbo Async gleicht Geschwindigkeit und Qualität für hochvolumige Videoinhalte aus — Erklärvideos, Social-Media-Clips, Schulungsmaterial. Reichen Sie Skripte in Massen ein und rufen Sie fertige Audio-Dateien ab.
Erste Schritte auf Novita AI
Schritt 1: Probieren Sie es im Playground aus
Bevor Sie eine einzige Zeile Code schreiben, erkunden Sie die MiniMax Speech 2.8 Serie direkt im Novita AI Playground:
- Speech 2.8 HD Sync Playground
- Speech 2.8 Turbo Sync Playground
- Speech 2.8 HD Async Playground
- Speech 2.8 Turbo Async Playground

Novita Playground
Schritt 2: Holen Sie sich Ihren API-Schlüssel
- Melden Sie sich für ein Novita AI Konto an (kostenlose Stufe verfügbar)
- Navigieren Sie zum Abschnitt API-Schlüssel in Ihrem Dashboard
- Generieren Sie einen neuen Schlüssel und speichern Sie ihn

Schritt 3: Machen Sie Ihren ersten API-Aufruf
MiniMax Speech 2.8 unterstützt zwei Aufrufmodi:
| Modus | Am besten geeignet für | Antworttyp |
| Sync | Echtzeit-Dialoge, sofortige Antworten | Audio wird sofort zurückgegeben |
| Async | Hörbücher, lange Inhalte, Stapelverarbeitung | Task-ID → Abfrage des Ergebnisses |
Option A: Sync-Aufruf (Sofortiges Audio)
Nutzen Sie dies für kurze Texte, wenn Sie sofortige Ergebnisse benötigen.
cURL Beispiel:
curl --request POST \
--url https://api.novita.ai/v3/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"stream": true,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": true,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": true,
"text_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"stream_options": {
"exclude_aggregated_audio": true
},
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": true,
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Python Beispiel:
import requests
url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"stream": True,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"force_cbr": True,
"sample_rate": 123
},
"output_format": "<string>",
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"latex_read": True,
"text_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"stream_options": { "exclude_aggregated_audio": True },
"timber_weights": [
{
"weight": 123,
"voice_id": "<string>"
}
],
"subtitle_enable": True,
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Option B: Async-Aufruf (Für lange Texte)
Nutzen Sie dies für lange Texte oder wenn Sie mehrere Anfragen stapeln möchten.
1. Aufgabe einreichen
- cURL
curl --request POST \
--url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>' \
--data '
{
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": true
},
"aigc_watermark": true,
"language_boost": "<string>",
"continuous_sound": true,
"pronunciation_dict": {
"tone": [
{}
]
}
}
'
- Python
import requests
url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"
payload = {
"text": "<string>",
"text_file_id": 123,
"voice_modify": {
"pitch": 123,
"timbre": 123,
"intensity": 123,
"sound_effects": "<string>"
},
"audio_setting": {
"format": "<string>",
"bitrate": 123,
"channel": 123,
"audio_sample_rate": 123
},
"voice_setting": {
"vol": 123,
"pitch": 123,
"speed": 123,
"emotion": "<string>",
"voice_id": "<string>",
"english_normalization": True
},
"aigc_watermark": True,
"language_boost": "<string>",
"continuous_sound": True,
"pronunciation_dict": { "tone": [{}] }
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
2. Auf Abschluss abfragen
- cURL
curl --request GET \
--url https://api.novita.ai/v3/async/task-result \
--header 'Authorization: <authorization>' \
--header 'Content-Type: <content-type>'
- Python
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
Schritt 4: Erkunden Sie erweiterte Funktionen
Sobald die Grundlagen funktionieren, probieren Sie diese aus:
- Stimm-Mischung: Mischen Sie bis zu 4 Stimmen für ein einzigartiges Timbre mit
timber_weights - Soundeffekte: Fügen Sie
spacious_echooderroboticFilter übervoice_modify.sound_effectshinzu - Aussprachewörterbuch: Definieren Sie benutzerdefinierte Ausspracheregeln für Markennamen und Akronyme
- Streaming-Modus: Setzen Sie
"stream": truefür Echtzeit-Audioauslieferung in interaktiven Apps - Stimmmodifikation: Passen Sie
pitch,timbreundintensityinvoice_modifyfein ab (Bereich -100 bis 100 jeweils)
Fazit
Die MiniMax Speech 2.8 Serie bringt ein bedeutendes Upgrade für eine bereits erstklassige TTS-Modellfamilie. Die Hinzufügung von emotionalen Ton-Tags und kontinuierlichem Sound-Modus adressiert zwei der häufigsten Schmerzpunkte in der KI-Sprachsynthese: Sprache spontan klingen zu lassen und unnatürliche Übergänge zwischen Teilsätzen zu beseitigen.
Mit vier auf Novita AI verfügbaren Varianten — HD und Turbo, jeweils in Sync- und Async-Modi — deckt die Serie jeden Anwendungsfall ab, von Echtzeit-Sprachagenten bis hin zur groß angelegten Hörbuchproduktion. Die Preisstruktur bleibt konsistent mit der 2.6 Serie, also erhalten Sie streng genommen mehr Funktionalität für den gleichen Preis.
Wenn Sie derzeit Speech 2.6 nutzen oder TTS-Optionen evaluieren, ist die Speech 2.8 Serie ein einfaches Upgrade. Probieren Sie es im Novita AI Playground aus oder legen Sie noch heute mit der API los.
Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen, und gleichzeitig erschwingliche und zuverlässige GPU-Cloud für die Entwicklung und Skalierung von KI-Anwendungen bereitstellt.
Häufig gestellte Fragen
Welche Variante soll ich wählen: HD oder Turbo?
Wählen Sie HD, wenn Audioqualität die Priorität ist — Hörbücher, professionelle Sprachaufnahmen, Premium-Inhalte.
Wählen Sie Turbo, wenn Latenz wichtig ist — Sprachagenten, Chatbots, Echtzeit-Interaktionsanwendungen. Beide unterstützen den gesamten Funktionsumfang einschließlich Ton-Tags.
Wann soll ich Sync vs. Async verwenden?
Nutzen Sie Sync für Echtzeit, kurze bis mittlere Texte (bis zu 10.000 Zeichen).
Nutzen Sie Async für langformatige Inhalte (bis zu 1.000.000 Zeichen) oder Stapelverarbeitungs-Workflows.
Bietet Novita AI eine kostenlose Stufe zum Testen?
Ja. Melden Sie sich für ein Novita AI Konto an, um kostenlose Guthaben zu erhalten, die Sie zum Testen der Speech 2.8 Serie und anderer Modelle im Playground oder per API nutzen können.
