Novita AI의 MiniMax Speech 2.8 시리즈: 모든 음성 애플리케이션을 위한 감정 톤 태그가 포함된 표현력 있는 TTS

Novita AI의 MiniMax Speech 2.8 시리즈: 모든 음성 애플리케이션을 위한 감정 톤 태그가 포함된 표현력 있는 TTS

MiniMax Speech 2.8 시리즈는 MiniMax의 선도적인 텍스트 음성 변환 라인업의 최신 업그레이드로, 감정 톤 태그(웃음), (한숨), (숨 참기)와 같은 인라인 마커를 도입하여 AI 생성 음성이 진정 인간처럼 들리게 합니다. Novita AI에서 4가지 변형(HD Sync, HD Async, Turbo Sync, Turbo Async)으로 제공되는 2.8 시리즈는 이전 모델과 동일한 가격을 유지하면서도 경쟁사가 이 등급에서 제공하지 않는 기능 세트를 추가했습니다. 음성 에이전트, 오디오북 또는 오디오 콘텐츠 파이프라인을 구축 중이라면 지금 평가해볼 TTS 모델 시리즈입니다.

MiniMax Speech 2.8 시리즈란 무엇인가?

MiniMax는 Artificial Analysis Speech ArenaHugging Face TTS Arena에서 꾸준히 최상위권을 유지하며 블라인드 평가에서 OpenAI와 같은 업계 강자들을 능가하고 있습니다.

Speech 2.8 시리즈는 그 계보의 최신 진화입니다. MiniMax의 자기회귀 Transformer 아키텍처와 Flow-VAE 디코더를 기반으로 하여, 전통적인 멜-스펙트로그램 보코더에 의존하지 않고 학습된 잠재 공간에서 음성을 생성합니다. 결과는 적절한 억양, 호흡, 감정적 뉘앙스를 갖춘 놀랍도록 자연스러운 오디오입니다.

2.8 시리즈의 핵심 기능: 감정 톤 태그. 처음으로 자연스러운 감탄사를 텍스트 입력에 직접 삽입할 수 있으며, 모델이 이를 음성 흐름 내에서 실제 인간 소리로 렌더링합니다.

Novita AI는 이제 전체 Speech 2.8 시리즈를 호스팅하여 개발자에게 콜드 스타트 없이 즉시 API 액세스를 제공합니다.

주요 기능 및 새로운 점

감정 톤 태그

가장 눈에 띄는 추가 기능입니다. 텍스트 어디든 괄호로 묶인 태그를 삽입하면 모델이 생성된 음성에 매끄럽게 통합합니다:

태그 효과 예시
(laughs) 웃음 “정말 웃겨요 (laughs)
(chuckle) 가벼운 웃음 “좋은 농담이네요 (chuckle)
(sighs) 한숨 “아 (sighs), 시작이군요”
(gasps) 놀란 숨 참기 “잠깐 (gasps)! 진짜요?”
(clears throat) 목소리 가다듬기 (clears throat) 시작하겠습니다”
(coughs) 기침 “실례합니다 (coughs)
(sneezes) 재채기 “에취 (sneezes)! 죄송합니다”

이것은 단순한 novelty가 아닙니다 — 실제 문제를 해결합니다. 지금까지 TTS 출력을 자연스럽게 만들려면 사후 편집이나 수동으로 음향 효과를 레이어링해야 했습니다. 이제 톤 태그를 통해 표현력이 생성 파이프라인에 직접 내장됩니다.

연속 음성 모드

새로운 continuous_sound 파라미터는 절 사이의 전환을 부드럽게 하여 합성 음성이 이어붙인 듯한 느낌을 주는 미세한 오디오 "이음새"를 제거합니다. 특히 긴 구절에서 두드러집니다.

MiniMax Speech 시리즈에서 계승됨

Speech 2.8 시리즈는 이전 모델의 전체 기능 세트를 유지합니다:

  • 40개 이상의 언어language_boost로 소수 언어/방언 인식 강화
  • 9가지 감정 프리셋: 행복, 슬픔, 분노, 두려움, 혐오, 놀람, 차분, 유창, 속삭임
  • 음성 복제: 시스템 음성, 복제 음성 또는 텍스트 생성 음성 사용
  • 음성 혼합: timber_weights를 통해 최대 4개 음성을 가중치 비율로 혼합
  • 음성 변조: 피치, 음색, 강도를 독립적으로 조정 (범위 -100 ~ 100)
  • 음향 효과: 넓은 에코, 강당 에코, 전화 왜곡, 로봇 음성
  • 오디오 출력 형식: MP3, PCM, FLAC, WAV
  • 샘플 레이트: 8,000 ~ 44,100 Hz
  • 발음 사전: 브랜드명, 약어, 전문 용어에 대한 사용자 정의 규칙
  • 스트리밍 출력: 실시간 애플리케이션용
  • 텍스트 제한: 요청당 최대 10,000자 (동기), 최대 1,000,000자 (비동기)

모델 변형: HD vs Turbo, Sync vs Async

Novita AI는 Speech 2.8 시리즈에서 4개의 엔드포인트를 제공합니다:

변형 엔드포인트 최적 용도
Speech 2.8 HD Sync POST /v3/minimax-speech-2.8-hd 프리미엄 품질, 실시간 — 오디오북, 전문 음성 해설
Speech 2.8 HD Async POST /v3/async/minimax-speech-2.8-hd 프리미엄 품질, 장문 — 대량 오디오북 제작, 배치 처리
Speech 2.8 Turbo Sync POST /v3/minimax-speech-2.8-turbo 저지연, 실시간 — 음성 에이전트, 챗봇, 라이브 고객 지원
Speech 2.8 Turbo Async POST /v3/async/minimax-speech-2.8-turbo 빠른 처리, 장문 — 대량 콘텐츠 생성, 대규모 더빙

HD vs Turbo: HD는 스튜디오급 오디오 품질을 제공합니다 — 더 풍부한 음색 디테일, 더 미묘한 감정 렌더링. Turbo는 약간 낮은 충실도로 속도를 최적화하여 실시간 대화형 시나리오에 이상적입니다.

Sync vs Async: Sync는 API 응답으로 오디오를 반환합니다 (최대 10,000자). Async는 최대 1,000,000자를 허용하고 task_id를 반환하여 폴링합니다 — 오디오북 및 배치 워크플로에 적합합니다.

Speech 2.6과의 비교

기능 Speech 2.6 Speech 2.8
오디오 품질 우수 우수
감정 톤 태그 ✅ (웃음, 한숨, 숨 참기 등)
연속 음성 모드
40개 이상 언어
음성 복제
음성 혼합 (최대 4개)
감정 프리셋 (9종)

업그레이드 경로는 명확합니다: Speech 2.8 시리즈는 동일한 가격으로 Speech 2.6의 모든 기능에 감정 톤 태그와 연속 음성 모드를 추가로 제공합니다. 마이그레이션하지 않을 이유가 없습니다.

Novita AI 가격

Novita AI의 MiniMax Speech 2.8 시리즈는 2.6 시리즈와 동일한 가격 구조를 따릅니다:

모델 가격
Speech 2.8 Turbo (Sync & Async) $60 / 100만 자
Speech 2.8 HD (Sync & Async) $100 / 100만 자

최신 가격 정보는 Novita AI 가격 콘솔을 방문하세요.

MiniMax Speech 2.8 시리즈를 사용해볼 준비가 되셨나요? Novita AI 가입하기를 통해 무료 크레딧을 받고 몇 분 만에 표현력 있고 인간적인 음성 생성을 시작하세요. 인프라 설정이 필요 없습니다.

계정 만들기

각 변형을 사용해야 하는 대상

어떤 변형이 프로젝트에 맞는지 결정 중이라고 상상해보세요. 실제 사용 사례를 바탕으로 한 빠른 가이드입니다:

🎙️ “팟캐스트나 오디오북 플랫폼을 구축 중입니다”

→ Speech 2.8 HD Async

최고의 오디오 충실도가 필요하며 콘텐츠가 장문입니다. 비동기 엔드포인트는 요청당 최대 100만 자를 처리합니다 — 전체 챕터를 제출하고 준비되면 오디오를 검색하세요. 톤 태그와 감정 프리셋을 함께 사용하여 캐릭터에 생명을 불어넣으세요: 플롯 트위스트에 (sighs)하는 내레이터나 농담에 (laughs)하는 내레이터는 청취 경험을 훨씬 더 매력적으로 만듭니다.

🤖 “실시간 음성 에이전트나 챗봇을 구축 중입니다”

→ Speech 2.8 Turbo Sync

지연 시간이 가장 중요합니다. Turbo Sync는 실시간 응답을 위해 설계되어 대화가 자연스럽게 느껴지도록 합니다. 에이전트가 농담을 할 때 (chuckle)을 추가하거나 중요한 정보를 전달하기 전에 (clears throat)를 추가하세요 — 이러한 작은 터치가 AI 상호작용을 덜 로봇처럼 느끼게 만듭니다.

🎮 “게임 NPC나 인터랙티브 앱에 음성을 추가 중입니다”

→ Speech 2.8 HD Sync

게임 캐릭터는 표현력 있고 고품질의 음성이 필요합니다. HD Sync는 실시간으로 스튜디오급 오디오를 제공합니다. 음성 혼합을 사용하여 독특한 캐릭터 음색을 만들고 극적인 순간에 톤 태그를 추가하세요 — 위협적으로 (laughs)하는 악당, 발견에 (gasps)하는 동료.

📹 “대규모로 비디오 음성 해설을 제작 중입니다”

→ Speech 2.8 Turbo Async

비용 부담 없이 빠른 배치 처리가 필요합니다. Turbo Async는 대량 비디오 콘텐츠(설명 영상, 소셜 미디어 클립, 교육 자료)에 대해 속도와 품질의 균형을 맞춥니다. 스크립트를 일괄 제출하고 완성된 오디오 파일을 검색하세요.

Novita AI에서 시작하는 방법

1단계: Playground에서 시험해보기

코드를 한 줄도 작성하기 전에 Novita AI Playground에서 MiniMax Speech 2.8 시리즈를 직접 탐색해보세요:

Novita Playground

2단계: API 키 받기

  1. Novita AI 계정 가입 (무료 티어 제공)
  2. 대시보드에서 API 키 섹션으로 이동
  3. 새 키 생성 및 저장

API 키 받는 방법

3단계: 첫 번째 API 호출 만들기

MiniMax Speech 2.8은 두 가지 호출 모드를 지원합니다:

모드 최적 용도 응답 유형
동기(Sync) 실시간 대화, 즉시 응답 오디오 즉시 반환
비동기(Async) 오디오북, 긴 콘텐츠, 배치 처리 작업 ID → 폴링으로 결과 확인

옵션 A: 동기 호출 (즉시 오디오)

즉시 결과가 필요할 때 짧은 텍스트에 사용하세요.

cURL 예시:

curl --request POST \
  --url https://api.novita.ai/v3/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "stream": true,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "force_cbr": true,
    "sample_rate": 123
  },
  "output_format": "<string>",
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "latex_read": true,
    "text_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "stream_options": {
    "exclude_aggregated_audio": true
  },
  "timber_weights": [
    {
      "weight": 123,
      "voice_id": "<string>"
    }
  ],
  "subtitle_enable": true,
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Python 예시:
import requests

url = "https://api.novita.ai/v3/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "stream": True,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "force_cbr": True,
        "sample_rate": 123
    },
    "output_format": "<string>",
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "latex_read": True,
        "text_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "stream_options": { "exclude_aggregated_audio": True },
    "timber_weights": [
        {
            "weight": 123,
            "voice_id": "<string>"
        }
    ],
    "subtitle_enable": True,
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

옵션 B: 비동기 호출 (긴 텍스트용)

긴 텍스트나 여러 요청을 배치 처리할 때 사용하세요.

1. 작업 제출
  • cURL
curl --request POST \
  --url https://api.novita.ai/v3/async/minimax-speech-2.8-hd \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>' \
  --data '
{
  "text": "<string>",
  "text_file_id": 123,
  "voice_modify": {
    "pitch": 123,
    "timbre": 123,
    "intensity": 123,
    "sound_effects": "<string>"
  },
  "audio_setting": {
    "format": "<string>",
    "bitrate": 123,
    "channel": 123,
    "audio_sample_rate": 123
  },
  "voice_setting": {
    "vol": 123,
    "pitch": 123,
    "speed": 123,
    "emotion": "<string>",
    "voice_id": "<string>",
    "english_normalization": true
  },
  "aigc_watermark": true,
  "language_boost": "<string>",
  "continuous_sound": true,
  "pronunciation_dict": {
    "tone": [
      {}
    ]
  }
}
'
  • Python
import requests

url = "https://api.novita.ai/v3/async/minimax-speech-2.8-hd"

payload = {
    "text": "<string>",
    "text_file_id": 123,
    "voice_modify": {
        "pitch": 123,
        "timbre": 123,
        "intensity": 123,
        "sound_effects": "<string>"
    },
    "audio_setting": {
        "format": "<string>",
        "bitrate": 123,
        "channel": 123,
        "audio_sample_rate": 123
    },
    "voice_setting": {
        "vol": 123,
        "pitch": 123,
        "speed": 123,
        "emotion": "<string>",
        "voice_id": "<string>",
        "english_normalization": True
    },
    "aigc_watermark": True,
    "language_boost": "<string>",
    "continuous_sound": True,
    "pronunciation_dict": { "tone": [{}] }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)
2. 완료 폴링
  • cURL
 curl --request GET \
  --url https://api.novita.ai/v3/async/task-result \
  --header 'Authorization: <authorization>' \
  --header 'Content-Type: <content-type>'
  • Python
import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

4단계: 고급 기능 탐색

기본이 작동하면 다음을 시도해보세요:

  • 음성 혼합: timber_weights를 사용하여 최대 4개 음성을 혼합해 독특한 음색 생성
  • 음향 효과: voice_modify.sound_effects를 통해 spacious_echo 또는 robotic 필터 추가
  • 발음 사전: 브랜드명과 약어에 대한 사용자 정의 발음 규칙 정의
  • 스트리밍 모드: 인터랙티브 앱에서 실시간 오디오 전송을 위해 "stream": true 설정
  • 음성 변조: voice_modify에서 pitch, timbre, intensity 미세 조정 (각각 -100 ~ 100 범위)

결론

MiniMax Speech 2.8 시리즈는 이미 최고 수준의 TTS 모델 제품군에 의미 있는 업그레이드를 제공합니다. 감정 톤 태그와 연속 음성 모드의 추가는 AI 음성 합성에서 가장 흔한 두 가지 문제점, 즉 음성을 자연스럽게 만들고 절 사이의 부자연스러운 전환을 제거하는 문제를 해결합니다.

Novita AI에서 제공되는 4가지 변형(HD와 Turbo, 각각 Sync 및 Async 모드)을 통해 이 시리즈는 실시간 음성 에이전트부터 대규모 오디오북 제작까지 모든 사용 사례를 포괄합니다. 가격은 2.6 시리즈와 동일하게 유지되므로 동일한 비용으로 더 많은 기능을 얻을 수 있습니다.

현재 Speech 2.6을 사용 중이거나 TTS 옵션을 평가 중이라면 Speech 2.8 시리즈는 간단한 업그레이드입니다. 지금 Novita AI Playground에서 사용해보기 또는 API로 시작하기를 시작하세요.

***Novita AI*는 개발자가 간단한 API를 통해 AI 모델을 쉽게 배포할 수 있도록 지원하는 AI 클라우드 플랫폼이며, 구축 및 확장을 위한 저렴하고 안정적인 GPU 클라우드를 제공합니다.

자주 묻는 질문

HD와 Turbo 중 어떤 변형을 선택해야 하나요?

HD는 오디오 품질이 최우선일 때 선택하세요 — 오디오북, 전문 음성 해설, 프리미엄 콘텐츠.
Turbo는 지연 시간이 중요할 때 선택하세요 — 음성 에이전트, 챗봇, 실시간 인터랙티브 애플리케이션. 둘 다 톤 태그를 포함한 전체 기능 세트를 지원합니다.

Sync와 Async는 언제 사용해야 하나요?

Sync는 실시간, 짧거나 중간 길이의 텍스트(최대 10,000자)에 사용하세요.
Async는 장문 콘텐츠(최대 1,000,000자) 또는 배치 처리 워크플로에 사용하세요.

Novita AI에서 테스트용 무료 티어를 제공하나요?

네. Novita AI 계정에 가입하면 무료 크레딧을 받을 수 있으며, Playground나 API를 통해 Speech 2.8 시리즈 및 기타 모델을 테스트하는 데 사용할 수 있습니다.