- TL;DR — クイック比較
- TTS APIで注目すべきポイント
- 1. Fish Audio — 多言語対応の開発者に最適な声のクローンAPI
- 2. ElevenLabs — 高い音声品質
- 3. Google Cloud Text-to-Speech — GCPエコシステムユーザーに最適
- 4. Amazon Polly — AWSユーザー向け強力な無料枠
- 5. Microsoft Azure TTS — 広い言語カバレッジ
- 6. OpenAI TTS — 既存のOpenAIユーザーに最適
- 7. PlayAI — 複数音声の会話に最適
- 8. Cartesia — リアルタイム音声AIに最適
- ユースケース別おすすめ
- よくある質問
- 結論
- おすすめ記事
2026年最高のテキスト読み上げAPI:8つのプロバイダを比較
2026年のテキスト読み上げAPIを8つレビュー・比較しました — 料金、音声品質、感情制御、声のクローン、開発者体験。最適なTTS APIはユースケース次第:リアルタイムレイテンシ、言語カバレッジ、予算、声のクローンが必要かどうか。
このガイドで取り上げるのは:Fish Audio(Novita AI提供)、ElevenLabs、Google Cloud TTS、Amazon Polly、Microsoft Azure TTS、OpenAI TTS、PlayAI、Cartesia。料金はすべて2026年5月時点の公式情報に基づきます。
TL;DR — クイック比較
| プロバイダ | 音声数 | 言語数 | 声のクローン | 料金(100万文字あたり) | 最適な用途 |
|---|---|---|---|---|---|
| Fish Audio | 20以上 | 10 | ✅ $0.1/声 | $15.00 | 声のクローンが$0.1/声、44.1kHz品質 |
| ElevenLabs | 3,000以上 | 29 | ✅ インスタント+プロ | $120~$300 | 高い自然さ(Artificial Analysis) |
| Google Cloud TTS | 220以上 | 40以上 | ❌ エンタープライズのみ | $4~$160 | GCPエコシステム、SSMLパワーユーザー |
| Amazon Polly | 60以上 | 30以上 | ❌ | $4~$100 | AWSエコシステム、新規向け強力な無料枠 |
| Microsoft Azure TTS | 400以上 | 140以上 | ✅ Personal Voice | $16~$100 | エンタープライズ、調査対象中最も広い言語カバレッジ |
| OpenAI TTS | 10 | 約57 | ❌ | $15~$30 | OpenAIパイプラインユーザー |
| PlayAI | 900以上 | 142 | ✅ インスタント | $15~$100 | 複数音声の会話 |
| Cartesia | 150以上 | 42 | ✅ | クレジットベース | リアルタイム音声AI(100ms未満) |
料金は2026年5月6日最終確認。購入前に各プロバイダのページをご確認ください。
TTS APIで注目すべきポイント
- レイテンシ: リアルタイムエージェントは300ms未満が必要。バッチ処理は非同期でOK。
- 音声品質: Artificial Analysis Speech Arenaによる73モデルのベンチマーク評価。
- 言語・音声カバレッジ: 10音声/英語のみ(Deepgram)から400音声/140言語以上(Azure)まで。
- 感情制御: なし(Polly Standard)から50以上のSSMLスタイル(Azure)、明示的なenumパラメータ(Novita AI経由のMiniMax)まで。
- 料金モデル: サブスクリプション(ElevenLabs)、従量課金(Cartesia、Novita AI)、クラウドアカウント課金(Polly、Google)。
1. Fish Audio — 多言語対応の開発者に最適な声のクローンAPI
Fish Audioの音声モデルは44.1kHz出力品質、10~30秒の音声から$0.1/声で声のクローンを提供し、英語、中国語、日本語、韓国語、アラビア語を含む10言語に対応。Novita AIのAPIから$15/100万文字でアクセス可能 — サブスクリプション不要。
主な仕様
- モデル:
s1(Fish Audio v4beta、reference_idパラメータで指定) - 音声: 10言語(英語、中国語、日本語、韓国語、スペイン語、フランス語、ドイツ語、ロシア語、アラビア語、ポルトガル語)で20の組み込み音声 — 各言語に男性1、女性1
- 音声品質: 44,100 Hzサンプルレート、mp3/opus/wav/pcm出力対応
- 最大入力: 1リクエストあたり10,000文字
- レイテンシモード:
normal(長文コンテンツ向け)/balanced(短く時間に敏感な合成向け) - 声のクローン: $0.1/声 — 10~30秒の音声をアップロードし、再利用可能な
voice_idを取得
クイックスタート
v4betaエンドポイントを呼び出し、音声URLを同期的に取得:
import requests
API_KEY = "YOUR_NOVITA_KEY"
response = requests.post(
"https://api.novita.ai/v4beta/txt2speech",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
},
json={
"text": "Hello, this is Fish Audio TTS.",
"reference_id": "s1", # default model
"format": "mp3",
"sample_rate": 44100
}
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)
声のクローンワークフロー
Fish Audioの声のクローンは3つのAPI呼び出しで完了:音声アップロード → クローン作成 → 返されたvoice_idを任意のTTSリクエストで使用。
import base64, requests, time
API_KEY = "YOUR_NOVITA_API_KEY"
BASE_URL = "https://api.novita.ai"
# Step 1: Upload audio
with open("sample_voice.mp3", "rb") as f:
encoded = base64.b64encode(f.read()).decode("utf-8")
file_id = requests.post(
f"{BASE_URL}/v1/files",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={"file": encoded, "purpose": "voice-cloning"}
).json()["file_id"]
# Step 2: Clone voice
task_id = requests.post(
f"{BASE_URL}/v1/async/voice-cloning",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={"model": "fish-audio-voice-cloning", "audio_file_id": file_id,
"text": "Hello, this is a sample text matching the audio content."}
).json()["task_id"]
# Step 3: Get voice_id
while True:
result = requests.get(f"{BASE_URL}/v1/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id}).json()
if result["status"].endswith("SUCCEED"):
voice_id = result["result"]["voice_id"]
print(f"Cloned voice ID: {voice_id}")
break
# add a short poll interval here
# Step 4: Use cloned voice with v4beta TTS
response = requests.post(
"https://api.novita.ai/v4beta/txt2speech",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"text": "Hello, this is my cloned voice.",
"reference_id": voice_id, # from Step 3
"format": "mp3",
"sample_rate": 44100
}
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)
長所
- 声のクローンが$0.1/声 — 調査対象プロバイダの中でも良心的な価格
- 44.1kHzサンプルレート出力 — 多くのプロバイダ(OpenAIは24kHz出力)より高忠実度
- 1リクエストあたり10,000文字制限 — OpenAIの4,096文字の2.4倍
- 複数の出力形式:mp3、opus、wav、pcm
- Novita AI経由でアクセス可能 — 同じアカウントでLLM、画像生成、動画生成もカバー
短所
- 非同期のみ — リアルタイムの200ms未満アプリケーションには不向き
- 組み込み音声ライブラリはElevenLabs(3,000+)やPlayAI(900+)より少ない
料金
TTS:$15.00 / 100万文字。声のクローン:$0.1 / 声(一回限り、voice_idは無期限で再利用可能)。サブスクリプション不要 — 純粋な従量課金制。
最適な用途: 多言語アプリ、LLM音声パイプライン、特定ベンダーに縛られずにブランド/カスタム音声が必要なアプリケーションを構築する開発者。
2. ElevenLabs — 高い音声品質
ElevenLabsは生の音声自然さのベンチマークであり続けています。Multilingual v2は29言語で最も表現力豊かな出力を提供。Flash v2.5はリアルタイムユースケースで約75msのレイテンシを達成。3,000以上の音声ライブラリは利用可能な中で最大級。
長所
- 3,000以上の音声 — 最大のライブラリ
- Flash v2.5で約75msのレイテンシ
- インスタント+プロフェッショナル音声クローン
短所
- サブスクリプションのみ、フラットな従量課金なし
- 超過料金 $0.30/1k($300/100万)
- プロプライエタリSDK
料金
無料:月10k文字。Starter:月$5(30k)。Creator:月$22(100k)。Pro:月$99(500k、超過$0.24/1k)。Scale:月$330(200万、超過$0.18/1k)。Business:月$1,320(1,100万、超過$0.12/1k)。
最適な用途: オーディオブック、吹き替え、ポッドキャスト制作、音声自然さが最優先指標となるユースケース。
3. Google Cloud Text-to-Speech — GCPエコシステムユーザーに最適
Google Cloud TTSは40以上の言語と220以上の音声をフルSSMLサポートで提供。Standard層の$4/100万は大容量プロダクション向けに最安クラス。月100万文字の無料枠(Standard + WaveNet)でプロトタイプ作成も容易。
長所
- 月100万文字無料(Standard + WaveNet)
- フルSSML、220以上の音声、40以上の言語
- 5,000文字以上のドキュメント向けLong Audio Synthesis
短所
- セルフサービスでの声のクローンなし
- Studio層は$160/100万と高価
料金
Standard:$4/100万。WaveNet/Neural2:$16/100万。Journey:$30/100万。Studio:$160/100万。Long Audio:$100/100万。StandardとWaveNetは月100万文字まで無料。
最適な用途: GCPネイティブスタック、アクセシビリティアプリケーション、Standard音声品質で十分な大容量バッチ合成。
4. Amazon Polly — AWSユーザー向け強力な無料枠
Amazon Pollyの無料枠 — 最初の12ヶ月間、月500万標準文字+100万ニューラル文字 — はこのリストで最も寛大です。Speech Marks(単語レベルのタイムスタンプ)により、同期したビジュアル+オーディオ体験に最適。
長所
- 無料枠:12ヶ月間、月500万標準+100万ニューラル文字
- Speech Marksによる単語レベルの音声テキスト同期
- ネイティブAWS統合
短所
- セルフサービスでの声のクローンなし
- 生成音声(最も自然)は英語のみ
料金
Standard:$4/100万。Neural:$16/100万。Generative:$30/100万。Long-form:$100/100万。無料枠:月500万標準+100万ニューラル(最初の12ヶ月)。
最適な用途: AWSネイティブアプリケーション、IVRシステム、Speech Marksが必要なアニメーション・同期メディア。
5. Microsoft Azure TTS — 広い言語カバレッジ
Azureは140以上の言語で400以上の音声を提供 — ここで取り上げたプロバイダの中で最も広いカバレッジ。SSMLのmstts:express-asタグは音声ごとに50以上の話し方スタイル(嬉しい、悲しい、怒っている、ニュースキャスター、カスタマーサービスなど)をサポートし、styledegreeで強度調整が可能。Personal Voiceは約1分の音声から声をクローン。
長所
- 140以上の言語 — 最も広いカバレッジ
- 50以上のSSML話し方スタイル、強度調整可能
- Personal Voice:約1分の音声からクローン
短所
- Neural HDは$100/100万と高価
- SSMLによりマークアップの複雑さが増す
料金
Neural:$16/100万(月50万無料)。Neural HD:$100/100万。Personal Voice:$24/100万。Custom Neural:$24/100万+トレーニング$23.90/時間。
最適な用途: 100以上の言語サポートが必要なエンタープライズアプリケーション、アクセシビリティツール、ブランド音声の展開。
6. OpenAI TTS — 既存のOpenAIユーザーに最適
すでにOpenAIエコシステムにいるなら、gpt-4o-mini-ttsは検討に値します — 自然言語のinstructionsパラメータを受け取り、別途SSMLマークアップなしでトーン、ペース、スタイルを制御。トレードオフ:音声は10種類のみ、声のクローンなし、1リクエストあたり4,096文字制限。
長所
gpt-4o-mini-ttsは平易な英語で感情とスタイルの指示に従う- 約57言語対応
- 標準のOpenAI Python/JS SDK — 新しいライブラリのインストール不要
- ストリーミングサポートで知覚レイテンシ低減
短所
- 組み込み音声は10種類のみ — ここで取り上げたプロバイダの中で最も少ない選択肢
- 声のクローンなし
- 1リクエストあたり4,096文字制限(Fish Audioは10,000文字可能)
- tts-1は$15/100万 — 同等の用途ではGoogle Standard($4/100万)より高価
料金
tts-1:$15/100万文字。tts-1-hd:$30/100万文字。gpt-4o-mini-tts:トークンベースの料金(詳細はopenai.com/api/pricing)。比較表の$15~$30の範囲はtts-1とtts-1-hdのみを指します。
最適な用途: すでにOpenAI APIを使用しており、別ベンダーを追加せずにTTSを導入したい開発者。
7. PlayAI — 複数音声の会話に最適
PlayAIのPlayDialogモデルは2エージェントの対話専用に設計 — 1回のAPI呼び出しで2つの異なる音声を、自然なターンテイキングで同期。142言語(ここで最も広い)をサポートし、10秒未満の音声からインスタント声のクローンが可能。
長所
- 142言語 — このリストで最も広いカバレッジ
- 900以上の音声
- PlayDialog:1リクエストで2つの音声を同時に(ユニークな機能)
- 10秒未満の音声からインスタント声のクローン
- WebSocketおよびgRPCストリーミングオプション
短所
- PlayDialogは$100/100万と標準TTSユースケースには高価
- プロプライエタリ認証(APIキー+ユーザーID)により統合の摩擦が若干増加
- 新しいエコシステム — ElevenLabsやGoogleほどコミュニティドキュメントが充実していない
料金
従量課金:PlayHT 2.0 Turbo $15/100万、PlayHT 2.0/3.0 $30/100万、PlayDialog $100/100万。サブスクリプション:Creator $39/月(50万文字)~Scale $999/月(3,300万文字)。
最適な用途: ポッドキャスト、オーディオドラマ、マルチスピーカー対話が必要なインタラクティブ音声アプリケーション、広範な言語カバレッジが必要な展開。
8. Cartesia — リアルタイム音声AIに最適
CartesiaのSonicモデルは100ms未満の最初の音声到達時間を達成 — 調査対象プロバイダの中で報告された最も低い値。WebSocketファーストのリアルタイムストリーミングアプリケーション向けに構築され、数秒の音声から声のクローンを提供し、リアルタイム音声AIアプリケーションに適しています。
長所
- 100ms未満の最初の音声到達時間 — このリストの他のプロバイダでリアルタイムに匹敵するものはない
- クレジットベースの料金:1クレジット=1文字(月$4からのプラン)
- WebSocketファーストのAPIでリアルタイムストリーミング
- 数秒の音声から声のクローン
- Sonic 3.5で42言語
短所
- 100以上のストック音声 — ElevenLabsやAzureより小規模なライブラリ
- 42言語 — マルチリンガルサポートは堅牢だが、Azure(140+)やPlayAI(142)より狭い
- 感情制御はベクトル埋め込み経由 — enumパラメータより実装が複雑
- 確立されたプロバイダよりエコシステムが小さく、ドキュメントが少ない
料金
クレジットベース:1文字あたり1クレジット。Hobby:無料(20Kクレジット)。Developer:月$4(100K)。Growth:月$39(125万)。Scale:月$239(800万)。料金は2026年5月確認 — 詳細はcartesia.ai/pricingをご覧ください。
最適な用途: リアルタイム音声エージェント、会話型AI、カスタマーサービスボット — レイテンシが最優先制約となるあらゆるアプリケーション。
ユースケース別おすすめ
| ユースケース | 最適な選択 | 理由 |
|---|---|---|
| LLM+TTSを1つのパイプラインで | Fish Audio | 200以上のLLMとTTSに同じAPIキー、1つの請求アカウント |
| 透明な料金の声のクローン | Fish Audio | $0.1/声、再利用可能なvoice_id、10~30秒の音声が必要 |
| 最高の音声自然さ | ElevenLabs | Multilingual v2が品質ベンチマークトップ、3,000以上の音声 |
| リアルタイム音声エージェント | Cartesia | 100ms未満、WebSocketファースト、クレジットベース料金 |
| 140言語以上のエンタープライズ展開 | Azure TTS | 400以上の音声、140以上の言語、Personal Voiceクローン |
| 複数音声の対話 | PlayAI PlayDialog | 1回の呼び出しで2スピーカー合成、142言語 |
| 予算重視のAWS/GCPプロダクション | Google Cloud / Amazon Polly | $4/100万 Standard、寛大な無料枠 |
| OpenAIエコシステム統合 | OpenAI TTS | 同じSDK、gpt-4o-mini-ttsでスタイル制御出力 |
料金は2026年5月6日最終確認。
よくある質問
2026年、音声品質が最も優れているTTS APIは?
ElevenLabs Multilingual v2は、Artificial Analysis Speech Arenaのブラインド品質テストで最高位。声のクローンと多言語サポートを1つのプラットフォームで必要とする開発者には、Novita AI経由のFish Audioが$15/100万文字で高品質44.1kHz出力を提供。
2026年、最も安いTTS APIは?
料金はモデルとプランにより異なります。大容量ではGoogle Cloud TTS Standard($4/100万)とAmazon Polly Standard($4/100万)が低い文字単価。Cartesiaはクレジットベース(1クレジット=1文字、$4/月から100K)。無料枠では、Amazon Pollyが最初の12ヶ月間500万標準文字を無料提供、Google Cloud TTSはStandardとWaveNet音声で月100万文字を無期限無料。
声のクローンに対応しているTTS APIは?
Fish Audio(Novita AI経由)、ElevenLabs、PlayAI、Cartesia、Microsoft Azure Personal Voiceが声のクローンをサポート。Novita AIが提供するFish Audioは$0.1/声、3ステップのAPIワークフロー:音声アップロード → クローン → voice_id取得。
既存のLLMパイプラインでTTS APIを使用できますか?
Novita AIは、200以上のLLMと複数のTTSエンジン(Fish Audio、MiniMax、CosyVoice)を1つのAPIキーと請求アカウントで提供する唯一のプラットフォーム。OpenAIもLLM+TTSを提供しますが、音声は10種類のみで声のクローンはありません。完全統合されたLLM音声パイプラインには、Novita AIのTTS APIが別のTTSベンダーを不要にします。
結論
2026年、単一のTTS APIがすべての側面で勝利することはありません。選択は主要な制約に基づきます:
- レイテンシ: Cartesia(100ms未満、クレジットベース料金)
- 音声品質: ElevenLabs(Multilingual v2)
- 言語カバレッジ: Azure(140+)またはPlayAI(142)
- LLM+TTS統合: Novita AI経由のFish Audio(1つのキー、1つの請求、声のクローン$0.1/声)
- 大規模予算: Google Cloud StandardまたはAmazon Polly($4/100万)
LLMを活用したアプリケーションを構築し、別ベンダーなしで音声を追加したい場合、Novita AIが提供するFish Audioが最も実用的な出発点です — 言語モデルを呼び出すのと同じAPIキーでTTSと声のクローンを処理します。
