2026 年最佳文字轉語音 API:8 家供應商比較
我們評測並比較了 2026 年的 8 個文字轉語音 API——價格、語音品質、情感控制、語音複製以及開發者體驗。最佳的 TTS API 取決於你的使用場景:即時延遲、語言涵蓋範圍、預算,或者你是否需要內建的語音複製功能。
本指南涵蓋以下內容:Fish Audio(由 Novita AI 支援)、ElevenLabs、Google Cloud TTS、Amazon Polly、Microsoft Azure TTS、OpenAI TTS、PlayAI 和 Cartesia。所有價格皆已根據 2026 年 5 月的官方來源驗證。
TL;DR — 快速比較
| 供應商 | 語音數量 | 語言 | 語音複製 | 價格(每 100 萬字元) | 最適合 |
|---|---|---|---|---|---|
| Fish Audio | 20+ | 10 | ✅ $0.1/語音 | $15.00 | 語音複製 $0.1/語音 + 44.1kHz 品質 |
| ElevenLabs | 3,000+ | 29 | ✅ 即時 + 專業版 | $120–$300 | 高自然度評分(Artificial Analysis) |
| Google Cloud TTS | 220+ | 40+ | ❌ 僅限企業版 | $4–$160 | GCP 生態系、SSML 進階使用者 |
| Amazon Polly | 60+ | 30+ | ❌ | $4–$100 | AWS 生態系、新用戶強大免費方案 |
| Microsoft Azure TTS | 400+ | 140+ | ✅ Personal Voice | $16–$100 | 企業級、本清單中語言覆蓋最廣 |
| OpenAI TTS | 10 | ~57 | ❌ | $15–$30 | 使用 OpenAI 管線的使用者 |
| PlayAI | 900+ | 142 | ✅ 即時 | $15–$100 | 多重語音對話 |
| Cartesia | 150+ | 42 | ✅ | 以點數計費 | 即時語音 AI(<100ms) |
價格最後驗證日期:2026 年 5 月 6 日。購買前請查閱供應商頁面。
選擇 TTS API 時應注意什麼
- 延遲: 即時代理需要 <300ms。批次工作流程可接受非同步處理。
- 語音品質: 由 Artificial Analysis Speech Arena 對 73 個模型進行基準測試。
- 語言與語音覆蓋: 從 10 個語音 / 僅英文(Deepgram)到 400+ 語音 / 140+ 語言(Azure)。
- 情感控制: 從無(Polly Standard)到 50+ SSML 風格(Azure)再到明確的列舉參數(透過 Novita AI 的 MiniMax)。
- 定價模式: 訂閱制(ElevenLabs)、固定按量計費(Cartesia、Novita AI)或雲端帳戶計費(Polly、Google)。
1. Fish Audio — 多語言開發者最佳的語音複製 API
Fish Audio 的語音模型提供 44.1kHz 輸出品質,可從 10–30 秒的音訊以 $0.1/語音進行語音複製,並支援 10 種語言,包括英文、中文、日文、韓文和阿拉伯文。可透過 Novita AI 的 API 以 $15/100 萬字元使用——無需訂閱。
主要規格
- 模型:
s1(Fish Audio v4beta,透過reference_id參數) - 語音: 20 個內建語音,涵蓋 10 種語言(英文、中文、日文、韓文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文)——每種語言 1 男聲 + 1 女聲
- 音訊品質: 44,100 Hz 取樣率,支援 mp3/opus/wav/pcm 輸出
- 最大輸入: 每次請求 10,000 字元
- 延遲模式:
normal(適合長篇內容)/balanced(適合較短、對時間敏感的合成) - 語音複製: 每個語音 $0.1——上傳 10–30 秒的音訊,取得可重複使用的
voice_id
快速入門
呼叫 v4beta 端點並同步取得音訊 URL:
import requests
API_KEY = "YOUR_NOVITA_KEY"
response = requests.post(
"https://api.novita.ai/v4beta/txt2speech",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
},
json={
"text": "Hello, this is Fish Audio TTS.",
"reference_id": "s1", # default model
"format": "mp3",
"sample_rate": 44100
}
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)
語音複製工作流程
Fish Audio 語音複製 需要三個 API 呼叫:上傳音訊 → 建立複製品 → 在任何 TTS 請求中使用回傳的 voice_id。
import base64, requests, time
API_KEY = "YOUR_NOVITA_API_KEY"
BASE_URL = "https://api.novita.ai"
# Step 1: Upload audio
with open("sample_voice.mp3", "rb") as f:
encoded = base64.b64encode(f.read()).decode("utf-8")
file_id = requests.post(
f"{BASE_URL}/v1/files",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={"file": encoded, "purpose": "voice-cloning"}
).json()["file_id"]
# Step 2: Clone voice
task_id = requests.post(
f"{BASE_URL}/v1/async/voice-cloning",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={"model": "fish-audio-voice-cloning", "audio_file_id": file_id,
"text": "Hello, this is a sample text matching the audio content."}
).json()["task_id"]
# Step 3: Get voice_id
while True:
result = requests.get(f"{BASE_URL}/v1/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id}).json()
if result["status"].endswith("SUCCEED"):
voice_id = result["result"]["voice_id"]
print(f"Cloned voice ID: {voice_id}")
break
# add a short poll interval here
# Step 4: Use cloned voice with v4beta TTS
response = requests.post(
"https://api.novita.ai/v4beta/txt2speech",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"text": "Hello, this is my cloned voice.",
"reference_id": voice_id, # from Step 3
"format": "mp3",
"sample_rate": 44100
}
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)
優點
- 語音複製每個語音 $0.1——在檢查過的供應商中價格合理
- 44.1kHz 取樣率輸出——比大多數供應商更高保真度(OpenAI 輸出為 24kHz)
- 每次請求 10,000 字元限制——是 OpenAI 4,096 限制的 2.4 倍
- 多種輸出格式:mp3、opus、wav、pcm
- 可透過 Novita AI 存取——同一個帳戶涵蓋 LLM、圖片生成和影片生成
缺點
- 僅非同步——不適合即時 sub-200ms 的應用
- 內建語音庫比 ElevenLabs(3,000+)或 PlayAI(900+)小
價格
TTS 為 $15.00 每 100 萬字元。語音複製為 每個語音 $0.1(一次性,可無限重複使用 voice_id)。無需訂閱——純按量計費。
最適合: 開發多語言應用程式、LLM 轉語音管線,或需要品牌/自訂語音但不想綁定單一供應商 TTS 堆疊的開發者。
2. ElevenLabs — 強大的語音品質
ElevenLabs 仍是原始語音自然度的標竿。Multilingual v2 支援 29 種語言,提供目前最具表現力的輸出;Flash v2.5 達到約 75ms 延遲,適用於即時使用場景。3,000+ 語音庫是市面上最大的之一。
優點
- 3,000+ 語音——最大的語音庫
- Flash v2.5 約 75ms 延遲
- 即時 + 專業語音複製
缺點
- 僅限訂閱,無固定按量計費
- 超額 $0.30/1k ($300/1M)
- 專有 SDK
價格
免費:10k 字元/月。Starter:$5/月 (30k)。Creator:$22/月 (100k)。Pro:$99/月 (500k,超額 $0.24/1k)。Scale:$330/月 (2M,$0.18/1k)。Business:$1,320/月 (11M,$0.12/1k)。
最適合: 有聲書、配音、Podcast 製作,以及任何以語音自然度為主要指標的使用場景。
3. Google Cloud Text-to-Speech — 最適合 GCP 生態系使用者
Google Cloud TTS 涵蓋 40+ 語言和 220+ 語音,支援完整的 SSML。Standard 層級 $4/1M 是高量生產中最便宜的之一,每月 100 萬字元免費(Standard + WaveNet)讓原型開發變得容易。
優點
- 每月 100 萬字元免費(Standard + WaveNet)
- 完整 SSML、220+ 語音、40+ 語言
- Long Audio Synthesis 支援超過 5,000 字元的文件
缺點
- 無自助語音複製
- Studio 層級 $160/1M 昂貴
價格
Standard:$4/1M。WaveNet/Neural2:$16/1M。Journey:$30/1M。Studio:$160/1M。Long Audio:$100/1M。前 100 萬字元/月免費(Standard 和 WaveNet)。
最適合: GCP 原生堆疊、無障礙應用程式,以及 Standard 語音品質就足夠的高量批次合成。
4. Amazon Polly — AWS 用戶強大的免費方案
Amazon Polly 的免費方案——前 12 個月每月 500 萬標準字元和 100 萬神經字元——是本清單中最慷慨的。Speech Marks(字詞級時間戳)使其成為同步視覺+音訊體驗的首選。
優點
- 免費方案:前 12 個月每月 500 萬 Standard + 100 萬 Neural 字元
- Speech Marks 提供字詞級音訊文字同步
- 原生 AWS 整合
缺點
- 無自助語音複製
- Generative 語音(最自然)僅限英文
價格
Standard:$4/1M。Neural:$16/1M。Generative:$30/1M。Long-form:$100/1M。免費方案:每月 500 萬 Standard + 100 萬 Neural(前 12 個月)。
最適合: AWS 原生應用程式、IVR 系統,以及需要 Speech Marks 的動畫/同步媒體。
5. Microsoft Azure TTS — 最廣泛的語言覆蓋
Azure 擁有 400+ 語音,涵蓋 140+ 語言——是本清單中任何供應商中最廣泛的。其 SSML mstts:express-as 標籤支援每個語音 50+ 種說話風格(愉快、悲傷、生氣、新聞播報、客戶服務等),並可透過 styledegree 調整強度。Personal Voice 可從約一分鐘的音訊複製語音。
優點
- 140+ 語言——最廣泛的覆蓋
- 50+ SSML 說話風格,可調整強度
- Personal Voice:從約 1 分鐘音訊複製
缺點
- Neural HD 每 100 萬字元 $100 昂貴
- SSML 增加標記複雜度
價格
Neural:$16/1M(每月 0.5M 免費)。Neural HD:$100/1M。Personal Voice:$24/1M。Custom Neural:$24/1M + $23.90/小時訓練。
最適合: 需要 100+ 語言支援的企業應用程式、無障礙工具,以及品牌語音部署。
6. OpenAI TTS — 最適合現有 OpenAI 使用者
如果你已經在使用 OpenAI 生態系,gpt-4o-mini-tts 值得使用——它接受自然語言 instructions 參數來控制語氣、節奏和風格,無需額外的 SSML 標記。但權衡是:只有 10 個語音、無語音複製,以及每次請求 4,096 字元限制。
優點
gpt-4o-mini-tts支援純英文指令來控制情感和風格- ~57 種語言支援
- 標準 OpenAI Python/JS SDK——無需安裝新函式庫
- 串流支援以降低感知延遲
缺點
- 只有 10 個內建語音——本清單中選擇最少
- 無語音複製
- 每次請求 4,096 字元限制(Fish Audio 允許 10,000)
- tts-1 每 100 萬字元 $15——同等用途下比 Google Standard($4/1M)貴
價格
tts-1:$15/1M 字元。tts-1-hd:$30/1M 字元。gpt-4o-mini-tts:以 token 為基礎計價(請參閱 openai.com/api/pricing)。比較表中的 $15–$30 範圍僅指 tts-1 和 tts-1-hd。
最適合: 已經在使用 OpenAI API 且希望在不增加其他供應商的情況下加入 TTS 的開發者。
7. PlayAI — 最適合多重語音對話
PlayAI 的 PlayDialog 模型專為雙代理對話設計——一次 API 呼叫中兩個不同的語音,同步且自然的輪流發言。它支援 142 種語言(此處最廣泛),並可從少於 10 秒的音訊進行即時語音複製。
優點
- 142 種語言——本清單中最廣泛的覆蓋
- 900+ 語音
- PlayDialog:一次請求中兩個同時語音(獨特功能)
- 從 <10 秒音訊即時語音複製
- WebSocket 和 gRPC 串流選項
缺點
- PlayDialog 每 100 萬字元 $100,對標準 TTS 使用場景來說昂貴
- 專有認證(API Key + 使用者 ID)增加輕微整合摩擦
- 較新的生態系——社群文件比 ElevenLabs 或 Google 少
價格
按量計費:PlayHT 2.0 Turbo $15/1M,PlayHT 2.0/3.0 $30/1M,PlayDialog $100/1M。訂閱:Creator $39/月(500k 字元)到 Scale $999/月(33M 字元)。
最適合: Podcast、有聲劇、需要多說話者對話的互動語音應用,以及需要廣泛語言覆蓋的部署。
8. Cartesia — 最適合即時語音 AI
Cartesia 的 Sonic 模型達到 sub-100ms 的首次音訊時間——在檢查過的供應商中,這是報告最低的首次音訊時間。它以 WebSocket 為優先設計,用於即時串流應用,並可從數秒音訊進行語音複製,非常適合即時語音 AI 應用。
優點
- Sub-100ms 首次音訊時間——本清單中沒有其他供應商在即時應用中能匹敵這個數字
- 點數制計價:1 點數 = 1 字元(方案從 $4/月起)
- WebSocket 優先 API,用於即時串流
- 從數秒音訊進行語音複製
- Sonic 3.5 支援 42 種語言
缺點
- 100+ 庫存語音——語音庫比 ElevenLabs 或 Azure 小
- 42 種語言——多語言支援不錯,但比 Azure(140+)或 PlayAI(142)窄
- 情感控制透過向量嵌入——比列舉參數更難實作
- 生態系較小,文件比成熟供應商少
價格
點數制:1 點數 = 1 字元。Hobby:免費(20K 點數)。Developer:$4/月(100K)。Growth:$39/月(1.25M)。Scale:$239/月(8M)。價格已於 2026 年 5 月驗證——請參閱 cartesia.ai/pricing。
最適合: 即時語音代理、對話式 AI、客服機器人——任何以延遲為主要限制的應用。
使用場景建議
| 使用場景 | 最佳選擇 | 原因 |
|---|---|---|
| LLM + TTS 在同一管線中 | Fish Audio | 同一 API 金鑰可用於 200+ LLM 和 TTS;單一帳戶計費 |
| 語音複製搭配透明定價 | Fish Audio | $0.1/語音,可重複使用的 voice_id,需要 10–30 秒音訊 |
| 最高語音自然度 | ElevenLabs | Multilingual v2 在品質基準測試中頂尖;3,000+ 語音 |
| 即時語音代理 | Cartesia | Sub-100ms,WebSocket 優先,點數制計價 |
| 140+ 語言企業部署 | Azure TTS | 400+ 語音,140+ 語言,Personal Voice 複製 |
| 多重語音對話 | PlayAI PlayDialog | 一次呼叫兩個說話者合成,142 種語言 |
| 預算型 AWS/GCP 生產 | Google Cloud / Amazon Polly | $4/1M Standard,慷慨的免費方案 |
| OpenAI 生態系整合 | OpenAI TTS | 相同 SDK,gpt-4o-mini-tts 支援風格控制輸出 |
價格最後驗證日期:2026 年 5 月 6 日。
常見問題
2026 年哪個 TTS API 的語音品質最好?
ElevenLabs Multilingual v2 在 Artificial Analysis Speech Arena 追蹤的盲測品質測試中排名最高。對於同時需要語音複製和多語言支援的開發者,透過 Novita AI 使用的 Fish Audio 以 $15/100 萬字元提供高品質 44.1kHz 輸出。
2026 年哪個 TTS API 最便宜?
價格因模型和方案而異。Google Cloud TTS Standard($4/1M)和 Amazon Polly Standard($4/1M)在高量使用下每字元費率較低。Cartesia 使用點數制(1 點數 = 1 字元,從 $4/月 100K 開始)。關於免費方案,Amazon Polly 前 12 個月提供 500 萬標準字元免費;Google Cloud TTS 在 Standard 和 WaveNet 語音上每月提供 100 萬字元免費(無限期)。
哪個 TTS API 支援語音複製?
Fish Audio(透過 Novita AI)、ElevenLabs、PlayAI、Cartesia 和 Microsoft Azure Personal Voice 都支援語音複製。由 Novita AI 支援的 Fish Audio 每個語音收費 $0.1,並提供直接的三步驟 API 工作流程:上傳音訊 → 複製 → 取得 voice_id。
我可以將 TTS API 與現有的 LLM 管線一起使用嗎?
Novita AI 是唯一一個在同一個 API 金鑰和計費帳戶下提供 200+ LLM 和多個 TTS 引擎(Fish Audio、MiniMax、CosyVoice)的平台。OpenAI 也提供 LLM + TTS,但只有 10 個語音且沒有語音複製。如需完全整合的 LLM 轉語音管線,Novita AI 的 TTS API 消除了對獨立 TTS 供應商的需求。
結論
2026 年,沒有單一 TTS API 能在所有面向勝出。決定取決於你的主要限制:
- 延遲: Cartesia(<100ms,點數制計價)
- 語音品質: ElevenLabs(Multilingual v2)
- 語言覆蓋: Azure(140+)或 PlayAI(142)
- LLM + TTS 統一: 透過 Novita AI 的 Fish Audio(一個金鑰、一張帳單、語音複製 $0.1/語音)
- 大規模預算: Google Cloud Standard 或 Amazon Polly($4/1M)
如果你正在建構一個 LLM 驅動的應用程式,並且希望在不增加獨立供應商的情況下加入語音功能,由 Novita AI 支援的 Fish Audio 是最實用的起點——同一個用於呼叫語言模型的 API 金鑰也能處理 TTS 和語音複製。
