2026 年最佳文字轉語音 API:8 家提供者對比
2026 年,我們評測並比較了 8 款文字轉語音 API,檢視了價格、語音品質、情緒控制、語音複製和開發者體驗等方面的優勢。最佳的 TTS API 取決於您的特定使用場景:即時延遲、語言覆蓋範圍、預算,以及是否需要內建的語音克隆功能。
本指南涵蓋以下內容:Fish Audio(由…提供支援) Novita AI)、ElevenLabs、Google Cloud TTS、Amazon Polly、Microsoft Azure TTS、OpenAI TTS、PlayAI 和 Cartesia。所有價格均已於 2026 年 5 月從官方管道核實。
TL;DR — 快速比較
| 供應商級 | 聲音 | 語言 | 語音克隆 | 價格(每百萬字) | 最適合 |
|---|---|---|---|---|---|
| 魚音訊 | 20+ | 10 | ✅ 每語音 0.1 美元 | $15.00 | 語音克隆,每語音0.1美元,44.1kHz取樣率 |
| 十一實驗室 | 3,000+ | 29 | ✅ Instant + Pro | $ 120- $ 300 | 自然度得分高(人工分析) |
| Google雲TTS | 220+ | 40+ | ❌ 僅限企業用戶 | $ 4- $ 160 | GCP 生態系統,SSML 進階用戶 |
| 亞馬遜波莉 | 60+ | 30+ | ❌ | $ 4- $ 100 | AWS 生態系統,為新用戶提供強大的免費套餐 |
| Microsoft Azure TTS | 400+ | 140+ | ✅ 個人語音 | $ 16- $ 100 | 企業級,在所有受檢供應商中語言覆蓋範圍最廣 |
| OpenAI TTS | 10 | 〜57 | ❌ | $ 15- $ 30 | OpenAI管道用戶 |
| 玩AI | 900+ | 142 | ✅ 即時 | $ 15- $ 100 | 多人對話 |
| 笛卡爾 | 150+ | 42 | ✅ | 基於信用 | 即時語音AI(<100毫秒) |
價格最後核實日期:2026年5月6日。購買前請查看供應商頁面。
選擇TTS API時應注意哪些方面
- 潛伏: 即時代理需要小於 300 毫秒的回應時間。批量工作流程可以容忍非同步回應。
- 語音品質: 由 Artificial Analysis Speech Arena 對 73 個模型進行基準測試。
- 語言和語音覆蓋範圍: 從 10 種語音/僅限英語(Deepgram)到 400 多種語音/140 多種語言(Azure)。
- 情緒控制: 從無(Polly Standard)到 50 多種 SSML 樣式(Azure),再到明確枚舉參數(MiniMax via Novita AI).
- 定價模型: 訂閱制(ElevenLabs),固定預付(Cartesia, Novita AI),或雲端帳戶結算(Polly、Google)。
1. Fish Audio — 多語言開發者的最佳語音克隆 API
Fish Audio 的語音模型提供 44.1kHz 的輸出質量,可以以 0.1 美元/語音的價格克隆 10-30 秒的音頻,並支援包括英語、中文、日語、韓語和阿拉伯語在內的 10 種語言。可透過以下方式存取: Novita AI的API 單價 15 美元/百萬字符——無需訂閱。
關鍵規格
- 模型:
s1(Fish Audio v4beta,透過reference_id參數) - 聲音: 內建 20 種語音,涵蓋 10 種語言(英語、中文、日語、韓語、西班牙語、法語、德語、俄語、阿拉伯語、葡萄牙語)——每種語言 1 個男聲 + 1 個女聲
- 音頻質量: 取樣率高達 44,100 Hz,輸出格式最高可達 mp3/opus/wav/pcm。
- 最大輸入量: 每次請求最多 10,000 個字符
- 延遲模式:
normal(針對長篇內容)/balanced(適用於時間較短、對時間要求較高的合成) - 語音克隆: 每段語音0.1美元-上傳10-30秒的音頻,即可獲得可重複使用的音頻檔案。
voice_id
快速指引
呼叫 v4beta 端點並同步取得音訊 URL:
import requests
API_KEY = "YOUR_NOVITA_KEY"
response = requests.post(
"https://api.novita.ai/v4beta/txt2speech",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
},
json={
"text": "Hello, this is Fish Audio TTS.",
"reference_id": "s1", # default model
"format": "mp3",
"sample_rate": 44100
}
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)
語音克隆工作流程
Fish Audio語音克隆 需要三次 API 呼叫:上傳音訊 → 建立克隆 → 使用回傳結果 voice_id 在任何 TTS 請求中。
import base64, requests, time
API_KEY = "YOUR_NOVITA_API_KEY"
BASE_URL = "https://api.novita.ai"
# Step 1: Upload audio
with open("sample_voice.mp3", "rb") as f:
encoded = base64.b64encode(f.read()).decode("utf-8")
file_id = requests.post(
f"{BASE_URL}/v1/files",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={"file": encoded, "purpose": "voice-cloning"}
).json()["file_id"]
# Step 2: Clone voice
task_id = requests.post(
f"{BASE_URL}/v1/async/voice-cloning",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={"model": "fish-audio-voice-cloning", "audio_file_id": file_id,
"text": "Hello, this is a sample text matching the audio content."}
).json()["task_id"]
# Step 3: Get voice_id
while True:
result = requests.get(f"{BASE_URL}/v1/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id}).json()
if result["status"].endswith("SUCCEED"):
voice_id = result["result"]["voice_id"]
print(f"Cloned voice ID: {voice_id}")
break
# add a short poll interval here
# Step 4: Use cloned voice with v4beta TTS
response = requests.post(
"https://api.novita.ai/v4beta/txt2speech",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"text": "Hello, this is my cloned voice.",
"reference_id": voice_id, # from Step 3
"format": "mp3",
"sample_rate": 44100
}
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)
優點
- 語音克隆價格為每語音 0.1 美元——經核實,該語音克隆服務價格極具競爭力。
- 44.1kHz取樣率輸出-比大多數供應商(OpenAI輸出為24kHz)的保真度更高
- 每次請求的字元限制為 10,000 個字元——是 OpenAI 4,096 個字元限制的 2.4 倍
- 多種輸出格式:mp3、opus、wav、pcm
- 可透過以下方式存取 Novita AI —同一帳戶涵蓋 LLMs、影像生成和視訊生成
缺點
- 僅支援非同步-不適用於低於 200 毫秒的即時應用程式。
- 內建語音庫比 ElevenLabs(3,000+)或 PlayAI(900+)小。
定價
每百萬個字元 15.00 美元 用於TTS。 每人0.1美元 (一次性,可重複使用) voice_id (無限期)。無需訂閱——純粹的按需付費。
最適合: 開發者建立多語言應用程序, LLM-to-voice管道,或需要品牌/自訂語音但又不想使用單一供應商TTS堆疊的應用程式。
2. ElevenLabs — 出色的語音質量
ElevenLabs 仍是自然語音合成領域的標竿。 Multilingual v2 支援 29 種語言,輸出效果最為豐富;Flash v2.5 在即時應用場景下延遲僅約 75 毫秒。其擁有超過 3,000 個語音的語音庫,是目前市面上最大的語音庫之一。
優點
- 3,000多種聲音-最大的聲音庫
- Flash v2.5,延遲約 75 毫秒
- 即時+專業語音克隆
缺點
- 僅限訂閱,無固定預付費
- 超支 0.30 美元/千美元(300 美元/百萬美元)
- 專有SDK
定價
免費版:每月 1 萬字。入門版:每月 5 美元(30 萬字元)。創作者版:每月 22 美元(10 萬字)。專業版:每月 99 美元(100 萬字符,超出部分每 500 字符加收 0.24 美元)。擴充版:每月 330 美元(2 萬字符,每 1 字符加收 0.18 美元)。企業版:每月 1,320 美元(11 萬字符,每 1 字符加收 0.12 美元)。
最適合: 有聲書、配音、播客製作,以及任何以語音自然度為主要指標的應用場景。
3. Google Cloud 文字轉語音-最適合 GCP 生態系統用戶
Google Cloud TTS 支援 40 多種語言和 220 多種語音,並完全支援 SSML。標準版套餐價格為 4 美元/1 萬字符,是高容量製作的理想之選,每月 1 萬個免費字符(標準版 + WaveNet)讓原型製作更加輕鬆。
優點
- 每月1萬個免費字元(標準版+WaveNet)
- 支援完整的SSML,220多種語音,40多種語言
- 適用於超過 5,000 個字元文件的長音訊合成
缺點
- 不支援自助語音克隆
- 工作室級別的價格為每百萬美元 160 美元,這很貴。
定價
標準版:4 美元/100 萬字元。 WaveNet/Neural2:16 美元/1 萬字符。 Journey 版:30 美元/1 萬字符。 Studio 版:160 美元/1 萬字元。長音頻版:1 美元/1 萬字符。標準版和 WaveNet 版每月前 1 萬字免費。
最適合: GCP 原生堆疊、輔助功能應用程式和大量合成,在這些應用中,標準語音品質就足夠了。
4. Amazon Polly — 為 AWS 用戶提供強大的免費套餐
Amazon Polly 的免費套餐——前 12 個月每月 5 萬個標準字符和 1 萬個神經字符——是這份榜單中最慷慨的。其語音標記(詞級時間戳記)功能使其成為實現視聽同步體驗的首選。
優點
- 免費套餐:每月 5 萬標準角色 + 1 萬神經角色,持續 12 個月
- 用於詞級音文同步的語音標記
- 原生 AWS 集成
缺點
- 不支援自助語音克隆
- 生成語音(最自然)僅限英語
定價
標準:4 美元/100 萬美元。神經:16 美元/1 萬美元。生成:30 美元/1 萬美元。長篇:1 美元/1 萬美元。免費套餐:每月 5 萬美元標準 + 1 萬美元神經(前 12 個月)。
最適合: AWS 原生應用程式、IVR 系統以及需要語音標記的動畫/同步媒體。
5. Microsoft Azure TTS — 廣泛的語言覆蓋範圍
Azure 提供超過 400 種語言、140 多種語音服務,涵蓋範圍之廣,在所有供應商中首屈一指。 SSML mstts:express-as 標籤支援每種聲音 50 多種說話風格(歡快、悲傷、憤怒、新聞播報、客服等等),強度可透過以下方式調節: styledegree. Personal Voice 可以從大約一分鐘的音訊中克隆出一個聲音。
優點
- 覆蓋範圍最廣,支援 140 多種語言。
- 50多種SSML語音風格,強度可調
- 個人聲音:從約 1 分鐘的音訊中克隆而來
缺點
- 100 美元/1 萬像素的神經高清晶片價格昂貴。
- SSML 增加了標記的複雜性
定價
神經語音合成:16 美元/100 萬像素(每月免費 1 萬像素)。神經高清合成:0.5 美元/1 萬像素。個人語音合成:24 美元/1 萬像素。客製化神經語音合成:24 美元/1 萬像素 + 23.90 美元/小時的培訓費。
最適合: 企業應用程式需要支援超過 100 種語言、輔助功能工具和品牌語音部署。
6. OpenAI TTS — 最適合現有 OpenAI 用戶
如果您已經在使用 OpenAI 生態系統, gpt-4o-mini-tts 值得使用-它接受自然語言 instructions 無需單獨的 SSML 標記即可控制語調、節奏和風格的參數。但缺點是:僅支援 10 種語音,不支援語音克隆,且每次請求最多只能輸入 4,096 個字元。
優點
gpt-4o-mini-tts支持遵循簡明英語中的情感和風格指示- 約 57 種語言支持
- 標準 OpenAI Python/JS SDK-無需安裝新函式庫
- 支援串流媒體播放,降低感知延遲
缺點
- 僅內建 10 種語音——是所有供應商中選擇最少的。
- 無語音克隆
- 每次請求限輸入 4,096 個字元(Fish Audio 允許輸入 10,000 個字元)
- tts-1 的價格為每百萬用戶 15 美元——比同等使用量的 Google 標準服務(每百萬用戶 4 美元)更貴。
定價
tts-1:15 美元/百萬字元。 tts-1-hd:30 美元/百萬字元。 gpt-4o-mini-tts:基於代幣的定價(參見) openai.com/api/pricing)。比較表中的 15-30 美元範圍僅指 tts-1 和 tts-1-hd。
最適合: 已經在使用 OpenAI API 的開發者,如果想要使用 TTS 功能但又不想再增加其他供應商,那就太不方便了。
7. PlayAI — 最適合多人語音對話
PlayAI 的 PlayDialog 模型專為雙人對話而設計——只需一次 API 呼叫即可實現兩種不同的語音,並能自然地進行輪流對話。它支援 142 種語言(目前支援語言最廣泛),並且只需不到 10 秒的音訊即可即時複製語音。
優點
- 142 種語言-本列表中涵蓋範圍最廣
- 900 多種聲音
- PlayDialog:一次請求中同時發出兩個聲音(獨特功能)
- 僅需不到 10 秒的音訊即可立即複製語音
- WebSocket 和 gRPC 流選項
缺點
- PlayDialog 每百萬次收費 100 美元,對於標準 TTS 用例來說價格昂貴。
- 專有身份驗證(API密鑰+用戶ID)會增加一些整合方面的摩擦。
- 較新的生態系統-社群文件不如 ElevenLabs 或 Google 豐富。
定價
按次付費:PlayHT 2.0 Turbo 15 美元/100 萬字符,PlayHT 2.0/3.0 30 美元/1 萬字符,PlayDialog 1 美元/1 萬字符。訂閱:Creator 39 美元/月(500 萬字符)至 Scale 999 美元/月(33 萬字符)。
最適合: 播客、廣播劇、需要多人對話的互動式語音應用程式以及需要廣泛語言覆蓋範圍的部署。
8. Cartesia-最適合即時語音人工智慧
Cartesia 的 Sonic 車型實現了低於 100 毫秒的首次音訊回應時間——這是所測試的供應商中報告的最低首次音訊回應時間。它採用 WebSocket 優先架構,專為即時串流應用而設計,並能從幾秒鐘的音訊中克隆語音,使其非常適合即時語音 AI 應用。
優點
- 首聲播放時間低於 100 毫秒——此列表中其他任何供應商都無法在實時音頻方面達到這一水平
- 按積分計費:1 積分 = 1 個角色(套餐價格從每月 4 美元起)
- 用於即時串流傳輸的 WebSocket 優先 API
- 從幾秒鐘的音訊中複製聲音
- Sonic 3.5 支援 42 種語言
缺點
- 100 多種預設語音-比 ElevenLabs 或 Azure 的語音庫小。
- 42 種語言-支援多種語言,但比 Azure(140 多種)或 PlayAI(142 種)支援的語言範圍要窄。
- 透過向量嵌入進行情緒控制-比枚舉參數實現更複雜
- 與成熟的供應商相比,生態系統規模較小,文件也較少。
定價
積分制:每個角色 1 分。嗜好模式:免費(2 萬點)。開發者模式:每月 4 美元(10 萬積分)。成長模式:每月 39 美元(1.25 萬點)。規模化模式:每月 239 美元(800 萬積分)。價格已於 2026 年 5 月核實—詳情請見此處。 cartesia.ai/定價.
最適合: 即時語音代理、對話式人工智慧、客戶服務機器人—任何以延遲為主要限制的應用。
用例建議
| 應用場景 | 最佳選擇 | 為什麼 |
|---|---|---|
| LLM + 在同一管道中實現 TTS | 魚音訊 | 同一個 API 金鑰可用於 200 多個項目 LLMs 和 TTS;一個計費帳戶 |
| 語音克隆,價格透明 | 魚音訊 | 每個語音0.1美元,可重複使用語音ID,需要10-30秒音訊。 |
| 最高語音自然度 | 十一實驗室 | 多語言版 v2 在品質基準測試中名列前茅;擁有 3,000 多種語音 |
| 即時語音代理 | 笛卡爾 | 低於 100 毫秒、WebSocket 優先、基於積分的定價 |
| 支援 140 多種語言的企業部署 | Azure TTS | 400多種聲音,140多種語言,個人語音克隆 |
| 多聲道對話 | PlayAI PlayDialog | 一次通話即可實現雙人語音合成,支援 142 種語言 |
| 預算型 AWS/GCP 生產 | Google Cloud / Amazon Polly | $4/1M 標準,慷慨的免費套餐 |
| OpenAI 生態系統集成 | OpenAI TTS | 相同的 SDK,gpt-4o-mini-tts 用於樣式控制輸出 |
價格上次核實日期:2026 年 5 月 6 日。
常見問題
2026年哪款TTS API的語音品質最佳?
ElevenLabs Multilingual v2 在 Artificial Analysis Speech Arena 追蹤的盲測中名列前茅。對於需要在同一平台上實現語音克隆和多語言支援的開發者,Fish Audio 也是不錯的選擇。 Novita AI 以每百萬字元 15 美元的價格提供高品質的 44.1kHz 輸出。
2026年最便宜的TTS API是哪一款?
定價因型號和套餐而異。 Google Cloud TTS 標準版(4 美元/100 萬字元)和 Amazon Polly 標準版(4 美元/1 萬字元)在高容量情況下單價更低。 Cartesia 採用積分制(1 個積分 = 1 個字符,1 萬字符起價 4 美元/月)。對於免費套餐,Amazon Polly 在前 12 個月提供 5 萬個標準字符的免費使用額度;Google Cloud TTS 的標準版和 WaveNet 語音每月提供 1 萬個免費字符,且使用期限未定。
哪些TTS API支援語音克隆?
Fish Audio(透過) Novita AIElevenLabs、PlayAI、Cartesia 和 Microsoft Azure Personal Voice 都支援語音克隆。 Fish Audio 由…提供支援。 Novita AI 每個語音收費 0.1 美元,API 工作流程簡單,只需三步驟:上傳音訊 → 克隆 → 獲取 voice_id.
我能否將 TTS API 與我現有的系統一起使用? LLM 管道?
Novita AI 是唯一同時提供 200 多種功能的平台 LLMOpenAI 提供多種 TTS 引擎(Fish Audio、MiniMax、CosyVoice),所有功能均可透過一個 API 金鑰和結算帳戶實現。 LLM + 也支援文字轉語音(TTS),但只有 10 種語音,而且不支援語音克隆。對於完全整合的 LLM-到語音管道, Novita AI的 TTS API 這樣就無需單獨的TTS供應商了。
結語
2026年,沒有哪一款TTS API能夠在各方面都勝出。最終的決定取決於您的主要限制條件:
- 潛伏: Cartesia(<100毫秒,以信用額度計費)
- 語音品質: ElevenLabs(多國語言版 v2)
- 語言覆蓋範圍: Azure (140+) 或 PlayAI (142)
- LLM + TTS 統一: Fish Audio Novita AI (一鍵支付,單筆帳單,語音複製費用為每語音 0.1 美元)
- 大規模預算: Google Cloud Standard 或 Amazon Polly(4 美元/1 萬美元)
如果你正在建立一個 LLM-使用Powerable應用程序,並且想要在不引入其他供應商的情況下添加語音功能, Fish Audio 提供支援 Novita AI 最實用的起點是-呼叫語言模型的同一個 API 金鑰可以處理 TTS 和語音克隆。
推薦文章
探索 Novita 的更多內容
訂閱以將最新貼文發送到您的電子郵件。



