TL;DR — 快速比較
選擇 TTS API 時應注意什麼
1. Fish Audio — 多語言開發者最佳的語音複製 API
2. ElevenLabs — 強大的語音品質
3. Google Cloud Text-to-Speech — 最適合 GCP 生態系使用者
4. Amazon Polly — AWS 用戶強大的免費方案
5. Microsoft Azure TTS — 最廣泛的語言覆蓋
6. OpenAI TTS — 最適合現有 OpenAI 使用者
7. PlayAI — 最適合多重語音對話
8. Cartesia — 最適合即時語音 AI
使用場景建議
常見問題
結論
推薦文章

2026 年最佳文字轉語音 API：8 家供應商比較

我們評測並比較了 2026 年的 8 個文字轉語音 API——價格、語音品質、情感控制、語音複製以及開發者體驗。最佳的 TTS API 取決於你的使用場景：即時延遲、語言涵蓋範圍、預算，或者你是否需要內建的語音複製功能。

本指南涵蓋以下內容：Fish Audio（由 Novita AI 支援）、ElevenLabs、Google Cloud TTS、Amazon Polly、Microsoft Azure TTS、OpenAI TTS、PlayAI 和 Cartesia。所有價格皆已根據 2026 年 5 月的官方來源驗證。

TL;DR — 快速比較

供應商	語音數量	語言	語音複製	價格（每 100 萬字元）	最適合
Fish Audio	20+	10	✅ $0.1/語音	$15.00	語音複製 $0.1/語音 + 44.1kHz 品質
ElevenLabs	3,000+	29	✅ 即時 + 專業版	$120–$300	高自然度評分（Artificial Analysis）
Google Cloud TTS	220+	40+	❌ 僅限企業版	$4–$160	GCP 生態系、SSML 進階使用者
Amazon Polly	60+	30+	❌	$4–$100	AWS 生態系、新用戶強大免費方案
Microsoft Azure TTS	400+	140+	✅ Personal Voice	$16–$100	企業級、本清單中語言覆蓋最廣
OpenAI TTS	10	~57	❌	$15–$30	使用 OpenAI 管線的使用者
PlayAI	900+	142	✅ 即時	$15–$100	多重語音對話
Cartesia	150+	42	✅	以點數計費	即時語音 AI（<100ms）

價格最後驗證日期：2026 年 5 月 6 日。購買前請查閱供應商頁面。

選擇 TTS API 時應注意什麼

延遲： 即時代理需要 <300ms。批次工作流程可接受非同步處理。
語音品質： 由 Artificial Analysis Speech Arena 對 73 個模型進行基準測試。
語言與語音覆蓋： 從 10 個語音 / 僅英文（Deepgram）到 400+ 語音 / 140+ 語言（Azure）。
情感控制： 從無（Polly Standard）到 50+ SSML 風格（Azure）再到明確的列舉參數（透過 Novita AI 的 MiniMax）。
定價模式： 訂閱制（ElevenLabs）、固定按量計費（Cartesia、Novita AI）或雲端帳戶計費（Polly、Google）。

1. Fish Audio — 多語言開發者最佳的語音複製 API

Fish Audio 的語音模型提供 44.1kHz 輸出品質，可從 10–30 秒的音訊以 $0.1/語音進行語音複製，並支援 10 種語言，包括英文、中文、日文、韓文和阿拉伯文。可透過 Novita AI 的 API 以 $15/100 萬字元使用——無需訂閱。

主要規格

模型： s1（Fish Audio v4beta，透過 reference_id 參數）
語音： 20 個內建語音，涵蓋 10 種語言（英文、中文、日文、韓文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文）——每種語言 1 男聲 + 1 女聲
音訊品質： 44,100 Hz 取樣率，支援 mp3/opus/wav/pcm 輸出
最大輸入： 每次請求 10,000 字元
延遲模式： normal（適合長篇內容）/ balanced（適合較短、對時間敏感的合成）
語音複製： 每個語音 $0.1——上傳 10–30 秒的音訊，取得可重複使用的 voice_id

快速入門

呼叫 v4beta 端點並同步取得音訊 URL：

import requests

API_KEY = "YOUR_NOVITA_KEY"

response = requests.post(
    "https://api.novita.ai/v4beta/txt2speech",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json"
    },
    json={
        "text": "Hello, this is Fish Audio TTS.",
        "reference_id": "s1",  # default model
        "format": "mp3",
        "sample_rate": 44100
    }
)

audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)

語音複製工作流程

Fish Audio 語音複製需要三個 API 呼叫：上傳音訊 → 建立複製品 → 在任何 TTS 請求中使用回傳的 voice_id。

import base64, requests, time

API_KEY = &#34;YOUR_NOVITA_API_KEY&#34;
BASE_URL = &#34;https://api.novita.ai&#34;

# Step 1: Upload audio
with open(&#34;sample_voice.mp3&#34;, &#34;rb&#34;) as f:
    encoded = base64.b64encode(f.read()).decode(&#34;utf-8&#34;)

file_id = requests.post(
    f&#34;{BASE_URL}/v1/files&#34;,
    headers={&#34;Authorization&#34;: f&#34;Bearer {API_KEY}&#34;, &#34;Content-Type&#34;: &#34;application/json&#34;},
    json={&#34;file&#34;: encoded, &#34;purpose&#34;: &#34;voice-cloning&#34;}
).json()&#91;&#34;file_id&#34;]

# Step 2: Clone voice
task_id = requests.post(
    f&#34;{BASE_URL}/v1/async/voice-cloning&#34;,
    headers={&#34;Authorization&#34;: f&#34;Bearer {API_KEY}&#34;, &#34;Content-Type&#34;: &#34;application/json&#34;},
    json={&#34;model&#34;: &#34;fish-audio-voice-cloning&#34;, &#34;audio_file_id&#34;: file_id,
          &#34;text&#34;: &#34;Hello, this is a sample text matching the audio content.&#34;}
).json()&#91;&#34;task_id&#34;]

# Step 3: Get voice_id
while True:
    result = requests.get(f&#34;{BASE_URL}/v1/async/task-result&#34;,
        headers={&#34;Authorization&#34;: f&#34;Bearer {API_KEY}&#34;},
        params={&#34;task_id&#34;: task_id}).json()
    if result&#91;&#34;status&#34;].endswith(&#34;SUCCEED&#34;):
        voice_id = result&#91;&#34;result&#34;]&#91;&#34;voice_id&#34;]
        print(f&#34;Cloned voice ID: {voice_id}&#34;)
        break
    # add a short poll interval here

# Step 4: Use cloned voice with v4beta TTS
response = requests.post(
    "https://api.novita.ai/v4beta/txt2speech",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "text": "Hello, this is my cloned voice.",
        "reference_id": voice_id,  # from Step 3
        "format": "mp3",
        "sample_rate": 44100
    }
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)

優點

語音複製每個語音 $0.1——在檢查過的供應商中價格合理
44.1kHz 取樣率輸出——比大多數供應商更高保真度（OpenAI 輸出為 24kHz）
每次請求 10,000 字元限制——是 OpenAI 4,096 限制的 2.4 倍
多種輸出格式：mp3、opus、wav、pcm
可透過 Novita AI 存取——同一個帳戶涵蓋 LLM、圖片生成和影片生成

缺點

僅非同步——不適合即時 sub-200ms 的應用
內建語音庫比 ElevenLabs（3,000+）或 PlayAI（900+）小

價格

TTS 為 $15.00 每 100 萬字元。語音複製為 每個語音 $0.1（一次性，可無限重複使用 voice_id）。無需訂閱——純按量計費。

最適合： 開發多語言應用程式、LLM 轉語音管線，或需要品牌/自訂語音但不想綁定單一供應商 TTS 堆疊的開發者。

2. ElevenLabs — 強大的語音品質

ElevenLabs 仍是原始語音自然度的標竿。Multilingual v2 支援 29 種語言，提供目前最具表現力的輸出；Flash v2.5 達到約 75ms 延遲，適用於即時使用場景。3,000+ 語音庫是市面上最大的之一。

優點

3,000+ 語音——最大的語音庫
Flash v2.5 約 75ms 延遲
即時 + 專業語音複製

缺點

僅限訂閱，無固定按量計費
超額 $0.30/1k ($300/1M)
專有 SDK

價格

免費：10k 字元/月。Starter：$5/月 (30k)。Creator：$22/月 (100k)。Pro：$99/月 (500k，超額 $0.24/1k)。Scale：$330/月 (2M，$0.18/1k)。Business：$1,320/月 (11M，$0.12/1k)。

最適合： 有聲書、配音、Podcast 製作，以及任何以語音自然度為主要指標的使用場景。

3. Google Cloud Text-to-Speech — 最適合 GCP 生態系使用者

Google Cloud TTS 涵蓋 40+ 語言和 220+ 語音，支援完整的 SSML。Standard 層級 $4/1M 是高量生產中最便宜的之一，每月 100 萬字元免費（Standard + WaveNet）讓原型開發變得容易。

優點

每月 100 萬字元免費（Standard + WaveNet）
完整 SSML、220+ 語音、40+ 語言
Long Audio Synthesis 支援超過 5,000 字元的文件

缺點

無自助語音複製
Studio 層級 $160/1M 昂貴

價格

Standard：$4/1M。WaveNet/Neural2：$16/1M。Journey：$30/1M。Studio：$160/1M。Long Audio：$100/1M。前 100 萬字元/月免費（Standard 和 WaveNet）。

最適合： GCP 原生堆疊、無障礙應用程式，以及 Standard 語音品質就足夠的高量批次合成。

4. Amazon Polly — AWS 用戶強大的免費方案

Amazon Polly 的免費方案——前 12 個月每月 500 萬標準字元和 100 萬神經字元——是本清單中最慷慨的。Speech Marks（字詞級時間戳）使其成為同步視覺+音訊體驗的首選。

優點

免費方案：前 12 個月每月 500 萬 Standard + 100 萬 Neural 字元
Speech Marks 提供字詞級音訊文字同步
原生 AWS 整合

缺點

無自助語音複製
Generative 語音（最自然）僅限英文

價格

Standard：$4/1M。Neural：$16/1M。Generative：$30/1M。Long-form：$100/1M。免費方案：每月 500 萬 Standard + 100 萬 Neural（前 12 個月）。

最適合： AWS 原生應用程式、IVR 系統，以及需要 Speech Marks 的動畫/同步媒體。

5. Microsoft Azure TTS — 最廣泛的語言覆蓋

Azure 擁有 400+ 語音，涵蓋 140+ 語言——是本清單中任何供應商中最廣泛的。其 SSML mstts:express-as 標籤支援每個語音 50+ 種說話風格（愉快、悲傷、生氣、新聞播報、客戶服務等），並可透過 styledegree 調整強度。Personal Voice 可從約一分鐘的音訊複製語音。

優點

140+ 語言——最廣泛的覆蓋
50+ SSML 說話風格，可調整強度
Personal Voice：從約 1 分鐘音訊複製

缺點

Neural HD 每 100 萬字元 $100 昂貴
SSML 增加標記複雜度

價格

Neural：$16/1M（每月 0.5M 免費）。Neural HD：$100/1M。Personal Voice：$24/1M。Custom Neural：$24/1M + $23.90/小時訓練。

最適合： 需要 100+ 語言支援的企業應用程式、無障礙工具，以及品牌語音部署。

6. OpenAI TTS — 最適合現有 OpenAI 使用者

如果你已經在使用 OpenAI 生態系，gpt-4o-mini-tts 值得使用——它接受自然語言 instructions 參數來控制語氣、節奏和風格，無需額外的 SSML 標記。但權衡是：只有 10 個語音、無語音複製，以及每次請求 4,096 字元限制。

優點

gpt-4o-mini-tts 支援純英文指令來控制情感和風格
~57 種語言支援
標準 OpenAI Python/JS SDK——無需安裝新函式庫
串流支援以降低感知延遲

缺點

只有 10 個內建語音——本清單中選擇最少
無語音複製
每次請求 4,096 字元限制（Fish Audio 允許 10,000）
tts-1 每 100 萬字元 $15——同等用途下比 Google Standard（$4/1M）貴

價格

tts-1：$15/1M 字元。tts-1-hd：$30/1M 字元。gpt-4o-mini-tts：以 token 為基礎計價（請參閱 openai.com/api/pricing）。比較表中的 $15–$30 範圍僅指 tts-1 和 tts-1-hd。

最適合： 已經在使用 OpenAI API 且希望在不增加其他供應商的情況下加入 TTS 的開發者。

7. PlayAI — 最適合多重語音對話

PlayAI 的 PlayDialog 模型專為雙代理對話設計——一次 API 呼叫中兩個不同的語音，同步且自然的輪流發言。它支援 142 種語言（此處最廣泛），並可從少於 10 秒的音訊進行即時語音複製。

優點

142 種語言——本清單中最廣泛的覆蓋
900+ 語音
PlayDialog：一次請求中兩個同時語音（獨特功能）
從 <10 秒音訊即時語音複製
WebSocket 和 gRPC 串流選項

缺點

PlayDialog 每 100 萬字元 $100，對標準 TTS 使用場景來說昂貴
專有認證（API Key + 使用者 ID）增加輕微整合摩擦
較新的生態系——社群文件比 ElevenLabs 或 Google 少

價格

按量計費：PlayHT 2.0 Turbo $15/1M，PlayHT 2.0/3.0 $30/1M，PlayDialog $100/1M。訂閱：Creator $39/月（500k 字元）到 Scale $999/月（33M 字元）。

最適合： Podcast、有聲劇、需要多說話者對話的互動語音應用，以及需要廣泛語言覆蓋的部署。

8. Cartesia — 最適合即時語音 AI

Cartesia 的 Sonic 模型達到 sub-100ms 的首次音訊時間——在檢查過的供應商中，這是報告最低的首次音訊時間。它以 WebSocket 為優先設計，用於即時串流應用，並可從數秒音訊進行語音複製，非常適合即時語音 AI 應用。

優點

Sub-100ms 首次音訊時間——本清單中沒有其他供應商在即時應用中能匹敵這個數字
點數制計價：1 點數 = 1 字元（方案從 $4/月起）
WebSocket 優先 API，用於即時串流
從數秒音訊進行語音複製
Sonic 3.5 支援 42 種語言

缺點

100+ 庫存語音——語音庫比 ElevenLabs 或 Azure 小
42 種語言——多語言支援不錯，但比 Azure（140+）或 PlayAI（142）窄
情感控制透過向量嵌入——比列舉參數更難實作
生態系較小，文件比成熟供應商少

價格

點數制：1 點數 = 1 字元。Hobby：免費（20K 點數）。Developer：$4/月（100K）。Growth：$39/月（1.25M）。Scale：$239/月（8M）。價格已於 2026 年 5 月驗證——請參閱 cartesia.ai/pricing。

最適合： 即時語音代理、對話式 AI、客服機器人——任何以延遲為主要限制的應用。

使用場景建議

使用場景	最佳選擇	原因
LLM + TTS 在同一管線中	Fish Audio	同一 API 金鑰可用於 200+ LLM 和 TTS；單一帳戶計費
語音複製搭配透明定價	Fish Audio	$0.1/語音，可重複使用的 voice_id，需要 10–30 秒音訊
最高語音自然度	ElevenLabs	Multilingual v2 在品質基準測試中頂尖；3,000+ 語音
即時語音代理	Cartesia	Sub-100ms，WebSocket 優先，點數制計價
140+ 語言企業部署	Azure TTS	400+ 語音，140+ 語言，Personal Voice 複製
多重語音對話	PlayAI PlayDialog	一次呼叫兩個說話者合成，142 種語言
預算型 AWS/GCP 生產	Google Cloud / Amazon Polly	$4/1M Standard，慷慨的免費方案
OpenAI 生態系整合	OpenAI TTS	相同 SDK，gpt-4o-mini-tts 支援風格控制輸出

價格最後驗證日期：2026 年 5 月 6 日。

常見問題

2026 年哪個 TTS API 的語音品質最好？

ElevenLabs Multilingual v2 在 Artificial Analysis Speech Arena 追蹤的盲測品質測試中排名最高。對於同時需要語音複製和多語言支援的開發者，透過 Novita AI 使用的 Fish Audio 以 $15/100 萬字元提供高品質 44.1kHz 輸出。

2026 年哪個 TTS API 最便宜？

價格因模型和方案而異。Google Cloud TTS Standard（$4/1M）和 Amazon Polly Standard（$4/1M）在高量使用下每字元費率較低。Cartesia 使用點數制（1 點數 = 1 字元，從 $4/月 100K 開始）。關於免費方案，Amazon Polly 前 12 個月提供 500 萬標準字元免費；Google Cloud TTS 在 Standard 和 WaveNet 語音上每月提供 100 萬字元免費（無限期）。

哪個 TTS API 支援語音複製？

Fish Audio（透過 Novita AI）、ElevenLabs、PlayAI、Cartesia 和 Microsoft Azure Personal Voice 都支援語音複製。由 Novita AI 支援的 Fish Audio 每個語音收費 $0.1，並提供直接的三步驟 API 工作流程：上傳音訊 → 複製 → 取得 voice_id。

我可以將 TTS API 與現有的 LLM 管線一起使用嗎？

Novita AI 是唯一一個在同一個 API 金鑰和計費帳戶下提供 200+ LLM 和多個 TTS 引擎（Fish Audio、MiniMax、CosyVoice）的平台。OpenAI 也提供 LLM + TTS，但只有 10 個語音且沒有語音複製。如需完全整合的 LLM 轉語音管線，Novita AI 的 TTS API 消除了對獨立 TTS 供應商的需求。

結論

2026 年，沒有單一 TTS API 能在所有面向勝出。決定取決於你的主要限制：

延遲： Cartesia（<100ms，點數制計價）
語音品質： ElevenLabs（Multilingual v2）
語言覆蓋： Azure（140+）或 PlayAI（142）
LLM + TTS 統一： 透過 Novita AI 的 Fish Audio（一個金鑰、一張帳單、語音複製 $0.1/語音）
大規模預算： Google Cloud Standard 或 Amazon Polly（$4/1M）

如果你正在建構一個 LLM 驅動的應用程式，並且希望在不增加獨立供應商的情況下加入語音功能，由 Novita AI 支援的 Fish Audio 是最實用的起點——同一個用於呼叫語言模型的 API 金鑰也能處理 TTS 和語音複製。