2026 年最佳文字轉語音 API:8 家供應商比較

2026 年最佳文字轉語音 API:8 家供應商比較

2026 年最佳文字轉語音 API:8 家供應商比較

我們評測並比較了 2026 年的 8 個文字轉語音 API——價格、語音品質、情感控制、語音複製以及開發者體驗。最佳的 TTS API 取決於你的使用場景:即時延遲、語言涵蓋範圍、預算,或者你是否需要內建的語音複製功能。

本指南涵蓋以下內容:Fish Audio(由 Novita AI 支援)、ElevenLabs、Google Cloud TTS、Amazon Polly、Microsoft Azure TTS、OpenAI TTS、PlayAI 和 Cartesia。所有價格皆已根據 2026 年 5 月的官方來源驗證。

TL;DR — 快速比較

供應商 語音數量 語言 語音複製 價格(每 100 萬字元) 最適合
Fish Audio 20+ 10 ✅ $0.1/語音 $15.00 語音複製 $0.1/語音 + 44.1kHz 品質
ElevenLabs 3,000+ 29 ✅ 即時 + 專業版 $120–$300 高自然度評分(Artificial Analysis)
Google Cloud TTS 220+ 40+ ❌ 僅限企業版 $4–$160 GCP 生態系、SSML 進階使用者
Amazon Polly 60+ 30+ $4–$100 AWS 生態系、新用戶強大免費方案
Microsoft Azure TTS 400+ 140+ ✅ Personal Voice $16–$100 企業級、本清單中語言覆蓋最廣
OpenAI TTS 10 ~57 $15–$30 使用 OpenAI 管線的使用者
PlayAI 900+ 142 ✅ 即時 $15–$100 多重語音對話
Cartesia 150+ 42 以點數計費 即時語音 AI(<100ms)

價格最後驗證日期:2026 年 5 月 6 日。購買前請查閱供應商頁面。

選擇 TTS API 時應注意什麼

  • 延遲: 即時代理需要 <300ms。批次工作流程可接受非同步處理。
  • 語音品質: 由 Artificial Analysis Speech Arena 對 73 個模型進行基準測試。
  • 語言與語音覆蓋: 從 10 個語音 / 僅英文(Deepgram)到 400+ 語音 / 140+ 語言(Azure)。
  • 情感控制: 從無(Polly Standard)到 50+ SSML 風格(Azure)再到明確的列舉參數(透過 Novita AI 的 MiniMax)。
  • 定價模式: 訂閱制(ElevenLabs)、固定按量計費(Cartesia、Novita AI)或雲端帳戶計費(Polly、Google)。

1. Fish Audio — 多語言開發者最佳的語音複製 API

Fish Audio 的語音模型提供 44.1kHz 輸出品質,可從 10–30 秒的音訊以 $0.1/語音進行語音複製,並支援 10 種語言,包括英文、中文、日文、韓文和阿拉伯文。可透過 Novita AI 的 API 以 $15/100 萬字元使用——無需訂閱。

主要規格

  • 模型: s1(Fish Audio v4beta,透過 reference_id 參數)
  • 語音: 20 個內建語音,涵蓋 10 種語言(英文、中文、日文、韓文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文)——每種語言 1 男聲 + 1 女聲
  • 音訊品質: 44,100 Hz 取樣率,支援 mp3/opus/wav/pcm 輸出
  • 最大輸入: 每次請求 10,000 字元
  • 延遲模式: normal(適合長篇內容)/ balanced(適合較短、對時間敏感的合成)
  • 語音複製: 每個語音 $0.1——上傳 10–30 秒的音訊,取得可重複使用的 voice_id

快速入門

呼叫 v4beta 端點並同步取得音訊 URL:

import requests

API_KEY = "YOUR_NOVITA_KEY"

response = requests.post(
    "https://api.novita.ai/v4beta/txt2speech",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "Content-Type": "application/json"
    },
    json={
        "text": "Hello, this is Fish Audio TTS.",
        "reference_id": "s1",  # default model
        "format": "mp3",
        "sample_rate": 44100
    }
)

audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)

語音複製工作流程

Fish Audio 語音複製 需要三個 API 呼叫:上傳音訊 → 建立複製品 → 在任何 TTS 請求中使用回傳的 voice_id

import base64, requests, time

API_KEY = &#34;YOUR_NOVITA_API_KEY&#34;
BASE_URL = &#34;https://api.novita.ai&#34;

# Step 1: Upload audio
with open(&#34;sample_voice.mp3&#34;, &#34;rb&#34;) as f:
    encoded = base64.b64encode(f.read()).decode(&#34;utf-8&#34;)

file_id = requests.post(
    f&#34;{BASE_URL}/v1/files&#34;,
    headers={&#34;Authorization&#34;: f&#34;Bearer {API_KEY}&#34;, &#34;Content-Type&#34;: &#34;application/json&#34;},
    json={&#34;file&#34;: encoded, &#34;purpose&#34;: &#34;voice-cloning&#34;}
).json()&#91;&#34;file_id&#34;]
# Step 2: Clone voice
task_id = requests.post(
    f&#34;{BASE_URL}/v1/async/voice-cloning&#34;,
    headers={&#34;Authorization&#34;: f&#34;Bearer {API_KEY}&#34;, &#34;Content-Type&#34;: &#34;application/json&#34;},
    json={&#34;model&#34;: &#34;fish-audio-voice-cloning&#34;, &#34;audio_file_id&#34;: file_id,
          &#34;text&#34;: &#34;Hello, this is a sample text matching the audio content.&#34;}
).json()&#91;&#34;task_id&#34;]

# Step 3: Get voice_id
while True:
    result = requests.get(f&#34;{BASE_URL}/v1/async/task-result&#34;,
        headers={&#34;Authorization&#34;: f&#34;Bearer {API_KEY}&#34;},
        params={&#34;task_id&#34;: task_id}).json()
    if result&#91;&#34;status&#34;].endswith(&#34;SUCCEED&#34;):
        voice_id = result&#91;&#34;result&#34;]&#91;&#34;voice_id&#34;]
        print(f&#34;Cloned voice ID: {voice_id}&#34;)
        break
    # add a short poll interval here
# Step 4: Use cloned voice with v4beta TTS
response = requests.post(
    "https://api.novita.ai/v4beta/txt2speech",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "text": "Hello, this is my cloned voice.",
        "reference_id": voice_id,  # from Step 3
        "format": "mp3",
        "sample_rate": 44100
    }
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)

優點

  • 語音複製每個語音 $0.1——在檢查過的供應商中價格合理
  • 44.1kHz 取樣率輸出——比大多數供應商更高保真度(OpenAI 輸出為 24kHz)
  • 每次請求 10,000 字元限制——是 OpenAI 4,096 限制的 2.4 倍
  • 多種輸出格式:mp3、opus、wav、pcm
  • 可透過 Novita AI 存取——同一個帳戶涵蓋 LLM、圖片生成和影片生成

缺點

  • 僅非同步——不適合即時 sub-200ms 的應用
  • 內建語音庫比 ElevenLabs(3,000+)或 PlayAI(900+)小

價格

TTS 為 $15.00 每 100 萬字元。語音複製為 每個語音 $0.1(一次性,可無限重複使用 voice_id)。無需訂閱——純按量計費。

最適合: 開發多語言應用程式、LLM 轉語音管線,或需要品牌/自訂語音但不想綁定單一供應商 TTS 堆疊的開發者。

2. ElevenLabs — 強大的語音品質

ElevenLabs 仍是原始語音自然度的標竿。Multilingual v2 支援 29 種語言,提供目前最具表現力的輸出;Flash v2.5 達到約 75ms 延遲,適用於即時使用場景。3,000+ 語音庫是市面上最大的之一。

優點

  • 3,000+ 語音——最大的語音庫
  • Flash v2.5 約 75ms 延遲
  • 即時 + 專業語音複製

缺點

  • 僅限訂閱,無固定按量計費
  • 超額 $0.30/1k ($300/1M)
  • 專有 SDK

價格

免費:10k 字元/月。Starter:$5/月 (30k)。Creator:$22/月 (100k)。Pro:$99/月 (500k,超額 $0.24/1k)。Scale:$330/月 (2M,$0.18/1k)。Business:$1,320/月 (11M,$0.12/1k)。

最適合: 有聲書、配音、Podcast 製作,以及任何以語音自然度為主要指標的使用場景。

3. Google Cloud Text-to-Speech — 最適合 GCP 生態系使用者

Google Cloud TTS 涵蓋 40+ 語言和 220+ 語音,支援完整的 SSML。Standard 層級 $4/1M 是高量生產中最便宜的之一,每月 100 萬字元免費(Standard + WaveNet)讓原型開發變得容易。

優點

  • 每月 100 萬字元免費(Standard + WaveNet)
  • 完整 SSML、220+ 語音、40+ 語言
  • Long Audio Synthesis 支援超過 5,000 字元的文件

缺點

  • 無自助語音複製
  • Studio 層級 $160/1M 昂貴

價格

Standard:$4/1M。WaveNet/Neural2:$16/1M。Journey:$30/1M。Studio:$160/1M。Long Audio:$100/1M。前 100 萬字元/月免費(Standard 和 WaveNet)。

最適合: GCP 原生堆疊、無障礙應用程式,以及 Standard 語音品質就足夠的高量批次合成。

4. Amazon Polly — AWS 用戶強大的免費方案

Amazon Polly 的免費方案——前 12 個月每月 500 萬標準字元和 100 萬神經字元——是本清單中最慷慨的。Speech Marks(字詞級時間戳)使其成為同步視覺+音訊體驗的首選。

優點

  • 免費方案:前 12 個月每月 500 萬 Standard + 100 萬 Neural 字元
  • Speech Marks 提供字詞級音訊文字同步
  • 原生 AWS 整合

缺點

  • 無自助語音複製
  • Generative 語音(最自然)僅限英文

價格

Standard:$4/1M。Neural:$16/1M。Generative:$30/1M。Long-form:$100/1M。免費方案:每月 500 萬 Standard + 100 萬 Neural(前 12 個月)。

最適合: AWS 原生應用程式、IVR 系統,以及需要 Speech Marks 的動畫/同步媒體。

5. Microsoft Azure TTS — 最廣泛的語言覆蓋

Azure 擁有 400+ 語音,涵蓋 140+ 語言——是本清單中任何供應商中最廣泛的。其 SSML mstts:express-as 標籤支援每個語音 50+ 種說話風格(愉快、悲傷、生氣、新聞播報、客戶服務等),並可透過 styledegree 調整強度。Personal Voice 可從約一分鐘的音訊複製語音。

優點

  • 140+ 語言——最廣泛的覆蓋
  • 50+ SSML 說話風格,可調整強度
  • Personal Voice:從約 1 分鐘音訊複製

缺點

  • Neural HD 每 100 萬字元 $100 昂貴
  • SSML 增加標記複雜度

價格

Neural:$16/1M(每月 0.5M 免費)。Neural HD:$100/1M。Personal Voice:$24/1M。Custom Neural:$24/1M + $23.90/小時訓練。

最適合: 需要 100+ 語言支援的企業應用程式、無障礙工具,以及品牌語音部署。

6. OpenAI TTS — 最適合現有 OpenAI 使用者

如果你已經在使用 OpenAI 生態系,gpt-4o-mini-tts 值得使用——它接受自然語言 instructions 參數來控制語氣、節奏和風格,無需額外的 SSML 標記。但權衡是:只有 10 個語音、無語音複製,以及每次請求 4,096 字元限制。

優點

  • gpt-4o-mini-tts 支援純英文指令來控制情感和風格
  • ~57 種語言支援
  • 標準 OpenAI Python/JS SDK——無需安裝新函式庫
  • 串流支援以降低感知延遲

缺點

  • 只有 10 個內建語音——本清單中選擇最少
  • 無語音複製
  • 每次請求 4,096 字元限制(Fish Audio 允許 10,000)
  • tts-1 每 100 萬字元 $15——同等用途下比 Google Standard($4/1M)貴

價格

tts-1:$15/1M 字元。tts-1-hd:$30/1M 字元。gpt-4o-mini-tts:以 token 為基礎計價(請參閱 openai.com/api/pricing)。比較表中的 $15–$30 範圍僅指 tts-1 和 tts-1-hd。

最適合: 已經在使用 OpenAI API 且希望在不增加其他供應商的情況下加入 TTS 的開發者。

7. PlayAI — 最適合多重語音對話

PlayAI 的 PlayDialog 模型專為雙代理對話設計——一次 API 呼叫中兩個不同的語音,同步且自然的輪流發言。它支援 142 種語言(此處最廣泛),並可從少於 10 秒的音訊進行即時語音複製。

優點

  • 142 種語言——本清單中最廣泛的覆蓋
  • 900+ 語音
  • PlayDialog:一次請求中兩個同時語音(獨特功能)
  • 從 <10 秒音訊即時語音複製
  • WebSocket 和 gRPC 串流選項

缺點

  • PlayDialog 每 100 萬字元 $100,對標準 TTS 使用場景來說昂貴
  • 專有認證(API Key + 使用者 ID)增加輕微整合摩擦
  • 較新的生態系——社群文件比 ElevenLabs 或 Google 少

價格

按量計費:PlayHT 2.0 Turbo $15/1M,PlayHT 2.0/3.0 $30/1M,PlayDialog $100/1M。訂閱:Creator $39/月(500k 字元)到 Scale $999/月(33M 字元)。

最適合: Podcast、有聲劇、需要多說話者對話的互動語音應用,以及需要廣泛語言覆蓋的部署。

8. Cartesia — 最適合即時語音 AI

Cartesia 的 Sonic 模型達到 sub-100ms 的首次音訊時間——在檢查過的供應商中,這是報告最低的首次音訊時間。它以 WebSocket 為優先設計,用於即時串流應用,並可從數秒音訊進行語音複製,非常適合即時語音 AI 應用。

優點

  • Sub-100ms 首次音訊時間——本清單中沒有其他供應商在即時應用中能匹敵這個數字
  • 點數制計價:1 點數 = 1 字元(方案從 $4/月起)
  • WebSocket 優先 API,用於即時串流
  • 從數秒音訊進行語音複製
  • Sonic 3.5 支援 42 種語言

缺點

  • 100+ 庫存語音——語音庫比 ElevenLabs 或 Azure 小
  • 42 種語言——多語言支援不錯,但比 Azure(140+)或 PlayAI(142)窄
  • 情感控制透過向量嵌入——比列舉參數更難實作
  • 生態系較小,文件比成熟供應商少

價格

點數制:1 點數 = 1 字元。Hobby:免費(20K 點數)。Developer:$4/月(100K)。Growth:$39/月(1.25M)。Scale:$239/月(8M)。價格已於 2026 年 5 月驗證——請參閱 cartesia.ai/pricing

最適合: 即時語音代理、對話式 AI、客服機器人——任何以延遲為主要限制的應用。

使用場景建議

使用場景 最佳選擇 原因
LLM + TTS 在同一管線中 Fish Audio 同一 API 金鑰可用於 200+ LLM 和 TTS;單一帳戶計費
語音複製搭配透明定價 Fish Audio $0.1/語音,可重複使用的 voice_id,需要 10–30 秒音訊
最高語音自然度 ElevenLabs Multilingual v2 在品質基準測試中頂尖;3,000+ 語音
即時語音代理 Cartesia Sub-100ms,WebSocket 優先,點數制計價
140+ 語言企業部署 Azure TTS 400+ 語音,140+ 語言,Personal Voice 複製
多重語音對話 PlayAI PlayDialog 一次呼叫兩個說話者合成,142 種語言
預算型 AWS/GCP 生產 Google Cloud / Amazon Polly $4/1M Standard,慷慨的免費方案
OpenAI 生態系整合 OpenAI TTS 相同 SDK,gpt-4o-mini-tts 支援風格控制輸出

價格最後驗證日期:2026 年 5 月 6 日。

常見問題

2026 年哪個 TTS API 的語音品質最好?

ElevenLabs Multilingual v2 在 Artificial Analysis Speech Arena 追蹤的盲測品質測試中排名最高。對於同時需要語音複製和多語言支援的開發者,透過 Novita AI 使用的 Fish Audio 以 $15/100 萬字元提供高品質 44.1kHz 輸出。

2026 年哪個 TTS API 最便宜?

價格因模型和方案而異。Google Cloud TTS Standard($4/1M)和 Amazon Polly Standard($4/1M)在高量使用下每字元費率較低。Cartesia 使用點數制(1 點數 = 1 字元,從 $4/月 100K 開始)。關於免費方案,Amazon Polly 前 12 個月提供 500 萬標準字元免費;Google Cloud TTS 在 Standard 和 WaveNet 語音上每月提供 100 萬字元免費(無限期)。

哪個 TTS API 支援語音複製?

Fish Audio(透過 Novita AI)、ElevenLabs、PlayAI、Cartesia 和 Microsoft Azure Personal Voice 都支援語音複製。由 Novita AI 支援的 Fish Audio 每個語音收費 $0.1,並提供直接的三步驟 API 工作流程:上傳音訊 → 複製 → 取得 voice_id

我可以將 TTS API 與現有的 LLM 管線一起使用嗎?

Novita AI 是唯一一個在同一個 API 金鑰和計費帳戶下提供 200+ LLM 和多個 TTS 引擎(Fish Audio、MiniMax、CosyVoice)的平台。OpenAI 也提供 LLM + TTS,但只有 10 個語音且沒有語音複製。如需完全整合的 LLM 轉語音管線,Novita AI 的 TTS API 消除了對獨立 TTS 供應商的需求。

結論

2026 年,沒有單一 TTS API 能在所有面向勝出。決定取決於你的主要限制:

  • 延遲: Cartesia(<100ms,點數制計價)
  • 語音品質: ElevenLabs(Multilingual v2)
  • 語言覆蓋: Azure(140+)或 PlayAI(142)
  • LLM + TTS 統一: 透過 Novita AI 的 Fish Audio(一個金鑰、一張帳單、語音複製 $0.1/語音)
  • 大規模預算: Google Cloud Standard 或 Amazon Polly($4/1M)

如果你正在建構一個 LLM 驅動的應用程式,並且希望在不增加獨立供應商的情況下加入語音功能,由 Novita AI 支援的 Fish Audio 是最實用的起點——同一個用於呼叫語言模型的 API 金鑰也能處理 TTS 和語音複製。

推薦文章