- Resumo — Comparação Rápida
- O que Procurar em uma API TTS
- 1. Fish Audio — Melhor API de Clonagem de Voz para Desenvolvedores Multilíngues
- 2. ElevenLabs — Forte Qualidade de Voz
- 3. Google Cloud Text-to-Speech — Melhor para Usuários do Ecossistema GCP
- 4. Amazon Polly — Forte Nível Gratuito para Usuários AWS
- 5. Microsoft Azure TTS — Ampla Cobertura de Idiomas
- 6. OpenAI TTS — Melhor para Usuários OpenAI Existentes
- 7. PlayAI — Melhor para Conversas com Múltiplas Vozes
- 8. Cartesia — Melhor para IA de Voz em Tempo Real
- Recomendações por Caso de Uso
- Perguntas Frequentes
- Conclusão
- Artigos Recomendados
Melhores APIs de Texto-para-Fala em 2026: 8 Provedores Comparados
Analisamos e comparamos 8 APIs de texto-para-fala em 2026 — preços, qualidade de voz, controle de emoção, clonagem de voz e experiência do desenvolvedor. A melhor API TTS depende do seu caso de uso: latência em tempo real, cobertura de idiomas, orçamento ou se você precisa de clonagem de voz integrada.
Aqui está o que este guia cobre: Fish Audio (com suporte da Novita AI), ElevenLabs, Google Cloud TTS, Amazon Polly, Microsoft Azure TTS, OpenAI TTS, PlayAI e Cartesia. Todos os preços foram verificados em fontes oficiais em maio de 2026.
Resumo — Comparação Rápida
| Provedor | Vozes | Idiomas | Clonagem de Voz | Preço (por 1M caracteres) | Melhor Para |
|---|---|---|---|---|---|
| Fish Audio | 20+ | 10 | ✅ $0,1/voz | $15,00 | Clonagem de voz a $0,1/voz + qualidade 44,1kHz |
| ElevenLabs | 3.000+ | 29 | ✅ Instantânea + Pro | $120–$300 | Índices de naturalidade elevados (Artificial Analysis) |
| Google Cloud TTS | 220+ | 40+ | ❌ Apenas Enterprise | $4–$160 | Ecossistema GCP, usuários avançados de SSML |
| Amazon Polly | 60+ | 30+ | ❌ | $4–$100 | Ecossistema AWS, forte nível gratuito para novos usuários |
| Microsoft Azure TTS | 400+ | 140+ | ✅ Personal Voice | $16–$100 | Empresas, maior cobertura de idiomas entre os provedores analisados |
| OpenAI TTS | 10 | ~57 | ❌ | $15–$30 | Usuários do pipeline OpenAI |
| PlayAI | 900+ | 142 | ✅ Instantânea | $15–$100 | Conversas com múltiplas vozes |
| Cartesia | 150+ | 42 | ✅ | Baseado em créditos | IA de voz em tempo real (<100ms) |
Preços verificados pela última vez: 6 de maio de 2026. Consulte as páginas dos provedores antes de comprar.
O que Procurar em uma API TTS
- Latência: Agentes em tempo real precisam de <300ms. Fluxos de trabalho em lote toleram assíncrono.
- Qualidade de voz: Avaliada pelo Artificial Analysis Speech Arena em 73 modelos.
- Cobertura de idiomas e vozes: De 10 vozes / apenas inglês (Deepgram) a mais de 400 vozes / mais de 140 idiomas (Azure).
- Controle de emoção: De nenhum (Polly Standard) a mais de 50 estilos SSML (Azure) a parâmetros enum explícitos (MiniMax via Novita AI).
- Modelo de preço: Assinatura (ElevenLabs), PAYG fixo (Cartesia, Novita AI) ou faturamento por conta cloud (Polly, Google).
1. Fish Audio — Melhor API de Clonagem de Voz para Desenvolvedores Multilíngues
O modelo de fala da Fish Audio oferece qualidade de saída de 44,1kHz, clonagem de voz a partir de 10 a 30 segundos de áudio por $0,1/voz e suporta 10 idiomas, incluindo inglês, chinês, japonês, coreano e árabe. É acessível via API da Novita AI por $15/1M de caracteres — sem necessidade de assinatura.
Especificações Principais
- Modelo:
s1(Fish Audio v4beta, via parâmetroreference_id) - Vozes: 20 vozes integradas em 10 idiomas (inglês, chinês, japonês, coreano, espanhol, francês, alemão, russo, árabe, português) — 1 voz masculina + 1 feminina por idioma
- Qualidade de áudio: Taxa de amostragem de 44.100 Hz, saída em mp3/opus/wav/pcm
- Entrada máxima: 10.000 caracteres por requisição
- Modos de latência:
normal(para conteúdo longo) /balanced(para síntese mais curta e sensível ao tempo) - Clonagem de voz: $0,1 por voz — envie 10 a 30 segundos de áudio e obtenha um
voice_idreutilizável
Início Rápido
Chame o endpoint v4beta e obtenha a URL do áudio de forma síncrona:
import requests
API_KEY = "YOUR_NOVITA_KEY"
response = requests.post(
"https://api.novita.ai/v4beta/txt2speech",
headers={
"Authorization": f"Bearer {API_KEY}",
"Content-Type": "application/json"
},
json={
"text": "Hello, this is Fish Audio TTS.",
"reference_id": "s1", # modelo padrão
"format": "mp3",
"sample_rate": 44100
}
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)
Fluxo de Clonagem de Voz
A clonagem de voz da Fish Audio exige três chamadas de API: enviar áudio → clonar voz → usar o voice_id retornado em qualquer requisição TTS.
import base64, requests, time
API_KEY = "YOUR_NOVITA_API_KEY"
BASE_URL = "https://api.novita.ai"
# Passo 1: Enviar áudio
with open("sample_voice.mp3", "rb") as f:
encoded = base64.b64encode(f.read()).decode("utf-8")
file_id = requests.post(
f"{BASE_URL}/v1/files",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={"file": encoded, "purpose": "voice-cloning"}
).json()["file_id"]
# Passo 2: Clonar voz
task_id = requests.post(
f"{BASE_URL}/v1/async/voice-cloning",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={"model": "fish-audio-voice-cloning", "audio_file_id": file_id,
"text": "Hello, this is a sample text matching the audio content."}
).json()["task_id"]
# Passo 3: Obter voice_id
while True:
result = requests.get(f"{BASE_URL}/v1/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id}).json()
if result["status"].endswith("SUCCEED"):
voice_id = result["result"]["voice_id"]
print(f"Cloned voice ID: {voice_id}")
break
# adicione um pequeno intervalo de polling aqui
# Passo 4: Usar voz clonada com v4beta TTS
response = requests.post(
"https://api.novita.ai/v4beta/txt2speech",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"text": "Hello, this is my cloned voice.",
"reference_id": voice_id, # do Passo 3
"format": "mp3",
"sample_rate": 44100
}
)
audio_url = response.json()["audio_url"]
print("Audio URL:", audio_url)
Prós
- Clonagem de voz a $0,1/voz — preço competitivo entre os provedores analisados
- Taxa de amostragem de 44,1kHz — fidelidade maior que a maioria dos provedores (OpenAI gera a 24kHz)
- Limite de 10.000 caracteres por requisição — 2,4× o limite de 4.096 da OpenAI
- Múltiplos formatos de saída: mp3, opus, wav, pcm
- Acessível via Novita AI — mesma conta cobre LLMs, geração de imagem e vídeo
Contras
- Apenas assíncrono — não é adequado para aplicações em tempo real abaixo de 200ms
- Biblioteca de vozes integradas menor que a ElevenLabs (3.000+) ou PlayAI (900+)
Preços
$15,00 por 1M de caracteres para TTS. $0,1 por voz (pagamento único, reutilize o voice_id indefinidamente). Sem assinatura necessária — pague conforme o uso.
Melhor para: Desenvolvedores criando aplicativos multilíngues, pipelines de LLM para voz ou aplicações que precisam de vozes personalizadas sem se comprometer com um único provedor de TTS.
2. ElevenLabs — Forte Qualidade de Voz
A ElevenLabs continua sendo a referência em naturalidade de voz bruta. O Multilingual v2 suporta 29 idiomas com a saída mais expressiva disponível; o Flash v2.5 atinge ~75ms de latência para casos de uso em tempo real. A biblioteca de mais de 3.000 vozes é uma das maiores disponíveis.
Prós
- Mais de 3.000 vozes — maior biblioteca
- Flash v2.5 com ~75ms de latência
- Clonagem de voz instantânea e profissional
Contras
- Apenas assinatura, sem PAYG fixo
- Excedente a $0,30/1k ($300/1M)
- SDK proprietário
Preços
Gratuito: 10k caracteres/mês. Starter: $5/mês (30k). Creator: $22/mês (100k). Pro: $99/mês (500k, excedente $0,24/1k). Scale: $330/mês (2M, excedente $0,18/1k). Business: $1.320/mês (11M, excedente $0,12/1k).
Melhor para: Audiolivros, dublagem, produção de podcasts e qualquer caso de uso onde a naturalidade da voz seja a métrica principal.
3. Google Cloud Text-to-Speech — Melhor para Usuários do Ecossistema GCP
O Google Cloud TTS cobre mais de 40 idiomas e mais de 220 vozes com suporte completo a SSML. O nível Standard a $4/1M é um dos mais baratos para produção em alto volume, e o milhão de caracteres grátis por mês (Standard + WaveNet) facilita a prototipagem.
Prós
- 1M de caracteres grátis/mês (Standard + WaveNet)
- SSML completo, mais de 220 vozes, mais de 40 idiomas
- Síntese de áudio longo para documentos com mais de 5.000 caracteres
Contras
- Nenhuma clonagem de voz self-service
- Nível Studio a $160/1M é caro
Preços
Standard: $4/1M. WaveNet/Neural2: $16/1M. Journey: $30/1M. Studio: $160/1M. Áudio Longo: $100/1M. Primeiro 1M de caracteres/mês grátis para Standard e WaveNet.
Melhor para: Stacks nativos GCP, aplicações de acessibilidade e síntese em lote de alto volume onde a qualidade Standard é suficiente.
4. Amazon Polly — Forte Nível Gratuito para Usuários AWS
O nível gratuito da Amazon Polly — 5M de caracteres standard e 1M de caracteres neurais por mês durante os primeiros 12 meses — é o mais generoso desta lista. O Speech Marks (carimbos de tempo no nível da palavra) faz dele a escolha ideal para experiências audiovisuais sincronizadas.
Prós
- Nível gratuito: 5M Standard + 1M Neural caracteres/mês por 12 meses
- Speech Marks para sincronia áudio-texto no nível da palavra
- Integração nativa com AWS
Contras
- Nenhuma clonagem de voz self-service
- Vozes generativas (mais naturais) apenas em inglês
Preços
Standard: $4/1M. Neural: $16/1M. Generativa: $30/1M. Long-form: $100/1M. Nível gratuito: 5M Standard + 1M Neural por mês (primeiros 12 meses).
Melhor para: Aplicações nativas AWS, sistemas IVR e mídia animada/sincronizada que precisa de Speech Marks.
5. Microsoft Azure TTS — Ampla Cobertura de Idiomas
O Azure possui mais de 400 vozes em mais de 140 idiomas — a cobertura mais ampla de qualquer provedor aqui. A tag SSML mstts:express-as suporta mais de 50 estilos de fala por voz (alegre, triste, irritado, noticiário, atendimento ao cliente e mais) com intensidade ajustável via styledegree. O Personal Voice clona uma voz a partir de aproximadamente um minuto de áudio.
Prós
- Mais de 140 idiomas — cobertura mais ampla
- Mais de 50 estilos de fala SSML com intensidade ajustável
- Personal Voice: clone a partir de ~1 minuto de áudio
Contras
- Neural HD a $100/1M é caro
- SSML adiciona complexidade de marcação
Preços
Neural: $16/1M (0,5M grátis/mês). Neural HD: $100/1M. Personal Voice: $24/1M. Custom Neural: $24/1M + $23,90/hora de treinamento.
Melhor para: Aplicações empresariais que exigem suporte a mais de 100 idiomas, ferramentas de acessibilidade e implantações de voz personalizada.
6. OpenAI TTS — Melhor para Usuários OpenAI Existentes
Se você já está no ecossistema OpenAI, vale a pena usar o gpt-4o-mini-tts — ele aceita um parâmetro instructions em linguagem natural para controlar tom, ritmo e estilo sem marcação SSML separada. A contrapartida: apenas 10 vozes, sem clonagem de voz e limite de 4.096 caracteres por requisição.
Prós
gpt-4o-mini-ttssuporta instruções para emoção e estilo em inglês simples- Suporte a ~57 idiomas
- SDK padrão OpenAI Python/JS — sem nova biblioteca para instalar
- Suporte a streaming para menor latência percebida
Contras
- Apenas 10 vozes integradas — menor seleção de qualquer provedor aqui
- Nenhuma clonagem de voz
- Limite de 4.096 caracteres por requisição (Fish Audio permite 10.000)
- $15/1M para tts-1 — mais caro que o Google Standard ($4/1M) para uso equivalente
Preços
tts-1: $15/1M caracteres. tts-1-hd: $30/1M caracteres. gpt-4o-mini-tts: precificação baseada em tokens (veja openai.com/api/pricing). A faixa de $15–$30 na tabela de comparação refere-se apenas ao tts-1 e tts-1-hd.
Melhor para: Desenvolvedores que já usam APIs OpenAI e desejam TTS sem adicionar outro fornecedor.
7. PlayAI — Melhor para Conversas com Múltiplas Vozes
O modelo PlayDialog da PlayAI é feito sob medida para diálogos entre dois agentes — duas vozes distintas em uma única chamada de API, sincronizadas com troca de turnos naturais. Suporta 142 idiomas (o mais amplo aqui) e clonagem instantânea de voz a partir de menos de 10 segundos de áudio.
Prós
- 142 idiomas — cobertura mais ampla desta lista
- Mais de 900 vozes
- PlayDialog: duas vozes simultâneas em uma requisição (capacidade única)
- Clonagem instantânea de voz a partir de <10 segundos de áudio
- Opções de streaming WebSocket e gRPC
Contras
- PlayDialog a $100/1M é caro para casos de uso TTS padrão
- Autenticação proprietária (API key + User ID) adiciona um pequeno atrito de integração
- Ecossistema mais novo — menos documentação da comunidade que ElevenLabs ou Google
Preços
PAYG: PlayHT 2.0 Turbo $15/1M, PlayHT 2.0/3.0 $30/1M, PlayDialog $100/1M. Assinaturas: Creator $39/mês (500k caracteres) até Scale $999/mês (33M caracteres).
Melhor para: Podcasts, audiodramas, aplicações de voz interativas que exigem diálogo com múltiplos falantes e implantações que necessitam de ampla cobertura de idiomas.
8. Cartesia — Melhor para IA de Voz em Tempo Real
O modelo Sonic da Cartesia atinge tempo até o primeiro áudio inferior a 100ms — o menor relatado entre os provedores analisados. Ele é construído prioritariamente para WebSocket para aplicações de streaming em tempo real e oferece clonagem de voz a partir de segundos de áudio, tornando-o adequado para aplicações de IA de voz em tempo real.
Prós
- Tempo até o primeiro áudio <100ms — nenhum outro provedor nesta lista iguala isso para tempo real
- Precificação baseada em créditos: 1 crédito = 1 caractere (planos a partir de $4/mês)
- API prioritária para WebSocket para streaming em tempo real
- Clonagem de voz a partir de segundos de áudio
- 42 idiomas com Sonic 3.5
Contras
- Mais de 100 vozes padrão — biblioteca menor que ElevenLabs ou Azure
- 42 idiomas — suporte multilíngue sólido, embora mais restrito que Azure (140+) ou PlayAI (142)
- Controle de emoção via vetor embedding — mais complexo de implementar que parâmetros enum
- Ecossistema menor e menos documentação que provedores estabelecidos
Preços
Baseado em créditos: 1 crédito por caractere. Hobby: grátis (20K créditos). Developer: $4/mês (100K). Growth: $39/mês (1,25M). Scale: $239/mês (8M). Preços verificados em maio de 2026 — veja cartesia.ai/pricing.
Melhor para: Agentes de voz em tempo real, IA conversacional, bots de atendimento ao cliente — qualquer aplicação onde a latência é a principal restrição.
Recomendações por Caso de Uso
| Caso de Uso | Melhor Escolha | Porquê |
|---|---|---|
| LLM + TTS em um único pipeline | Fish Audio | Mesma chave de API para mais de 200 LLMs e TTS; uma única conta de faturamento |
| Clonagem de voz com preços transparentes | Fish Audio | $0,1/voz, voice_id reutilizável, 10–30s de áudio necessários |
| Maior naturalidade de voz | ElevenLabs | Multilingual v2 lidera os benchmarks de qualidade; mais de 3.000 vozes |
| Agentes de voz em tempo real | Cartesia | Sub-100ms, prioridade WebSocket, precificação baseada em créditos |
| Implantação empresarial com mais de 140 idiomas | Azure TTS | Mais de 400 vozes, mais de 140 idiomas, Personal Voice cloning |
| Diálogo com múltiplas vozes | PlayAI PlayDialog | Síntese de dois falantes em uma chamada, 142 idiomas |
| Produção econômica AWS/GCP | Google Cloud / Amazon Polly | $4/1M Standard, níveis gratuitos generosos |
| Integração com ecossistema OpenAI | OpenAI TTS | Mesmo SDK, gpt-4o-mini-tts para saída com controle de estilo |
Preços verificados pela última vez: 6 de maio de 2026.
Perguntas Frequentes
Qual API TTS tem a melhor qualidade de voz em 2026?
ElevenLabs Multilingual v2 ocupa o primeiro lugar em testes cegos de qualidade monitorados pelo Artificial Analysis Speech Arena. Para desenvolvedores que também precisam de clonagem de voz e suporte multilíngue em uma única plataforma, a Fish Audio via Novita AI oferece saída de alta qualidade a 44,1kHz por $15/1M caracteres.
Qual API TTS é a mais barata em 2026?
Os preços variam conforme o modelo e o plano. Google Cloud TTS Standard ($4/1M) e Amazon Polly Standard ($4/1M) têm taxas por caractere mais baixas em alto volume. A Cartesia usa um modelo baseado em créditos (1 crédito = 1 caractere, a partir de $4/mês para 100K). Para níveis gratuitos, a Amazon Polly oferece 5M caracteres standard grátis nos primeiros 12 meses; o Google Cloud TTS fornece 1M caracteres grátis por mês em vozes Standard e WaveNet indefinidamente.
Qual API TTS suporta clonagem de voz?
Fish Audio (via Novita AI), ElevenLabs, PlayAI, Cartesia e Microsoft Azure Personal Voice suportam clonagem de voz. Fish Audio com suporte da Novita AI cobra $0,1 por voz com um fluxo de trabalho direto em três etapas: enviar áudio → clonar → obter voice_id.
Posso usar uma API TTS com meu pipeline LLM existente?
Novita AI é a única plataforma que oferece tanto mais de 200 LLMs quanto múltiplos mecanismos TTS (Fish Audio, MiniMax, CosyVoice) sob uma única chave de API e conta de faturamento. A OpenAI também oferece LLM + TTS, mas com apenas 10 vozes e sem clonagem de voz. Para um pipeline totalmente integrado de LLM para voz, a API TTS da Novita AI elimina a necessidade de um provedor TTS separado.
Conclusão
Nenhuma API TTS única vence em todas as dimensões em 2026. A decisão se resume à sua restrição principal:
- Latência: Cartesia (<100ms, precificação baseada em créditos)
- Qualidade de voz: ElevenLabs (Multilingual v2)
- Cobertura de idiomas: Azure (140+) ou PlayAI (142)
- LLM + TTS unificado: Fish Audio via Novita AI (uma chave, uma fatura, clonagem de voz a $0,1/voz)
- Orçamento em escala: Google Cloud Standard ou Amazon Polly ($4/1M)
Se você está construindo uma aplicação baseada em LLM e deseja adicionar voz sem um fornecedor separado, Fish Audio com suporte da Novita AI é o ponto de partida mais prático — a mesma chave de API que chama seu modelo de linguagem também lida com TTS e clonagem de voz.
