- O que mudou do Wan 2.6 para o 2.7
- Visão Geral dos Modos e Tabela de Seleção Rápida
- Como Funciona o Wan 2.7 T2V na Novita AI?
- Como Funciona o Wan 2.7 I2V na Novita AI?
- Como Funciona o Wan 2.7 R2V na Novita AI?
- Comparação de Preços Entre os Modos
- Qual Modo Você Deve Usar?
- Primeiros Passos com a API da Novita AI
- Conclusão
- FAQ
- Artigos recomendados
O Wan 2.7 na Novita AI oferece três modos de geração distintos — Texto para Vídeo, Imagem para Vídeo e Referência para Vídeo — cada um resolvendo um problema diferente. O T2V gera vídeo diretamente a partir de um prompt, com áudio opcional; o I2V anima uma imagem inicial e suporta continuação de vídeo; o R2V traz personagens de referência para novas cenas com controle de múltiplos planos. Escolher o modo errado adiciona complexidade; este guia mapeia cada modo para os fluxos de trabalho onde ele realmente se encaixa.
O que mudou do Wan 2.6 para o 2.7
O Wan 2.6 introduziu role-playing via vídeo de referência, narrativas de múltiplos planos e sincronização audiovisual — um conjunto de recursos capaz, mas extenso, distribuído em três endpoints com alguma sobreposição. O Wan 2.7 refina significativamente esse modelo.
A melhoria mais clara está no I2V. O I2V do Wan 2.7 vai além da animação de quadro único e suporta três modos de entrada distintos em um único endpoint: apenas primeiro quadro, primeiro+último quadro e continuação de vídeo. O I2V do Wan 2.6 lidava apenas com animação de quadro único; a continuação era tratada pelo R2V. Essa consolidação é importante para desenvolvedores que constroem pipelines que estendem ou remixam filmagens existentes.
O R2V no 2.7 também altera seu modelo de personagem. Enquanto o 2.6 aceitava até dois vídeos de referência para role-playing, o 2.7 aceita até cinco itens de mídia de referência (imagens ou vídeos), mapeando cada um para um slot de personagem nomeado (character1, character2, etc.) no seu prompt. A interação com múltiplos personagens em escala agora é um recurso de primeira classe, não uma adaptação.
A capacidade principal do T2V — prompt de texto para vídeo com áudio — permanece similar, mas o endpoint está mais limpo: a geração de áudio está ativada por padrão (você pode desativá-la) e a flag prompt_extend reescreve inteligentemente prompts curtos antes da geração. A superfície de parâmetros do T2V do Wan 2.6 é mantida com refinamentos, não substituída.
As faixas de duração também divergem por modo no 2.7: T2V e I2V suportam 2–15 segundos, enquanto o R2V limita a 10 segundos. O mínimo de 2 segundos substitui o piso de 5 segundos das durações padrão do 2.6.
Visão Geral dos Modos e Tabela de Seleção Rápida
| T2V | I2V | R2V | |
|---|---|---|---|
| Entrada | Prompt de texto | Imagem + texto opcional | Mídia de referência (imagens/vídeos) + texto |
| Duração da saída | 2–15 s | 2–15 s | 2–10 s |
| Resoluções | 720P, 1080P | 720P, 1080P | 720P, 1080P |
| Áudio | Gerado automaticamente ou conduzido por áudio | Gerado automaticamente ou conduzido por áudio | Controlável via flag audio + reference_voice |
| Controle de plano | Plano único | Plano único | Plano único ou múltiplos |
| Personagens | Definidos pelo prompt | Definidos pelo prompt | Até 5 personagens de referência nomeados |
| ID do modelo | wan2.7-t2v |
wan2.7-i2v |
wan2.7-r2v |
| Endpoint | /v3/async/wan2.7-t2v |
/v3/async/wan2.7-i2v |
/v3/async/wan2.7-r2v |
| Melhor para | Conteúdo original do zero | Animar ativos existentes | Cenas consistentes com personagens e role-playing |
Como Funciona o Wan 2.7 T2V na Novita AI?
O T2V é o ponto de partida certo quando você tem um conceito criativo, mas nenhum ativo visual existente. O modelo gera vídeo suave diretamente a partir de uma descrição textual e anexa áudio automaticamente — seja música de fundo/efeitos sonoros gerados para combinar com a cena, ou áudio que você fornece como fonte condutora para sincronização labial e correspondência de batida.
Parâmetros principais:
prompt— descrição da cena; suporta chinês e inglêssize— nível de resolução:1920*1080,1280*720,720*1280,960*960,1088*832,832*1088(1080P ou 720P)duration— segundos inteiros, faixa 2–15audio_url— opcional; quando fornecido, o modelo usa este áudio para conduzir a geração (sincronização labial, correspondência de batida). Omita para deixar o modelo gerar automaticamenteprompt_extend— padrãotrue; reescreve prompts curtos usando um LLM antes da geração para melhor qualidadeseed— define para saídas reproduzíveis
Para quem o T2V é indicado: Profissionais de marketing gerando clipes de campanha de produto a partir de texto, desenvolvedores prototipando conteúdo de vídeo em escala, ou qualquer pessoa que precise de filmagens originais sem material de origem.
Onde ele fica aquém: Sem uma imagem de referência ou quadro de vídeo anterior, a consistência complexa de personagens em múltiplas gerações é difícil de manter. Se você está iterando em uma cena ou personagem específico, o I2V ou R2V oferece mais controle.
Como Funciona o Wan 2.7 I2V na Novita AI?
A característica definidora do I2V no 2.7 é que ele lida com três padrões de animação diferentes através de um único endpoint, distinguidos por quais parâmetros você preenche:
Primeiro quadro para vídeo: Forneça image_url. O modelo anima a imagem para frente. Este é o caso de uso clássico de “trazer uma foto à vida”.
Primeiro+último quadro para vídeo: Forneça tanto image_url quanto last_frame_url. O modelo gera a ponte entre dois quadros-chave, o que é útil para transições controladas ou sequências de morfagem.
Continuação de vídeo: Forneça first_clip_url (um clipe de vídeo existente, mp4 ou mov, 2–10 segundos). O modelo estende o vídeo para frente com base em seu conteúdo e no seu prompt.
O parâmetro driving_audio_url funciona da mesma forma que no T2V — quando fornecido, conduz a geração com sincronização labial ou correspondência de batida; quando omitido, o áudio é gerado automaticamente.
Parâmetros principais:
image_url— obrigatório para modos de primeiro quadro e primeiro+último quadro; imagem do primeiro quadro (JPEG, JPG, PNG, BMP, WEBP; até 20 MB; largura/altura 240–8000 px). Não usado no modo de continuação.last_frame_url— opcional; imagem do último quadro para modo quadro-chave para quadro-chavefirst_clip_url— opcional; clipe de vídeo existente para modo de continuação (mp4/mov, 2–10 s)resolution—720Pou1080P(padrão1080P); a proporção do vídeo corresponde à mídia de entradaduration— 2–15 segundos (inteiro)driving_audio_url— áudio condutor opcionalprompt— opcional; guia a direção e o estilo da animação
Para quem o I2V é indicado: Equipes de e-commerce animando fotos de produtos, artistas conceituais adicionando movimento a ilustrações, ou desenvolvedores construindo pipelines que estendem filmagens existentes.
Pega: O clipe de entrada para continuação deve ter 2–10 segundos. A proporção da resolução do vídeo de saída segue a mídia de entrada — você não pode definir resolução e proporção independentemente.
Como Funciona o Wan 2.7 R2V na Novita AI?
O R2V é o modo para vídeo narrativo com consistência de personagem. Você fornece um ou mais itens de mídia de referência — imagens ou clipes de vídeo curtos — e o modelo extrai a aparência, movimento e voz de cada personagem. Em seguida, você dirige esses personagens no seu prompt usando character1, character2, etc.
É aqui que o Wan 2.7 avança significativamente sobre o 2.6. Em vez de estar limitado a 1–2 vídeos de referência, o 2.7 aceita até cinco itens de mídia no total (imagens: 0–5, vídeos: 0–3, total ≤ 5), dando a você um elenco de personagens sem precisar combinar gerações separadas.
O parâmetro shot_type controla a estrutura narrativa: single mantém a saída como um único plano contínuo; multi gera uma sequência com transições. O valor multi tem prioridade sobre quaisquer instruções plano a plano no seu prompt, então é uma troca de modo deliberada, não uma dica de prompt.
O comportamento do áudio no R2V também é mais explícito: o booleano audio (padrão true) controla se o áudio é gerado, e reference_voice permite especificar uma referência de voz para diálogo de personagem.
Parâmetros principais:
media— obrigatório; array de itens de mídia de referência; a ordem mapeia paracharacter1,character2, etc.prompt— obrigatório; usecharacter1,character2para referenciar personagenssize— resolução; mesmas opções 720P/1080P do T2Vduration— 2–10 segundos (limite menor que T2V/I2V)shot_type—single(padrão) oumultiaudio— booleano, padrãotruereference_voice— referência de voz opcional para fala do personagemnegative_prompt— opcional; máximo de 500 caracteres; chinês ou inglês
Para quem o R2V é indicado: Desenvolvedores construindo avatares de vídeo, criadores de conteúdo de formato curto que precisam de um elenco consistente, ou qualquer pessoa que faça cenários de role-playing/performance de personagem.
Pega: O R2V limita a 10 segundos por geração. Para sequências mais longas, planeje unir múltiplas chamadas R2V. O tipo de plano multi lida com transições dentro dessa janela, mas não estende o teto de 10 segundos.
Comparação de Preços Entre os Modos
Todos os três modos do Wan 2.7 são cobrados por segundo de vídeo gerado, não por requisição. A resolução também afeta o custo — saídas em 1080P custam mais que em 720P. O endpoint R2V tem um booleano audio adicional que afeta o preço quando ativado.
Os preços estão listados nas páginas dos modelos Wan 2.7 T2V, Wan 2.7 I2V e Wan 2.7 R2V na Novita AI. Verifique essas páginas diretamente para as taxas por segundo atuais, pois os preços dos modelos de vídeo são atualizados com frequência.
Para estimar o custo de um fluxo de trabalho: multiplique a duração alvo pela taxa por segundo para a resolução escolhida. Por exemplo, um clipe T2V de 10 segundos em 1080P custa 10× a taxa declarada de 1080P/s. Como T2V e I2V compartilham o mesmo teto de duração (15 s) e opções de resolução, suas curvas de custo são comparáveis; o limite de 10 segundos do R2V significa que seu custo máximo por geração é menor.
Alavancas de controle de custo:
- Use 720P para desenvolvimento e testes; mude para 1080P apenas para saídas finais
- Mantenha
prompt_extendativado (padrão T2V) — melhora a qualidade sem afetar o custo - Para R2V, defina
audio: falsequando estiver fornecendo seu próprio áudio na pós-produção
Qual Modo Você Deve Usar?
Comece com T2V quando: Você está gerando conteúdo original a partir de um script ou prompt e não tem visuais de origem. É o caminho de menor atrito — um prompt, uma chamada, vídeo e áudio de saída. Bom para geração de conteúdo em volume, criação de ativos de campanha e exploração rápida de conceitos.
Mude para I2V quando: Você tem imagens ou filmagens existentes que precisam de movimento. O modo de primeiro quadro anima fotos de produtos ou ilustrações; o modo primeiro+último quadro dá transições controladas entre dois quadros-chave; o modo de continuação estende filmagens que você já tem. O I2V é a escolha certa sempre que seu material de origem ditar a saída visual.
Use R2V quando: A identidade e consistência do personagem importam. Se seu caso de uso requer que a mesma pessoa (ou várias pessoas) apareça em múltiplos vídeos, ou se você está construindo conteúdo baseado em performance, como avatares de vídeo ou cenas roteirizadas, o sistema de personagens de referência do R2V é a solução feita sob medida. O tipo de plano multi adiciona estrutura cinematográfica sem uma etapa separada de storyboard.
Uma árvore de decisão prática:
- Você tem personagens de referência ou pessoas que devem aparecer no vídeo? → R2V
- Você tem uma imagem ou clipe de vídeo existente que deseja animar ou estender? → I2V
- Você está gerando filmagens originais a partir de uma descrição de texto sozinha? → T2V
Primeiros Passos com a API da Novita AI
Todos os três endpoints seguem o mesmo padrão assíncrono: POST para enviar um job, receber um task_id, e então consultar a API de Resultado de Tarefa.
Pré-requisitos: Uma chave de API do seu console Novita AI. Novas contas recebem $1 em créditos gratuitos.
Início Rápido com T2V
import requests, time
API_KEY = "sua_chave_api"
BASE = "https://api.novita.ai"
# Enviar geração
resp = requests.post(
f"{BASE}/v3/async/wan2.7-t2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"prompt": "Um golden retriever correndo por folhas de outono em um parque, luz quente da tarde",
},
"parameters": {
"size": "1920*1080",
"duration": 5,
"prompt_extend": True
}
}
)
task_id = resp.json()["task_id"]
# Consultar resultado
while True:
result = requests.get(
f"{BASE}/v3/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id}
).json()
if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
print(result["videos"][0]["video_url"])
break
time.sleep(5)
I2V — Continuação de Vídeo
resp = requests.post(
f"{BASE}/v3/async/wan2.7-i2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"first_clip_url": "https://exemplo.com/clipe-existente.mp4",
"prompt": "Continue a cena com um movimento suave de câmera para a direita"
},
"parameters": {
"resolution": "1080P",
"duration": 8
}
}
)
task_id = resp.json()["task_id"]
R2V — Cena com Múltiplos Personagens
resp = requests.post(
f"{BASE}/v3/async/wan2.7-r2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"media": [
{"type": "image", "url": "https://exemplo.com/pessoa-a.jpg"},
{"type": "image", "url": "https://exemplo.com/pessoa-b.jpg"}
],
"prompt": "character1 e character2 estão conversando em um café, luz natural do dia"
},
"parameters": {
"size": "1920*1080",
"duration": 8,
"shot_type": "multi",
"audio": True
}
}
)
task_id = resp.json()["task_id"]
A referência completa de parâmetros para cada modo está na documentação da API Wan 2.7 T2V, documentação da API Wan 2.7 I2V e documentação da API Wan 2.7 R2V.
Se você quiser comparar o Wan 2.7 com a geração anterior, o guia Wan 2.6 na Novita AI cobre todo o conjunto de recursos e a superfície de parâmetros do 2.6.
Conclusão
O Wan 2.7 organiza suas capacidades de geração em três modos construídos para propósitos específicos, em vez de um endpoint abrangente. O T2V é o caminho mais rápido da ideia ao vídeo quando você não tem material de origem — basta um prompt e uma chave de API. O I2V dá controle sobre movimento e continuidade quando você está trabalhando a partir de imagens ou filmagens existentes, com três padrões de entrada distintos em um único endpoint. O R2V lida com o problema mais difícil: vídeo consistente com personagens entre cenas, com até cinco personagens de referência e estrutura de múltiplos planos integrada.
A atualização do 2.6 para o 2.7 é mais visível no I2V (a continuação agora é nativa, não uma adaptação) e no R2V (cinco personagens vs. dois, slots nomeados vs. posicionais). O T2V mantém os pontos fortes do 2.6 com uma superfície de parâmetros mais limpa.
Para a maioria dos fluxos de trabalho, a árvore de decisão é simples: comece com T2V para conteúdo original, mude para I2V quando tiver uma imagem ou clipe de origem, e recorra ao R2V quando a identidade do personagem precisar permanecer consistente em várias gerações.
FAQ
Qual é a diferença entre Wan 2.7 T2V, I2V e R2V? O T2V gera vídeo a partir apenas de um prompt de texto. O I2V anima uma imagem existente ou estende um clipe de vídeo existente. O R2V gera vídeo consistente com personagens usando imagens ou clipes de referência como modelos de personagem. Cada modo é um endpoint separado, otimizado para seu tipo de entrada.
O Wan 2.7 pode gerar áudio automaticamente?
Sim. Todos os três modos suportam áudio gerado automaticamente por padrão. T2V e I2V geram música de fundo e efeitos sonoros combinados com a cena; o R2V adiciona um parâmetro reference_voice para diálogo de personagem. Você pode fornecer seu próprio áudio via audio_url (T2V) ou driving_audio_url (I2V), ou desabilitar o áudio com audio: false (R2V).
Quais durações de vídeo o Wan 2.7 suporta? T2V e I2V suportam 2–15 segundos. O R2V limita a 10 segundos por geração. Todos os modos usam um mínimo de 2 segundos.
Como funciona a continuação de vídeo no I2V?
Envie first_clip_url apontando para um arquivo mp4 ou mov existente (2–10 segundos). O modelo analisa o conteúdo e o movimento do clipe e, em seguida, gera um novo segmento que continua naturalmente a partir do quadro final. Não envie image_url junto com first_clip_url — eles são para modos diferentes.
Quantos personagens de referência o Wan 2.7 R2V suporta?
Até cinco itens de mídia no total (imagens: 0–5, vídeos: 0–3, total combinado ≤ 5). Cada item mapeia para um slot de personagem nomeado (character1, character2, etc.) que você usa no seu prompt.
A resolução afeta o preço? Sim. Todos os três modos cobram por segundo de vídeo gerado, e 1080P custa mais por segundo do que 720P. Use 720P durante o desenvolvimento e mude para 1080P para saídas finais para gerenciar custos.
Posso usar o Wan 2.7 através de uma API REST?
Sim. Todos os endpoints são baseados em REST e seguem um padrão assíncrono: POST um job para receber um task_id, depois consulte a API de Resultado de Tarefa. Veja os exemplos de API na seção “Primeiros Passos” acima e a referência completa de parâmetros na documentação da API Novita AI.
