Wan 2.7 na Novita AI: Texto para Vídeo vs Imagem para Vídeo vs Referência para Vídeo

Wan 2.7 na Novita AI: Texto para Vídeo vs Imagem para Vídeo vs Referência para Vídeo

O Wan 2.7 na Novita AI oferece três modos de geração distintos — Texto para Vídeo, Imagem para Vídeo e Referência para Vídeo — cada um resolvendo um problema diferente. O T2V gera vídeo diretamente a partir de um prompt, com áudio opcional; o I2V anima uma imagem inicial e suporta continuação de vídeo; o R2V traz personagens de referência para novas cenas com controle de múltiplos planos. Escolher o modo errado adiciona complexidade; este guia mapeia cada modo para os fluxos de trabalho onde ele realmente se encaixa.

O que mudou do Wan 2.6 para o 2.7

O Wan 2.6 introduziu role-playing via vídeo de referência, narrativas de múltiplos planos e sincronização audiovisual — um conjunto de recursos capaz, mas extenso, distribuído em três endpoints com alguma sobreposição. O Wan 2.7 refina significativamente esse modelo.

A melhoria mais clara está no I2V. O I2V do Wan 2.7 vai além da animação de quadro único e suporta três modos de entrada distintos em um único endpoint: apenas primeiro quadro, primeiro+último quadro e continuação de vídeo. O I2V do Wan 2.6 lidava apenas com animação de quadro único; a continuação era tratada pelo R2V. Essa consolidação é importante para desenvolvedores que constroem pipelines que estendem ou remixam filmagens existentes.

O R2V no 2.7 também altera seu modelo de personagem. Enquanto o 2.6 aceitava até dois vídeos de referência para role-playing, o 2.7 aceita até cinco itens de mídia de referência (imagens ou vídeos), mapeando cada um para um slot de personagem nomeado (character1, character2, etc.) no seu prompt. A interação com múltiplos personagens em escala agora é um recurso de primeira classe, não uma adaptação.

A capacidade principal do T2V — prompt de texto para vídeo com áudio — permanece similar, mas o endpoint está mais limpo: a geração de áudio está ativada por padrão (você pode desativá-la) e a flag prompt_extend reescreve inteligentemente prompts curtos antes da geração. A superfície de parâmetros do T2V do Wan 2.6 é mantida com refinamentos, não substituída.

As faixas de duração também divergem por modo no 2.7: T2V e I2V suportam 2–15 segundos, enquanto o R2V limita a 10 segundos. O mínimo de 2 segundos substitui o piso de 5 segundos das durações padrão do 2.6.

Visão Geral dos Modos e Tabela de Seleção Rápida

T2V I2V R2V
Entrada Prompt de texto Imagem + texto opcional Mídia de referência (imagens/vídeos) + texto
Duração da saída 2–15 s 2–15 s 2–10 s
Resoluções 720P, 1080P 720P, 1080P 720P, 1080P
Áudio Gerado automaticamente ou conduzido por áudio Gerado automaticamente ou conduzido por áudio Controlável via flag audio + reference_voice
Controle de plano Plano único Plano único Plano único ou múltiplos
Personagens Definidos pelo prompt Definidos pelo prompt Até 5 personagens de referência nomeados
ID do modelo wan2.7-t2v wan2.7-i2v wan2.7-r2v
Endpoint /v3/async/wan2.7-t2v /v3/async/wan2.7-i2v /v3/async/wan2.7-r2v
Melhor para Conteúdo original do zero Animar ativos existentes Cenas consistentes com personagens e role-playing

Como Funciona o Wan 2.7 T2V na Novita AI?

O T2V é o ponto de partida certo quando você tem um conceito criativo, mas nenhum ativo visual existente. O modelo gera vídeo suave diretamente a partir de uma descrição textual e anexa áudio automaticamente — seja música de fundo/efeitos sonoros gerados para combinar com a cena, ou áudio que você fornece como fonte condutora para sincronização labial e correspondência de batida.

Parâmetros principais:

  • prompt — descrição da cena; suporta chinês e inglês
  • size — nível de resolução: 1920*1080, 1280*720, 720*1280, 960*960, 1088*832, 832*1088 (1080P ou 720P)
  • duration — segundos inteiros, faixa 2–15
  • audio_url — opcional; quando fornecido, o modelo usa este áudio para conduzir a geração (sincronização labial, correspondência de batida). Omita para deixar o modelo gerar automaticamente
  • prompt_extend — padrão true; reescreve prompts curtos usando um LLM antes da geração para melhor qualidade
  • seed — define para saídas reproduzíveis

Para quem o T2V é indicado: Profissionais de marketing gerando clipes de campanha de produto a partir de texto, desenvolvedores prototipando conteúdo de vídeo em escala, ou qualquer pessoa que precise de filmagens originais sem material de origem.

Onde ele fica aquém: Sem uma imagem de referência ou quadro de vídeo anterior, a consistência complexa de personagens em múltiplas gerações é difícil de manter. Se você está iterando em uma cena ou personagem específico, o I2V ou R2V oferece mais controle.

Como Funciona o Wan 2.7 I2V na Novita AI?

A característica definidora do I2V no 2.7 é que ele lida com três padrões de animação diferentes através de um único endpoint, distinguidos por quais parâmetros você preenche:

Primeiro quadro para vídeo: Forneça image_url. O modelo anima a imagem para frente. Este é o caso de uso clássico de “trazer uma foto à vida”.

Primeiro+último quadro para vídeo: Forneça tanto image_url quanto last_frame_url. O modelo gera a ponte entre dois quadros-chave, o que é útil para transições controladas ou sequências de morfagem.

Continuação de vídeo: Forneça first_clip_url (um clipe de vídeo existente, mp4 ou mov, 2–10 segundos). O modelo estende o vídeo para frente com base em seu conteúdo e no seu prompt.

O parâmetro driving_audio_url funciona da mesma forma que no T2V — quando fornecido, conduz a geração com sincronização labial ou correspondência de batida; quando omitido, o áudio é gerado automaticamente.

Parâmetros principais:

  • image_url — obrigatório para modos de primeiro quadro e primeiro+último quadro; imagem do primeiro quadro (JPEG, JPG, PNG, BMP, WEBP; até 20 MB; largura/altura 240–8000 px). Não usado no modo de continuação.
  • last_frame_url — opcional; imagem do último quadro para modo quadro-chave para quadro-chave
  • first_clip_url — opcional; clipe de vídeo existente para modo de continuação (mp4/mov, 2–10 s)
  • resolution720P ou 1080P (padrão 1080P); a proporção do vídeo corresponde à mídia de entrada
  • duration — 2–15 segundos (inteiro)
  • driving_audio_url — áudio condutor opcional
  • prompt — opcional; guia a direção e o estilo da animação

Para quem o I2V é indicado: Equipes de e-commerce animando fotos de produtos, artistas conceituais adicionando movimento a ilustrações, ou desenvolvedores construindo pipelines que estendem filmagens existentes.

Pega: O clipe de entrada para continuação deve ter 2–10 segundos. A proporção da resolução do vídeo de saída segue a mídia de entrada — você não pode definir resolução e proporção independentemente.

Como Funciona o Wan 2.7 R2V na Novita AI?

O R2V é o modo para vídeo narrativo com consistência de personagem. Você fornece um ou mais itens de mídia de referência — imagens ou clipes de vídeo curtos — e o modelo extrai a aparência, movimento e voz de cada personagem. Em seguida, você dirige esses personagens no seu prompt usando character1, character2, etc.

É aqui que o Wan 2.7 avança significativamente sobre o 2.6. Em vez de estar limitado a 1–2 vídeos de referência, o 2.7 aceita até cinco itens de mídia no total (imagens: 0–5, vídeos: 0–3, total ≤ 5), dando a você um elenco de personagens sem precisar combinar gerações separadas.

O parâmetro shot_type controla a estrutura narrativa: single mantém a saída como um único plano contínuo; multi gera uma sequência com transições. O valor multi tem prioridade sobre quaisquer instruções plano a plano no seu prompt, então é uma troca de modo deliberada, não uma dica de prompt.

O comportamento do áudio no R2V também é mais explícito: o booleano audio (padrão true) controla se o áudio é gerado, e reference_voice permite especificar uma referência de voz para diálogo de personagem.

Parâmetros principais:

  • media — obrigatório; array de itens de mídia de referência; a ordem mapeia para character1, character2, etc.
  • prompt — obrigatório; use character1, character2 para referenciar personagens
  • size — resolução; mesmas opções 720P/1080P do T2V
  • duration — 2–10 segundos (limite menor que T2V/I2V)
  • shot_typesingle (padrão) ou multi
  • audio — booleano, padrão true
  • reference_voice — referência de voz opcional para fala do personagem
  • negative_prompt — opcional; máximo de 500 caracteres; chinês ou inglês

Para quem o R2V é indicado: Desenvolvedores construindo avatares de vídeo, criadores de conteúdo de formato curto que precisam de um elenco consistente, ou qualquer pessoa que faça cenários de role-playing/performance de personagem.

Pega: O R2V limita a 10 segundos por geração. Para sequências mais longas, planeje unir múltiplas chamadas R2V. O tipo de plano multi lida com transições dentro dessa janela, mas não estende o teto de 10 segundos.

Comparação de Preços Entre os Modos

Todos os três modos do Wan 2.7 são cobrados por segundo de vídeo gerado, não por requisição. A resolução também afeta o custo — saídas em 1080P custam mais que em 720P. O endpoint R2V tem um booleano audio adicional que afeta o preço quando ativado.

Os preços estão listados nas páginas dos modelos Wan 2.7 T2V, Wan 2.7 I2V e Wan 2.7 R2V na Novita AI. Verifique essas páginas diretamente para as taxas por segundo atuais, pois os preços dos modelos de vídeo são atualizados com frequência.

Para estimar o custo de um fluxo de trabalho: multiplique a duração alvo pela taxa por segundo para a resolução escolhida. Por exemplo, um clipe T2V de 10 segundos em 1080P custa 10× a taxa declarada de 1080P/s. Como T2V e I2V compartilham o mesmo teto de duração (15 s) e opções de resolução, suas curvas de custo são comparáveis; o limite de 10 segundos do R2V significa que seu custo máximo por geração é menor.

Alavancas de controle de custo:

  • Use 720P para desenvolvimento e testes; mude para 1080P apenas para saídas finais
  • Mantenha prompt_extend ativado (padrão T2V) — melhora a qualidade sem afetar o custo
  • Para R2V, defina audio: false quando estiver fornecendo seu próprio áudio na pós-produção

Qual Modo Você Deve Usar?

Comece com T2V quando: Você está gerando conteúdo original a partir de um script ou prompt e não tem visuais de origem. É o caminho de menor atrito — um prompt, uma chamada, vídeo e áudio de saída. Bom para geração de conteúdo em volume, criação de ativos de campanha e exploração rápida de conceitos.

Mude para I2V quando: Você tem imagens ou filmagens existentes que precisam de movimento. O modo de primeiro quadro anima fotos de produtos ou ilustrações; o modo primeiro+último quadro dá transições controladas entre dois quadros-chave; o modo de continuação estende filmagens que você já tem. O I2V é a escolha certa sempre que seu material de origem ditar a saída visual.

Use R2V quando: A identidade e consistência do personagem importam. Se seu caso de uso requer que a mesma pessoa (ou várias pessoas) apareça em múltiplos vídeos, ou se você está construindo conteúdo baseado em performance, como avatares de vídeo ou cenas roteirizadas, o sistema de personagens de referência do R2V é a solução feita sob medida. O tipo de plano multi adiciona estrutura cinematográfica sem uma etapa separada de storyboard.

Uma árvore de decisão prática:

  1. Você tem personagens de referência ou pessoas que devem aparecer no vídeo? → R2V
  2. Você tem uma imagem ou clipe de vídeo existente que deseja animar ou estender? → I2V
  3. Você está gerando filmagens originais a partir de uma descrição de texto sozinha? → T2V

Primeiros Passos com a API da Novita AI

Todos os três endpoints seguem o mesmo padrão assíncrono: POST para enviar um job, receber um task_id, e então consultar a API de Resultado de Tarefa.

Pré-requisitos: Uma chave de API do seu console Novita AI. Novas contas recebem $1 em créditos gratuitos.

Início Rápido com T2V

import requests, time

API_KEY = "sua_chave_api"
BASE = "https://api.novita.ai"

# Enviar geração
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "Um golden retriever correndo por folhas de outono em um parque, luz quente da tarde",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# Consultar resultado
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V — Continuação de Vídeo

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://exemplo.com/clipe-existente.mp4",
            "prompt": "Continue a cena com um movimento suave de câmera para a direita"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V — Cena com Múltiplos Personagens

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://exemplo.com/pessoa-a.jpg"},
                {"type": "image", "url": "https://exemplo.com/pessoa-b.jpg"}
            ],
            "prompt": "character1 e character2 estão conversando em um café, luz natural do dia"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

A referência completa de parâmetros para cada modo está na documentação da API Wan 2.7 T2V, documentação da API Wan 2.7 I2V e documentação da API Wan 2.7 R2V.

Se você quiser comparar o Wan 2.7 com a geração anterior, o guia Wan 2.6 na Novita AI cobre todo o conjunto de recursos e a superfície de parâmetros do 2.6.

Conclusão

O Wan 2.7 organiza suas capacidades de geração em três modos construídos para propósitos específicos, em vez de um endpoint abrangente. O T2V é o caminho mais rápido da ideia ao vídeo quando você não tem material de origem — basta um prompt e uma chave de API. O I2V dá controle sobre movimento e continuidade quando você está trabalhando a partir de imagens ou filmagens existentes, com três padrões de entrada distintos em um único endpoint. O R2V lida com o problema mais difícil: vídeo consistente com personagens entre cenas, com até cinco personagens de referência e estrutura de múltiplos planos integrada.

A atualização do 2.6 para o 2.7 é mais visível no I2V (a continuação agora é nativa, não uma adaptação) e no R2V (cinco personagens vs. dois, slots nomeados vs. posicionais). O T2V mantém os pontos fortes do 2.6 com uma superfície de parâmetros mais limpa.

Para a maioria dos fluxos de trabalho, a árvore de decisão é simples: comece com T2V para conteúdo original, mude para I2V quando tiver uma imagem ou clipe de origem, e recorra ao R2V quando a identidade do personagem precisar permanecer consistente em várias gerações.

FAQ

Qual é a diferença entre Wan 2.7 T2V, I2V e R2V? O T2V gera vídeo a partir apenas de um prompt de texto. O I2V anima uma imagem existente ou estende um clipe de vídeo existente. O R2V gera vídeo consistente com personagens usando imagens ou clipes de referência como modelos de personagem. Cada modo é um endpoint separado, otimizado para seu tipo de entrada.

O Wan 2.7 pode gerar áudio automaticamente? Sim. Todos os três modos suportam áudio gerado automaticamente por padrão. T2V e I2V geram música de fundo e efeitos sonoros combinados com a cena; o R2V adiciona um parâmetro reference_voice para diálogo de personagem. Você pode fornecer seu próprio áudio via audio_url (T2V) ou driving_audio_url (I2V), ou desabilitar o áudio com audio: false (R2V).

Quais durações de vídeo o Wan 2.7 suporta? T2V e I2V suportam 2–15 segundos. O R2V limita a 10 segundos por geração. Todos os modos usam um mínimo de 2 segundos.

Como funciona a continuação de vídeo no I2V? Envie first_clip_url apontando para um arquivo mp4 ou mov existente (2–10 segundos). O modelo analisa o conteúdo e o movimento do clipe e, em seguida, gera um novo segmento que continua naturalmente a partir do quadro final. Não envie image_url junto com first_clip_url — eles são para modos diferentes.

Quantos personagens de referência o Wan 2.7 R2V suporta? Até cinco itens de mídia no total (imagens: 0–5, vídeos: 0–3, total combinado ≤ 5). Cada item mapeia para um slot de personagem nomeado (character1, character2, etc.) que você usa no seu prompt.

A resolução afeta o preço? Sim. Todos os três modos cobram por segundo de vídeo gerado, e 1080P custa mais por segundo do que 720P. Use 720P durante o desenvolvimento e mude para 1080P para saídas finais para gerenciar custos.

Posso usar o Wan 2.7 através de uma API REST? Sim. Todos os endpoints são baseados em REST e seguem um padrão assíncrono: POST um job para receber um task_id, depois consulte a API de Resultado de Tarefa. Veja os exemplos de API na seção “Primeiros Passos” acima e a referência completa de parâmetros na documentação da API Novita AI.

Artigos recomendados