O Wan2.6 representa um avanço na geração de vídeos com IA, oferecendo as capacidades de criação de vídeo mais abrangentes do mundo. O modelo inclui recursos de atuação de personagem, controle de múltiplos planos e sincronização audiovisual que o diferenciam dos concorrentes.
Agora disponível na plataforma de API de Modelos da Novita AI, desenvolvedores e empresas podem acessar esse modelo de ponta por meio de uma integração de API simples, sem precisar gerenciar infraestrutura complexa.
Este guia explora como aproveitar o Wan2.6 na Novita AI para geração de vídeos a partir de texto, a partir de imagens e a partir de vídeos de referência.
Experimente o Wan2.6 no Playground da Novita AI
O que é o Wan2.6?
Este vídeo foi gerado pelo Wan2.6
O Wan2.6 é a última geração da série de modelos de geração de vídeo da Alibaba Cloud, projetado especificamente para produção cinematográfica profissional e cenários de conteúdo criativo.
Como o modelo de geração de vídeo mais completo do mundo, o Wan2.6 introduz capacidades revolucionárias que reduzem a lacuna entre a criação de conteúdo amadora e a cinematografia profissional.
Tecnologia Principal
O Wan2.6 utiliza modelagem conjunta multimodal avançada para processar vídeos de referência. O sistema extrai informações temporais sobre emoções dos sujeitos, poses e recursos visuais abrangentes de múltiplos ângulos.
O modelo captura simultaneamente características acústicas, incluindo timbre de voz e taxa de fala. Esses elementos servem como condições de controle durante a geração para manter consistência sensorial completa entre visuais e áudio.
Inovações Técnicas
O modelo integra várias tecnologias inovadoras:
- Aprendizado Multimodal: Processa dados visuais, de áudio e temporais simultaneamente para gerar saídas coerentes
- Compreensão Semântica de Alto Nível: Transforma prompts simples em narrativas profissionais de múltiplos planos com enredos completos
- Modelagem Unificada: Mantém a consistência de sujeitos principais, layouts de cenário e atmosfera ambiental nas transições de plano
- Sincronização Audiovisual: Garante sincronização labial perfeita e alinhamento de áudio com o conteúdo visual
Principais Recursos do Wan2.6
1. Capacidade de Atuação de Personagem
O recurso exclusivo do Wan2.6 permite que os usuários enviem vídeos pessoais e se transformem em personagens em cenas de qualidade profissional.
O modelo lida com:
- Atuações de Personagem Único e Múltiplo: Suporta atuações solo ou interações em grupo
- Transferência de Emoção e Gesto: Captura e replica expressões e movimentos nuances
- Transformação Entre Estilos: Aplica diferentes gêneros (ficção científica, suspense, romance) à filmagem de origem
- Simulação de Atuação Profissional: Gera atuações de qualidade cinematográfica a partir de vídeos comuns de usuários
2. Controle de Múltiplos Planos e Transições
O modelo se destaca na composição de planos e transições de nível profissional:
- Planejamento Automático de Planos: Converte prompts simples em roteiros de múltiplos planos
- Transições Suaves: Cortes fluidos entre diferentes ângulos de câmera e perspectivas
- Coerência Narrativa: Mantém a continuidade da história em múltiplos planos
- Preservação de Consistência: Mantém personagens, cenários e atmosfera unificados em todo o vídeo
3. Duração Estendida de Vídeo
O Wan2.6 suporta até 15 segundos por geração — a maior duração de geração única disponível no mercado de vídeos com IA da China.
Essa duração estendida permite narrativas mais complexas e desenvolvimento completo de cenas, sem necessidade de múltiplas gerações e edição de costura.
4. Sincronização Audiovisual
Alinhamento perfeito entre elementos de áudio e visuais:
- Precisão de Sincronização Labial: Correspondência precisa de movimentos bucais para diálogos
- Animação Orientada por Som: Sinais de áudio direcionam movimentos e expressões de personagens
- Áudio Ambiental: Sons de fundo e efeitos contextualmente adequados
5. Métricas de Qualidade Aprimoradas
Atualizações recentes melhoraram significativamente vários aspectos do modelo:
- Fidelidade Visual Aprimorada: Maior resolução e qualidade de detalhes
- Efeitos de Áudio Melhorados: Design de som de nível profissional
- Melhor Seguimento de Prompt: Interpretação mais precisa de instruções complexas
- Trabalho de Câmera Cinematográfico: Técnicas de cinematografia profissional aplicadas automaticamente
Variantes do Modelo Wan2.6 na Novita AI
A Novita AI fornece três endpoints de API distintos para o Wan2.6, cada um otimizado para casos de uso específicos e acessível por meio da plataforma de API de Modelos.
Texto para Vídeo (T2V)
Gere vídeos diretamente a partir de prompts de texto, sem necessidade de imagens ou vídeos de entrada.
Ideal para criar conteúdo original a partir de descrições criativas, com controle de múltiplos planos e sequenciamento narrativo.
Principais Capacidades:
- Geração de narrativa de múltiplos planos a partir de prompts sequenciais
- Seleção automática de tipo de plano e movimentos de câmera
- Transições cinematográficas entre cenas
- Suporte a durações de vídeo de 5, 10 e 15 segundos
Especificações Técnicas:
| Parâmetro | Valores Suportados | Observações |
|---|---|---|
| Duração | 5s, 10s, 15s | Escolha com base na complexidade do conteúdo |
| Resolução | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 | Não suporta 480P |
| ID do Modelo | wan2.6-t2v |
Use este identificador nas chamadas de API |
Saiba mais: Documentação da API de Texto para Vídeo do Wan2.6
Imagem para Vídeo (I2V)
Anime imagens estáticas em sequências de vídeo dinâmicas.
Perfeito para dar vida a fotos de produtos, ilustrações ou artes conceituais com movimento controlado e contexto narrativo.
Principais Capacidades:
- Controle de intensidade de movimento para intensidade da animação
- Várias opções de resolução para diferentes casos de uso
- Direção de animação orientada por prompt
- Animação de personagens e objetos
Especificações Técnicas:
| Parâmetro | Valores Suportados | Observações |
|---|---|---|
| Duração | 5s, 10s, 15s | Duração estendida para animações complexas |
| Resolução | 1080P, 720P | Não suporta 480P |
| ID do Modelo | wan2.6-i2v |
Use este identificador nas chamadas de API |
Saiba mais: Documentação da API de Imagem para Vídeo do Wan2.6
Vídeo de Referência (R2V)
Transforme vídeos existentes com transferência de estilo, atuação de personagem ou modificações de cenário usando entrada de vídeo de referência.
Principais Capacidades:
- Atuação de personagem e substituição de personagens
- Transferência de estilo entre gêneros visuais
- Preservação de sincronização audiovisual
- Suporte a múltiplos vídeos de referência (recomendado 1 a 2 vídeos)
Especificações Técnicas:
| Parâmetro | Valores Suportados |
|---|---|
| Duração | 5s, 10s (não suporta 15s) |
| Resolução | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 (sem 480P) |
| Formato de Vídeo | MP4, MOV |
| Tamanho do Arquivo | < 30MB por arquivo |
| Referência Única | Duração máxima de 5s |
| Referência Dupla | Máximo de 2,5s cada (não recomendado 3 vídeos) |
| ID do Modelo | wan2.6-v2v |
Observações Importantes: Vídeos de referência não podem ser enviados simultaneamente com arquivos de áudio. O parâmetro reference_video_urls aceita um array de URLs de vídeo.
Saiba mais: Documentação da API de Vídeo de Referência do Wan2.6
Primeiros Passos com o Wan2.6 na Novita AI
Pré-requisitos
Antes de começar, certifique-se de ter:
- Conta na Novita AI: Cadastre-se em novita.ai. Ganhe $1 em Créditos Grátis automaticamente ao se cadastrar
- Chave de API: Obtenha-a no seu console
- Ambiente de Desenvolvimento: Python, Node.js ou qualquer cliente HTTP
Fluxo de Requisição Assíncrona
O Wan2.6 na Novita AI utiliza um modelo de processamento assíncrono para lidar com requisições de geração de forma eficiente:
- Enviar Requisição: Faça um POST para o endpoint apropriado com seus parâmetros
- Receber ID da Tarefa: A API retorna um
task_idimediatamente - Verificar Resultados: Use o ID da tarefa para checar o status da geração
- Recuperar Saída: Baixe o vídeo gerado assim que estiver concluído
Exemplo de Geração de Texto para Vídeo
Aqui está um exemplo completo de geração de um vídeo a partir de texto usando a API T2V do Wan2.6:
Passo 1: Enviar a Requisição de Geração
import requests
url = "https://api.novita.ai/v3/async/wan2.6-t2v"
payload = {
"input": {
"prompt": "<string>",
"audio_url": "<string>",
"negative_prompt": "<string>"
},
"parameters": {
"seed": 123,
"size": "<string>",
"audio": True,
"duration": 123,
"shot_type": "<string>",
"watermark": True,
"prompt_extend": True
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Passo 2: Obter os resultados da geração de vídeo
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
Explicação dos Principais Parâmetros
| Parâmetro | Descrição | Opções |
|---|---|---|
prompt |
Descrição textual do vídeo desejado | Descrição detalhada da cena |
audio_url |
Arquivo de áudio opcional para sincronização | URL HTTPS para o arquivo de áudio |
negative_prompt |
Elementos a serem evitados | Problemas de qualidade, objetos indesejados |
seed |
Semente aleatória para reprodutibilidade | Qualquer número inteiro |
size |
Resolução do vídeo | “1280x720”, “1920x1080”, “720x1280”, etc. |
duration |
Duração do vídeo em segundos | 5, 10 ou 15 |
shot_type |
Ângulo da câmera | “wide_shot”, “medium_shot”, “close_up” |
prompt_extend |
Aprimorar prompt automaticamente | true/false |
watermark |
Adicionar marca d’água ao vídeo | true/false |
audio |
Habilitar geração de áudio | true/false |
Para especificações completas da API e parâmetros adicionais, acesse a Documentação da API do Wan2.6.
Estrutura de Prompt de Múltiplos Planos
A capacidade de múltiplos planos do Wan2.6 permite criar sequências narrativas coesas com vários ângulos de câmera e cenas. Para maximizar a qualidade de vídeos de múltiplos planos, siga este formato de prompt estruturado.
Fórmula de Estrutura de Prompt
Prompt = Descrição Geral + Número do Plano + Carimbo de Tempo + Conteúdo do Plano
Detalhamento dos Componentes
1. Descrição Geral
Forneça uma breve visão geral de todo o conteúdo do vídeo. Esta seção deve descrever:
- Tema da história e estilo narrativo
- Emoções principais ou eventos centrais
- Tom geral e atmosfera
Isso ajuda a IA a entender a direção narrativa global e manter a consistência entre os planos.
2. Número do Plano
Atribua um número sequencial a cada plano para:
- Distinguir diferentes cenas ou segmentos
- Organizar a estrutura do vídeo claramente
- Manter o fluxo lógico entre as transições
3. Carimbo de Tempo
Especifique o intervalo de tempo exato para cada plano dentro da linha do tempo do vídeo:
- Garante que o conteúdo esteja alinhado com o tempo do vídeo
- Melhora a precisão da geração
- Ajuda no controle preciso da duração de cada plano
4. Conteúdo do Plano
Forneça descrições detalhadas de cada plano, incluindo:
- Personagens principais ou objetos e seus comportamentos específicos
- Ações, diálogos, expressões e gestos
- Ângulos de câmera e movimentos
- Detalhes de iluminação e atmosfera
Siga as convenções padrão de escrita de prompts de plano único para esta seção.
Exemplo de Prompt de Múltiplos Planos
Aqui está um exemplo prático demonstrando a estrutura completa:
Esta história é contada de uma perspectiva em terceira pessoa, retratando um drama curto sobre abandono e o reacender da esperança.
Plano 1 [0-3 segundos]: Um menino senta sozinho no canto de um parque, cabeça baixa, olhando para uma carta em suas mãos. Ele solta um suspiro suave, seus olhos revelando confusão e incerteza.
Plano 2 [3-5 segundos]: Transição de corte seco, posição de câmera fixa, focando nos olhos do menino. Lágrimas brilham, transmitindo uma sensação de perda e desamparo.
Plano 3 [5-10 segundos]: Transição de corte seco, a cena muda para uma sala de aula simples. Uma garota com olhos gentis, porém determinados, vestindo roupas modestas, se aproxima do menino com um sorriso caloroso e reconfortante para consolá-lo.
Conclusão
O Wan2.6 na Novita AI democratiza a produção de vídeo profissional, oferecendo controle criativo sem precedentes por meio de atuação de personagem, narrativas de múltiplos planos e sincronização audiovisual.
Se você é um desenvolvedor criando recursos de geração de vídeo, um profissional de marketing criando conteúdo de campanha ou um cineasta explorando pré-visualização, a plataforma de API de Modelos da Novita AI elimina a complexidade de infraestrutura enquanto entrega resultados de qualidade cinematográfica.
Comece a gerar vídeos profissionais hoje e transforme sua visão criativa em realidade em minutos.
Pronto para começar? Crie sua conta na Novita AI e acesse o Wan2.6 com créditos grátis para experimentar o futuro da geração de vídeos com IA.
Novita AI é uma plataforma de nuvem de IA líder que fornece aos desenvolvedores APIs fáceis de usar e infraestrutura de GPU acessível e confiável para construir e escalar aplicações de IA.
