A Novita AI tem o prazer de apresentar a API Wan 2.2 I2V, uma ferramenta de ponta para geração de imagem para vídeo (I2V) que revoluciona a criação de conteúdo de vídeo. Como uma extensão do Wan 2.2 T2V da Alibaba, esta API utiliza a arquitetura Mixture-of-Experts (MoE) e técnicas avançadas de compressão para entregar vídeos em 720P a 24fps, otimizada para GPUs de nível consumidor. Este artigo explora o que é o Wan 2.2 I2V, seus recursos e como ele pode transformar os fluxos de trabalho de criação de vídeo.
O que é o Wan 2.2 I2V?
O Wan 2.2 I2V é um gerador de vídeo avançado baseado em IA que converte entradas de texto ou imagem em clipes de vídeo curtos. O termo “I2V” significa imagem para vídeo, indicando um dos seus modos de geração (ele também suporta texto para vídeo). O Wan 2.2 representa o segundo lançamento principal da série de modelos Wan, trazendo atualizações significativas em relação à versão 2.1. Ele utiliza uma arquitetura de difusão Mixture-of-Experts (MoE) de ponta para alcançar saída de vídeo em alta resolução 720p a partir de prompts. O modelo é open source (licenciado sob Apache 2.0) e projetado para entregar resultados com aparência profissional em hardware consumidor padrão.
Solução TI2V compacta e versátil: O Wan2.2 introduz um modelo open source de 5B alimentado pelo seu avançado Wan2.2-VAE, alcançando uma taxa de compressão impressionante de 16×16×4. Este modelo leve suporta de forma integrada tanto a geração de texto para vídeo (T2V) quanto de imagem para vídeo (I2V) em resolução 720P a 24fps. Otimizado para GPUs de nível consumidor como a NVIDIA 4090, ele se destaca como um dos modelos 720P@24fps mais rápidos disponíveis, tornando-se uma solução ideal tanto para aplicações industriais quanto para pesquisa acadêmica.
Arquitetura e compreensão de imagens do Wan 2.2 I2V
Dois tipos de MoE
O modelo de difusão Mixture-of-Experts (MoE) do Wan 2.2 utiliza redes de especialistas de alto e baixo ruído para lidar melhor com as diferentes complexidades das entradas de imagem. Por exemplo, a rede de alto ruído se destaca no processamento de detalhes intricados da imagem, enquanto a rede de baixo ruído se concentra na composição geral da cena. Essa divisão de tarefas aprimora a capacidade do modelo de analisar e interpretar o conteúdo da imagem de forma eficaz.
Compressão e consistência espaço-temporal
O modelo emprega o Wan-VAE (Variational Autoencoder) para compressão espaço-temporal, alcançando uma compressão de 64× (4× temporalmente, 16×16 espacialmente). Isso permite uma codificação e decodificação eficiente dos quadros de vídeo, preservando detalhes essenciais e coerência temporal. Essa técnica de compressão não apenas melhora a eficiência de geração, mas também garante uma transição suave e natural de imagens estáticas para vídeos dinâmicos.
Manter a consistência temporal é crucial ao gerar vídeos a partir de imagens, especialmente para aspectos como alterações de iluminação e movimentos de objetos. A arquitetura de compressão 3D do Wan-VAE garante fluidez visual e estende corretamente o conteúdo da imagem ao longo do tempo, garantindo saídas de vídeo de alta qualidade.
Principais recursos do Wan 2.2 I2V
| Recurso | Descrição |
|---|---|
| 🎥 Controles estéticos cinematográficos | Fornece controle estético de nível cinematográfico com parâmetros de estilo de filme profissional. Os prompts podem especificar iluminação, tons de cor, ângulos de câmera e detalhes de composição para influenciar a aparência do vídeo gerado. |
| 🤖 Movimento complexo e estabilidade | Se destaca na reprodução suave de movimentos complexos em larga escala. Lida com movimentos rápidos de câmera (panorâmicas, inclinações, zoom) e múltiplos objetos em movimento com estabilidade aprimorada. Graças aos especialistas MoE, ele produz movimentos mais suaves com menos tremores ou problemas de continuidade. |
| 🎯 Conformidade semântica precisa | Demonstra uma compreensão melhor de cenas complexas e interações entre múltiplos objetos, gerando saídas que correspondem de perto à intenção do prompt do usuário. Dados de treinamento expandidos e estratégias de difusão refinadas melhoram a consistência e a confiabilidade. |
Quais otimizações de fluxo de trabalho existem no Wan 2.2?

Wan 2.2 I2V vs Wan 2.1 I2V
Wan 2.2 I2V vs Wan 2.1 I2V: Arquitetura
| Categoria | Wan 2.1 | Wan 2.2 |
|---|---|---|
| Modelo de difusão | Arquitetura de difusão densa: um único modelo lidava com todos os passos de tempo de remoção de ruído. | Difusão Mixture-of-Experts (MoE): dois submodelos especializados lidam com diferentes níveis de ruído, um processando os passos de tempo iniciais de alto ruído e o outro lidando com os passos de tempo posteriores de baixo ruído. Isso melhora o detalhe e a coerência. |
| Tamanho e parâmetros do modelo | ~14B de parâmetros para tarefas de texto para vídeo e imagem para vídeo. Variantes menores (por exemplo, 1.3B) estavam disponíveis para prototipagem mais rápida. | ~27B de parâmetros (2 especialistas de 14B), mas apenas um especialista está ativo por vez. Introduziu um novo modelo híbrido de 5B para TI2V (condicionamento de texto e imagem) capaz de saída em 720p, preenchendo o papel do modelo menor do 2.1, mas com fidelidade melhorada. |
| Dados de treinamento e rótulos estéticos | Conjunto de dados limitado com descritores básicos para controle de prompts. | Treinado em um conjunto de dados com 65% mais imagens e 83% mais clipes de vídeo. Introduziu tags cinematográficas (por exemplo, iluminação, cor, composição) para permitir um controle de estilo mais refinado em comparação com os descritores básicos do 2.1. |
| Componentes subjacentes | Usava o Wan-VAE para codificações em 1080p, com foco na manutenção da consistência temporal. | Integração aprimorada do Wan-VAE e da difusão MoE para um melhor equilíbrio entre qualidade e uso de recursos. Adicionado o FlashAttention para operações de transformer mais rápidas, aprimorando o desempenho em comparação com o 2.1. |
| Recursos | Suportava T2V, I2V e edição com a estrutura VACE. O ajuste fino com LoRA era totalmente suportado. | Suporta T2V, I2V e transferência de estilo aprimorada. Ainda não há estrutura VACE e apenas compatibilidade limitada com LoRA. |
Wan 2.2 I2V vs Wan 2.1 I2V: Desempenho

Wan 2.2 I2V vs Wan 2.1 I2V: Geração
Wan 2.2 I2V
Wan 2.1 I2V
Custo e acesso ao Wan 2.2 I2V
Custos de hardware
- Modelo I2V 5B:
- Requisito mínimo de VRAM: 24GB.
- Modelo mínimo de GPU: NVIDIA RTX 4090.
- Quantidade mínima de GPUs: 1.
- Velocidade por GPU única: Aproximadamente 524,8 segundos em resolução 720P.
- Preço aproximado da GPU: A NVIDIA RTX 4090 foi lançada em 12 de outubro de 2022, com preço inicial de $1.599.
- Modelo I2V A14B:
- Resolução 480P:
- Requisito mínimo de VRAM: 40GB.
- Modelo mínimo de GPU: NVIDIA A100 40GB.
- Quantidade mínima de GPUs: 1.
- Velocidade por GPU única: Aproximadamente 810,0 segundos.
- Preço aproximado da GPU: A NVIDIA A100 40GB está listada por $13.135.
- Resolução 720P:
- Requisito mínimo de VRAM: 80GB.
- Modelo mínimo de GPU: NVIDIA H100 80GB.
- Quantidade mínima de GPUs: 1.
- Velocidade por GPU única: Aproximadamente 1.055,9 segundos.
- Preço aproximado da GPU: As informações de preço da NVIDIA H100 80GB não estão disponíveis nas fontes fornecidas.
- Resolução 480P:
Custos de API
A Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem de GPU acessível e confiável para construção e escalonamento.
| Modelo | Preço | Resolução | Tempo de geração |
|---|---|---|---|
| Wan 2.1 I2V | $0,3/vídeo | 1280*720 | 5s |
| Wan 2.2 I2V | $0,4/vídeo | 1080P | 5s |
Guia de acesso ao Wan 2.2 I2V
Passo 1: Faça login e acesse a Biblioteca de Modelos
Faça login na sua conta e clique no botão Biblioteca de Modelos.

Passo 2: Escolha seu modelo
Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Passo 3: Obtenha sua chave de API
Para autenticar com a API, forneceremos uma nova chave de API para você. Acessando a página “Configurações”, você pode copiar a chave de API conforme indicado na imagem.

Passo 4: Instale a API
Instale a API usando o gerenciador de pacotes específico da sua linguagem de programação.

Após a instalação, importe as bibliotecas necessárias para o seu ambiente de desenvolvimento. Inicialize a API com a sua chave de API para começar a interagir com o LLM da Novita AI. Este é um exemplo de uso da API de conclusões de chat para usuários de Python.
import requests
url = "https://api.novita.ai/v3/async/wan-2.2-i2v"
payload = {
"input": {
"prompt": "<string>",
"negative_prompt": "<string>",
"img_url": "<string>"
},
"parameters": {
"resolution": "<string>",
"duration": 123,
"prompt_extend": True,
"seed": 123
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Wan 2.2 I2V: Problemas comuns e soluções
| Problema | Solução |
|---|---|
| Quadros com tremores | Aumente os passos de difusão ou a taxa de quadros; use o modo I2V; estabilize na pós-produção. |
| Lento/Sem memória | Use o modelo de 5B ou resolução menor; habilite otimizações de memória; considere GPUs de nuvem. |
| Incompatibilidade de prompt | Simplifique os prompts; use prompts negativos; refine iterativamente para obter melhores resultados. |
| Saída borrada | Use o LoRA “DetailZ”; solicite detalhes mais nítidos nos prompts; afie ou aumente a escala na pós-produção. |
| Objetos inconsistentes | Use imagens de referência no modo I2V; gere clipes mais curtos e os encadeie; mantenha os prompts constantes. |
| Sem áudio | Adicione áudio na pós-produção; use ferramentas de IA para música ou locução e sincronize com os visuais. |
Prós e contras do Wan 2.2 I2V para pequenas empresas
Prós:
- Custos de produção de conteúdo mais baixos: Não há necessidade de filmagem ou equipe de produção, economizando orçamento. Ideal para startups com recursos limitados.
- Ciclo criativo mais rápido: Os vídeos podem ser gerados em minutos, permitindo respostas rápidas a tendências e prototipagem ágil.
- Acessível em hardware consumidor: Funciona em PCs padrão com GPUs decentes, evitando a necessidade de hardware especializado caro.
- Flexibilidade criativa: Suporta vários estilos e cenas, atendendo a necessidades diversas apenas ajustando os prompts.
- Ferramenta open source e em evolução: O suporte da comunidade garante atualizações contínuas, reduzindo o risco de obsolescência.
Contras:
- Curva de aprendizado e necessidade de especialização: Requer conhecimento de IA ou tempo para aprender a criar prompts, sendo desafiador para usuários sem familiaridade com tecnologia.
- Custos computacionais: A geração de vídeo em larga escala incorre em custos contínuos de GPU e energia, que devem ser incluídos no orçamento.
- Limitações de qualidade: As saídas são limitadas a 720p e podem exigir edição pós-produção para necessidades de alta qualidade.
- Consistência e branding: O conteúdo gerado pode carecer de consistência entre os vídeos, precisando de curadoria extra para alinhamento de marca.
- Considerações éticas e legais: Questões como direitos autorais, transparência e confiança do público devem ser gerenciadas com cuidado.
Tendências futuras na tecnologia Wan 2.2 I2V
| Tendência | Descrição |
|---|---|
| Maior resolução | Suporte para resolução 1080p+ e durações de vídeo mais longas (10 a 15 segundos ou curtas-metragens completas). |
| Áudio e interação | Integração de geração de áudio e edição interativa (por exemplo, melhorias de vídeo para vídeo). |
| Maior controle | Ferramentas para storyboards, controle de quadros e personagens/branding consistentes entre cenas. |
| Mais rápido e acessível | Geração de vídeo quase em tempo real com modelos otimizados e avanços de hardware (por exemplo, GPUs, nuvem). |
| Adoção mais ampla | Uso em entretenimento, educação e publicidade, com um ecossistema de plugins e estilos da comunidade. |
| Competição e colaboração | O Wan open source aproveita avanços de pesquisa, impulsionando a inovação e modelos híbridos para qualidade. |
A API Wan 2.2 I2V define um novo padrão para geração de vídeo, oferecendo controles estéticos cinematográficos, manipulação precisa de movimento e eficiência incomparável. Seja você um criador, profissional de marketing ou pesquisador, os recursos do Wan 2.2 simplificam os fluxos de trabalho, reduzem custos e abrem novas possibilidades criativas. Com sua base open source e API robusta, o Wan 2.2 I2V é o futuro da criação de vídeo acessível e poderosa.
Perguntas frequentes
O que é o Wan 2.2 I2V?
O Wan 2.2 I2V é uma API avançada para gerar vídeos de alta qualidade a partir de imagens, utilizando a arquitetura MoE da Alibaba e a compressão Wan-VAE para visuais suaves e consistentes.
Qual resolução o Wan 2.2 suporta?
A API suporta resolução 720P a 24fps, otimizada para GPUs consumidor como a NVIDIA RTX 4090.
Como o Wan 2.2 garante a consistência temporal?
O Wan 2.2 utiliza a compressão espaço-temporal 3D por meio do Wan-VAE, garantindo transições suaves e iluminação e movimento coerentes.
A Novita AI é a plataforma de nuvem tudo-em-um que capacita suas ambições de IA. APIs integradas, serverless, Instância de GPU — as ferramentas econômicas que você precisa. Elimine infraestrutura, comece gratuitamente e torne sua visão de IA uma realidade.
