Maximize a Produtividade com a API Wan 2.2 I2V da Novita AI

Maximize a Produtividade com a API Wan 2.2 I2V da Novita AI

A Novita AI tem o prazer de apresentar a API Wan 2.2 I2V, uma ferramenta de ponta para geração de imagem para vídeo (I2V) que revoluciona a criação de conteúdo de vídeo. Como uma extensão do Wan 2.2 T2V da Alibaba, esta API utiliza a arquitetura Mixture-of-Experts (MoE) e técnicas avançadas de compressão para entregar vídeos em 720P a 24fps, otimizada para GPUs de nível consumidor. Este artigo explora o que é o Wan 2.2 I2V, seus recursos e como ele pode transformar os fluxos de trabalho de criação de vídeo.

O que é o Wan 2.2 I2V?

O Wan 2.2 I2V é um gerador de vídeo avançado baseado em IA que converte entradas de texto ou imagem em clipes de vídeo curtos. O termo “I2V” significa imagem para vídeo, indicando um dos seus modos de geração (ele também suporta texto para vídeo). O Wan 2.2 representa o segundo lançamento principal da série de modelos Wan, trazendo atualizações significativas em relação à versão 2.1. Ele utiliza uma arquitetura de difusão Mixture-of-Experts (MoE) de ponta para alcançar saída de vídeo em alta resolução 720p a partir de prompts. O modelo é open source (licenciado sob Apache 2.0) e projetado para entregar resultados com aparência profissional em hardware consumidor padrão.

Solução TI2V compacta e versátil: O Wan2.2 introduz um modelo open source de 5B alimentado pelo seu avançado Wan2.2-VAE, alcançando uma taxa de compressão impressionante de 16×16×4. Este modelo leve suporta de forma integrada tanto a geração de texto para vídeo (T2V) quanto de imagem para vídeo (I2V) em resolução 720P a 24fps. Otimizado para GPUs de nível consumidor como a NVIDIA 4090, ele se destaca como um dos modelos 720P@24fps mais rápidos disponíveis, tornando-se uma solução ideal tanto para aplicações industriais quanto para pesquisa acadêmica.

Arquitetura e compreensão de imagens do Wan 2.2 I2V

Dois tipos de MoE

O modelo de difusão Mixture-of-Experts (MoE) do Wan 2.2 utiliza redes de especialistas de alto e baixo ruído para lidar melhor com as diferentes complexidades das entradas de imagem. Por exemplo, a rede de alto ruído se destaca no processamento de detalhes intricados da imagem, enquanto a rede de baixo ruído se concentra na composição geral da cena. Essa divisão de tarefas aprimora a capacidade do modelo de analisar e interpretar o conteúdo da imagem de forma eficaz.

Compressão e consistência espaço-temporal

O modelo emprega o Wan-VAE (Variational Autoencoder) para compressão espaço-temporal, alcançando uma compressão de 64× (4× temporalmente, 16×16 espacialmente). Isso permite uma codificação e decodificação eficiente dos quadros de vídeo, preservando detalhes essenciais e coerência temporal. Essa técnica de compressão não apenas melhora a eficiência de geração, mas também garante uma transição suave e natural de imagens estáticas para vídeos dinâmicos.

Manter a consistência temporal é crucial ao gerar vídeos a partir de imagens, especialmente para aspectos como alterações de iluminação e movimentos de objetos. A arquitetura de compressão 3D do Wan-VAE garante fluidez visual e estende corretamente o conteúdo da imagem ao longo do tempo, garantindo saídas de vídeo de alta qualidade.

Principais recursos do Wan 2.2 I2V

Recurso Descrição
🎥 Controles estéticos cinematográficos Fornece controle estético de nível cinematográfico com parâmetros de estilo de filme profissional. Os prompts podem especificar iluminação, tons de cor, ângulos de câmera e detalhes de composição para influenciar a aparência do vídeo gerado.
🤖 Movimento complexo e estabilidade Se destaca na reprodução suave de movimentos complexos em larga escala. Lida com movimentos rápidos de câmera (panorâmicas, inclinações, zoom) e múltiplos objetos em movimento com estabilidade aprimorada. Graças aos especialistas MoE, ele produz movimentos mais suaves com menos tremores ou problemas de continuidade.
🎯 Conformidade semântica precisa Demonstra uma compreensão melhor de cenas complexas e interações entre múltiplos objetos, gerando saídas que correspondem de perto à intenção do prompt do usuário. Dados de treinamento expandidos e estratégias de difusão refinadas melhoram a consistência e a confiabilidade.

Quais otimizações de fluxo de trabalho existem no Wan 2.2?

What Work Process Optimizations are in Wan 2.2?

Wan 2.2 I2V vs Wan 2.1 I2V

Wan 2.2 I2V vs Wan 2.1 I2V: Arquitetura

Categoria Wan 2.1 Wan 2.2
Modelo de difusão Arquitetura de difusão densa: um único modelo lidava com todos os passos de tempo de remoção de ruído. Difusão Mixture-of-Experts (MoE): dois submodelos especializados lidam com diferentes níveis de ruído, um processando os passos de tempo iniciais de alto ruído e o outro lidando com os passos de tempo posteriores de baixo ruído. Isso melhora o detalhe e a coerência.
Tamanho e parâmetros do modelo ~14B de parâmetros para tarefas de texto para vídeo e imagem para vídeo. Variantes menores (por exemplo, 1.3B) estavam disponíveis para prototipagem mais rápida. ~27B de parâmetros (2 especialistas de 14B), mas apenas um especialista está ativo por vez. Introduziu um novo modelo híbrido de 5B para TI2V (condicionamento de texto e imagem) capaz de saída em 720p, preenchendo o papel do modelo menor do 2.1, mas com fidelidade melhorada.
Dados de treinamento e rótulos estéticos Conjunto de dados limitado com descritores básicos para controle de prompts. Treinado em um conjunto de dados com 65% mais imagens e 83% mais clipes de vídeo. Introduziu tags cinematográficas (por exemplo, iluminação, cor, composição) para permitir um controle de estilo mais refinado em comparação com os descritores básicos do 2.1.
Componentes subjacentes Usava o Wan-VAE para codificações em 1080p, com foco na manutenção da consistência temporal. Integração aprimorada do Wan-VAE e da difusão MoE para um melhor equilíbrio entre qualidade e uso de recursos. Adicionado o FlashAttention para operações de transformer mais rápidas, aprimorando o desempenho em comparação com o 2.1.
Recursos Suportava T2V, I2V e edição com a estrutura VACE. O ajuste fino com LoRA era totalmente suportado. Suporta T2V, I2V e transferência de estilo aprimorada. Ainda não há estrutura VACE e apenas compatibilidade limitada com LoRA.

Wan 2.2 I2V vs Wan 2.1 I2V: Desempenho

Wan 2.2 T2V vs Wan 2.1 T2V: Perfromance

De Artificial Analysis

Wan 2.2 I2V vs Wan 2.1 I2V: Geração

Wan 2.2 I2V

Wan 2.1 I2V

Custo e acesso ao Wan 2.2 I2V

Custos de hardware

  • Modelo I2V 5B:
    • Requisito mínimo de VRAM: 24GB.
    • Modelo mínimo de GPU: NVIDIA RTX 4090.
    • Quantidade mínima de GPUs: 1.
    • Velocidade por GPU única: Aproximadamente 524,8 segundos em resolução 720P.
    • Preço aproximado da GPU: A NVIDIA RTX 4090 foi lançada em 12 de outubro de 2022, com preço inicial de $1.599.
  • Modelo I2V A14B:
    • Resolução 480P:
      • Requisito mínimo de VRAM: 40GB.
      • Modelo mínimo de GPU: NVIDIA A100 40GB.
      • Quantidade mínima de GPUs: 1.
      • Velocidade por GPU única: Aproximadamente 810,0 segundos.
      • Preço aproximado da GPU: A NVIDIA A100 40GB está listada por $13.135.
    • Resolução 720P:
      • Requisito mínimo de VRAM: 80GB.
      • Modelo mínimo de GPU: NVIDIA H100 80GB.
      • Quantidade mínima de GPUs: 1.
      • Velocidade por GPU única: Aproximadamente 1.055,9 segundos.
      • Preço aproximado da GPU: As informações de preço da NVIDIA H100 80GB não estão disponíveis nas fontes fornecidas.

Custos de API

A Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer a nuvem de GPU acessível e confiável para construção e escalonamento.

Modelo Preço Resolução Tempo de geração
Wan 2.1 I2V $0,3/vídeo 1280*720 5s
Wan 2.2 I2V $0,4/vídeo 1080P 5s

Experimente o Wan 2.2 agora!

Guia de acesso ao Wan 2.2 I2V

Passo 1: Faça login e acesse a Biblioteca de Modelos

Faça login na sua conta e clique no botão Biblioteca de Modelos.

Faça login e acesse a Biblioteca de Modelos

Passo 2: Escolha seu modelo

Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Passo 2: Escolha seu modelo

Passo 3: Obtenha sua chave de API

Para autenticar com a API, forneceremos uma nova chave de API para você. Acessando a página “Configurações”, você pode copiar a chave de API conforme indicado na imagem.

obter chave de api

Passo 4: Instale a API

Instale a API usando o gerenciador de pacotes específico da sua linguagem de programação.

Passo 4: Instale a API

Experimente o Wan 2.2 agora!

Após a instalação, importe as bibliotecas necessárias para o seu ambiente de desenvolvimento. Inicialize a API com a sua chave de API para começar a interagir com o LLM da Novita AI. Este é um exemplo de uso da API de conclusões de chat para usuários de Python.

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-i2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>",
        "img_url": "<string>"
    },
    "parameters": {
        "resolution": "<string>",
        "duration": 123,
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Wan 2.2 I2V: Problemas comuns e soluções

Problema Solução
Quadros com tremores Aumente os passos de difusão ou a taxa de quadros; use o modo I2V; estabilize na pós-produção.
Lento/Sem memória Use o modelo de 5B ou resolução menor; habilite otimizações de memória; considere GPUs de nuvem.
Incompatibilidade de prompt Simplifique os prompts; use prompts negativos; refine iterativamente para obter melhores resultados.
Saída borrada Use o LoRA “DetailZ”; solicite detalhes mais nítidos nos prompts; afie ou aumente a escala na pós-produção.
Objetos inconsistentes Use imagens de referência no modo I2V; gere clipes mais curtos e os encadeie; mantenha os prompts constantes.
Sem áudio Adicione áudio na pós-produção; use ferramentas de IA para música ou locução e sincronize com os visuais.

Prós e contras do Wan 2.2 I2V para pequenas empresas

Prós:

  1. Custos de produção de conteúdo mais baixos: Não há necessidade de filmagem ou equipe de produção, economizando orçamento. Ideal para startups com recursos limitados.
  2. Ciclo criativo mais rápido: Os vídeos podem ser gerados em minutos, permitindo respostas rápidas a tendências e prototipagem ágil.
  3. Acessível em hardware consumidor: Funciona em PCs padrão com GPUs decentes, evitando a necessidade de hardware especializado caro.
  4. Flexibilidade criativa: Suporta vários estilos e cenas, atendendo a necessidades diversas apenas ajustando os prompts.
  5. Ferramenta open source e em evolução: O suporte da comunidade garante atualizações contínuas, reduzindo o risco de obsolescência.

Contras:

  1. Curva de aprendizado e necessidade de especialização: Requer conhecimento de IA ou tempo para aprender a criar prompts, sendo desafiador para usuários sem familiaridade com tecnologia.
  2. Custos computacionais: A geração de vídeo em larga escala incorre em custos contínuos de GPU e energia, que devem ser incluídos no orçamento.
  3. Limitações de qualidade: As saídas são limitadas a 720p e podem exigir edição pós-produção para necessidades de alta qualidade.
  4. Consistência e branding: O conteúdo gerado pode carecer de consistência entre os vídeos, precisando de curadoria extra para alinhamento de marca.
  5. Considerações éticas e legais: Questões como direitos autorais, transparência e confiança do público devem ser gerenciadas com cuidado.

Tendências futuras na tecnologia Wan 2.2 I2V

Tendência Descrição
Maior resolução Suporte para resolução 1080p+ e durações de vídeo mais longas (10 a 15 segundos ou curtas-metragens completas).
Áudio e interação Integração de geração de áudio e edição interativa (por exemplo, melhorias de vídeo para vídeo).
Maior controle Ferramentas para storyboards, controle de quadros e personagens/branding consistentes entre cenas.
Mais rápido e acessível Geração de vídeo quase em tempo real com modelos otimizados e avanços de hardware (por exemplo, GPUs, nuvem).
Adoção mais ampla Uso em entretenimento, educação e publicidade, com um ecossistema de plugins e estilos da comunidade.
Competição e colaboração O Wan open source aproveita avanços de pesquisa, impulsionando a inovação e modelos híbridos para qualidade.

A API Wan 2.2 I2V define um novo padrão para geração de vídeo, oferecendo controles estéticos cinematográficos, manipulação precisa de movimento e eficiência incomparável. Seja você um criador, profissional de marketing ou pesquisador, os recursos do Wan 2.2 simplificam os fluxos de trabalho, reduzem custos e abrem novas possibilidades criativas. Com sua base open source e API robusta, o Wan 2.2 I2V é o futuro da criação de vídeo acessível e poderosa.

Perguntas frequentes

O que é o Wan 2.2 I2V?

O Wan 2.2 I2V é uma API avançada para gerar vídeos de alta qualidade a partir de imagens, utilizando a arquitetura MoE da Alibaba e a compressão Wan-VAE para visuais suaves e consistentes.

Qual resolução o Wan 2.2 suporta?

A API suporta resolução 720P a 24fps, otimizada para GPUs consumidor como a NVIDIA RTX 4090.

Como o Wan 2.2 garante a consistência temporal?

O Wan 2.2 utiliza a compressão espaço-temporal 3D por meio do Wan-VAE, garantindo transições suaves e iluminação e movimento coerentes.

A Novita AI é a plataforma de nuvem tudo-em-um que capacita suas ambições de IA. APIs integradas, serverless, Instância de GPU — as ferramentas econômicas que você precisa. Elimine infraestrutura, comece gratuitamente e torne sua visão de IA uma realidade.

Leitura recomendada