A Novita oferece preços altamente competitivos no mercado.
Por exemplo, um vídeo de 5 segundos em 720P com Wan 2.1 I2V custa apenas $0,30 por vídeo, um vídeo de 5 segundos em 480P com Wan 2.1 I2V custa apenas $0,20 por vídeo!
Atualmente suporta até 3 Loras!
Inicie um teste gratuito na Novita AI hoje. Para integrar a API Wan 2.1, visite nossa documentação para desenvolvedores para mais detalhes.
O Wan 2.1 I2V (Image-to-Video) é um modelo de geração de vídeo de ponta que combina tecnologias de última geração como Wan-VAE e Video Diffusion DiT. Ele se destaca na reconstrução de vídeo de alta fidelidade, compressão eficiente e geração contínua de texto para vídeo, apoiado por um conjunto de dados de treinamento robusto e limpo.
Capacidade do Wan2.1 I2V

Inovações Principais do Wan 2.1
1. Wan-VAE
Visão Geral
- Um autoencoder variacional 3D (VAE) projetado para compressão eficiente e reprodução de movimento de alta fidelidade.
- Capaz de codificar e decodificar vídeos em 1080P mantendo a coerência temporal.
- Integra múltiplas estratégias para otimizar a compressão espaço-temporal, reduzir o uso de memória e garantir a causalidade temporal.
Problemas Resolvidos
- Compressão Eficiente: Reduz os requisitos de armazenamento e computação para dados de vídeo.
- Reconstrução de Alta Fidelidade: Garante que os vídeos gerados sejam de alta qualidade e o movimento seja coerente.
- Consistência Temporal: Evita problemas comuns como descontinuidade de quadros ou tremulação em vídeos gerados.
2. Video Diffusion DiT
Visão Geral
- Construído sobre Diffusion Transformers, aprimorado pelo framework Flow Matching.
- Suporta entrada de texto multilíngue (via T5 Encoder) e incorporação de texto (cross-attention).
- Usa um MLP compartilhado para prever parâmetros de modulação para embeddings de tempo, permitindo que cada bloco transformer aprenda vieses distintos, melhorando assim o desempenho.
Problemas Resolvidos
- Integração Profunda de Texto e Geração de Vídeo: Permite que o modelo entenda e gere vídeos de acordo com descrições textuais.
- Desempenho de Geração Aprimorado: Melhora significativamente a qualidade e expressividade dos vídeos gerados sem aumentar a contagem de parâmetros.
- Suporte Multimodal: Lida com vários idiomas e tipos de entrada, ampliando os cenários de aplicação.
3. Conjunto de Dados Candidato
Visão Geral
- Um conjunto de dados de imagens e vídeos em grande escala, curado e deduplicado.
- Emprega um processo de limpeza de dados em quatro etapas, focado nas dimensões dos dados, qualidade visual e qualidade do movimento.
- Constrói um conjunto de treinamento diversificado e de alta qualidade.
Problemas Resolvidos
- Ruído e Redundância de Dados: Remove efetivamente dados de baixa qualidade ou duplicados, melhorando a eficácia dos dados de treinamento.
- Diversidade e Qualidade: Fornece ao modelo amostras ricas e limpas, melhorando a generalização e as capacidades de geração.
- Treinamento em Grande Escala: Suporta treinamento eficiente em conjuntos de dados grandes e de alta qualidade.
Vbench do Wan 2.1
O Wan 2.1 (Wan-14B) demonstra excelente desempenho em tarefas principais como consistência de identidade, plausibilidade física e suavidade. Sua pontuação ponderada geral está entre as mais altas da indústria, tornando-o um dos principais modelos de geração de vídeo disponíveis atualmente. No entanto, ainda há espaço para melhoria em áreas como capacidade de estilização e controle de câmera.

Requisitos de Hardware do Wan 2.1
O Wan 2.1 tem altos requisitos de hardware, especialmente para tarefas de alta resolução e modelos grandes. O requisito de memória para o Wan 2.1 I2V se aproxima de 80 GB. Recomenda-se o uso de múltiplas GPUs de alto nível, de nível datacenter (como A100, H100 ou H20) para atender às demandas de memória e velocidade. GPUs de nível consumidor são adequadas apenas para modelos pequenos e cenários de baixa resolução.
| Modelo | Compatível com Placa Única | Recomendação Multi-GPU | Nível de Recomendação |
|---|---|---|---|
| RTX 4090 | Não | Não | apenas para T2V-1.3B em 480P |
| H20 | Não Suportado | 4 GPUs ou 8 GPUs | ★★★ |
| A800/A100 | Suportado | 4 GPUs ou 8 GPUs | ★★★★ |
| H800/H100 | Suportado | 4 GPUs ou 8 GPUs | ★★★★★ |
Como Acessar o Wan 2.1 através da Novita AI?
Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer GPUs em nuvem acessíveis e confiáveis para construir e escalar.
Passo 1: Faça Login e Acesse a Biblioteca de Modelos
Faça login na sua conta e clique no botão Biblioteca de Modelos.

Experimente o Wan 2.1 I2V Agora!
Passo 2: Escolha Seu Modelo
Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Passo 3 : Inicie seu Teste Gratuito

Passo 4: Obtenha Sua Chave de API
Para autenticar com a API, forneceremos uma nova chave de API. Ao entrar na página, você pode copiar a chave de API conforme indicado na imagem.

Passo 5: Instale a API
Instale a API usando o gerenciador de pacotes específico da sua linguagem de programação.

Após a instalação, importe as bibliotecas necessárias para o seu ambiente de desenvolvimento. Inicialize a API com sua chave de API para começar a interagir com o LLM da Novita AI. Este é um exemplo de uso da API de chat completions para usuários Python.
import requests
url = "https://api.novita.ai/v3/async/wan-i2v"
payload = {
"extra": {"webhook": {
"url": "<string>",
"test_mode": {
"enabled": True,
"return_task_status": "<string>"
}
}},
"model_name": "<string>",
"image_url": "<string>",
"width": 123,
"height": 123,
"loras": [
{
"path": "<string>",
"scale": {}
}
],
"seed": 123,
"prompt": "<string>",
"negative_prompt": "<string>",
"steps": 123,
"guidance_scale": 123,
"flow_shift": 123,
"enable_safety_checker": True
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.request("POST", url, json=payload, headers=headers)
print(response.text)
Wan 2.1 I2V (Image-to-Video) é um modelo de geração de vídeo de ponta que combina tecnologias de última geração como Wan-VAE e Video Diffusion DiT. Ele se destaca na reconstrução de vídeo de alta fidelidade, compressão eficiente e geração contínua de texto para vídeo, apoiado por um conjunto de dados de treinamento robusto e limpo.
Perguntas Frequentes
Quais são os requisitos de hardware para o Wan 2.1 I2V?
O Wan 2.1 I2V é um modelo avançado para gerar vídeos de alta qualidade a partir de entradas textuais ou de imagem. Sua singularidade reside na reprodução de movimento de alta fidelidade, consistência temporal e suporte multilíngue para geração de texto para vídeo.
O que é o Wan 2.1 I2V e o que o torna único?
Preços competitivos: $0,40 por vídeo de 5 segundos em 720P em comparação com $2,39 em plataformas similares.
API fácil de usar com documentação detalhada para desenvolvedores.
Como posso acessar o Wan 2.1 I2V?
Você pode usar o Wan 2.1 I2V através da plataforma Novita AI. Basta fazer login, selecionar o modelo, obter sua chave de API e integrar a API ao seu ambiente de desenvolvimento.
Novita AI é a plataforma completa em nuvem que potencializa suas ambições de IA. APIs integradas, serverless, instância GPU — as ferramentas econômicas que você precisa. Elimine a infraestrutura, comece gratuitamente e torne sua visão de IA realidade.
