Wan 2.1 14B Image-to-Video está disponível na Novita AI por $0,04/segundo!

Índice

Capacidade do Wan2.1 I2V
Inovações Principais do Wan 2.1
Vbench do Wan 2.1
Requisitos de Hardware do Wan 2.1
Como Acessar o Wan 2.1 através da Novita AI?
Perguntas Frequentes

A Novita oferece preços altamente competitivos no mercado.

Por exemplo, um vídeo de 5 segundos em 720P com Wan 2.1 I2V custa apenas $0,30 por vídeo, um vídeo de 5 segundos em 480P com Wan 2.1 I2V custa apenas $0,20 por vídeo!

Atualmente suporta até 3 Loras!

Inicie um teste gratuito na Novita AI hoje. Para integrar a API Wan 2.1, visite nossa documentação para desenvolvedores para mais detalhes.

O Wan 2.1 I2V (Image-to-Video) é um modelo de geração de vídeo de ponta que combina tecnologias de última geração como Wan-VAE e Video Diffusion DiT. Ele se destaca na reconstrução de vídeo de alta fidelidade, compressão eficiente e geração contínua de texto para vídeo, apoiado por um conjunto de dados de treinamento robusto e limpo.

Capacidade do Wan2.1 I2V

Inovações Principais do Wan 2.1

1. Wan-VAE

Visão Geral

Um autoencoder variacional 3D (VAE) projetado para compressão eficiente e reprodução de movimento de alta fidelidade.
Capaz de codificar e decodificar vídeos em 1080P mantendo a coerência temporal.
Integra múltiplas estratégias para otimizar a compressão espaço-temporal, reduzir o uso de memória e garantir a causalidade temporal.

Problemas Resolvidos

Compressão Eficiente: Reduz os requisitos de armazenamento e computação para dados de vídeo.
Reconstrução de Alta Fidelidade: Garante que os vídeos gerados sejam de alta qualidade e o movimento seja coerente.
Consistência Temporal: Evita problemas comuns como descontinuidade de quadros ou tremulação em vídeos gerados.

2. Video Diffusion DiT

Visão Geral

Construído sobre Diffusion Transformers, aprimorado pelo framework Flow Matching.
Suporta entrada de texto multilíngue (via T5 Encoder) e incorporação de texto (cross-attention).
Usa um MLP compartilhado para prever parâmetros de modulação para embeddings de tempo, permitindo que cada bloco transformer aprenda vieses distintos, melhorando assim o desempenho.

Problemas Resolvidos

Integração Profunda de Texto e Geração de Vídeo: Permite que o modelo entenda e gere vídeos de acordo com descrições textuais.
Desempenho de Geração Aprimorado: Melhora significativamente a qualidade e expressividade dos vídeos gerados sem aumentar a contagem de parâmetros.
Suporte Multimodal: Lida com vários idiomas e tipos de entrada, ampliando os cenários de aplicação.

3. Conjunto de Dados Candidato

Visão Geral

Um conjunto de dados de imagens e vídeos em grande escala, curado e deduplicado.
Emprega um processo de limpeza de dados em quatro etapas, focado nas dimensões dos dados, qualidade visual e qualidade do movimento.
Constrói um conjunto de treinamento diversificado e de alta qualidade.

Problemas Resolvidos

Ruído e Redundância de Dados: Remove efetivamente dados de baixa qualidade ou duplicados, melhorando a eficácia dos dados de treinamento.
Diversidade e Qualidade: Fornece ao modelo amostras ricas e limpas, melhorando a generalização e as capacidades de geração.
Treinamento em Grande Escala: Suporta treinamento eficiente em conjuntos de dados grandes e de alta qualidade.

Vbench do Wan 2.1

O Wan 2.1 (Wan-14B) demonstra excelente desempenho em tarefas principais como consistência de identidade, plausibilidade física e suavidade. Sua pontuação ponderada geral está entre as mais altas da indústria, tornando-o um dos principais modelos de geração de vídeo disponíveis atualmente. No entanto, ainda há espaço para melhoria em áreas como capacidade de estilização e controle de câmera.

Requisitos de Hardware do Wan 2.1

O Wan 2.1 tem altos requisitos de hardware, especialmente para tarefas de alta resolução e modelos grandes. O requisito de memória para o Wan 2.1 I2V se aproxima de 80 GB. Recomenda-se o uso de múltiplas GPUs de alto nível, de nível datacenter (como A100, H100 ou H20) para atender às demandas de memória e velocidade. GPUs de nível consumidor são adequadas apenas para modelos pequenos e cenários de baixa resolução.

Modelo	Compatível com Placa Única	Recomendação Multi-GPU	Nível de Recomendação
RTX 4090	Não	Não	apenas para T2V-1.3B em 480P
H20	Não Suportado	4 GPUs ou 8 GPUs	★★★
A800/A100	Suportado	4 GPUs ou 8 GPUs	★★★★
H800/H100	Suportado	4 GPUs ou 8 GPUs	★★★★★

Como Acessar o Wan 2.1 através da Novita AI?

Novita AI é uma plataforma de nuvem de IA que oferece aos desenvolvedores uma maneira fácil de implantar modelos de IA usando nossa API simples, além de fornecer GPUs em nuvem acessíveis e confiáveis para construir e escalar.

Passo 1: Faça Login e Acesse a Biblioteca de Modelos

Faça login na sua conta e clique no botão Biblioteca de Modelos.

Experimente o Wan 2.1 I2V Agora!

Passo 2: Escolha Seu Modelo

Navegue pelas opções disponíveis e selecione o modelo que atende às suas necessidades.

Passo 3 : Inicie seu Teste Gratuito

Passo 4: Obtenha Sua Chave de API

Para autenticar com a API, forneceremos uma nova chave de API. Ao entrar na página, você pode copiar a chave de API conforme indicado na imagem.

Passo 5: Instale a API

Instale a API usando o gerenciador de pacotes específico da sua linguagem de programação.

Após a instalação, importe as bibliotecas necessárias para o seu ambiente de desenvolvimento. Inicialize a API com sua chave de API para começar a interagir com o LLM da Novita AI. Este é um exemplo de uso da API de chat completions para usuários Python.

import requests

url = "https://api.novita.ai/v3/async/wan-i2v"

payload = {
    "extra": {"webhook": {
            "url": "<string>",
            "test_mode": {
                "enabled": True,
                "return_task_status": "<string>"
            }
        }},
    "model_name": "<string>",
    "image_url": "<string>",
    "width": 123,
    "height": 123,
    "loras": [
        {
            "path": "<string>",
            "scale": {}
        }
    ],
    "seed": 123,
    "prompt": "<string>",
    "negative_prompt": "<string>",
    "steps": 123,
    "guidance_scale": 123,
    "flow_shift": 123,
    "enable_safety_checker": True
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

Wan 2.1 I2V (Image-to-Video) é um modelo de geração de vídeo de ponta que combina tecnologias de última geração como Wan-VAE e Video Diffusion DiT. Ele se destaca na reconstrução de vídeo de alta fidelidade, compressão eficiente e geração contínua de texto para vídeo, apoiado por um conjunto de dados de treinamento robusto e limpo.

Perguntas Frequentes

Quais são os requisitos de hardware para o Wan 2.1 I2V?

O Wan 2.1 I2V é um modelo avançado para gerar vídeos de alta qualidade a partir de entradas textuais ou de imagem. Sua singularidade reside na reprodução de movimento de alta fidelidade, consistência temporal e suporte multilíngue para geração de texto para vídeo.

O que é o Wan 2.1 I2V e o que o torna único?

Preços competitivos: $0,40 por vídeo de 5 segundos em 720P em comparação com $2,39 em plataformas similares.
API fácil de usar com documentação detalhada para desenvolvedores.

Como posso acessar o Wan 2.1 I2V?

Você pode usar o Wan 2.1 I2V através da plataforma Novita AI. Basta fazer login, selecionar o modelo, obter sua chave de API e integrar a API ao seu ambiente de desenvolvimento.

Novita AI é a plataforma completa em nuvem que potencializa suas ambições de IA. APIs integradas, serverless, instância GPU — as ferramentas econômicas que você precisa. Elimine a infraestrutura, comece gratuitamente e torne sua visão de IA realidade.

Wan 2.1 14B Image-to-Video está disponível na Novita AI por $0,04/segundo!

Capacidade do Wan2.1 I2V