Wan 2.1 14B Image-to-Video ya está disponible en Novita AI a $0.04/segundo

Tabla de contenido

Capacidad de Wan2.1 I2V
Innovaciones clave de Wan 2.1
Vbench de Wan 2.1
Requisitos de hardware de Wan 2.1
Cómo acceder a Wan 2.1 a través de Novita AI
Preguntas frecuentes

Novita ofrece precios altamente competitivos en el mercado.

Por ejemplo, un video Wan 2.1 I2V de 5 segundos en 720P cuesta solo $0.3 por video, ¡un video Wan 2.1 I2V de 5 segundos en 480P cuesta solo $0.2 por video!

¡Actualmente compatible con hasta 3 Loras!

Comienza tu prueba gratuita en Novita AI hoy. Para integrar la API de Wan 2.1, visita nuestra documentación para desarrolladores para más detalles.

Wan 2.1 I2V (Image-to-Video, imagen a video) es un modelo de generación de video de vanguardia que combina tecnologías de última generación como Wan-VAE y Video Diffusion DiT. Destaca en la reconstrucción de video de alta fidelidad, compresión eficiente y generación de video de texto a video sin interrupciones, respaldado por un conjunto de datos de entrenamiento robusto y limpio.

Capacidad de Wan2.1 I2V

Innovaciones clave de Wan 2.1

1. Wan-VAE

Resumen

Un autoencoder variacional (VAE) 3D diseñado para compresión eficiente y reproducción de movimiento de alta fidelidad.
Capaz de codificar y decodificar videos en 1080P manteniendo la coherencia temporal.
Integra múltiples estrategias para optimizar la compresión espacio-temporal, reducir el uso de memoria y garantizar la causalidad temporal.

Problemas que resuelve

Compresión eficiente: Reduce los requisitos de almacenamiento y computación para datos de video.
Reconstrucción de alta fidelidad: Asegura que los videos generados sean de alta calidad y que el movimiento sea coherente.
Consistencia temporal: Evita problemas comunes como la discontinuidad de fotogramas o el parpadeo en los videos generados.

2. Video Diffusion DiT

Resumen

Construido sobre Diffusion Transformers, mejorado por el marco Flow Matching.
Compatible con entrada de texto multilingüe (a través del codificador T5) e incrustación de texto (atención cruzada).
Utiliza un MLP compartido para predecir parámetros de modulación para incrustaciones de tiempo, permitiendo que cada bloque del transformer aprenda sesgos distintos, mejorando así el rendimiento.

Problemas que resuelve

Integración profunda de texto y generación de video: Permite al modelo comprender y generar videos según descripciones textuales.
Rendimiento de generación mejorado: Mejora significativamente la calidad y expresividad de los videos generados sin aumentar el número de parámetros.
Soporte multimodal: Maneja múltiples idiomas y tipos de entrada, ampliando los escenarios de aplicación.

3. Conjunto de datos candidato

Resumen

Un conjunto de datos de imágenes y videos a gran escala, curado y deduplicado.
Emplea un proceso de limpieza de datos de cuatro pasos, centrándose en dimensiones de datos, calidad visual y calidad de movimiento.
Construye un conjunto de entrenamiento diverso y de alta calidad.

Problemas que resuelve

Ruido y redundancia de datos: Elimina efectivamente datos de baja calidad o duplicados, mejorando la efectividad de los datos de entrenamiento.
Diversidad y calidad: Proporciona al modelo muestras ricas y limpias, mejorando la generalización y las capacidades de generación.
Entrenamiento a gran escala: Soporta entrenamiento eficiente en conjuntos de datos grandes y de alta calidad.

Vbench de Wan 2.1

Wan 2.1 (Wan-14B) demuestra un rendimiento excelente en tareas principales como consistencia de identidad, plausibilidad física y suavidad. Su puntuación ponderada general se encuentra entre las más altas de la industria, lo que lo convierte en uno de los modelos de generación de video líderes disponibles hoy en día. Sin embargo, todavía hay margen de mejora en áreas como la capacidad de estilización y el control de la cámara.

Requisitos de hardware de Wan 2.1

Wan 2.1 tiene altos requisitos de hardware, especialmente para tareas de alta resolución y modelos grandes. El requisito de memoria para Wan 2.1 I2V se aproxima a 80 GB. Se recomienda usar múltiples GPU de nivel empresarial de gama alta (como A100, H100 o H20) para satisfacer las demandas de memoria y velocidad. Las GPU de consumo solo son adecuadas para modelos pequeños y escenarios de baja resolución.

Modelo	Compatible con una sola tarjeta	Recomendación multi-GPU	Nivel de recomendación
RTX 4090	No	No	solo para T2V-1.3B a 480P
H20	No compatible	4GPU u 8GPU	★★★
A800/A100	Compatible	4GPU u 8GPU	★★★★
H800/H100	Compatible	4GPU u 8GPU	★★★★★

Cómo acceder a Wan 2.1 a través de Novita AI

Novita AI es una plataforma en la nube de IA que ofrece a los desarrolladores una forma sencilla de implementar modelos de IA usando nuestra API simple, al mismo tiempo que proporciona la nube de GPU asequible y confiable para construir y escalar.

Paso 1: Inicia sesión y accede a la Biblioteca de Modelos

Inicia sesión en tu cuenta y haz clic en el botón Biblioteca de Modelos.

¡Prueba Wan 2.1 I2V ahora!

Paso 2: Elige tu modelo

Explora las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

Paso 3: Comienza tu prueba gratuita

Paso 4: Obtén tu clave de API

Para autenticarte con la API, te proporcionaremos una nueva clave de API. Al ingresar a la página, puedes copiar la clave de API como se indica en la imagen.

Paso 5: Instala la API

Instala la API usando el administrador de paquetes específico para tu lenguaje de programación.

Después de la instalación, importa las bibliotecas necesarias en tu entorno de desarrollo. Inicializa la API con tu clave de API para comenzar a interactuar con Novita AI LLM. Este es un ejemplo de uso de la API de chat completions para usuarios de Python.

import requests

url = "https://api.novita.ai/v3/async/wan-i2v"

payload = {
    "extra": {"webhook": {
            "url": "<string>",
            "test_mode": {
                "enabled": True,
                "return_task_status": "<string>"
            }
        }},
    "model_name": "<string>",
    "image_url": "<string>",
    "width": 123,
    "height": 123,
    "loras": [
        {
            "path": "<string>",
            "scale": {}
        }
    ],
    "seed": 123,
    "prompt": "<string>",
    "negative_prompt": "<string>",
    "steps": 123,
    "guidance_scale": 123,
    "flow_shift": 123,
    "enable_safety_checker": True
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

Wan 2.1 I2V (Image-to-Video) es un modelo de generación de video de vanguardia que combina tecnologías de última generación como Wan-VAE y Video Diffusion DiT. Destaca en la reconstrucción de video de alta fidelidad, compresión eficiente y generación de video de texto a video sin interrupciones, respaldado por un conjunto de datos de entrenamiento robusto y limpio.

Preguntas frecuentes

¿Cuáles son los requisitos de hardware para Wan 2.1 I2V?

Wan 2.1 I2V es un modelo avanzado para generar videos de alta calidad a partir de entrada de texto o imágenes. Su singularidad radica en su reproducción de movimiento de alta fidelidad, consistencia temporal y soporte multilingüe para generación de texto a video.

¿Qué es Wan 2.1 I2V y qué lo hace único?

Precio competitivo: $0.40 por video de 5 segundos en 720P en comparación con $2.39 en plataformas similares.
API fácil de usar con documentación detallada para desarrolladores.

¿Cómo puedo acceder a Wan 2.1 I2V?

Puedes usar Wan 2.1 I2V a través de la plataforma Novita AI. Simplemente inicia sesión, selecciona el modelo, obtén tu clave de API e integra la API en tu entorno de desarrollo.

Novita AI es la plataforma en la nube integral que impulsa tus ambiciones de IA. APIs integradas, sin servidor, instancias de GPU — las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Wan 2.1 14B Image-to-Video ya está disponible en Novita AI a $0.04/segundo

Capacidad de Wan2.1 I2V