Maximiza la productividad con la API I2V Wan 2.2 de Novita AI

Tabla de contenido

¿Qué es Wan 2.2 I2V?
Wan 2.2 I2V frente a Wan 2.1 I2V
Coste y acceso a Wan 2.2 I2V
Guía de acceso a Wan 2.2 I2V
Ventajas y desventajas de Wan 2.2 I2V para pequeñas empresas
Tendencias futuras de la tecnología Wan 2.2 I2V

Novita AI presenta con orgullo la API I2V Wan 2.2, una herramienta de vanguardia para la generación de vídeo a partir de imágenes (I2V) que revoluciona la creación de contenido de vídeo. Como extensión del Wan 2.2 T2V de Alibaba, esta API aprovecha la arquitectura Mixture-of-Experts (MoE) y técnicas de compresión avanzadas para ofrecer vídeos en 720P a 24fps, optimizada para GPUs de gama de consumo. Este artículo profundiza en qué es Wan 2.2 I2V, sus características y cómo puede transformar los flujos de trabajo de creación de vídeo.

¿Qué es Wan 2.2 I2V?

Wan 2.2 I2V es un generador de vídeos avanzado impulsado por IA que convierte entradas de texto o imágenes en clips de vídeo cortos. El término «I2V» significa imagen a vídeo, lo que indica uno de sus modos de generación (también admite texto a vídeo). Wan 2.2 representa la segunda versión principal de la serie de modelos Wan, que aporta mejoras significativas respecto a la versión 2.1. Utiliza una arquitectura de difusión Mixture-of-Experts (MoE) de vanguardia para lograr salidas de vídeo en alta resolución 720p a partir de indicaciones. El modelo es de código abierto (licencia Apache 2.0) y está diseñado para ofrecer resultados de aspecto profesional en hardware de consumo estándar.

Solución TI2V compacta y versátil: Wan2.2 introduce un modelo de código abierto de 5B impulsado por su avanzado Wan2.2-VAE, logrando una impresionante relación de compresión de 16×16×4. Este modelo ligero admite de forma fluida tanto la generación de vídeo a partir de texto (T2V) como de vídeo a partir de imágenes (I2V) en resolución 720P a 24fps. Optimizado para GPUs de gama de consumo como la NVIDIA 4090, es uno de los modelos más rápidos disponibles en 720P@24fps, lo que lo convierte en una solución ideal tanto para aplicaciones industriales como para investigación académica.

Arquitectura de Wan 2.2 I2V y comprensión de imágenes

Dos tipos de MoE

El modelo de difusión Mixture-of-Experts (MoE) de Wan 2.2 utiliza tanto redes expertas de alto ruido como de bajo ruido para manejar mejor las distintas complejidades de las entradas de imagen. Por ejemplo, la red de alto ruido destaca en el procesamiento de detalles intrincados de la imagen, mientras que la red de bajo ruido se centra en la composición general de la escena. Esta división del trabajo mejora la capacidad del modelo para analizar e interpretar el contenido de la imagen de forma efectiva.

Compresión y coherencia espacio-temporal

El modelo emplea el Wan-VAE (Variational Autoencoder) para la compresión espacio-temporal, logrando una compresión de 64× (4× temporalmente, 16×16 espacialmente). Esto permite una codificación y decodificación eficiente de los fotogramas de vídeo preservando los detalles esenciales y la coherencia temporal. Esta técnica de compresión no solo mejora la eficiencia de generación, sino que también garantiza una transición fluida y natural de imágenes estáticas a vídeos dinámicos.

Mantener la coherencia temporal es crucial al generar vídeos a partir de imágenes, especialmente en aspectos como los cambios de iluminación y los movimientos de objetos. La arquitectura de compresión 3D de Wan-VAE garantiza la fluidez visual y extiende correctamente el contenido de la imagen a lo largo del tiempo, asegurando salidas de vídeo de alta calidad.

Características clave de Wan 2.2 I2V

Característica	Descripción
🎥 Controles estéticos cinematográficos	Ofrece control estético de nivel cinematográfico con parámetros de estilo de película profesional. Las indicaciones pueden especificar iluminación, tonos de color, ángulos de cámara y detalles de composición para influir en el aspecto del vídeo generado.
🤖 Movimiento complejo y estabilidad	Destaca en la reproducción fluida de movimientos complejos a gran escala. Gestiona movimientos rápidos de cámara (panorámicas, inclinaciones, zooms) y múltiples sujetos en movimiento con una estabilidad mejorada. Gracias a los expertos MoE, genera movimientos más fluidos con menos vibraciones o problemas de continuidad.
🎯 Cumplimiento semántico preciso	Demuestra una mejor comprensión de escenas complejas e interacciones entre múltiples objetos, generando salidas que se ajustan estrechamente a la intención de la indicación del usuario. Los datos de entrenamiento ampliados y las estrategias de difusión refinadas mejoran la consistencia y la fiabilidad.

¿Qué optimizaciones de flujo de trabajo incluye Wan 2.2?

Wan 2.2 I2V frente a Wan 2.1 I2V

Wan 2.2 I2V frente a Wan 2.1 I2V: Arquitectura

Categoría	Wan 2.1	Wan 2.2
Modelo de difusión	Arquitectura de difusión densa: un único modelo gestionaba todos los pasos de eliminación de ruido.	Difusión Mixture-of-Experts (MoE): dos submodelos especializados gestionan distintos niveles de ruido, uno procesa los pasos iniciales de alto ruido y el otro los pasos finales de bajo ruido. Esto mejora el detalle y la coherencia.
Tamaño y parámetros del modelo	~14B de parámetros para tareas de texto a vídeo e imagen a vídeo. Había variantes más pequeñas (por ejemplo, 1.3B) disponibles para prototipado más rápido.	~27B de parámetros (2 expertos de 14B), pero solo un experto está activo a la vez. Se introdujo un nuevo modelo híbrido de 5B para TI2V (condicionamiento de texto e imagen) capaz de salida en 720p, que cumple la función del modelo más pequeño de la 2.1 pero con mayor fidelidad.
Datos de entrenamiento y etiquetas estéticas	Conjunto de datos limitado con descriptores básicos para el control de indicaciones.	Entrenado en un conjunto de datos con un 65% más de imágenes y un 83% más de clips de vídeo. Se introdujeron etiquetas cinematográficas (por ejemplo, iluminación, color, composición) para permitir un control de estilo más fino en comparación con los descriptores básicos de la 2.1.
Componentes subyacentes	Utilizaba Wan-VAE para codificaciones en 1080p, centrándose en mantener la coherencia temporal.	Se mejoró la integración de Wan-VAE y la difusión MoE para lograr un mejor equilibrio entre calidad y uso de recursos. Se añadió FlashAttention para operaciones de transformador más rápidas, mejorando el rendimiento en comparación con la 2.1.
Características	Admitía T2V, I2V y edición con el framework VACE. El ajuste fino con LoRA era totalmente compatible.	Admite T2V, I2V y transferencia de estilo mejorada. Aún no cuenta con el framework VACE y solo tiene compatibilidad limitada con LoRA.

Wan 2.2 I2V frente a Wan 2.1 I2V: Rendimiento

De Artificial Analysis

Wan 2.2 I2V frente a Wan 2.1 I2V: Generación

Wan 2.2 I2V

Wan 2.1 I2V

Coste y acceso a Wan 2.2 I2V

Costes de hardware

Modelo I2V 5B:
- Requisito mínimo de VRAM: 24 GB.
- Modelo mínimo de GPU: NVIDIA RTX 4090.
- Cantidad mínima de GPUs: 1.
- Velocidad por GPU individual: Aproximadamente 524,8 segundos en resolución 720P.
- Precio aproximado de la GPU: La NVIDIA RTX 4090 se lanzó el 12 de octubre de 2022 con un precio inicial de 1.599 $.
Modelo I2V A14B:
- Resolución 480P:
  - Requisito mínimo de VRAM: 40 GB.
  - Modelo mínimo de GPU: NVIDIA A100 40GB.
  - Cantidad mínima de GPUs: 1.
  - Velocidad por GPU individual: Aproximadamente 810,0 segundos.
  - Precio aproximado de la GPU: La NVIDIA A100 40GB tiene un precio listado de 13.135 $.
- Resolución 720P:
  - Requisito mínimo de VRAM: 80 GB.
  - Modelo mínimo de GPU: NVIDIA H100 80GB.
  - Cantidad mínima de GPUs: 1.
  - Velocidad por GPU individual: Aproximadamente 1.055,9 segundos.
  - Precio aproximado de la GPU: La información de precios de la NVIDIA H100 80GB no está disponible en las fuentes proporcionadas.

Costes de la API

Novita AI es una plataforma de cloud de IA que ofrece a los desarrolladores una forma sencilla de desplegar modelos de IA mediante nuestra API simple, además de proporcionar un cloud de GPUs asequible y fiable para construir y escalar.

Modelo	Precio	Resolución	Tiempo de generación
Wan 2.1 I2V	0,3 $/vídeo	1280*720	5 s
Wan 2.2 I2V	0,4 $/vídeo	1080P	5 s

¡Prueba Wan 2.2 ahora!

Guía de acceso a Wan 2.2 I2V

Paso 1: Inicia sesión y accede a la biblioteca de modelos

Inicia sesión en tu cuenta y haz clic en el botón Biblioteca de modelos.

Paso 2: Elige tu modelo

Navega por las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

Paso 3: Obtén tu clave de API

Para autenticarte con la API, te proporcionaremos una nueva clave de API. Al entrar en la página de «Configuración», podrás copiar la clave de API como se indica en la imagen.

Paso 4: Instala la API

Instala la API mediante el gestor de paquetes específico de tu lenguaje de programación.

¡Prueba Wan 2.2 ahora!

Después de la instalación, importa las librerías necesarias en tu entorno de desarrollo. Inicializa la API con tu clave de API para empezar a interactuar con el LLM de Novita AI. Este es un ejemplo de uso de la API de finalización de chat para usuarios de Python.

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-i2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>",
        "img_url": "<string>"
    },
    "parameters": {
        "resolution": "<string>",
        "duration": 123,
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Wan 2.2 I2V: Problemas comunes y soluciones

Problema	Solución
Fotogramas parpadeantes	Aumenta los pasos de difusión o la tasa de fotogramas; usa el modo I2V; estabiliza en postproducción.
Lento/sin memoria	Usa el modelo de 5B o una resolución menor; activa las optimizaciones de memoria; considera GPUs en la nube.
Desajuste de indicaciones	Simplifica las indicaciones; usa indicaciones negativas; refina iterativamente para obtener mejores resultados.
Salida borrosa	Usa el LoRA «DetailZ»; solicita detalles más nítidos en las indicaciones; enfoca o aumenta la escala en postproducción.
Objetos inconsistentes	Usa imágenes de referencia en el modo I2V; genera clips más cortos y encadénalos; mantén las indicaciones estables.
Sin audio	Añade audio en postproducción; usa herramientas de IA para música o voz en off y sincronízalo con las imágenes.

Ventajas y desventajas de Wan 2.2 I2V para pequeñas empresas

Ventajas:

Costes de producción de contenido más bajos: No es necesario grabar ni contar con un equipo de producción, lo que ahorra presupuesto. Ideal para startups con recursos limitados.
Tiempo de entrega creativa más rápido: Los vídeos se pueden generar en minutos, lo que permite respuestas rápidas a las tendencias y prototipado ágil.
Accesible en hardware de consumo: Funciona en PC estándar con GPUs decentes, evitando la necesidad de hardware especializado costoso.
Flexibilidad creativa: Admite varios estilos y escenas, adaptándose a necesidades diversas simplemente ajustando las indicaciones.
Herramienta de código abierto y en evolución: El soporte de la comunidad garantiza actualizaciones continuas, reduciendo el riesgo de obsolescencia.

Desventajas:

Curva de aprendizaje y experiencia necesaria: Requiere conocimientos de IA o tiempo para aprender a elaborar indicaciones, lo que supone un reto para usuarios sin conocimientos técnicos.
Costes computacionales: La generación de vídeo a gran escala genera costes continuos de GPU y energía, que deben incluirse en el presupuesto.
Limitaciones de calidad: Las salidas se limitan a 720p y pueden requerir edición posterior para necesidades de alta calidad.
Consistencia y marca: El contenido generado puede carecer de consistencia entre vídeos, necesitando curación adicional para alinearse con la marca.
Consideraciones éticas y legales: Cuestiones como los derechos de autor, la transparencia y la confianza de la audiencia deben gestionarse cuidadosamente.

Tendencias futuras de la tecnología Wan 2.2 I2V

Tendencia	Descripción
Mayor resolución	Soporte para resolución 1080p o superior y duraciones de vídeo más largas (de 10 a 15 segundos o cortometrajes completos).
Audio e interacción	Integración de generación de audio y edición interactiva (por ejemplo, mejoras de vídeo a vídeo).
Mayor control	Herramientas para guiones gráficos, control de fotogramas y personajes/marca consistentes entre escenas.
Más rápido y accesible	Generación de vídeo casi en tiempo real con modelos optimizados y avances de hardware (por ejemplo, GPUs, cloud).
Adopción más amplia	Uso en entretenimiento, educación y publicidad, con un ecosistema de plugins y estilos de la comunidad.
Competencia y colaboración	El Wan de código abierto aprovecha los avances de investigación, impulsando la innovación y modelos híbridos para mejorar la calidad.

La API I2V Wan 2.2 establece un nuevo estándar para la generación de vídeos, ofreciendo controles estéticos cinematográficos, gestión precisa de movimientos y eficiencia sin igual. Tanto si eres creador, especialista en marketing o investigador, las capacidades de Wan 2.2 simplifican los flujos de trabajo, reducen costes y abren nuevas posibilidades creativas. Con su base de código abierto y su API robusta, Wan 2.2 I2V es el futuro de la creación de vídeo accesible y potente.

Preguntas frecuentes

¿Qué es Wan 2.2 I2V?

Wan 2.2 I2V es una API avanzada para generar vídeos de alta calidad a partir de imágenes, que utiliza la arquitectura MoE de Alibaba y la compresión Wan-VAE para obtener imágenes visuales fluidas y coherentes.

¿Qué resolución admite Wan 2.2?

La API admite resolución 720P a 24fps, optimizada para GPUs de consumo como la NVIDIA RTX 4090.

¿Cómo garantiza Wan 2.2 la coherencia temporal?

Wan 2.2 utiliza la compresión espacio-temporal 3D a través de Wan-VAE, garantizando transiciones fluidas e iluminación y movimiento coherentes.

Novita AI es la plataforma de cloud todo en uno que potencia tus ambiciones en IA. APIs integradas, sin servidor, instancias de GPU: las herramientas económicas que necesitas. Elimina la infraestructura, empieza gratis y haz realidad tu visión de IA.

Maximiza la productividad con la API I2V Wan 2.2 de Novita AI

¿Qué es Wan 2.2 I2V?