Novita AI presenta con orgullo la API I2V Wan 2.2, una herramienta de vanguardia para la generación de vídeo a partir de imágenes (I2V) que revoluciona la creación de contenido de vídeo. Como extensión del Wan 2.2 T2V de Alibaba, esta API aprovecha la arquitectura Mixture-of-Experts (MoE) y técnicas de compresión avanzadas para ofrecer vídeos en 720P a 24fps, optimizada para GPUs de gama de consumo. Este artículo profundiza en qué es Wan 2.2 I2V, sus características y cómo puede transformar los flujos de trabajo de creación de vídeo.
¿Qué es Wan 2.2 I2V?
Wan 2.2 I2V es un generador de vídeos avanzado impulsado por IA que convierte entradas de texto o imágenes en clips de vídeo cortos. El término «I2V» significa imagen a vídeo, lo que indica uno de sus modos de generación (también admite texto a vídeo). Wan 2.2 representa la segunda versión principal de la serie de modelos Wan, que aporta mejoras significativas respecto a la versión 2.1. Utiliza una arquitectura de difusión Mixture-of-Experts (MoE) de vanguardia para lograr salidas de vídeo en alta resolución 720p a partir de indicaciones. El modelo es de código abierto (licencia Apache 2.0) y está diseñado para ofrecer resultados de aspecto profesional en hardware de consumo estándar.
Solución TI2V compacta y versátil: Wan2.2 introduce un modelo de código abierto de 5B impulsado por su avanzado Wan2.2-VAE, logrando una impresionante relación de compresión de 16×16×4. Este modelo ligero admite de forma fluida tanto la generación de vídeo a partir de texto (T2V) como de vídeo a partir de imágenes (I2V) en resolución 720P a 24fps. Optimizado para GPUs de gama de consumo como la NVIDIA 4090, es uno de los modelos más rápidos disponibles en 720P@24fps, lo que lo convierte en una solución ideal tanto para aplicaciones industriales como para investigación académica.
Arquitectura de Wan 2.2 I2V y comprensión de imágenes
Dos tipos de MoE
El modelo de difusión Mixture-of-Experts (MoE) de Wan 2.2 utiliza tanto redes expertas de alto ruido como de bajo ruido para manejar mejor las distintas complejidades de las entradas de imagen. Por ejemplo, la red de alto ruido destaca en el procesamiento de detalles intrincados de la imagen, mientras que la red de bajo ruido se centra en la composición general de la escena. Esta división del trabajo mejora la capacidad del modelo para analizar e interpretar el contenido de la imagen de forma efectiva.
Compresión y coherencia espacio-temporal
El modelo emplea el Wan-VAE (Variational Autoencoder) para la compresión espacio-temporal, logrando una compresión de 64× (4× temporalmente, 16×16 espacialmente). Esto permite una codificación y decodificación eficiente de los fotogramas de vídeo preservando los detalles esenciales y la coherencia temporal. Esta técnica de compresión no solo mejora la eficiencia de generación, sino que también garantiza una transición fluida y natural de imágenes estáticas a vídeos dinámicos.
Mantener la coherencia temporal es crucial al generar vídeos a partir de imágenes, especialmente en aspectos como los cambios de iluminación y los movimientos de objetos. La arquitectura de compresión 3D de Wan-VAE garantiza la fluidez visual y extiende correctamente el contenido de la imagen a lo largo del tiempo, asegurando salidas de vídeo de alta calidad.
Características clave de Wan 2.2 I2V
| Característica | Descripción |
|---|---|
| 🎥 Controles estéticos cinematográficos | Ofrece control estético de nivel cinematográfico con parámetros de estilo de película profesional. Las indicaciones pueden especificar iluminación, tonos de color, ángulos de cámara y detalles de composición para influir en el aspecto del vídeo generado. |
| 🤖 Movimiento complejo y estabilidad | Destaca en la reproducción fluida de movimientos complejos a gran escala. Gestiona movimientos rápidos de cámara (panorámicas, inclinaciones, zooms) y múltiples sujetos en movimiento con una estabilidad mejorada. Gracias a los expertos MoE, genera movimientos más fluidos con menos vibraciones o problemas de continuidad. |
| 🎯 Cumplimiento semántico preciso | Demuestra una mejor comprensión de escenas complejas e interacciones entre múltiples objetos, generando salidas que se ajustan estrechamente a la intención de la indicación del usuario. Los datos de entrenamiento ampliados y las estrategias de difusión refinadas mejoran la consistencia y la fiabilidad. |
¿Qué optimizaciones de flujo de trabajo incluye Wan 2.2?

Wan 2.2 I2V frente a Wan 2.1 I2V
Wan 2.2 I2V frente a Wan 2.1 I2V: Arquitectura
| Categoría | Wan 2.1 | Wan 2.2 |
|---|---|---|
| Modelo de difusión | Arquitectura de difusión densa: un único modelo gestionaba todos los pasos de eliminación de ruido. | Difusión Mixture-of-Experts (MoE): dos submodelos especializados gestionan distintos niveles de ruido, uno procesa los pasos iniciales de alto ruido y el otro los pasos finales de bajo ruido. Esto mejora el detalle y la coherencia. |
| Tamaño y parámetros del modelo | ~14B de parámetros para tareas de texto a vídeo e imagen a vídeo. Había variantes más pequeñas (por ejemplo, 1.3B) disponibles para prototipado más rápido. | ~27B de parámetros (2 expertos de 14B), pero solo un experto está activo a la vez. Se introdujo un nuevo modelo híbrido de 5B para TI2V (condicionamiento de texto e imagen) capaz de salida en 720p, que cumple la función del modelo más pequeño de la 2.1 pero con mayor fidelidad. |
| Datos de entrenamiento y etiquetas estéticas | Conjunto de datos limitado con descriptores básicos para el control de indicaciones. | Entrenado en un conjunto de datos con un 65% más de imágenes y un 83% más de clips de vídeo. Se introdujeron etiquetas cinematográficas (por ejemplo, iluminación, color, composición) para permitir un control de estilo más fino en comparación con los descriptores básicos de la 2.1. |
| Componentes subyacentes | Utilizaba Wan-VAE para codificaciones en 1080p, centrándose en mantener la coherencia temporal. | Se mejoró la integración de Wan-VAE y la difusión MoE para lograr un mejor equilibrio entre calidad y uso de recursos. Se añadió FlashAttention para operaciones de transformador más rápidas, mejorando el rendimiento en comparación con la 2.1. |
| Características | Admitía T2V, I2V y edición con el framework VACE. El ajuste fino con LoRA era totalmente compatible. | Admite T2V, I2V y transferencia de estilo mejorada. Aún no cuenta con el framework VACE y solo tiene compatibilidad limitada con LoRA. |
Wan 2.2 I2V frente a Wan 2.1 I2V: Rendimiento

Wan 2.2 I2V frente a Wan 2.1 I2V: Generación
Wan 2.2 I2V
Wan 2.1 I2V
Coste y acceso a Wan 2.2 I2V
Costes de hardware
- Modelo I2V 5B:
- Requisito mínimo de VRAM: 24 GB.
- Modelo mínimo de GPU: NVIDIA RTX 4090.
- Cantidad mínima de GPUs: 1.
- Velocidad por GPU individual: Aproximadamente 524,8 segundos en resolución 720P.
- Precio aproximado de la GPU: La NVIDIA RTX 4090 se lanzó el 12 de octubre de 2022 con un precio inicial de 1.599 $.
- Modelo I2V A14B:
- Resolución 480P:
- Requisito mínimo de VRAM: 40 GB.
- Modelo mínimo de GPU: NVIDIA A100 40GB.
- Cantidad mínima de GPUs: 1.
- Velocidad por GPU individual: Aproximadamente 810,0 segundos.
- Precio aproximado de la GPU: La NVIDIA A100 40GB tiene un precio listado de 13.135 $.
- Resolución 720P:
- Requisito mínimo de VRAM: 80 GB.
- Modelo mínimo de GPU: NVIDIA H100 80GB.
- Cantidad mínima de GPUs: 1.
- Velocidad por GPU individual: Aproximadamente 1.055,9 segundos.
- Precio aproximado de la GPU: La información de precios de la NVIDIA H100 80GB no está disponible en las fuentes proporcionadas.
- Resolución 480P:
Costes de la API
Novita AI es una plataforma de cloud de IA que ofrece a los desarrolladores una forma sencilla de desplegar modelos de IA mediante nuestra API simple, además de proporcionar un cloud de GPUs asequible y fiable para construir y escalar.
| Modelo | Precio | Resolución | Tiempo de generación |
|---|---|---|---|
| Wan 2.1 I2V | 0,3 $/vídeo | 1280*720 | 5 s |
| Wan 2.2 I2V | 0,4 $/vídeo | 1080P | 5 s |
Guía de acceso a Wan 2.2 I2V
Paso 1: Inicia sesión y accede a la biblioteca de modelos
Inicia sesión en tu cuenta y haz clic en el botón Biblioteca de modelos.

Paso 2: Elige tu modelo
Navega por las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

Paso 3: Obtén tu clave de API
Para autenticarte con la API, te proporcionaremos una nueva clave de API. Al entrar en la página de «Configuración», podrás copiar la clave de API como se indica en la imagen.

Paso 4: Instala la API
Instala la API mediante el gestor de paquetes específico de tu lenguaje de programación.

Después de la instalación, importa las librerías necesarias en tu entorno de desarrollo. Inicializa la API con tu clave de API para empezar a interactuar con el LLM de Novita AI. Este es un ejemplo de uso de la API de finalización de chat para usuarios de Python.
import requests
url = "https://api.novita.ai/v3/async/wan-2.2-i2v"
payload = {
"input": {
"prompt": "<string>",
"negative_prompt": "<string>",
"img_url": "<string>"
},
"parameters": {
"resolution": "<string>",
"duration": 123,
"prompt_extend": True,
"seed": 123
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Wan 2.2 I2V: Problemas comunes y soluciones
| Problema | Solución |
|---|---|
| Fotogramas parpadeantes | Aumenta los pasos de difusión o la tasa de fotogramas; usa el modo I2V; estabiliza en postproducción. |
| Lento/sin memoria | Usa el modelo de 5B o una resolución menor; activa las optimizaciones de memoria; considera GPUs en la nube. |
| Desajuste de indicaciones | Simplifica las indicaciones; usa indicaciones negativas; refina iterativamente para obtener mejores resultados. |
| Salida borrosa | Usa el LoRA «DetailZ»; solicita detalles más nítidos en las indicaciones; enfoca o aumenta la escala en postproducción. |
| Objetos inconsistentes | Usa imágenes de referencia en el modo I2V; genera clips más cortos y encadénalos; mantén las indicaciones estables. |
| Sin audio | Añade audio en postproducción; usa herramientas de IA para música o voz en off y sincronízalo con las imágenes. |
Ventajas y desventajas de Wan 2.2 I2V para pequeñas empresas
Ventajas:
- Costes de producción de contenido más bajos: No es necesario grabar ni contar con un equipo de producción, lo que ahorra presupuesto. Ideal para startups con recursos limitados.
- Tiempo de entrega creativa más rápido: Los vídeos se pueden generar en minutos, lo que permite respuestas rápidas a las tendencias y prototipado ágil.
- Accesible en hardware de consumo: Funciona en PC estándar con GPUs decentes, evitando la necesidad de hardware especializado costoso.
- Flexibilidad creativa: Admite varios estilos y escenas, adaptándose a necesidades diversas simplemente ajustando las indicaciones.
- Herramienta de código abierto y en evolución: El soporte de la comunidad garantiza actualizaciones continuas, reduciendo el riesgo de obsolescencia.
Desventajas:
- Curva de aprendizaje y experiencia necesaria: Requiere conocimientos de IA o tiempo para aprender a elaborar indicaciones, lo que supone un reto para usuarios sin conocimientos técnicos.
- Costes computacionales: La generación de vídeo a gran escala genera costes continuos de GPU y energía, que deben incluirse en el presupuesto.
- Limitaciones de calidad: Las salidas se limitan a 720p y pueden requerir edición posterior para necesidades de alta calidad.
- Consistencia y marca: El contenido generado puede carecer de consistencia entre vídeos, necesitando curación adicional para alinearse con la marca.
- Consideraciones éticas y legales: Cuestiones como los derechos de autor, la transparencia y la confianza de la audiencia deben gestionarse cuidadosamente.
Tendencias futuras de la tecnología Wan 2.2 I2V
| Tendencia | Descripción |
|---|---|
| Mayor resolución | Soporte para resolución 1080p o superior y duraciones de vídeo más largas (de 10 a 15 segundos o cortometrajes completos). |
| Audio e interacción | Integración de generación de audio y edición interactiva (por ejemplo, mejoras de vídeo a vídeo). |
| Mayor control | Herramientas para guiones gráficos, control de fotogramas y personajes/marca consistentes entre escenas. |
| Más rápido y accesible | Generación de vídeo casi en tiempo real con modelos optimizados y avances de hardware (por ejemplo, GPUs, cloud). |
| Adopción más amplia | Uso en entretenimiento, educación y publicidad, con un ecosistema de plugins y estilos de la comunidad. |
| Competencia y colaboración | El Wan de código abierto aprovecha los avances de investigación, impulsando la innovación y modelos híbridos para mejorar la calidad. |
La API I2V Wan 2.2 establece un nuevo estándar para la generación de vídeos, ofreciendo controles estéticos cinematográficos, gestión precisa de movimientos y eficiencia sin igual. Tanto si eres creador, especialista en marketing o investigador, las capacidades de Wan 2.2 simplifican los flujos de trabajo, reducen costes y abren nuevas posibilidades creativas. Con su base de código abierto y su API robusta, Wan 2.2 I2V es el futuro de la creación de vídeo accesible y potente.
Preguntas frecuentes
¿Qué es Wan 2.2 I2V?
Wan 2.2 I2V es una API avanzada para generar vídeos de alta calidad a partir de imágenes, que utiliza la arquitectura MoE de Alibaba y la compresión Wan-VAE para obtener imágenes visuales fluidas y coherentes.
¿Qué resolución admite Wan 2.2?
La API admite resolución 720P a 24fps, optimizada para GPUs de consumo como la NVIDIA RTX 4090.
¿Cómo garantiza Wan 2.2 la coherencia temporal?
Wan 2.2 utiliza la compresión espacio-temporal 3D a través de Wan-VAE, garantizando transiciones fluidas e iluminación y movimiento coherentes.
Novita AI es la plataforma de cloud todo en uno que potencia tus ambiciones en IA. APIs integradas, sin servidor, instancias de GPU: las herramientas económicas que necesitas. Elimina la infraestructura, empieza gratis y haz realidad tu visión de IA.
