Wan 2.2 T2V en Novita AI: Novedades y por qué es importante

Wan 2.2 T2V en Novita AI: Novedades y por qué es importante

Novita AI ha lanzado oficialmente la última API de Wan 2.2, una herramienta de vanguardia para la generación de texto a video. Este artículo te presentará qué es Wan 2.2, destacará sus nuevas funciones y actualizaciones, y analizará su rendimiento. Además, responderemos a preguntas frecuentes para ayudarte a empezar con esta potente tecnología.

¿Qué es Wan 2.2 T2V?

Wan 2.2 T2V es el último modelo de IA generativa de texto a video de código abierto de Alibaba, que supone una actualización importante respecto al sistema anterior Wan 2.1. Forma parte de la serie de modelos de generación de video “Wan” de Alibaba (conocida a menudo como Tongyi Wanxiang en chino) y es notable por ser el primer modelo de video de código abierto de la industria que utiliza una arquitectura Mezcla de Expertos (MoE). Wan 2.2 en realidad engloba un conjunto de modelos, que incluye un modelo dedicado de texto a video y herramientas relacionadas, pero “Wan 2.2 T2V” se refiere específicamente al componente de texto a video de esta serie.

Especificaciones de Wan 2.2 T2V

Categoría Descripción
Arquitectura del modelo Utiliza una arquitectura Mezcla de Expertos (MoE) con dos submodelos expertos.
Recuento de parámetros El modelo total tiene 27 mil millones de parámetros, pero solo 14 mil millones están activos durante la inferencia.
Ventajas de diseño Al utilizar “expertos” especializados (cada uno de alrededor de 14B parámetros), el modelo duplica su tamaño manteniendo costos de ejecución similares a los de su predecesor, Wan 2.1 (14B parámetros).
Variantes de modelo lanzadas 1. T2V-A14B: Un modelo de texto a video para generar videos a partir de texto.
2.TI2V-5B: Un modelo híbrido para ambas tareas, optimizado para hardware de gama de consumo (5B parámetros).
Optimización de hardware TI2V-5B está optimizado para GPUs de gama de consumo, como por ejemplo ejecutarse en una única NVIDIA RTX 4090.
Resolución y velocidad de fotogramas El modelo estándar Wan 2.2 T2V puede generar videos de 5 segundos de duración a resolución 720p (1280×720) con 24 fotogramas por segundo.

Características clave de Wan 2.2 T2V

Calidad y control cinematográfico

  • Entrenado con un meticulosamente curado conjunto de datos con etiquetas estéticas para generar videos con apariencia y sensación cinematográficas.
  • Admite control de texto detallado, permitiendo a los usuarios especificar:
    • Condiciones de iluminación
    • Hora del día
    • Tono de color
    • Ángulos de cámara
    • Longitud focal
    • Otros aspectos cinematográficos.
  • Entiende términos cinematográficos como “iluminación de hora dorada” y “objetivo gran angular”, garantizando un control preciso sobre el resultado del video.

Suite generativa multimodal

  • Incluye una funcionalidad de transferencia de estilo:
    • Permite la aplicación de estilos artísticos con un solo clic, como convertir fotos o videos en formatos de dibujos animados o bocetos (veo-video.org).
  • Proporciona una familia de modelos unificada que admite diversas tareas generativas, convirtiéndola en una plataforma de IA creativa integral.

Código abierto y ecosistema comunitario

Licenciado bajo Apache 2.0, lo que permite el uso comercial (hackernoon.com). Respaldado por una comunidad activa que contribuye con:

  • Guías
  • Herramientas de integración (por ejemplo, para ComfyUI)
  • Optimizaciones de ajuste fino
  • Soporte general.

¿Qué optimizaciones de proceso de trabajo incluye Wan 2.2?

¿Qué optimizaciones de proceso de trabajo incluye Wan 2.2?

Wan 2.2 T2V vs Wan 2.1 T2V

Wan 2.2 T2V vs Wan 2.1 T2V: Arquitectura

Aspecto Wan 2.1 Wan 2.2
Arquitectura Transformador de difusión de una sola etapa (UNet). Mezcla de Expertos (MoE) de dos etapas con expertos de alto y bajo ruido.
Parámetros 14B (base) y 1.3B (pequeño). 27B en total (14B activos); 14B T2V, 14B I2V y modelo híbrido de 5B.
Datos de entrenamiento Conjunto de datos grande, menos curado. +65% de imágenes, +83% de videos, anotados para atributos estéticos y cinematográficos.
Calidad de salida Buena pero propensa a parpadeos; adecuada para videos más simples y estilizados. Mayor detalle, mejor consistencia temporal, realismo y visuals cinematográficos.
Funciones T2V, I2V, edición (framework VACE), ajuste fino LoRA compatible. T2V, I2V, mejor transferencia de estilo; aún no VACE, compatibilidad LoRA limitada.

Wan 2.2 T2V vs Wan 2.1 T2V: Rendimiento

Wan 2.2 T2V vs Wan 2.1 T2V

De Artificial Analysis

Wan 2.2 T2V vs Wan 2.1 T2V: Generación

Wan 2.2 T2V

Wan 2.1 T2V

Coste y acceso a Wan 2.2 T2V

Costes de hardware

Modelo Requisito mínimo de VRAM (GB) Modelo mínimo de GPU Cantidad mínima de GPUs Velocidad por GPU individual (s) (480P) Velocidad por GPU individual (s) (720P) Precio aproximado de GPU (USD)
T2V-5B 22.6 NVIDIA RTX 4090 1 534.7 524.8 $1,599
T2V-A14B 41.3 NVIDIA A100 1 1133.9 4048.7 $10,000 - $15,000

Notas:

  • NVIDIA RTX 4090: Lanzada en octubre de 2022 con un precio de venta recomendado de $1,599.
  • NVIDIA A100: Los precios varían según la configuración y factores de mercado. El modelo PCIe de 40GB suele oscilar entre $10,000 y $12,000, mientras que el modelo PCIe de 80GB oscila entre $12,000 y $15,000.

Costes de API

Novita AI es una plataforma de IA en la nube que ofrece a los desarrolladores una forma sencilla de desplegar modelos de IA mediante nuestra API sencilla, además de proporcionar una GPU en la nube asequible y fiable para construir y escalar.

Modelo Precio Resolución Tiempo de generación
Wan 2.1 T2V $0.3/video 1280*720 5s
Wan 2.2 T2V $0.4/video 1080P 5s

¡Prueba Wan 2.2 ahora!

Guía de acceso a Wan 2.2 T2V

Paso 1: Inicia sesión y accede a la biblioteca de modelos

Inicia sesión en tu cuenta y haz clic en el botón Biblioteca de modelos.

Inicia sesión y accede a la biblioteca de modelos

Paso 2: Elige tu modelo

Explora las opciones disponibles y selecciona el modelo que se adapte a tus necesidades.

Paso 2: Elige tu modelo

Paso 3: Obtén tu clave de API

Para autenticarte con la API, te proporcionaremos una nueva clave de API. Entrando en la página “Configuración”, puedes copiar la clave de API como se indica en la imagen.

obtener clave de api

Paso 4: Instala la API

Instala la API utilizando el gestor de paquetes específico de tu lenguaje de programación.

Paso 4: Instala la API

¡Prueba Wan 2.2 ahora!

Después de la instalación, importa las librerías necesarias en tu entorno de desarrollo. Inicializa la API con tu clave de API para empezar a interactuar con Novita AI LLM. Este es un ejemplo de uso de la API de finalizaciones de chat para usuarios de Python.

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "size": "<string>",
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Problemas y soluciones comunes de Wan 2.2 T2V

Instalación y compatibilidad con GPU

  • Problema: Errores en GPUs antiguas (por ejemplo, serie GTX 10) debido a FlashAttention.
  • Solución: Usa GPUs compatibles como las series RTX 30/40 o serie A. Alternativamente, desactiva FlashAttention (--disable_flashattn) o reemplázalo por xFormers para un rendimiento más lento pero funcional.

Velocidad de generación lenta

  • Problema: Salida extremadamente lenta, especialmente en GPUs modestas.
  • Solución:
    • Optimiza el recuento de pasos (entre 30 y 50 pasos suelen ser suficientes).
    • Usa el modelo TI2V-5B más pequeño para obtener resultados más rápidos.
    • Asegúrate de que la configuración de cambio de expertos es la correcta (se recomiendan las configuraciones predeterminadas).

Problemas de calidad de salida (parpadeos/artefactos)

  • Problema: Fotogramas parpadeantes o artefactos en los videos generados.
  • Solución:
    • Ajusta la escala CFG para obtener un mejor equilibrio entre precisión y suavidad.
    • Modifica el paso de transferencia de expertos para una difusión óptima.
    • Activa la atención temporal para mantener la consistencia de los fotogramas.
    • Usa herramientas de posprocesamiento como la interpolación de fotogramas si es necesario.

Prompt o salida no esperados

  • Problema: Los resultados difieren de las escenas descritas o incluyen elementos no deseados.
  • Solución:
    • Reformula y simplifica los prompts.
    • Usa prompts negativos para excluir elementos específicos.
    • Asegúrate de que los pesos del modelo son correctos (por ejemplo, no uses I2V para prompts solo de texto).

Problemas de LoRA y ajuste fino

  • Problema: Los modelos LoRA antiguos de Wan 2.1 son incompatibles con Wan 2.2.
  • Solución: Espera a LoRAs o ajustes finos específicos de Wan 2.2. Asegúrate de que cualquier ajuste fino esté adaptado a la nueva arquitectura de dos expertos.

Ventajas y desventajas de Wan 2.2 T2V para pequeñas empresas

Aspecto Ventajas Desventajas
Licencia y coste Gratis bajo Apache 2.0, sin tasas de licencia, reduce drásticamente los costes de entrada. Altos costes computacionales para uso a gran escala (nube o electricidad).
Calidad del contenido Videos de calidad cinematográfica; creación interna sin necesidad de contratar diseñadores o videógrafos. Calidad de salida impredecible; puede requerir revisión y edición manual.
Flexibilidad creativa Prototipado rápido con prompts de texto; tiempo de entrega rápido para videos conceptuales. Más lento para generación en tiempo real o bajo demanda; mejor para contenido planificado previamente.
Personalización Adaptado a la estética de la marca mediante prompts o ajuste fino; flexibilidad de código abierto para integraciones más profundas. Requiere experiencia para crear prompts o ajustar finamente los modelos de forma efectiva.
Escalabilidad Genera cientos de videos fácilmente; ideal para anuncios localizados o pruebas A/B. Hardware caro (por ejemplo, RTX 4090 o A100) necesario para uso de alta capacidad.
Soporte comunitario Respaldado por la comunidad de código abierto; acceso a tutoriales, actualizaciones y herramientas como flujos de trabajo de ComfyUI. No hay soporte formal ni garantías; dependencia de la buena voluntad de la comunidad para solucionar problemas.
Facilidad de uso Simplifica la creación de video para equipos pequeños; actúa como un “mini estudio creativo”. Requiere conocimientos de ML para la configuración (Python, CUDA, parámetros de modelo); curva de aprendizaje pronunciada.
Ética y legal Permite la innovación en marketing impulsado por IA. Riesgos de generar contenido no deseado o inapropiado; posibles responsabilidades legales.

Ideal para: Pequeñas empresas con conocimientos técnicos o acceso a consultores, que buscan reducir los costes de creación de contenido y escalar la producción de video. Desafíos: Requiere una planificación cuidadosa, configuración técnica y supervisión de hardware y costes.

Tendencias futuras en la tecnología Wan 2.2 T2V

Tendencias futuras en la tecnología Wan 2.2 T2V

  1. Mayor resolución y duración
    • Avance hacia 1080p, 4K y clips más largos (10 a 20 segundos).
    • Mejor coherencia para videos extendidos mediante generación jerárquica.
  2. Movimiento y consistencia mejorados
    • Mayor estabilidad del movimiento e interacciones más naturales.
    • Expertos especializados para diferentes tipos de movimiento (por ejemplo, lento frente a rápido).
  3. Edición de video y multimodalidad
    • Comandos de texto para editar videos existentes (por ejemplo, cambios de escena o eliminación de objetos).
    • Integración de generación de audio para proyectos de video completos.
  4. Eficiencia y escalabilidad
    • Modelos más pequeños y rápidos (por ejemplo, modelos de 5B destilados con calidad cercana a la de 27B).
    • La generación de video en tiempo real se vuelve factible con los avances de hardware.
  5. Crecimiento de la comunidad y el ecosistema
    • Ajustes finos de nicho (por ejemplo, estilo de dibujos animados, videos médicos).
    • Mayor adopción mediante plugins y aplicaciones móviles.
  6. Ética y regulación
    • Marcas de agua y metadatos para contenido generado por IA.
    • Estándares que garantizan la transparencia en casos de uso como la publicidad.

El lanzamiento de la API de Wan 2.2 supone un avance significativo en la tecnología de texto a video. Con resoluciones más altas, consistencia de movimiento mejorada y mayor eficiencia, Wan 2.2 abre nuevas posibilidades para desarrolladores y creadores. Su interfaz API flexible te permite dar vida a tus ideas, estableciendo un nuevo estándar para la generación de video.

Preguntas frecuentes

¿Qué es Wan 2.2? Wan 2.2 es un modelo de texto a video de código abierto capaz de generar videos de alta calidad y con consistencia de movimiento, adecuados para aplicaciones como publicidad, cinematografía y más.

¿Qué novedades incluye Wan 2.2 respecto a versiones anteriores?

  • Soporte para resoluciones más altas (hasta 1080p).
  • Mejor consistencia temporal, reduciendo el parpadeo.
  • Introducción de la arquitectura Mezcla de Expertos (MoE) para un mejor manejo de escenas complejas.

¿Cómo es el rendimiento de Wan 2.2? Wan 2.2 destaca en velocidad, optimización de memoria y calidad de salida. Cuando se combina con GPUs de gama alta, puede generar video de alta resolución rápidamente.

Novita AI es la plataforma en la nube todo en uno que impulsa tus ambiciones de IA. APIs integradas, sin servidor, instancias de GPU: las herramientas económicas que necesitas. Elimina la infraestructura, empieza gratis y haz realidad tu visión de IA.

Lecturas recomendadas