Wan2.1: Un modelo de IA de código abierto supera a Sora

Wan2.1: Un modelo de IA de código abierto supera a Sora

Puntos clave

Disponibilidad de código abierto: Wan2.1 es un modelo de IA de código abierto que permite la generación de video de alta calidad y rentable para académicos, investigadores y empresas.

Capacidades versátiles: Soporta T2V, I2V, edición de video, T2I y genera texto multilingüe en chino e inglés para subtítulos.

Requisitos de hardware: T2V-1.3B tiene solo 1.3 mil millones de parámetros, lo que reduce significativamente los requisitos de hardware.

Arquitectura del modelo e innovaciones: Presenta Wan-VAE para codificación 3D, Video Diffusion DiT y un pipeline robusto para conjuntos de datos de entrenamiento de alta calidad.

Evaluación VBench y rendimiento: Supera a competidores como Sora con un 86.22 % en VBench, destacando en consistencia de identidad, precisión espacial y ejecución de instrucciones de acción.

Novita AI ofrece una API para Wan 2.1. Solo regístrate para una prueba gratuita y usa la API con solicitudes simples.

Wan2.1 es un modelo de IA de código abierto desarrollado por Alibaba Cloud para la generación avanzada de video. Diseñado para alto rendimiento, eficiencia y versatilidad, atiende una amplia gama de aplicaciones creativas y profesionales. Los modelos están disponibles en la comunidad de modelos de IA de Alibaba Cloud, ModelScope y Hugging Face.

Fuente: wan

Comienza una prueba gratuita en Novita AI hoy. Para integrar la API de Hunyuan Video, visita nuestra documentación para desarrolladores para más detalles.

Novita ofrece precios altamente competitivos en el mercado.

Por ejemplo, un video Wan 2.1 720P de 5 segundos cuesta solo $0.3 por video

mientras que un video similar en Replicate cuesta $2.39 por video.

Disponibilidad de código abierto

Alibaba Cloud ha puesto en código abierto su serie de modelos de IA Wan2.1 para la generación de video. Esta iniciativa tiene como objetivo reducir las barreras de acceso y permitir que las empresas creen contenido visual de alta calidad de manera rentable. Al publicar estos modelos como código abierto, académicos, investigadores y entidades comerciales pueden aprovechar el poder de la IA para sus proyectos sin costos iniciales significativos.

Capacidades versátiles de Wan2.1

Wan2.1 destaca en una variedad de tareas, lo que lo convierte en una herramienta versátil para la generación de video:

  • Texto a Video (T2V)
  • Imagen a Video (I2V)
  • Edición de Video
  • Texto a Imagen (T2I)

Notablemente, Wan2.1 es el primer modelo de video capaz de generar texto tanto en chino como en inglés, con una sólida generación de texto que mejora sus aplicaciones prácticas.

Requisitos de hardware

A continuación, un resumen detallado de los requisitos de hardware para los cuatro modelos Wan2.1. La tabla describe la funcionalidad de cada modelo, la resolución compatible, el tamaño del modelo, la demanda de hardware y las GPU recomendadas para un rendimiento óptimo.

Nombre del modelo Función Resolución compatible Tamaño del modelo Demanda de hardware GPU recomendada
T2V-14B Texto a Video (T2V) 480P / 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-720P Imagen a Video (I2V) 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-480P Imagen a Video (I2V) 480P 14B ⭐⭐⭐ RTX 3090 / RTX 4070 Ti
T2V-1.3B Texto a Video (T2V) Baja resolución 1.3B ⭐⭐ RTX 3060 / RTX 4060 o superior

Arquitectura del modelo e innovaciones clave

Wan2.1 se basa en un paradigma de transformer de difusión, mejorado por el marco Flow Matching. Sus innovaciones clave incluyen:

  • Wan-VAE: Un autoencoder variacional 3D diseñado para una compresión eficiente y alta fidelidad en la reproducción de movimiento. Codifica y decodifica videos de 1080P manteniendo la coherencia temporal. El modelo integra múltiples estrategias para optimizar la compresión espacio-temporal, reducir el uso de memoria y garantizar la causalidad temporal.

Wan-VAE

  • Video Diffusion DiT: Wan2.1 aprovecha el marco Flow Matching dentro de los Transformers de Difusión, utilizando un codificador T5 para entrada de texto multilingüe y atención cruzada para incrustar texto en el modelo. Un MLP compartido con capas SiLU y Lineales predice seis parámetros de modulación para las incrustaciones de tiempo, permitiendo que cada bloque transformer aprenda sesgos distintos. Esta arquitectura mejora significativamente el rendimiento sin aumentar la escala de parámetros.

dIT

  • Un conjunto de datos candidato: Wan 2.1 seleccionó y deduplicó un conjunto de datos candidato que comprende una gran cantidad de datos de imagen y video. Durante el proceso de selección de datos, diseñamos un proceso de limpieza de datos de cuatro pasos, centrándonos en dimensiones fundamentales, calidad visual y calidad de movimiento. A través del robusto pipeline de procesamiento de datos, podemos obtener fácilmente conjuntos de entrenamiento de imágenes y videos de alta calidad, diversos y a gran escala.

DATA

Evaluación VBench

VBench es un conjunto de benchmarks robusto y completo diseñado para evaluar modelos generativos de video. Desglosa la “calidad de generación de video” en dimensiones jerárquicas, desenredadas y específicas, cada una con indicaciones y métodos de evaluación adaptados. Las principales métricas de evaluación incluyen:

  • Generación de movimiento grande
  • Artefactos humanos
  • Estabilidad a nivel de píxeles
  • Consistencia de identidad
  • Plausibilidad física
  • Suavidad
  • Calidad integral de imagen
  • Calidad de generación de escenas
  • Capacidad de estilización
  • Precisión de un solo objeto
  • Precisión de múltiples objetos
  • Precisión de posición espacial
  • Control de cámara
  • Seguimiento de instrucciones de acción

El propósito de VBench es proporcionar información valiosa sobre las fortalezas y debilidades de modelos individuales, permitiendo una evaluación objetiva y detallada. Estos conocimientos no solo guían futuros desarrollos en generación de video, sino que también ayudan a mejorar el rendimiento del modelo. Para asegurar la alineación con la percepción humana, VBench incorpora anotaciones de preferencia humana, validando su relevancia y fiabilidad como benchmark. El rendimiento de Wan2.1 se presenta en el gráfico a continuación:

vbench

Fuente: Alizila

Además, Wan-Bench se utilizó para evaluar el modelo T2V-1.3B, que superó a contrapartes de código abierto más grandes en métricas clave. Estas evaluaciones destacan los avances del modelo en:

wanbench

Wan 2.1 vs Sora

Superioridad de rendimiento integral:

  • Wan2.1 obtiene una puntuación general más alta en VBench, con un 86.22 %, superando el 84.28 % de Sora, y demuestra un rendimiento más fuerte en múltiples subdimensiones.

Soporte para generación de subtítulos en chino e inglés:

  • Wan2.1 es el primer modelo de generación de video que soporta la generación de subtítulos tanto en chino como en inglés, lo que le proporciona una ventaja única en escenarios multilingües. Sora no ofrece esta funcionalidad.

Rendimiento en subdimensiones:

  • Consistencia de identidad: Wan2.1 destaca en mantener la consistencia de los sujetos dentro de los videos.
  • Precisión de un solo objeto: Wan2.1 genera resultados más precisos para escenarios de un solo objeto.
  • Precisión de posición espacial: Wan2.1 supera significativamente a Sora en el manejo de relaciones lógicas espaciales.
  • Ejecución de instrucciones de acción: Wan2.1 demuestra una mejor comprensión y ejecución de instrucciones de acción complejas.

Código abierto y accesibilidad:

  • Wan2.1 proporciona código abierto, lo que lo hace más accesible y fácil de usar e integrar para los desarrolladores.
  • Sora, aunque ofrece API, no es de código abierto, lo que limita su flexibilidad.

Áreas de mejora:

  • Wan2.1 es ligeramente inferior a Sora en términos de suavidad de movimiento y generación de movimiento grande, pero la diferencia es mínima.

Aplicaciones

Creación de contenido

  • Permite la generación automatizada de videos de alta calidad para redes sociales, marketing y entretenimiento.
  • Soporta la generación de videos estilizados para necesidades artísticas o de marca específicas.

Educación y e-learning

  • Genera videos educativos con imágenes personalizadas y subtítulos tanto en chino como en inglés.
  • Facilita la creación de contenido de aprendizaje atractivo y personalizado.

Cine y animación

  • Ayuda en la creación de storyboards, prototipos de video o escenas completas basadas en entradas de texto o imágenes.
  • Soporta subtítulos multilingües, lo que lo hace adecuado para audiencias globales.

Publicidad y marketing

  • Produce anuncios de video personalizados adaptados a audiencias específicas.
  • Mejora las campañas con contenido visualmente convincente y sensible al contexto.

Juegos

  • Genera escenas cinemáticas o animaciones dentro del juego basadas en descripciones textuales o imágenes de personajes.
  • Crea activos de video dinámicos para el desarrollo de juegos y narración de historias.

Comunicación multilingüe

  • Soporta la generación de subtítulos en chino e inglés, ideal para presentaciones y medios multilingües.

Prototipado y visualización

  • Ayuda a visualizar conceptos, ideas o diseños arquitectónicos a través de video.
  • Genera representaciones dinámicas de proyectos para presentaciones o propuestas.

Accesibilidad e inclusión

  • Crea videos con subtítulos, mejorando la accesibilidad para audiencias con problemas de audición.
  • El soporte multilingüe facilita la creación de contenido para diversos grupos de usuarios.

Explora la demostración de video de Wan 2.1 ahora

Wan2.1 representa un avance significativo en la generación de video impulsada por IA. Su naturaleza de código abierto, capacidades multilingües y rendimiento superior en benchmarks como VBench lo posicionan como una herramienta versátil y accesible para aplicaciones creativas y profesionales. Aunque está ligeramente por detrás de Sora en suavidad de movimiento y generación de movimiento grande, sus capacidades generales, arquitectura innovadora y amplia gama de aplicaciones lo convierten en un cambio de juego para industrias como la educación, los medios, los juegos y más.

Novita AI es la plataforma en la nube integral que impulsa tus ambiciones de IA. API integradas, sin servidor, instancias GPU: las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lectura recomendada