Wan2.1 vs Mochi 1: La guerra de los modelos de generación de video con IA de código abierto

Wan2.1 vs Mochi 1: La guerra de los modelos de generación de video con IA de código abierto

Puntos clave

Wan 2.1 destaca en tareas como texto a video (T2V), imagen a video (I2V) y edición de video, además de admitir la generación de texto visual multilingüe. Está optimizado para GPUs de consumo, y el modelo T2V-1.3B solo requiere 8.19 GB de VRAM.

Mochi 1, un modelo de IA de código abierto, sobresale en la generación de video de alta fidelidad con una impresionante calidad de movimiento y un fuerte cumplimiento de las instrucciones. Aunque puede ejecutarse en una sola GPU, requiere aproximadamente 60 GB de VRAM para un rendimiento óptimo.

Los modelos de generación de video evolucionan rápidamente, brindando a los usuarios la capacidad de crear videos de alta calidad a partir de instrucciones de texto o imágenes. Estos modelos varían en arquitectura, capacidades y requisitos de hardware, por lo que es esencial comprender sus fortalezas y limitaciones. Dos modelos destacados en este ámbito son Wan 2.1 y Mochi 1.

Comience una prueba gratuita en Novita AI hoy. Para integrar la API de Wan 2.1, visite nuestra documentación para desarrolladores para más detalles. Además, ofrecemos la versión completa de 14B.

Novita ofrece precios altamente competitivos en el mercado.

Por ejemplo, un video de Wan 2.1 720P de 5 segundos cuesta solo $0.4 por video

mientras que un video similar en Replicate cuesta $2.39 por video

Versión simple

Ahora estamos probando los dos modelos ingresando las mismas instrucciones de texto para evaluar su comprensión del texto y el resultado final de los videos.

Instrucción: Un jardín cobra vida mientras un caleidoscopio de mariposas revolotea entre las flores, sus delicadas alas proyectan sombras sobre los pétalos. Al fondo, una gran fuente casca agua con un esplendor suave, su sonido rítmico proporciona un telón de fondo relajante. Bajo la sombra fresca de un árbol maduro, una silla de madera solitaria invita a la soledad y la reflexión, su superficie lisa desgastada por el tacto de innumerables visitantes que buscan un momento de tranquilidad en el abrazo de la naturaleza.

https://videopress.com/v/5DuNY0Fj?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Wan 2.1

https://videopress.com/v/OwGkYVNz?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Mochi

Instrucción: Un golden retriever, con elegantes gafas de sol negras, su largo pelaje fluyendo al viento, corre juguetonamente por una terraza en la azotea, recién refrescada por una lluvia ligera. La escena se desarrolla desde la distancia, los saltos enérgicos del perro se agrandan a medida que se acerca a la cámara, su cola se mueve con alegría desenfrenada, mientras gotas de agua brillan en el concreto detrás de él. El cielo nublado proporciona un fondo dramático, enfatizando el brillante pelaje dorado del canino mientras corre hacia el espectador.

https://videopress.com/v/C4WeEICG?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Wan 2.1

https://videopress.com/v/bqBqR8ZN?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Mochi

Explora ahora la demo de Wan 2.1

Introducción básica

Característica Wan 2.1 Mochi 1
Código abierto Sí, de código abierto por Alibaba Cloud Sí, de código abierto bajo la licencia Apache 2.0.
Resolución Optimizado para generación de video en 480P y 720P. Genera videos en resolución 480P, con soporte para 720P planeado para futuras actualizaciones.
Capacidades Destaca en tareas de texto a video (T2V) e imagen a video (I2V). Principalmente un modelo de texto a video (T2V); la comunidad ha solicitado la implementación de I2V.
Duración del video Genera un video de 480P de 5 segundos en una RTX 4090 en aproximadamente 4 minutos. Genera videos de hasta 5.4 segundos de duración. Las pruebas reales pueden tardar menos de 1 minuto en generarlo.

Arquitectura

Wan 2.1

  • Wan 2.1 se basa en un paradigma de transformer de difusión, mejorado por el marco Flow Matching.
  • Emplea Wan-VAE, un avanzado autoencoder variacional 3D que garantiza una compresión eficiente y alta fidelidad en la reproducción del movimiento.
  • Un codificador T5 permite procesar sin problemas la entrada textual multilingüe.
  • La arquitectura integra un sistema de modulación de parámetros avanzado para optimizar la predicción e incorporación de información textual en los videos generados.
  • Los mecanismos de atención cruzada dentro de cada bloque transformer incorporan directamente la entrada textual en la estructura del modelo, mejorando la alineación y la integración del contexto.

Mochi 1

  • Mochi 1 está impulsado por un modelo de difusión de 10 mil millones de parámetros construido sobre la arquitectura Asymmetric Diffusion Transformer (AsymmDiT).
  • Cuenta con una estructura codificador-decodificador asimétrica, lo que permite una compresión altamente eficiente y de alta calidad.
  • AsymmVAE comprime videos en un factor de 128, logrando una compresión espacial de 8x8 y temporal de 6x en un espacio latente de 12 canales.
  • Se utiliza un único modelo de lenguaje T5-XXL para codificar las instrucciones, asegurando una comprensión e integración robusta del lenguaje.
  • La arquitectura está diseñada para optimizar el procesamiento de texto, permitiendo que el modelo destine más capacidad neuronal al razonamiento visual y la generación de video.

Requisitos de hardware

Wan 2.1

  • El modelo T2V-1.3B solo requiere 8.19 GB de VRAM, lo que lo hace compatible con GPUs de consumo.
  • Por ejemplo, la generación de un video de 480P de 5 segundos toma aproximadamente 4 minutos en una RTX 4090.

Mochi 1

  • Requiere ~60 GB de VRAM para funcionamiento con una sola GPU.
  • Admite tanto funcionamiento con múltiples GPUs como con una sola GPU.
  • Los informes iniciales sugerían la necesidad de 4 GPUs H100, pero las optimizaciones han reducido significativamente este requisito, como a 1 GPU.

Aplicación

Wan2.1

Adecuado para diversas empresas que utilizan IA para desarrollar contenido visual de alta calidad de manera rentable.

Aplicable en contextos creativos y profesionales debido a su capacidad para producir contenido textual directamente dentro de los videos.

Mochi 1

Diseñado para ayudar a los creadores a convertir rápidamente contenido escrito en video, sin necesidad de habilidades o equipos de edición extensos.

Aplicaciones versátiles en investigación, desarrollo de productos y expresión creativa.

Conclusión

Elige Wan 2.1 si necesitas un modelo versátil que admita múltiples tareas (texto a video, imagen a video, edición de video), capacidades multilingües y un rendimiento eficiente en GPUs de consumo. Es especialmente adecuado para aplicaciones que requieren alto rendimiento en movimiento dinámico, relaciones espaciales, precisión de color e interacciones con múltiples objetos.

Opta por Mochi 1 si tu enfoque está en el movimiento de alta fidelidad y el fuerte cumplimiento de instrucciones en la generación de video. Si bien tiene mayores requisitos de VRAM, su naturaleza de código abierto y su compatibilidad con herramientas como ComfyUI lo convierten en una excelente opción para la experimentación creativa y la investigación.

Novita AI es la plataforma integral en la nube que impulsa tus ambiciones de IA. APIs integradas, sin servidor, instancias de GPU: las herramientas rentables que necesitas. Elimina la infraestructura, comienza gratis y haz realidad tu visión de IA.

Lectura recomendada