Wan2.1 vs Mochi 1 : la guerre des modèles open-source de génération vidéo par IA

Wan2.1 vs Mochi 1 : la guerre des modèles open-source de génération vidéo par IA

Points clés

Wan 2.1 se distingue dans des tâches telles que le texte vers vidéo (T2V), l’image vers vidéo (I2V) et l’édition vidéo, tout en prenant en charge la génération de texte visuel multilingue. Il est optimisé pour les GPU grand public, le modèle T2V-1.3B nécessitant seulement 8,19 Go de VRAM.

Mochi 1, un modèle d’IA open-source, excelle dans la génération vidéo haute fidélité avec une qualité de mouvement impressionnante et un fort respect des invites. Bien qu’il puisse fonctionner sur un seul GPU, il exige environ 60 Go de VRAM pour des performances optimales.

Les modèles de génération vidéo évoluent rapidement, offrant aux utilisateurs la possibilité de créer des vidéos de haute qualité à partir d’invites textuelles ou d’images. Ces modèles diffèrent par leur architecture, leurs capacités et leurs besoins matériels, d’où l’importance de comprendre leurs forces et leurs limites. Deux modèles marquants dans ce domaine sont Wan 2.1 et Mochi 1.

Essayez gratuitement Novita AI dès aujourd’hui. Pour intégrer l’API Wan 2.1, consultez notre documentation développeur pour plus de détails. De plus, nous proposons la version 14B complète.

Novita propose des prix très compétitifs sur le marché.

Par exemple, une vidéo Wan 2.1 720P de 5 secondes coûte seulement 0,40 $ par vidéo

tandis qu’une vidéo similaire sur Replicate coûte 2,39 $ par vidéo

Version simplifiée

Nous testons maintenant les deux modèles en saisissant les mêmes invites textuelles pour évaluer leur compréhension du texte et le résultat final des vidéos.

Invite : Un jardin s’anime alors qu’un kaléidoscope de papillons voltige parmi les fleurs, leurs ailes délicates projetant des ombres sur les pétales en dessous. En arrière-plan, une grande fontaine cascade avec une douce splendeur, son bruit rythmique offrant un fond sonore apaisant. Sous l’ombre fraîche d’un arbre mature, une chaise en bois solitaire invite au calme et à la réflexion, sa surface lisse usée par le contact d’innombrables visiteurs en quête d’un moment de tranquillité dans l’étreinte de la nature.

https://videopress.com/v/5DuNY0Fj?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Wan 2.1

https://videopress.com/v/OwGkYVNz?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Mochi

Invite : Un golden retriever, portant des lunettes de soleil noires élégantes, son long pelage flottant au vent, court joyeusement sur une terrasse sur le toit, récemment rafraîchie par une légère pluie. La scène se déroule depuis une distance, les bonds énergiques du chien devenant plus grands à mesure qu’il s’approche de la caméra, sa queue remuant avec une joie débordante, tandis que des gouttelettes d’eau brillent sur le béton derrière lui. Le ciel couvert offre un fond dramatique, mettant en valeur le pelage doré du canidé alors qu’il se précipite vers le spectateur.

https://videopress.com/v/C4WeEICG?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Wan 2.1

https://videopress.com/v/bqBqR8ZN?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Mochi

Découvrez la démo de Wan 2.1 maintenant

Introduction de base

Caractéristique Wan 2.1 Mochi 1
Open Source Oui, open-sourcé par Alibaba Cloud Oui, open-source sous licence Apache 2.0.
Résolution Optimisé pour la génération vidéo en 480P et 720P. Génère des vidéos en résolution 480P, avec un support 720P prévu pour de futures mises à jour.
Capacités Excelle dans les tâches Texte vers Vidéo (T2V) et Image vers Vidéo (I2V). Principalement un modèle Texte vers Vidéo (T2V) ; l’implémentation I2V a été demandée par la communauté.
Durée vidéo Génère une vidéo 480P de 5 secondes sur un RTX 4090 en environ 4 minutes. Génère des vidéos d’une durée maximale de 5,4 secondes. Les tests réels peuvent prendre moins d’une minute pour générer.

Architecture

Wan 2.1

  • Wan 2.1 repose sur un paradigme de transformateur de diffusion, renforcé par le cadre Flow Matching.
  • Il utilise Wan-VAE, un autoencodeur variationnel 3D de pointe qui assure une compression efficace et une haute fidélité dans la reproduction du mouvement.
  • Un encodeur T5 permet de traiter de manière transparente les entrées textuelles multilingues.
  • L’architecture intègre un système de modulation de paramètres avancé pour optimiser la prédiction et l’incorporation des informations textuelles dans les vidéos générées.
  • Des mécanismes d’attention croisée dans chaque bloc de transformateur intègrent directement l’entrée textuelle dans la structure du modèle, améliorant l’alignement et l’intégration du contexte.

Mochi 1

  • Mochi 1 est alimenté par un modèle de diffusion de 10 milliards de paramètres construit sur l’architecture Asymmetric Diffusion Transformer (AsymmDiT).
  • Il dispose d’une structure encodeur-décodeur asymétrique, permettant une compression très efficace et de haute qualité.
  • L’AsymmVAE compresse les vidéos par un facteur de 128, atteignant une compression spatiale 8x8 et temporelle 6x dans un espace latent à 12 canaux.
  • Un seul modèle de langage T5-XXL est utilisé pour encoder les invites, garantissant une compréhension et une intégration robuste du langage.
  • L’architecture est conçue pour rationaliser le traitement du texte, permettant au modèle d’allouer plus de capacité neuronale au raisonnement visuel et à la génération vidéo.

Configuration matérielle requise

Wan 2.1

  • Le modèle T2V-1.3B nécessite seulement 8,19 Go de VRAM, ce qui le rend compatible avec les GPU grand public.
  • Par exemple, la génération d’une vidéo 480P de 5 secondes prend environ 4 minutes sur un RTX 4090.

Mochi 1

  • Nécessite environ 60 Go de VRAM pour un fonctionnement sur un seul GPU.
  • Il prend en charge le fonctionnement multi-GPU et mono-GPU.
  • Les premiers rapports suggéraient le besoin de 4 GPU H100, mais les optimisations ont considérablement réduit cette exigence, comme 1 GPU.

Applications

Wan2.1

Convient à diverses entreprises utilisant l’IA pour développer du contenu visuel de haute qualité de manière rentable.

Applicable dans des contextes créatifs et professionnels grâce à sa capacité à produire du texte directement dans les vidéos.

Mochi 1

Conçu pour aider les créateurs à transformer rapidement du contenu écrit en vidéo, sans nécessiter de compétences étendues en montage ou d’équipement spécialisé.

Applications polyvalentes dans la recherche, le développement de produits et l’expression créative.

Conclusion

Choisissez Wan 2.1 si vous avez besoin d’un modèle polyvalent prenant en charge plusieurs tâches (Texte vers Vidéo, Image vers Vidéo, édition vidéo), des capacités multilingues et des performances efficaces sur les GPU grand public. Il est particulièrement adapté aux applications nécessitant des performances élevées en mouvement dynamique, relations spatiales, précision des couleurs et interactions multi-objets.

Optez pour Mochi 1 si votre priorité est la fidélité du mouvement et un fort respect des invites dans la génération vidéo. Bien que ses besoins en VRAM soient plus élevés, sa nature open-source et sa compatibilité avec des outils comme ComfyUI en font un excellent choix pour l’expérimentation créative et la recherche.

Novita AI est la plateforme cloud tout-en-un qui propulse vos ambitions en IA. API intégrées, sans serveur, instance GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et concrétisez votre vision IA.

Lecture recommandée