Wan2.1 : un modèle d’IA open-source surpasse Sora

Wan2.1 : un modèle d’IA open-source surpasse Sora

Points clés

Disponibilité open-source : Wan2.1 est un modèle d’IA open-source permettant une génération vidéo économique et de haute qualité pour les universitaires, chercheurs et entreprises.

Capacités polyvalentes : Prend en charge T2V, I2V, l’édition vidéo, T2I, et génère du texte multilingue en chinois et en anglais pour les sous-titres.

Configuration matérielle requise : T2V-1.3B ne possède que 1,3 milliard de paramètres, réduisant considérablement les besoins en matériel.

Architecture et innovations du modèle : Intègre Wan-VAE pour le codage 3D, Video Diffusion DiT, et un pipeline robuste pour des ensembles de données d’entraînement de haute qualité.

Évaluation VBench et performances : Surpasse des concurrents comme Sora avec 86,22 % sur VBench, excellent en cohérence d’identité, précision spatiale et exécution d’instructions d’action.

Novita AI propose une API pour Wan 2.1. Inscrivez-vous pour un essai gratuit et utilisez l’API avec des requêtes simples.

Wan2.1 est un modèle d’IA open-source développé par Alibaba Cloud pour la génération vidéo avancée. Conçu pour des performances élevées, l’efficacité et la polyvalence, il répond à un large éventail d’applications créatives et professionnelles. Les modèles sont disponibles sur la communauté de modèles d’IA d’Alibaba Cloud, ModelScope, et Hugging Face.

source : wan

Commencez un essai gratuit sur Novita AI dès aujourd’hui. Pour intégrer l’API Hunyuan Video, consultez notre documentation développeur pour plus de détails.

Novita propose des tarifs très compétitifs sur le marché.

Par exemple, une vidéo Wan 2.1 720P de 5 secondes ne coûte que 0,3 $ par vidéo,

tandis qu’une vidéo similaire sur Replicate coûte 2,39 $ par vidéo.

Disponibilité open-source

Alibaba Cloud a ouvert sa série de modèles d’IA Wan2.1 pour la génération vidéo. Cette initiative vise à abaisser les barrières d’accès et à permettre aux entreprises de créer du contenu visuel de haute qualité de manière économique. En publiant ces modèles en open-source, les universitaires, chercheurs et entités commerciales peuvent exploiter la puissance de l’IA pour leurs projets sans coûts initiaux importants.

Capacités polyvalentes de Wan2.1

Wan2.1 excelle dans diverses tâches, ce qui en fait un outil polyvalent pour la génération vidéo :

  • Texte vers vidéo (T2V)
  • Image vers vidéo (I2V)
  • Édition vidéo
  • Texte vers image (T2I)

Notamment, Wan2.1 est le premier modèle vidéo capable de générer du texte en chinois et en anglais, avec une génération de texte robuste qui renforce ses applications pratiques.

Configuration matérielle requise

Voici un résumé détaillé des besoins matériels pour les quatre modèles Wan2.1. Le tableau décrit les fonctionnalités, la résolution prise en charge, la taille du modèle, la demande matérielle et les GPU recommandés pour des performances optimales.

Nom du modèle Fonction Résolution prise en charge Taille du modèle Demande matérielle GPU recommandé
T2V-14B Texte vers vidéo (T2V) 480P / 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-720P Image vers vidéo (I2V) 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-480P Image vers vidéo (I2V) 480P 14B ⭐⭐⭐ RTX 3090 / RTX 4070 Ti
T2V-1.3B Texte vers vidéo (T2V) Basse résolution 1,3B ⭐⭐ RTX 3060 / RTX 4060 ou supérieur

Architecture du modèle et innovations clés

Wan2.1 est construit sur un paradigme de transformer de diffusion, amélioré par le cadre Flow Matching. Ses innovations clés incluent :

  • Wan-VAE : Un autoencodeur variationnel 3D conçu pour une compression efficace et une haute fidélité dans la reproduction des mouvements. Il code et décode des vidéos 1080P tout en maintenant la cohérence temporelle. Le modèle intègre plusieurs stratégies pour optimiser la compression spatio-temporelle, réduire l’utilisation de la mémoire et assurer la causalité temporelle.

Wan-VAE

  • Video Diffusion DiT : Wan2.1 exploite le cadre Flow Matching au sein des transformers de diffusion, en utilisant un encodeur T5 pour l’entrée de texte multilingue et l’attention croisée pour intégrer le texte dans le modèle. Un MLP partagé avec SiLU et des couches linéaires prédit six paramètres de modulation pour les plongements temporels, permettant à chaque bloc transformer d’apprendre des biais distincts. Cette architecture améliore significativement les performances sans augmenter l’échelle des paramètres.

dIT

  • Un ensemble de données candidat : Wan2.1 a organisé et dédupliqué un ensemble de données candidat comprenant une vaste quantité de données d’images et de vidéos. Lors du processus de curation des données, nous avons conçu un processus de nettoyage en quatre étapes, en nous concentrant sur les dimensions fondamentales, la qualité visuelle et la qualité du mouvement. Grâce au pipeline de traitement de données robuste, nous pouvons facilement obtenir des ensembles d’entraînement d’images et de vidéos de haute qualité, diversifiés et à grande échelle.

DATA

Évaluation VBench

VBench est une suite de référence robuste et complète conçue pour évaluer les modèles génératifs vidéo. Elle décompose la « qualité de génération vidéo » en dimensions hiérarchiques, désenchevêtrées et spécifiques, chacune avec des invites et des méthodes d’évaluation adaptées. Les principales métriques d’évaluation incluent :

  • Génération de grands mouvements
  • Artéfacts humains
  • Stabilité au niveau des pixels
  • Cohérence d’identité
  • Plausibilité physique
  • Douceur
  • Qualité d’image globale
  • Qualité de génération de scènes
  • Capacité de stylisation
  • Précision d’un seul objet
  • Précision de plusieurs objets
  • Précision de la position spatiale
  • Contrôle de caméra
  • Suivi d’instructions d’action

Le but de VBench est de fournir des informations précieuses sur les forces et faiblesses des modèles individuels, permettant une évaluation fine et objective. Ces informations guident non seulement les développements futurs dans la génération vidéo, mais aident également à améliorer les performances des modèles. Pour assurer l’alignement avec la perception humaine, VBench intègre des annotations de préférence humaine, validant sa pertinence et sa fiabilité en tant que référence. Les performances de Wan2.1 sont présentées dans le graphique ci-dessous :

vbench

source : Alizila

De plus, Wan-Bench a été utilisé pour évaluer le modèle T2V-1.3B, qui a surpassé des homologues open-source plus grands sur les métriques clés. Ces évaluations mettent en évidence les avancées du modèle dans :

wanbench

Wan 2.1 contre Sora

Supériorité globale des performances :

  • Wan2.1 obtient un score global plus élevé sur VBench, avec 86,22 %, surpassant les 84,28 % de Sora, et montre des performances plus solides dans plusieurs sous-dimensions.

Prise en charge de la génération de sous-titres chinois et anglais :

  • Wan2.1 est le premier modèle de génération vidéo à prendre en charge la génération de sous-titres en chinois et en anglais, ce qui lui confère un avantage unique dans les scénarios multilingues. Sora n’offre pas cette fonctionnalité.

Performances dans les sous-dimensions :

  • Cohérence d’identité : Wan2.1 excelle à maintenir la cohérence des sujets dans les vidéos.
  • Précision d’un seul objet : Wan2.1 génère des résultats plus précis pour les scénarios à objet unique.
  • Précision de la position spatiale : Wan2.1 surpasse significativement Sora dans le traitement des relations logiques spatiales.
  • Exécution d’instructions d’action : Wan2.1 démontre une meilleure compréhension et exécution d’instructions d’action complexes.

Open source et accessibilité :

  • Wan2.1 fournit un code open-source, le rendant plus accessible et plus facile à utiliser et à intégrer pour les développeurs.
  • Sora, bien qu’il propose des API, n’est pas open-source, ce qui limite sa flexibilité.

Domaines d’amélioration :

  • Wan2.1 est légèrement inférieur à Sora en termes de fluidité de mouvement et de génération de grands mouvements, mais l’écart est minime.

Applications

Création de contenu

  • Permet la génération automatisée de vidéos de haute qualité pour les réseaux sociaux, le marketing et le divertissement.
  • Prend en charge la génération de vidéos stylisées pour répondre à des besoins artistiques ou de marque spécifiques.

Éducation et e-learning

  • Génère des vidéos éducatives avec des visuels personnalisés et des sous-titres en chinois et en anglais.
  • Facilite la création de contenu d’apprentissage engageant et personnalisé.

Cinéma et animation

  • Aide à créer des storyboards, des prototypes vidéo ou des scènes entières à partir d’entrées textuelles ou d’images.
  • Prend en charge les sous-titres multilingues, ce qui le rend adapté aux publics mondiaux.

Publicité et marketing

  • Produit des publicités vidéo personnalisées adaptées aux publics cibles.
  • Améliore les campagnes avec un contenu visuellement attrayant et sensible au contexte.

Jeux vidéo

  • Génère des cinématiques de jeu ou des animations basées sur des descriptions textuelles ou des images de personnages.
  • Crée des actifs vidéo dynamiques pour le développement de jeux et la narration.

Communication multilingue

  • Prend en charge la génération de sous-titres en chinois et en anglais, ce qui le rend idéal pour les présentations et médias multilingues.

Prototypage et visualisation

  • Aide à visualiser des concepts, des idées ou des conceptions architecturales par le biais de vidéos.
  • Génère des représentations dynamiques de projets pour des présentations ou des argumentaires.

Accessibilité et inclusion

  • Crée des vidéos avec sous-titres, améliorant l’accessibilité pour les publics malentendants.
  • Le support multilingue facilite la création de contenu pour divers groupes d’utilisateurs.

Explorez la démo vidéo Wan 2.1 dès maintenant

Wan2.1 représente une avancée significative dans la génération vidéo par IA. Sa nature open-source, ses capacités multilingues et ses performances supérieures sur des références comme VBench en font un outil polyvalent et accessible pour des applications créatives et professionnelles. Bien qu’il soit légèrement en retard par rapport à Sora en fluidité de mouvement et génération de grands mouvements, ses capacités globales, son architecture innovante et ses applications variées en font un véritable changement de jeu pour des industries comme l’éducation, les médias, le jeu vidéo et bien plus.

Novita AI est la plateforme cloud tout-en-un qui alimente vos ambitions en IA. API intégrées, serverless, instances GPU — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et concrétisez votre vision de l’IA.

Lectures recommandées