Wichtige Highlights
Open-Source-Verfügbarkeit: Wan2.1 ist ein Open-Source-KI-Modell, das kosteneffiziente, qualitativ hochwertige Videogenerierung für Akademiker, Forscher und Unternehmen ermöglicht.
Vielseitige Fähigkeiten: Unterstützt T2V, I2V, Videobearbeitung, T2I und generiert mehrsprachigen Text auf Chinesisch und Englisch für Untertitel.
Hardwareanforderungen: T2V-1.3B hat nur 1,3B Parameter, was die Hardwareanforderungen erheblich reduziert.
Modellarchitektur und Innovationen: Verfügt über Wan-VAE für 3D-Codierung, Video Diffusion DiT und eine robuste Pipeline für hochwertige Trainingsdatensätze.
VBench und Leistungsbewertung: Übertrifft Konkurrenten wie Sora mit 86,22% auf VBench, exzelliert in ID-Konsistenz, räumlicher Genauigkeit und der Ausführung von Aktionsanweisungen.
Novita AI bietet eine API für Wan 2.1. Melden Sie sich einfach für eine kostenlose Testversion an und nutzen Sie die API mit einfachen Anfragen.
Wan2.1 ist ein Open-Source-KI-Modell, das von Alibaba Cloud für die fortschrittliche Videogenerierung entwickelt wurde. Es ist auf hohe Leistung, Effizienz und Vielseitigkeit ausgelegt und richtet sich an ein breites Spektrum kreativer und professioneller Anwendungen. Die Modelle sind auf Alibaba Cloud’s KI-Modell-Community, ModelScope und Hugging Face verfügbar.

Quelle: wan
Starten Sie noch heute eine kostenlose Testversion auf Novita AI. Informationen zur Integration der Hunyuan Video API finden Sie in unserer Entwicklerdokumentation.
Novita bietet hochkompetitive Preise auf dem Markt.
Zum Beispiel kostet ein Wan 2.1 720P 5-Sekunden-Video nur $0,3 pro Video,
während ein ähnliches Video auf Replicate $2,39 pro Video kostet.
Open-Source-Verfügbarkeit
Alibaba Cloud hat seine Wan2.1-Serie von KI-Modellen zur Videogenerierung als Open Source veröffentlicht. Diese Initiative zielt darauf ab, Zugangsbarrieren zu senken und Unternehmen zu ermöglichen, kosteneffizient hochwertige visuelle Inhalte zu erstellen. Durch die Veröffentlichung dieser Modelle als Open Source können Akademiker, Forscher und kommerzielle Einrichtungen die Leistungsfähigkeit von KI für ihre Projekte nutzen, ohne erhebliche Anfangsinvestitionen tätigen zu müssen.
Vielseitige Fähigkeiten von Wan2.1
Wan2.1 zeichnet sich in einer Vielzahl von Aufgaben aus und ist somit ein vielseitiges Werkzeug für die Videogenerierung:
- Text-zu-Video (T2V)
- Bild-zu-Video (I2V)
- Videobearbeitung
- Text-zu-Bild (T2I)
Bemerkenswerterweise ist Wan2.1 das erste Videomodell, das Text sowohl auf Chinesisch als auch auf Englisch generieren kann, und verfügt über eine robuste Textgenerierung, die seine praktischen Anwendungen verbessert.
Hardwareanforderungen
Nachfolgend finden Sie eine detaillierte Zusammenfassung der Hardwareanforderungen für die vier Wan2.1-Modelle. Die Tabelle gibt einen Überblick über die Funktionalität, unterstützte Auflösung, Modellgröße, Hardwarebedarf und empfohlene GPUs für optimale Leistung jedes Modells.
| Modellname | Funktion | Unterstützte Auflösung | Modellgröße | Hardwarebedarf | Empfohlene GPU |
|---|---|---|---|---|---|
| T2V-14B | Text-zu-Video (T2V) | 480P / 720P | 14B | ⭐⭐⭐⭐ | A100 / RTX 3090 / RTX 4090 |
| I2V-14B-720P | Bild-zu-Video (I2V) | 720P | 14B | ⭐⭐⭐⭐ | A100 / RTX 3090 / RTX 4090 |
| I2V-14B-480P | Bild-zu-Video (I2V) | 480P | 14B | ⭐⭐⭐ | RTX 3090 / RTX 4070 Ti |
| T2V-1.3B | Text-zu-Video (T2V) | Niedrige Auflösung | 1.3B | ⭐⭐ | RTX 3060 / RTX 4060 oder höher |
Modellarchitektur und wichtige Innovationen
Wan2.1 basiert auf einem Diffusion Transformer-Paradigma, erweitert durch das Flow Matching-Framework. Zu den wichtigsten Innovationen gehören:
- Wan-VAE: Ein 3D-Variational-Autoencoder, der für effiziente Kompression und hohe Wiedergabetreue bei der Bewegungswiedergabe entwickelt wurde. Er codiert und decodiert 1080P-Videos unter Wahrung der zeitlichen Kohärenz. Das Modell integriert mehrere Strategien zur Optimierung der räumlich-zeitlichen Kompression, zur Reduzierung des Speicherverbrauchs und zur Gewährleistung der zeitlichen Kausalität.

- Video Diffusion DiT: Wan2.1 nutzt das Flow Matching-Framework innerhalb von Diffusion Transformern, verwendet einen T5-Encoder für mehrsprachige Texteingaben und Cross-Attention zur Einbettung von Text in das Modell. Ein gemeinsamer MLP mit SiLU- und Linear-Schichten sagt sechs Modulationsparameter für Zeiteinbettungen voraus, sodass jeder Transformer-Block unterschiedliche Biase erlernen kann. Diese Architektur verbessert die Leistung erheblich, ohne den Parameterumfang zu erhöhen.

- Ein Kandidatendatensatz: Wan 2.1 kuratierte und deduplizierte einen Kandidatendatensatz, der eine große Menge an Bild- und Videodaten umfasst. Während des Datenkuratierungsprozesses haben wir einen vierschrittigen Datenreinigungsprozess entworfen, der sich auf grundlegende Dimensionen, visuelle Qualität und Bewegungsqualität konzentriert. Durch die robuste Datenverarbeitungspipeline können wir problemlos hochwertige, vielfältige und umfangreiche Trainingssätze von Bildern und Videos erhalten.

VBench-Bewertung
VBench ist eine robuste und umfassende Benchmark-Suite zur Bewertung von Videogenerierungsmodellen. Sie zerlegt die „Videogenerierungsqualität“ in hierarchische, entkoppelte und spezifische Dimensionen, jede ausgestattet mit maßgeschneiderten Prompts und Bewertungsmethoden. Die wichtigsten Bewertungsmetriken umfassen:
- Große Bewegungserzeugung
- Menschliche Artefakte
- Pixel-Ebene-Stabilität
- ID-Konsistenz
- Physikalische Plausibilität
- Glätte
- Umfassende Bildqualität
- Szenengenerierungsqualität
- Stylisierungsfähigkeit
- Einzelobjektgenauigkeit
- Mehrfachobjektgenauigkeit
- Räumliche Positionsgenauigkeit
- Kamerasteuerung
- Befolgung von Aktionsanweisungen
Der Zweck von VBench ist es, wertvolle Einblicke in die Stärken und Schwächen einzelner Modelle zu geben und eine detaillierte und objektive Bewertung zu ermöglichen. Diese Erkenntnisse leiten nicht nur zukünftige Entwicklungen in der Videogenerierung, sondern helfen auch, die Modellleistung zu verbessern. Um die Übereinstimmung mit der menschlichen Wahrnehmung sicherzustellen, integriert VBench menschliche Präferenzannotationen und validiert so seine Relevanz und Zuverlässigkeit als Benchmark. Die Leistung von Wan2.1 ist in der folgenden Grafik dargestellt:

von Alizila
Zusätzlich wurde Wan-Bench verwendet, um das T2V-1.3B-Modell zu bewerten, das größere Open-Source-Gegenstücke in wichtigen Metriken übertraf. Diese Bewertungen heben die Fortschritte des Modells in folgenden Bereichen hervor:

Wan 2.1 vs. Sora
Überlegene Gesamtleistung:
- Wan2.1 erreicht eine höhere Gesamtpunktzahl auf VBench mit 86,22% und übertrifft damit Sora mit 84,28%, und zeigt eine stärkere Leistung in mehreren Unterdimensionen.
Unterstützung für chinesische und englische Untertitelgenerierung:
- Wan2.1 ist das erste Videogenerierungsmodell, das sowohl die Generierung chinesischer als auch englischer Untertitel unterstützt, was ihm einen einzigartigen Vorteil in mehrsprachigen Szenarien verleiht. Sora bietet diese Funktionalität nicht.
Leistung in Unterdimensionen:
- ID-Konsistenz: Wan2.1 zeichnet sich durch die Wahrung der Konsistenz von Subjekten innerhalb von Videos aus.
- Einzelobjektgenauigkeit: Wan2.1 generiert präzisere Ergebnisse für Szenarien mit einem einzelnen Objekt.
- Räumliche Positionsgenauigkeit: Wan2.1 übertrifft Sora deutlich bei der Verarbeitung räumlicher Logikbeziehungen.
- Befolgung von Aktionsanweisungen: Wan2.1 zeigt ein besseres Verständnis und eine bessere Ausführung komplexer Aktionsanweisungen.
Open Source und Zugänglichkeit:
- Wan2.1 bietet Open-Source-Code, was es zugänglicher und für Entwickler einfacher zu nutzen und zu integrieren macht.
- Sora bietet zwar APIs an, ist aber nicht Open Source, was seine Flexibilität einschränkt.
Verbesserungspotenzial:
- Wan2.1 ist Sora in Bezug auf Bewegungsglätte und große Bewegungserzeugung leicht unterlegen, aber der Unterschied ist gering.
Anwendungen
Content-Erstellung
- Ermöglicht die automatisierte Generierung hochwertiger Videos für soziale Medien, Marketing und Unterhaltung.
- Unterstützt stilisierte Videogenerierung, um spezifische künstlerische oder Markenanforderungen zu erfüllen.
Bildung und E-Learning
- Generiert lehrreiche Videos mit benutzerdefinierten visuellen Elementen und Untertiteln sowohl auf Chinesisch als auch auf Englisch.
- Erleichtert die Erstellung ansprechender und personalisierter Lerninhalte.
Film und Animation
- Unterstützt bei der Erstellung von Storyboards, Videoprototypen oder ganzen Szenen basierend auf Text- oder Bildeingaben.
- Unterstützt mehrsprachige Untertitel, was es für ein globales Publikum geeignet macht.
Werbung und Marketing
- Produziert maßgeschneiderte Videoanzeigen, die auf Zielgruppen zugeschnitten sind.
- Verbessert Kampagnen mit visuell überzeugenden und kontextsensitiven Inhalten.
Gaming
- Generiert Zwischensequenzen oder Animationen im Spiel basierend auf Textbeschreibungen oder Charakterbildern.
- Erstellt dynamische Video-Assets für die Spieleentwicklung und das Storytelling.
Mehrsprachige Kommunikation
- Unterstützt sowohl chinesische als auch englische Untertitelgenerierung, ideal für mehrsprachige Präsentationen und Medien.
Prototyping und Visualisierung
- Hilft bei der Visualisierung von Konzepten, Ideen oder architektonischen Entwürfen durch Video.
- Generiert dynamische Darstellungen von Projekten für Präsentationen oder Pitches.
Barrierefreiheit und Inklusion
- Erstellt Videos mit Untertiteln, was die Barrierefreiheit für hörgeschädigte Zielgruppen verbessert.
- Mehrsprachige Unterstützung erleichtert die Content-Erstellung für verschiedene Nutzergruppen.
Erkunden Sie jetzt die Wan 2.1 Video-Demo
Wan2.1 stellt einen bedeutenden Fortschritt in der KI-gesteuerten Videogenerierung dar. Seine Open-Source-Natur, mehrsprachigen Fähigkeiten und überlegene Leistung in Benchmarks wie VBench positionieren es als vielseitiges und zugängliches Werkzeug für kreative und professionelle Anwendungen. Während es in Bezug auf Bewegungsglätte und große Bewegungserzeugung etwas hinter Sora zurückbleibt, machen seine Gesamtfähigkeiten, innovative Architektur und breiten Anwendungsmöglichkeiten es zu einem Game-Changer für Branchen wie Bildung, Medien, Gaming und mehr.
Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen beflügelt. Integrierte APIs, Serverless, GPU-Instanzen – die kosteneffizienten Tools, die Sie brauchen. Verzichten Sie auf Infrastruktur, starten Sie kostenlos und verwirklichen Sie Ihre KI-Vision.
