Wichtige Highlights
Wan 2.1 zeichnet sich bei Aufgaben wie Text-zu-Video (T2V), Bild-zu-Video (I2V) und Videobearbeitung aus und unterstützt gleichzeitig die mehrsprachige Generierung von visuellem Text. Es ist für verbrauchertaugliche GPUs optimiert – das T2V-1.3B-Modell benötigt nur 8,19 GB VRAM.
Mochi 1, ein Open-Source-KI-Modell, glänzt bei der hochwertigen Videogenerierung mit beeindruckender Bewegungsqualität und starker Prompt-Treue. Obwohl es auf einer einzelnen GPU laufen kann, werden für eine optimale Leistung etwa 60 GB VRAM benötigt.
Videogenerierungsmodelle entwickeln sich rasant und ermöglichen es Benutzern, aus Textanweisungen oder Bildern hochwertige Videos zu erstellen. Diese Modelle unterscheiden sich in Architektur, Fähigkeiten und Hardwareanforderungen, weshalb es wichtig ist, ihre Stärken und Grenzen zu verstehen. Zwei prominente Modelle in diesem Bereich sind Wan 2.1 und Mochi 1.
Starten Sie noch heute eine kostenlose Testversion auf Novita AI. Informationen zur Integration der Wan 2.1 API finden Sie in unserer Entwicklerdokumentation. Darüber hinaus bieten wir die voll ausgestattete 14B-Version an.
Novita bietet äußerst wettbewerbsfähige Preise auf dem Markt.
Ein Wan 2.1 720P 5-Sekunden-Video kostet beispielsweise nur 0,40 $ pro Video,
während ein ähnliches Video auf Replicate 2,39 $ pro Video kostet.
Einfache Version
Wir testen nun die beiden Modelle, indem wir dieselben Texteingaben verwenden, um ihr Textverständnis und die endgültige Videoausgabe zu bewerten.
Prompt: Ein Garten erwacht zum Leben, als ein Kaleidoskop aus Schmetterlingen zwischen den Blüten tanzt, ihre zarten Flügel werfen Schatten auf die darunter liegenden Blütenblätter. Im Hintergrund stürzt ein großer Brunnen mit sanfter Pracht Wasser herab, sein rhythmisches Rauschen bietet eine beruhigende Kulisse. Unter dem kühlen Schatten eines ausgewachsenen Baumes lädt ein einsamer Holzstuhl zur Besinnung und Ruhe ein, seine glatte Oberfläche abgenutzt durch die Berührung unzähliger Besucher, die einen Moment der Stille in den Armen der Natur suchen.
Wan 2.1
Mochi
Prompt: Ein Golden Retriever mit stylischen schwarzen Sonnenbrillen und langem, im Wind wehendem Fell rennt verspielt über eine Dachterrasse, die gerade von einem leichten Regen erfrischt wurde. Die Szene wird aus der Ferne gezeigt, die energischen Sprünge des Hundes werden größer, als er sich der Kamera nähert, sein Schwanz wedelt vor ungezügelter Freude, während Wassertropfen auf dem Beton hinter ihm glitzern. Der bewölkte Himmel bietet eine dramatische Kulisse, die das leuchtend goldene Fell des Hundes betont, während er auf den Betrachter zustürmt.
Wan 2.1
Mochi
Einführung
| Merkmal | Wan 2.1 | Mochi 1 |
|---|---|---|
| Open Source | Ja, von Alibaba Cloud als Open Source veröffentlicht | Ja, Open Source unter der Apache-2.0-Lizenz |
| Auflösung | Optimiert für 480P- und 720P-Videogenerierung | Generiert Videos in 480P-Auflösung, 720P-Unterstützung für zukünftige Updates geplant |
| Fähigkeiten | Hervorragend bei Text-zu-Video (T2V) und Bild-zu-Video (I2V) | Primär ein Text-zu-Video (T2V)-Modell; I2V-Implementierung von der Community gewünscht |
| Videolänge | Erzeugt ein 5-Sekunden-480P-Video auf einer RTX 4090 in etwa 4 Minuten | Generiert Videos mit einer Länge von bis zu 5,4 Sekunden; tatsächlicher Test benötigt weniger als 1 Minute |
Architektur
Wan 2.1
- Wan 2.1 basiert auf einem Diffusion-Transformer-Paradigma, erweitert durch das Flow-Matching-Framework.
- Es verwendet Wan-VAE, einen hochmodernen 3D-Variations-Autoencoder, der effiziente Kompression und hohe Wiedergabetreue bei Bewegungen gewährleistet.
- Ein T5-Encoder ermöglicht die nahtlose Verarbeitung mehrsprachiger Texteingaben.
- Die Architektur integriert ein fortschrittliches Parameter-Modulationssystem zur Optimierung der Vorhersage und Einbindung von Textinformationen in generierte Videos.
- Cross-Attention-Mechanismen innerhalb jedes Transformer-Blocks betten Texteingaben direkt in die Modellstruktur ein und verbessern so die Ausrichtung und Kontextintegration.
Mochi 1
- Mochi 1 wird von einem 10-Milliarden-Parameter-Diffusionsmodell angetrieben, das auf der asymmetrischen Diffusion-Transformer (AsymmDiT)-Architektur basiert.
- Es verfügt über eine asymmetrische Encoder-Decoder-Struktur, die eine hocheffiziente und qualitativ hochwertige Kompression ermöglicht.
- Der AsymmVAE komprimiert Videos um den Faktor 128 und erreicht eine 8x8 räumliche und 6-fache zeitliche Kompression in einen 12-Kanal-Latent-Raum.
- Für die Kodierung der Prompts wird ein einzelnes T5-XXL-Sprachmodell verwendet, das ein robustes Sprachverständnis und eine robuste Integration gewährleistet.
- Die Architektur ist darauf ausgelegt, die Textverarbeitung zu optimieren, sodass das Modell mehr neuronale Kapazität für visuelles Verständnis und Videogenerierung aufwenden kann.
Hardwareanforderungen
Wan 2.1
- Das T2V-1.3B-Modell benötigt nur 8,19 GB VRAM und ist daher mit verbrauchertauglichen GPUs kompatibel.
- Beispielsweise dauert die Erzeugung eines 5-Sekunden-480P-Videos auf einer RTX 4090 etwa 4 Minuten.
Mochi 1
- Erfordert ~60 GB VRAM für den Betrieb auf einer einzelnen GPU.
- Unterstützt sowohl Multi-GPU- als auch Single-GPU-Betrieb.
- Ursprüngliche Berichte deuteten auf 4 H100-GPUs hin, aber Optimierungen haben den Bedarf erheblich reduziert, z. B. auf 1 GPU.
Anwendung
Wan2.1
Geeignet für verschiedene Unternehmen, die KI zur kosteneffizienten Entwicklung hochwertiger visueller Inhalte einsetzen.
Anwendbar in kreativen und professionellen Kontexten aufgrund der Fähigkeit, Texte direkt in Videos zu generieren.
Mochi 1
Entwickelt, um Kreaturen dabei zu helfen, geschriebene Inhalte schnell in Videos umzuwandeln, ohne umfangreiche Bearbeitungsfähigkeiten oder Ausrüstung zu benötigen.
Vielseitige Anwendungen in Forschung, Produktentwicklung und kreativem Ausdruck.
Fazit
Wählen Sie Wan 2.1, wenn Sie ein vielseitiges Modell benötigen, das mehrere Aufgaben (Text-zu-Video, Bild-zu-Video, Videobearbeitung), mehrsprachige Fähigkeiten und effiziente Leistung auf verbrauchertauglichen GPUs unterstützt. Es ist besonders geeignet für Anwendungen, die hohe Leistung bei dynamischen Bewegungen, räumlichen Beziehungen, Farbgenauigkeit und Interaktionen mit mehreren Objekten erfordern.
Entscheiden Sie sich für Mochi 1, wenn Ihr Schwerpunkt auf hochwertigen Bewegungen und starker Prompt-Treue bei der Videogenerierung liegt. Obwohl es höhere VRAM-Anforderungen hat, machen es sein Open-Source-Charakter und die Kompatibilität mit Tools wie ComfyUI zu einer ausgezeichneten Wahl für kreative Experimente und Forschung.
Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen stärkt. Integrierte APIs, serverlos, GPU-Instanz – die kosteneffizienten Tools, die Sie benötigen. Verzichten Sie auf Infrastruktur, starten Sie kostenlos und verwirklichen Sie Ihre KI-Vision.

