Wan 2.2 repräsentiert eine neue Generation leichter und dennoch leistungsstarker Open-Source-Videomodelle für die Text-zu-Video- und Bild-zu-Video-Generierung mit starker zeitlicher Kohärenz. Dank einer optimierten Architektur, die Effizienz und Ausgabequalität in Einklang bringt, bietet es auch unter eingeschränkten Hardwarebedingungen eine starke Inferenzleistung. Um das volle Potenzial auszuschöpfen, ist es wichtig, vor der Bereitstellung die VRAM-Anforderungen zu verstehen. Egal, ob Sie lokale Inferenz auf Verbraucher- GPUs oder Skalieren von Produktions-Workloads durch Cloud-Instanzen, die richtige Speicherzuweisung gewährleistet sowohl Stabilität als auch Geschwindigkeit.
Dieser Leitfaden führt Sie durch alles, was Sie wissen müssen:
- GPU Auswahlmöglichkeiten: Von Karten für Privatkunden bis hin zu Unternehmenskarten GPUs, finden Sie heraus, was Wan 2.2 am effizientesten ausführt.
- VRAM-Verwaltung: Erfahren Sie, wie Quantisierung und moderne Laufzeiten die Speicherkosten senken können, ohne die Qualität zu beeinträchtigen.
- Vereinfachter Zugang: Entdecken Sie API-basierte Optionen, mit denen Sie Videos erstellen können, ohne sich mit Hardwarebeschränkungen herumschlagen zu müssen.
Wan 2.2: Grundlagen und Highlights
| Funktion | Wan 2.2 |
| Parameter | 14 Mrd |
| Open Source | Ja |
| Auflösung | 1080P / 720P / 480P |
| Eingabe-/Ausgabeformat | T2V, I2V |
| Videolänge | 5s |
| Seitenverhältnis | 16:9/9:16/1:1 |
| Frame Rate | 24FPS |
Wichtige Verbesserungen
- MoE-gestütztes Diffusions-Framework: Wan 2.2 führt ein Mixture-of-Experts-Design (MoE) in sein Videodiffusionssystem ein. Durch die Delegierung verschiedener Rauschunterdrückungsphasen an dedizierte Expertennetzwerke erweitert das Modell seine Kapazität effizient und verbessert die Leistung ohne proportionalen Anstieg der Rechenkosten.
- Verbesserte visuelle Stilsteuerung: Wan 2.2 wurde mit einem Datensatz trainiert, der mit detaillierten Anmerkungen zu Licht, Bildausschnitt, Kontrast und Farbton angereichert ist, und bietet präzise Kontrolle über den filmischen Stil. So können Kreative visuelle Stimmung und Ästhetik mit hoher Wiedergabetreue über verschiedene künstlerische Absichten hinweg steuern.
- Erweitertes Bewegungs- und Szenentraining: Im Vergleich zu Wan 2.1 enthält die neue Version über 65 % mehr Bilder und 80 % mehr Videoclips und deckt damit ein breiteres Spektrum an Bewegungsmustern, Szenenstrukturen und Erzählkontexten ab. Die umfassendere Datenabdeckung ermöglicht Wan 2.2 eine verbesserte Generalisierung in verschiedenen visuellen Umgebungen.
Wie viel VRAM benötigt Wan 2.2 (T2V & I2V)?
| Quantisierung | VRAM (ca.) |
| 8-bit | 15.4 GB |
| 6-bit | 12 GB |
| 5-bit | 10.3 GB |
| 4-bit | 8.56 GB |
Hardware-Anforderungen
1. RTX 3090: Einstiegspunkt für High-Fidelity-Workflows
Obwohl die RTX 3090 immer noch WAN 2.2 beherrscht, hat ihr 24 GB VRAM oft Probleme mit T2V in voller Präzision. Benutzer verlassen sich typischerweise auf quantisierte Modelle (Q6_K, Q5_K_M) und reduzierte Auflösungen um 480p.
Die Leistung ist langsamer und weniger stabil, aber mit Optimierungen wie gekacheltem VAE-Decode und Memreduct bleibt es für einfache oder explorative Videogenerierungsaufgaben verwendbar.
2. RTX 4090: Der Sweet Spot für Leistung und Kosten
Die RTX 4090 (24 GB VRAM) bleibt die beliebteste High-End-Karte für die lokale Generierung. Sie rendert 81 Bilder bei 640×480 in etwa 7 s/Bild und skaliert in ~18 s/Bild auf 720p, wodurch starke Details und schnelle Wiedergabetreue erreicht werden.
Es läuft problemlos mit Q8_0 oder voller Präzision, allerdings steigen Renderzeit und Energiekosten mit der Auflösung stark an. Für einzelne Entwickler oder kleine Teams ist der 4090 die optimale Kombination aus Geschwindigkeit, Qualität und Erschwinglichkeit.
3. RTX 5090: Spitzenleistung für professionelles T2V&I2V
Mit modernster Bandbreite und reichlich VRAM erreicht der RTX 5090 1 Sekunde pro Frame bei 720×720 für I2V-Workflows und bietet herausragende Kohärenz und visuelle Schärfe.
Es verarbeitet problemlos hochpräzise oder leicht quantisierte Modelle und sorgt dabei für eine konsistente 720p-Ausgabe und minimale Artefakte. Für Entwickler, die filmähnliche Qualität oder erweiterte Bewegungssequenzen anstreben, bietet der 5090 die beste Balance zwischen Zugänglichkeit und Premium-Leistung.
4. H100 SXM: Geschwindigkeit und Stabilität auf Rechenzentrumsniveau
Ausgestattet mit 80 GB VRAM bietet der H100 SXM außergewöhnlichen Durchsatz und Speicherreserven. In Community-Benchmarks absolviert er eine sechsstufige 640×640 T2V-Generierung in etwa 36 Sekunden bis 1 Minute und behält dabei auch bei höheren Auflösungen wie 720×1280 eine stabile Leistung bei. Jede Iteration dauert zwischen 3 und 7 Sekunden und ermöglicht so eine schnellere Konvergenz und flüssigere Bewegungen selbst in Kinosequenzen.
Sein riesiger VRAM ermöglicht Inferenz mit höchster Präzision ohne Kachelung oder Quantisierung und macht ihn ideal für Forschungslabore und Produktionspipelines, die sowohl Qualität als auch Skalierbarkeit erfordern.
So optimieren Sie die Speichernutzung für Wan 2.2
Obwohl Wan 2.2 viel VRAM benötigt, kann durch sorgfältige Optimierung sowohl die T2V- als auch die I2V-Generierung auf einer Vielzahl von Hardware-Geräten möglich gemacht werden. Effektives Speichermanagement umfasst drei Ebenen: Modellquantisierung, Laufzeitanpassungen und Einstellungen auf Workflow-Ebene.
1. Wählen Sie die richtige Quantisierungsstufe
Die Quantisierung bestimmt direkt, wie viel VRAM das Modell verbraucht.
- Q8_0: Liefert nahezu verlustfreie Qualität, benötigt jedoch etwa 15 GB oder mehr VRAM.
- Q6_K / Q5_K_M: Bietet das beste Gleichgewicht zwischen Wiedergabetreue und Effizienz und läuft problemlos auf 12–16 GB-Karten.
- Q4_0: Minimiert die Nutzung zum Testen oder zur Vorschau, allerdings nehmen feine Details und Bewegungsglätte sichtbar ab.
Durch die Auswahl der richtigen Quantisierung wird Stabilität gewährleistet, bevor Laufzeitoptimierungen vorgenommen werden.
2. Wenden Sie bewährte Techniken zum Speichern von Speicherplatz an
Community-Benutzer empfehlen mehrere praktische Strategien zur Reduzierung des Speicherdrucks:
- Distorch Multi-GPU Knoten simulieren virtuellen VRAM, indem sie Arbeitslasten auf GPUs oder Swap-Speicher.
- Memreduct löscht regelmäßig ungenutzten Systemspeicher, um Laufzeitabstürze zu verhindern.
- Tiled VAE Decode verarbeitet Frames in kleinen Patches und reduziert die VRAM-Nutzung um mehrere Gigabyte bei vernachlässigbarem Qualitätsverlust.
Mit diesen Techniken können 12-GB-Setups für Projekte mit mittlerer Auflösung (480p–640p) praktikabel gemacht werden.
3. Einstellungen und LoRAs optimieren
Ebenso wichtig ist die Optimierung auf Funktionsebene:
- Deaktivieren Sie Geschwindigkeits-LoRAs wie lightx2v or causvid für T2V, da sie die visuelle Vielfalt verringern und zusätzlichen Speicher verbrauchen.
- Aktivieren Sie Sage Attention, das die Effizienz nahezu kostenlos steigert.
- Halten Sie die Shift-Werte moderat (1–8). Extreme Einstellungen können die Generierung destabilisieren oder VRAM verschwenden.
Steigern Sie Effizienz und Komfort mit der API!
Wan 2.2 ist jetzt verfügbar auf Novita AI! Melden Sie sich an und öffnen Sie die Registerkarte „Videogenerierung“, um mit der Erstellung zu beginnen. Sie können Ihre Ausgabe auf 480p oder 1080p einstellen, ein Bild für Bild-zu-Video hochladen oder eine Eingabeaufforderung für Text-zu-Video eingeben. Überprüfen Sie die Modellbibliotheksseite für Details zu Wan 2.2 und anderen Modellen.
| Modell | Länge/Auflösung | Preis (USD) |
| Wan 2.2 T2V / I2V | 5s/480p | 0.09 $/Video |
| Wan 2.2 T2V / I2V | 5s/720p | 0.27 $/Video |
| Wan 2.2 T2V / I2V | 5s/1080p | 0.40 $/Video |
Schritt 1: Anmelden und auf die Modellbibliothek zugreifen
Melden Sie sich bei Ihrem Konto an und klicken Sie auf das Modellbibliothek .

Schritt 2: Wählen Sie Ihr Modell
Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell aus, das Ihren Anforderungen entspricht.

Schritt 3: Holen Sie sich Ihren API-Schlüssel
Zur Authentifizierung mit der API erhalten Sie von uns einen neuen API-Schlüssel. Geben Sie dazu den „Einstellungen “-Seite können Sie den API-Schlüssel wie im Bild angegeben kopieren.

Schritt 4: Installieren der API
Installieren Sie die API mit dem Paketmanager für Ihre Programmiersprache.

Importieren Sie nach der Installation die erforderlichen Bibliotheken in Ihre Entwicklungsumgebung. Initialisieren Sie die API mit Ihrem API-Schlüssel, um mit der Interaktion zu beginnen Novita AI LLM.
Häufig gestellte Fragen
Wan 2.2 ist ein leichtes Videogenerierungsmodell, das sowohl Text-to-Video (T2V) als auch Image-to-Video (I2V)-Erstellung ermöglicht. Es bietet filmische Bewegungen, präzise Lichtsteuerung und erweitertes Training anhand verschiedener Szenen.
Ja. Karten wie die RTX 3090 können quantisierte Builds (z. B. Q6_K oder Q5_K_M) mit 480p ausführen, indem sie speichersparende Techniken wie die gekachelte VAE-Dekodierung verwenden.
T2V generiert vollständige Videos direkt aus Textaufforderungen, während I2V von einem Bild ausgeht und es in Bewegung erweitert, wodurch eine bessere Kohärenz und schnelleres Rendern gewährleistet wird.
Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen unterstützt. Integrierte APIs, serverlos, GPU Instance – die kostengünstigen Tools, die Sie benötigen. Beseitigen Sie Infrastruktur, starten Sie kostenlos und verwirklichen Sie Ihre KI-Vision.
Entdecken Sie mehr von Novita
Abonnieren Sie, um die neuesten Beiträge per E-Mail zu erhalten.





