Wan 2.2 T2V auf Novita AI: Was ist neu und warum es wichtig ist

Wan 2.2 T2V auf Novita AI: Was ist neu und warum es wichtig ist

Novita AI hat offiziell die neueste Wan 2.2 API gestartet, ein hochmodernes Tool zur Text-zu-Video-Generierung. Dieser Artikel stellt vor, was Wan 2.2 ist, hebt seine neuen Funktionen und Updates hervor und erläutert seine Leistung. Zusätzlich gehen wir auf häufig gestellte Fragen ein, damit du mit dieser leistungsstarken Technologie durchstarten kannst.

Was ist Wan 2.2 T2V?

Wan 2.2 T2V ist Alibabas neuestes Open-Source-Text-zu-Video-generatives KI-Modell, das ein großes Upgrade gegenüber dem früheren Wan 2.1-System darstellt. Es ist Teil von Alibabas „Wan“-Serie von Videogenerierungsmodellen (im Chinesischen oft Tongyi Wanxiang genannt) und zeichnet sich dadurch aus, dass es das erste Open-Source-Videomodell der Branche ist, das eine Mixture-of-Experts (MoE)-Architektur verwendet. Wan 2.2 umfasst tatsächlich eine Suite von Modellen, darunter ein dediziertes Text-zu-Video-Modell und zugehörige Tools, aber „Wan 2.2 T2V“ bezieht sich speziell auf die Text-zu-Video-Komponente dieser Serie.

Wan 2.2 T2V Spezifikationen

Kategorie Beschreibung
Modellarchitektur Verwendet eine Mix-of-Experts-Architektur mit zwei Expert-Untermodellen.
Parameteranzahl Das gesamte Modell hat 27 Milliarden Parameter, aber nur 14 Milliarden sind während der Inferenz aktiv.
Designvorteile Durch die Verwendung spezialisierter „Experten“ (jeweils ca. 14B Parameter) verdoppelt sich die Modellgröße, während die Laufzeitkosten im Vergleich zum Vorgänger Wan 2.1 (14B Parameter) ähnlich bleiben.
Veröffentlichte Modellvarianten 1. T2V-A14B: Ein Text-zu-Video-Modell zur Generierung von Videos aus Text.
2.TI2V-5B: Ein Hybridmodell für beide Aufgaben, optimiert für Consumer-Hardware (5B Parameter).
Hardware-Optimierung TI2V-5B ist für Consumer-GPUs optimiert, z. B. für die Ausführung auf einer einzelnen NVIDIA RTX 4090.
Auflösung und Bildrate Das Standard-Wan 2.2 T2V-Modell kann 5 Sekunden lange Videos mit einer 720p-Auflösung (1280×720) und 24 Bildern pro Sekunde generieren.

Wan 2.2 T2V Hauptfunktionen

Filmische Qualität & Kontrolle

  • Trainiert auf einem sorgfältig kuratierten Datensatz mit ästhetischen Labels, um Videos mit filmischem Look and Feel zu generieren.
  • Unterstützt feingranulare Textsteuerung, sodass Benutzer folgende Aspekte angeben können:
    • Lichtverhältnisse
    • Tageszeit
    • Farbton
    • Kamerawinkel
    • Brennweite
    • Weitere filmische Aspekte.
  • Versteht filmische Begriffe wie „goldene Stunde Beleuchtung“ und „Weitwinkelobjektiv“ und gewährleistet so eine präzise Kontrolle über die Videoausgabe.

Multi-Modale Generative Suite

  • Enthält eine Style-Transfer-Funktionalität:
    • Ermöglicht die One-Click-Anwendung künstlerischer Stile, z. B. die Umwandlung von Fotos oder Videos in Cartoon- oder Skizzenformate (veo-video.org).
  • Bietet eine einheitliche Modellfamilie, die verschiedene generative Aufgaben unterstützt, was es zu einer umfassenden kreativen KI-Plattform macht.

Open Source & Community-Ökosystem

Lizenziert unter Apache 2.0, was die kommerzielle Nutzung erlaubt (hackernoon.com). Unterstützt von einer aktiven Community, die beiträgt:

  • Anleitungen
  • Integrationstools (z. B. für ComfyUI)
  • Fine-Tuning-Optimierungen
  • Allgemeiner Support.

Welche Arbeitsprozess-Optimierungen gibt es in Wan 2.2?

Welche Arbeitsprozess-Optimierungen gibt es in Wan 2.2?

Wan 2.2 T2V vs Wan 2.1 T2V

Wan 2.2 T2V vs Wan 2.1 T2V: Architektur

Aspekt Wan 2.1 Wan 2.2
Architektur Einstufiger Diffusion Transformer (UNet). Zweistufige Mixture-of-Experts (MoE) mit High-Noise- und Low-Noise-Experten.
Parameter 14B (Basis) und 1,3B (klein). 27B gesamt (14B aktiv); 14B T2V, 14B I2V und 5B Hybridmodell.
Trainingsdaten Großer Datensatz, weniger kuratiert. +65 % Bilder, +83 % Videos, annotiert für Ästhetik und filmische Attribute.
Ausgabequalität Gut, aber anfällig für Flackern; geeignet für einfachere, stilisierte Videos. Höhere Detailtreue, bessere zeitliche Konsistenz, Realismus und filmische Visualisierungen.
Funktionen T2V, I2V, Bearbeitung (VACE-Framework), LoRA-Fine-Tuning unterstützt. T2V, I2V, besserer Style-Transfer; noch kein VACE, eingeschränkte LoRA-Kompatibilität.

Wan 2.2 T2V vs Wan 2.1 T2V: Leistung

Wan 2.2 T2V vs Wan 2.1 T2V

Von Artificial Analysis

Wan 2.2 T2V vs Wan 2.1 T2V: Generierung

Wan 2.2 T2V

Wan 2.1 T2V

Kosten und Zugang zu Wan 2.2 T2V

Hardwarekosten

Modell Minimale VRAM-Anforderung (GB) Minimales GPU-Modell Minimale GPU-Anzahl Einzel-GPU-Geschwindigkeit (s) (480P) Einzel-GPU-Geschwindigkeit (s) (720P) Ungefährer GPU-Preis (USD)
T2V-5B 22,6 NVIDIA RTX 4090 1 534,7 524,8 1.599 $
T2V-A14B 41,3 NVIDIA A100 1 1133,9 4048,7 10.000 – 15.000 $

Hinweise:

  • NVIDIA RTX 4090: Veröffentlicht im Oktober 2022 mit einem UVP von 1.599 $.
  • NVIDIA A100: Die Preise variieren je nach Konfiguration und Marktfaktoren. Das 40GB-PCIe-Modell liegt typischerweise zwischen 10.000 $ und 12.000 $, während das 80GB-PCIe-Modell zwischen 12.000 $ und 15.000 $ liegt.

API-Kosten

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen, und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud für die Entwicklung und Skalierung bereitstellt.

Modell Preis Auflösung Generierungszeit
Wan 2.1 T2V 0,3 $/Video 1280*720 5s
Wan 2.2 T2V 0,4 $/Video 1080P 5s

Teste Wan 2.2 jetzt!

Zugriffsanleitung für Wan 2.2 T2V

Schritt 1: Einloggen und auf die Modellbibliothek zugreifen

Logge dich in deinem Konto ein und klicke auf die Schaltfläche Modellbibliothek.

Einloggen und auf die Modellbibliothek zugreifen

Schritt 2: Wähle dein Modell

Durchstöbere die verfügbaren Optionen und wähle das Modell, das deinen Anforderungen entspricht.

Schritt 2: Wähle dein Modell

Schritt 3: Hol dir deinen API-Schlüssel

Zur Authentifizierung mit der API stellen wir dir einen neuen API-Schlüssel zur Verfügung. Auf der Seite „Einstellungen“ kannst du den API-Schlüssel wie in der Abbildung gezeigt kopieren.

API-Schlüssel abrufen

Schritt 4: Installiere die API

Installiere die API mit dem für deine Programmiersprache spezifischen Paketmanager.

Schritt 4: Installiere die API

Teste Wan 2.2 jetzt!

Nach der Installation importierst du die erforderlichen Bibliotheken in deine Entwicklungsumgebung. Initialisiere die API mit deinem API-Schlüssel, um mit der Novita AI LLM zu interagieren. Dies ist ein Beispiel für die Verwendung der Chat-Completions-API für Python-Nutzer.

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "size": "<string>",
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Häufige Wan 2.2 T2V Probleme und Lösungen

Installation und GPU-Kompatibilität

  • Problem: Fehler auf älteren GPUs (z. B. GTX 10-Serie) aufgrund von FlashAttention.
  • Lösung: Verwende kompatible GPUs wie RTX 30/40-Serie oder A-Serie. Alternativ deaktiviere FlashAttention (--disable_flashattn) oder ersetze es durch xFormers für langsamere, aber funktionierende Leistung.

Langsame Generierungsgeschwindigkeit

  • Problem: Extrem langsame Ausgabe, insbesondere auf bescheidenen GPUs.
  • Lösung:
    • Optimiere die Schrittanzahl (30–50 Schritte reichen oft aus).
    • Verwende das kleinere TI2V-5B-Modell für schnellere Ergebnisse.
    • Stelle sicher, dass die korrekten Expert-Umschalteinstellungen aktiviert sind (Standardkonfigurationen werden empfohlen).

Ausgabequalitätsprobleme (Flackern/Artefakte)

  • Problem: Flackernde Frames oder Artefakte in generierten Videos.
  • Lösung:
    • Passe die CFG-Skala an, um ein besseres Gleichgewicht zwischen Präzision und Flüssigkeit zu erreichen.
    • Passe den Expert-Übergabeschritt für eine optimale Diffusion an.
    • Aktiviere temporale Aufmerksamkeit, um die Frame-Konsistenz aufrechtzuerhalten.
    • Verwende bei Bedarf Nachverarbeitungstools wie Frame-Interpolation.

Prompt oder Ausgabe entspricht nicht den Erwartungen

  • Problem: Ausgaben weichen von den beschriebenen Szenen ab oder enthalten unerwünschte Elemente.
  • Lösung:
    • Formuliere Prompts um und vereinfache sie.
    • Verwende Negative Prompts, um bestimmte Elemente auszuschließen.
    • Stelle sicher, dass die korrekten Modellgewichte verwendet werden (z. B. verwende kein I2V für reine Text-Prompts).

LoRA- und Fine-Tuning-Probleme

  • Problem: Alte LoRA-Modelle von Wan 2.1 sind mit Wan 2.2 nicht kompatibel.
  • Lösung: Warte auf Wan 2.2-spezifische LoRAs oder Fine-Tunes. Stelle sicher, dass jedes Fine-Tuning auf die neue Zwei-Experten-Architektur abgestimmt ist.

Vor- und Nachteile von Wan 2.2 T2V für kleine Unternehmen

Aspekt Vorteile Nachteile
Lizenzierung & Kosten Kostenlos unter Apache 2.0, keine Lizenzgebühren, senkt die Einstiegskosten drastisch. Hohe Rechenkosten für den großflächigen Einsatz (Cloud oder Strom).
Inhaltsqualität Filmische Qualität; interne Erstellung ohne Einstellung von Designern oder Videografen. Unvorhersehbare Ausgabequalität; erfordert möglicherweise manuelle Überprüfung und Bearbeitung.
Kreative Flexibilität Schnelles Prototyping mit Text-Prompts; kurze Durchlaufzeiten für Konzeptvideos. Langsamer für Echtzeit- oder On-Demand-Generierung; besser für vorab geplante Inhalte.
Anpassung Abgestimmt auf Markenästhetik über Prompts oder Fine-Tuning; Open-Source-Flexibilität für tiefere Integration. Erfordert Fachwissen, um Prompts effektiv zu erstellen oder Modelle zu fine-tunen.
Skalierbarkeit Einfache Generierung von Hunderten von Videos; ideal für lokalisierte Anzeigen oder A/B-Tests. Teure Hardware (z. B. RTX 4090 oder A100) für den Einsatz mit hoher Kapazität erforderlich.
Community-Support Unterstützt von der Open-Source-Community; Zugang zu Tutorials, Updates und Tools wie ComfyUI-Workflows. Kein formeller Support oder Garantien; Abhängigkeit von der Hilfsbereitschaft der Community bei der Fehlerbehebung.
Benutzerfreundlichkeit Vereinfacht die Videoerstellung für kleine Teams; fungiert als „mini Kreativstudio“. Erfordert ML-Kenntnisse für die Einrichtung (Python, CUDA, Modellparameter); steile Lernkurve.
Ethisch & Rechtlich Ermöglicht Innovation im KI-gestützten Marketing. Risiken der Generierung unbeabsichtigter oder unangemessener Inhalte; potenzielle rechtliche Haftungsrisiken.

Am besten geeignet für: Kleine Unternehmen mit technischem Fachwissen oder Zugang zu Beratern, die die Kosten für die Inhaltserstellung senken und die Videoproduktion skalieren möchten. Herausforderungen: Erfordert sorgfältige Planung, technische Einrichtung und Überwachung von Hardware und Kosten.

Zukünftige Trends bei Wan 2.2 T2V Technologie

  1. Höhere Auflösung & Länge
    • Entwicklung hin zu 1080p, 4K und längeren Clips (10–20 Sekunden).
    • Verbesserte Kohärenz für längere Videos durch hierarchische Generierung.
  2. Verbesserte Bewegung & Konsistenz
    • Bessere Bewegungsstabilität und natürliche Interaktionen.
    • Spezialisierte Experten für verschiedene Bewegungstypen (z. B. langsam vs. schnell).
  3. Videobearbeitung & Multi-Modalität
    • Textbefehle zur Bearbeitung bestehender Videos (z. B. Szenenwechsel oder Objektentfernung).
    • Integration der Audiogenerierung für vollständige Videoprojekte.
  4. Effizienz & Skalierbarkeit
    • Kleinere, schnellere Modelle (z. B. destillierte 5B-Modelle mit nahezu 27B-Qualität).
    • Echtzeit-Videogenerierung wird durch Hardware-Weiterentwicklungen machbar.
  5. Wachstum von Community & Ökosystem
    • Nischen-Fine-Tunes (z. B. Cartoon-Stil, medizinische Videos).
    • Breitere Einführung durch Plugins und mobile Apps.
  6. Ethik & Regulierung
    • Wasserzeichen und Metadaten für KI-generierte Inhalte.
    • Standards, die Transparenz in Anwendungsfällen wie Werbung gewährleisten.

Die Veröffentlichung der Wan 2.2 API markiert einen bedeutenden Fortschritt in der Text-zu-Video-Technologie. Mit höheren Auflösungen, verbesserter Bewegungskonsistenz und höherer Effizienz eröffnet Wan 2.2 neue Möglichkeiten für Entwickler und Ersteller. Seine flexible API-Schnittstelle ermöglicht es dir, deine Ideen zum Leben zu erwecken und setzt einen neuen Standard für die Videogenerierung.

Häufig gestellte Fragen

Was ist Wan 2.2?

Wan 2.2 ist ein Open-Source-Text-zu-Video-Modell, das in der Lage ist, hochwertige, bewegungskonsistente Videos zu generieren, die für Anwendungen wie Werbung, Filmproduktion und mehr geeignet sind.

Was ist neu in Wan 2.2 im Vergleich zu früheren Versionen?

  • Unterstützung für höhere Auflösungen (bis zu 1080p).
  • Verbesserte zeitliche Konsistenz, die Flackern reduziert.
  • Einführung der Mixture-of-Experts (MoE)-Architektur für eine bessere Verarbeitung komplexer Szenen.

Wie leistungsfähig ist Wan 2.2?

Wan 2.2 glänzt durch Geschwindigkeit, Speicheroptimierung und Ausgabequalität. In Kombination mit High-End-GPUs kann es schnell hochauflösende Videos generieren.

Novita AI ist die All-in-One-Cloud-Plattform, die deine KI-Ambitionen ermöglicht. Integrierte APIs, Serverless, GPU-Instanz – die kostengünstigen Tools, die du brauchst. Beseitige Infrastruktur-Hürden, starte kostenlos und mache deine KI-Vision zur Realität.

Empfohlene Lektüre