Maximieren Sie Ihre Produktivität mit der Wan 2.2 I2V API von Novita AI

Maximieren Sie Ihre Produktivität mit der Wan 2.2 I2V API von Novita AI

Novita AI stellt stolz die Wan 2.2 I2V API vor, ein hochmodernes Tool für die Bild-zu-Video (I2V)-Generierung, das die Erstellung von Videoinhalten revolutioniert. Als Erweiterung von Alibabas Wan 2.2 T2V nutzt diese API die Mixture-of-Experts (MoE)-Architektur und fortschrittliche Kompressionstechniken, um 720P-Videos mit 24 Bildern pro Sekunde zu liefern, optimiert für Consumer-GPUs. Dieser Artikel beleuchtet, was die Wan 2.2 I2V ist, ihre Funktionen und wie sie Workflows zur Videoerstellung transformieren kann.

Was ist die Wan 2.2 I2V?

Die Wan 2.2 I2V ist ein fortschrittlicher, KI-gestützter Videogenerator, der Text- oder Bildeingaben in kurze Videoclips umwandelt. Der Begriff „I2V“ steht für Bild-zu-Video und bezeichnet einen ihrer Generierungsmodi (sie unterstützt zudem Text-zu-Video). Wan 2.2 ist die zweite Hauptversion der Wan-Modellreihe und bringt signifikante Verbesserungen gegenüber Version 2.1. Sie nutzt eine hochmoderne Mixture-of-Experts (MoE)-Diffusionsarchitektur, um qualitativ hochwertige Videoausgaben in 720p-Auflösung aus Prompts zu erzeugen. Das Modell ist quelloffen (lizenziert unter Apache 2.0) und darauf ausgelegt, professionelle Ergebnisse auf Standard-Consumer-Hardware zu liefern.

Kompakte und vielseitige TI2V-Lösung: Wan2.2 führt ein quelloffenes 5B-Modell ein, das von seiner fortschrittlichen Wan2.2-VAE angetrieben wird und ein beeindruckendes Kompressionsverhältnis von 16×16×4 erreicht. Dieses leichtgewichtige Modell unterstützt nahtlos sowohl die Text-zu-Video (T2V)- als auch die Bild-zu-Video (I2V)-Generierung in 720P-Auflösung mit 24 Bildern pro Sekunde. Optimiert für Consumer-GPUs wie die NVIDIA 4090, zählt es zu den schnellsten verfügbaren 720P@24fps-Modellen und ist damit eine ideale Lösung sowohl für industrielle Anwendungen als auch für die akademische Forschung.

Architektur und Bildverständnis der Wan 2.2 I2V

Zwei Arten von MoE

Das Mixture-of-Experts (MoE)-Diffusionsmodell der Wan 2.2 nutzt sowohl Expertennetzwerke für hohes als auch für niedriges Rauschen, um unterschiedliche Komplexitäten von Bildeingaben besser zu verarbeiten. Beispielsweise eignet sich das Hochrauschnetzwerk hervorragend für die Verarbeitung komplexer Bilddetails, während das Niedrigrauschnetzwerk sich auf die allgemeine Szenenzusammensetzung konzentriert. Diese Arbeitsteilung verbessert die Fähigkeit des Modells, Bildinhalte effektiv zu analysieren und zu interpretieren.

Kompression und raumzeitliche Konsistenz

Das Modell verwendet den Wan-VAE (Variational Autoencoder) zur raumzeitlichen Kompression und erreicht eine 64-fache Kompression (4-fach zeitlich, 16×16 räumlich). Dies ermöglicht eine effiziente Codierung und Decodierung von Videoframes unter Wahrung wesentlicher Details und zeitlicher Kohärenz. Diese Kompressionstechnik verbessert nicht nur die Generierungseffizienz, sondern sorgt auch für einen reibungslosen und natürlichen Übergang von statischen Bildern zu dynamischen Videos.

Die Aufrechterhaltung der zeitlichen Konsistenz ist bei der Generierung von Videos aus Bilden entscheidend, insbesondere für Aspekte wie Lichtänderungen und Objektbewegungen. Die 3D-Kompressionsarchitektur des Wan-VAE gewährleistet visuelle Flüssigkeit und erweitert Bildinhalte korrekt über die Zeit, was hochwertige Videoausgaben sichert.

Hauptfunktionen der Wan 2.2 I2V

Funktion Beschreibung
🎥 Kinematische Ästhetiksteuerung Bietet eine ästhetische Steuerung auf kinematischer Ebene mit professionellen filmischen Parametern. Prompts können Beleuchtung, Farbtöne, Kamerawinkel und Kompositionsdetails angeben, um das Aussehen des generierten Videos zu beeinflussen.
🤖 Komplexe Bewegung & Stabilität Zeichnet sich durch die reibungslose Wiedergabe von großflächigen, komplexen Bewegungen aus. Verarbeitet schnelle Kamerabewegungen (Schwenks, Neigungen, Zooms) und mehrere bewegte Objekte mit verbesserter Stabilität. Dank der MoE-Experten erzeugt es flüssigere Bewegungen mit weniger Ruckeln oder Kontinuitätsproblemen.
🎯 Präzise semantische Übereinstimmung Zeigt ein besseres Verständnis für komplexe Szenen und Multi-Objekt-Interaktionen und erzeugt Ausgaben, die genau der Prompt-Absicht des Benutzers entsprechen. Erweiterte Trainingsdaten und verfeinerte Diffusionsstrategien verbessern Konsistenz und Zuverlässigkeit.

Welche Workflow-Optimierungen gibt es in Wan 2.2?

Welche Workflow-Optimierungen gibt es in Wan 2.2?

Wan 2.2 I2V im Vergleich zu Wan 2.1 I2V

Wan 2.2 I2V im Vergleich zu Wan 2.1 I2V: Architektur

Kategorie Wan 2.1 Wan 2.2
Diffusionsmodell Dichte Diffusionsarchitektur: Ein einzelnes Modell verarbeitete alle Entrauschungs-Zeitschritte. Mixture-of-Experts (MoE)-Diffusion: Zwei spezialisierte Teilmodelle verarbeiten unterschiedliche Rauschpegel, wobei eines frühe Zeitschritte mit hohem Rauschen und das andere spätere Zeitschritte mit niedrigem Rauschen verarbeitet. Dies verbessert Detailtreue und Kohärenz.
Modellgröße & Parameter ~14B Parameter für Text-zu-Video- und Bild-zu-Video-Aufgaben. Kleinere Varianten (z. B. 1,3B) waren für schnelleres Prototyping verfügbar. ~27B Parameter (2×14B Experten), wobei jeweils nur ein Experte gleichzeitig aktiv ist. Ein neues 5B-Hybridmodell für TI2V (Text- und Bildkonditionierung) wurde eingeführt, das 720p-Ausgaben liefert und die Rolle des kleineren Modells von 2.1 übernimmt, aber mit besserer Wiedergabetreue.
Trainingsdaten & ästhetische Labels Begrenzter Datensatz mit grundlegenden Deskriptoren zur Prompt-Steuerung. Trainiert auf einem Datensatz mit 65 % mehr Bildern und 83 % mehr Videoclips. Einführung von kinematischen Tags (z. B. Beleuchtung, Farbe, Komposition) für eine feinere Stilsteuerung im Vergleich zu den grundlegenden Deskriptoren von 2.1.
Grundlegende Komponenten Verwendete Wan-VAE für 1080p-Codierungen, mit Fokus auf der Aufrechterhaltung der zeitlichen Konsistenz. Verbesserte Integration von Wan-VAE und MoE-Diffusion für ein besseres Gleichgewicht zwischen Qualität und Ressourcennutzung. Hinzugefügt wurde FlashAttention für schnellere Transformer-Operationen, was die Leistung im Vergleich zu 2.1 verbessert.
Funktionen Unterstützte T2V, I2V und Bearbeitung mit dem VACE-Framework. LoRA-Feinabstimmung wurde vollständig unterstützt. Unterstützt T2V, I2V und verbesserten Stiltransfer. Noch kein VACE-Framework und nur begrenzte LoRA-Kompatibilität.

Wan 2.2 I2V im Vergleich zu Wan 2.1 I2V: Leistung

Wan 2.2 T2V im Vergleich zu Wan 2.1 T2V: Leistung

Von Artificial Analysis

Wan 2.2 I2V im Vergleich zu Wan 2.1 I2V: Generierung

Wan 2.2 I2V

Wan 2.1 I2V

Kosten und Zugriff auf die Wan 2.2 I2V

Hardwarekosten

  • I2V 5B-Modell:
    • Minimaler VRAM-Bedarf: 24 GB.
    • Minimales GPU-Modell: NVIDIA RTX 4090.
    • Minimale GPU-Anzahl: 1.
    • Geschwindigkeit pro GPU: Ca. 524,8 Sekunden bei 720P-Auflösung.
    • Ungefährer GPU-Preis: Die NVIDIA RTX 4090 wurde am 12. Oktober 2022 veröffentlicht, mit einem Startpreis von 1.599 $.
  • I2V A14B-Modell:
    • 480P-Auflösung:
      • Minimaler VRAM-Bedarf: 40 GB.
      • Minimales GPU-Modell: NVIDIA A100 40GB.
      • Minimale GPU-Anzahl: 1.
      • Geschwindigkeit pro GPU: Ca. 810,0 Sekunden.
      • Ungefährer GPU-Preis: Die NVIDIA A100 40GB ist für 13.135 $ gelistet.
    • 720P-Auflösung:
      • Minimaler VRAM-Bedarf: 80 GB.
      • Minimales GPU-Modell: NVIDIA H100 80GB.
      • Minimale GPU-Anzahl: 1.
      • Geschwindigkeit pro GPU: Ca. 1.055,9 Sekunden.
      • Ungefährer GPU-Preis: Preisinformationen für die NVIDIA H100 80GB sind in den vorliegenden Quellen nicht verfügbar.

API-Kosten

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen, und gleichzeitig eine kostengünstige und zuverlässige GPU-Cloud für Aufbau und Skalierung bereitstellt.

Modell Preis Auflösung Generierungszeit
Wan 2.1 I2V 0,3 $/Video 1280*720 5 s
Wan 2.2 I2V 0,4 $/Video 1080P 5 s

Probieren Sie Wan 2.2 jetzt aus!

Zugriffshandbuch für die Wan 2.2 I2V

Schritt 1: Anmelden und auf die Modellbibliothek zugreifen

Melden Sie sich bei Ihrem Konto an und klicken Sie auf die Schaltfläche Modellbibliothek.

Anmelden und auf die Modellbibliothek zugreifen

Schritt 2: Wählen Sie Ihr Modell

Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell, das Ihren Anforderungen entspricht.

Schritt 2: Wählen Sie Ihr Modell

Schritt 3: Holen Sie sich Ihren API-Schlüssel

Zur Authentifizierung bei der API stellen wir Ihnen einen neuen API-Schlüssel zur Verfügung. Wenn Sie die Seite „Einstellungen“ aufrufen, können Sie den API-Schlüssel wie in der Abbildung gezeigt kopieren.

API-Schlüssel abrufen

Schritt 4: Installieren Sie die API

Installieren Sie die API über den für Ihre Programmiersprache spezifischen Paketmanager.

Schritt 4: Installieren Sie die API

Probieren Sie Wan 2.2 jetzt aus!

Nach der Installation importieren Sie die erforderlichen Bibliotheken in Ihre Entwicklungsumgebung. Initialisieren Sie die API mit Ihrem API-Schlüssel, um mit dem Novita AI LLM zu interagieren. Dies ist ein Beispiel für die Nutzung der Chat-Completion-API für Python-Nutzer.

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-i2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>",
        "img_url": "<string>"
    },
    "parameters": {
        "resolution": "<string>",
        "duration": 123,
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Wan 2.2 I2V: Häufige Probleme und Lösungen

Problem Lösung
Flackernde Frames Erhöhen Sie die Diffusionsschritte oder die Bildrate; verwenden Sie den I2V-Modus; stabilisieren Sie in der Nachbearbeitung.
Langsame Ausführung/Out-of-Memory Verwenden Sie das 5B-Modell oder eine niedrigere Auflösung; aktivieren Sie Speicheroptimierungen; erwägen Sie Cloud-GPUs.
Prompt stimmt nicht überein Vereinfachen Sie Prompts; verwenden Sie negative Prompts; verfeinern Sie iterativ für bessere Ergebnisse.
Verschwommene Ausgabe Verwenden Sie „DetailZ“ LoRA; fordern Sie schärfere Details in Prompts an; schärfen oder vergrößern Sie in der Nachbearbeitung.
Inkonsistente Objekte Verwenden Sie Referenzbilder im I2V-Modus; generieren Sie kürzere Clips und verketten Sie diese; halten Sie Prompts konstant.
Kein Audio Fügen Sie Audio in der Nachbearbeitung hinzu; verwenden Sie KI-Tools für Musik oder Voiceover und synchronisieren Sie es mit den visuellen Inhalten.

Vor- und Nachteile der Wan 2.2 I2V für kleine Unternehmen

Vorteile:

  1. Niedrigere Kosten für die Inhaltsproduktion: Kein Bedarf an Dreharbeiten oder einem Produktionsteam, was Budget spart. Ideal für Startups mit begrenzten Ressourcen.
  2. Schnellere kreative Umsetzung: Videos können in Minuten generiert werden, was schnelle Reaktionen auf Trends und schnelles Prototyping ermöglicht.
  3. Zugänglich auf Consumer-Hardware: Läuft auf Standard-PCs mit angemessenen GPUs, sodass keine teure Spezialhardware benötigt wird.
  4. Kreative Flexibilität: Unterstützt verschiedene Stile und Szenen und passt sich unterschiedlichen Anforderungen an, indem einfach Prompts angepasst werden.
  5. Quelloffen & sich weiterentwickelndes Tool: Die Unterstützung durch die Community sorgt für kontinuierliche Updates und verringert das Risiko der Veralterung.

Nachteile:

  1. Lernkurve und Fachwissen: Erfordert KI-Kenntnisse oder Zeit, um die Erstellung von Prompts zu erlernen, was für nicht technisch versierte Benutzer eine Herausforderung darstellt.
  2. Rechenkosten: Die großflächige Videogenerierung verursacht laufende GPU- und Energiekosten, die budgetiert werden müssen.
  3. Qualitätsbegrenzungen: Die Ausgaben sind auf 720p begrenzt und erfordern möglicherweise eine Nachbearbeitung für hochwertige Anforderungen.
  4. Konsistenz und Branding: Generierte Inhalte können über verschiedene Videos hinweg inkonsistent sein, was eine zusätzliche Kuratierung für die Markenausrichtung erfordert.
  5. Ethische und rechtliche Überlegungen: Aspekte wie Urheberrecht, Transparenz und Vertrauen des Publikums müssen sorgfältig verwaltet werden.
Trend Beschreibung
Höhere Auflösung Unterstützung für 1080p±Auflösung und längere Videodauern (10–15 Sekunden oder vollständige Kurzfilme).
Audio & Interaktion Integration von Audio-Generierung und interaktiver Bearbeitung (z. B. Video-zu-Video-Verbesserungen).
Mehr Kontrolle Tools für Storyboards, Frame-Steuerung und konsistente Charaktere/Markenbildung über Szenen hinweg.
Schneller & zugänglicher Nahezu Echtzeit-Videogenerierung mit optimierten Modellen und Hardware-Fortschritten (z. B. GPUs, Cloud).
Breitere Einführung Einsatz in Unterhaltung, Bildung und Werbung, mit einem Ökosystem aus Plugins und Community-Stilen.
Wettbewerb & Zusammenarbeit Der quelloffene Wan nutzt Forschungsfortschritte, treibt Innovation und Hybridmodelle für höhere Qualität voran.

Die Wan 2.2 I2V API setzt einen neuen Standard für die Videogenerierung und bietet kinematische Ästhetiksteuerung, präzise Bewegungsverarbeitung und unübertroffene Effizienz. Egal, ob Sie Creator, Vermarkter oder Forscher sind: Die Funktionen von Wan 2.2 vereinfachen Workflows, senken Kosten und eröffnen neue kreative Möglichkeiten. Mit ihrer quelloffenen Grundlage und robusten API ist die Wan 2.2 I2V die Zukunft der zugänglichen und leistungsstarken Videocreating.

Häufig gestellte Fragen

Was ist die Wan 2.2 I2V?

Die Wan 2.2 I2V ist eine fortschrittliche API zur Generierung hochwertiger Videos aus Bildern, die Alibabas MoE-Architektur und Wan-VAE-Kompression für flüssige, konsistente visuelle Inhalte nutzt.

Welche Auflösung unterstützt Wan 2.2?

Die API unterstützt 720P-Auflösung mit 24 Bildern pro Sekunde, optimiert für Consumer-GPUs wie die NVIDIA RTX 4090.

Wie gewährleistet Wan 2.2 die zeitliche Konsistenz?

Wan 2.2 nutzt die 3D-raumzeitliche Kompression über den Wan-VAE, um reibungslose Übergänge sowie kohärente Beleuchtung und Bewegung zu gewährleisten.

Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen verwirklicht. Integrierte APIs, Serverless, GPU-Instanzen – die kostengünstigen Tools, die Sie brauchen. Eliminieren Sie Infrastruktur, starten Sie kostenlos und machen Sie Ihre KI-Vision zur Realität.

Empfohlene Lektüre