Wan 2.1 14B Image-to-Video ist live auf Novita AI

Inhaltsverzeichnis

Fähigkeiten von Wan2.1 I2V
Wichtige Innovationen von Wan 2.1
Vbench von Wan 2.1
Hardware-Anforderungen von Wan 2.1
Wie greife ich über Novita AI auf Wan 2.1 zu?
Häufig gestellte Fragen

Novita bietet äußerst wettbewerbsfähige Preise auf dem Markt.

Zum Beispiel kostet ein Wan 2.1 I2V 720P 5-Sekunden-Video nur 0,30 $ pro Video, ein Wan 2.1 I2V 480P 5-Sekunden-Video kostet nur 0,20 $ pro Video!

Derzeit werden bis zu 3 Loras unterstützt!

Starten Sie noch heute eine kostenlose Testversion auf Novita AI. Zur Integration der Wan 2.1 API besuchen Sie unsere Entwicklerdokumentation für weitere Details.

Wan 2.1 I2V (Image-to-Video) ist ein hochmodernes Videogenerierungsmodell, das Spitzentechnologien wie Wan-VAE und Video Diffusion DiT vereint. Es zeichnet sich durch hochgetreue Videorekonstruktion, effiziente Komprimierung und nahtlose Text-zu-Video-Generierung aus, gestützt durch einen robusten und sauberen Trainingsdatensatz.

Fähigkeiten von Wan2.1 I2V

Wichtige Innovationen von Wan 2.1

1. Wan-VAE

Überblick

Ein 3D-Variations-Autoencoder (VAE), entwickelt für effiziente Komprimierung und hochgetreue Bewegungsreproduktion.
Kann 1080P-Videos kodieren und dekodieren, während zeitliche Kohärenz erhalten bleibt.
Integriert mehrere Strategien zur Optimierung der raumzeitlichen Komprimierung, Reduzierung des Speicherverbrauchs und Sicherstellung zeitlicher Kausalität.

Adressierte Probleme

Effiziente Komprimierung: Reduziert Speicher- und Rechenanforderungen für Videodaten.
Hochgetreue Rekonstruktion: Stellt sicher, dass generierte Videos von hoher Qualität und Bewegung kohärent sind.
Zeitliche Konsistenz: Vermeidet häufige Probleme wie Bilddiskontinuitäten oder Ruckeln in generierten Videos.

2. Video Diffusion DiT

Überblick

Basiert auf Diffusion Transformers, erweitert durch das Flow Matching Framework.
Unterstützt mehrsprachige Texteingabe (über T5 Encoder) und Texteinbettung (Cross-Attention).
Verwendet ein gemeinsames MLP zur Vorhersage von Modulationsparametern für Zeit-Einbettungen, sodass jeder Transformer-Block eigene Verzerrungen lernen kann, was die Leistung verbessert.

Adressierte Probleme

Tiefe Integration von Text- und Videogenerierung: Ermöglicht es dem Modell, Videos besser zu verstehen und gemäß Textbeschreibungen zu generieren.
Verbesserte Generierungsleistung: Steigert die Qualität und Ausdruckskraft generierter Videos signifikant, ohne die Anzahl der Parameter zu erhöhen.
Multimodale Unterstützung: Verarbeitet mehrere Sprachen und Eingabetypen, erweitert die Anwendungsszenarien.

3. Kandidatendatensatz

Überblick

Ein großer, kuratierter und deduplizierter Datensatz aus Bildern und Videos.
Verwendet einen vierstufigen Datenbereinigungsprozess mit Fokus auf Datenabmessungen, visuelle Qualität und Bewegungsqualität.
Erstellt einen vielfältigen und qualitativ hochwertigen Trainingssatz.

Adressierte Probleme

Datenrauschen und Redundanz: Entfernt effektiv qualitativ minderwertige oder doppelte Daten und verbessert die Effektivität der Trainingsdaten.

Vielfalt und Qualität: Liefert dem Modell reichhaltige und saubere Stichproben, verbessert die Generalisierung und Generierungsfähigkeiten.
Großflächiges Training: Unterstützt effizientes Training auf großen, qualitativ hochwertigen Datensätzen.

Vbench von Wan 2.1

Wan 2.1 (Wan-14B) zeigt hervorragende Leistung in Kernaufgaben wie ID-Konsistenz, physikalischer Plausibilität und Glätte. Die gewichtete Gesamtpunktzahl gehört zu den höchsten in der Branche, was es zu einem der führenden Videogenerierungsmodelle auf dem Markt macht. Es gibt jedoch noch Verbesserungspotenzial in Bereichen wie Stilisierungsfähigkeit und Kamerasteuerung.

Hardware-Anforderungen von Wan 2.1

Wan 2.1 stellt hohe Hardware-Anforderungen, insbesondere für hochauflösende und große Modelle. Der Speicherbedarf für Wan 2.1 I2V liegt bei etwa 80 GB. Es wird empfohlen, mehrere leistungsstarke, Rechenzentrums-GPUs (wie A100, H100 oder H20) zu verwenden, um die Speicher- und Geschwindigkeitsanforderungen zu erfüllen. Consumer-GPUs eignen sich nur für kleine Modelle und niedrige Auflösungen.

Modell	Einzelkarten-kompatibel	Multi-GPU-Empfehlung	Empfehlungsstufe
RTX 4090	Nein	Nein	nur für T2V-1.3B bei 480P
H20	Nicht unterstützt	4 GPUs oder 8 GPUs	★★★
A800/A100	Unterstützt	4 GPUs oder 8 GPUs	★★★★
H800/H100	Unterstützt	4 GPUs oder 8 GPUs	★★★★★

Wie greife ich über Novita AI auf Wan 2.1 zu?

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern eine einfache Möglichkeit bietet, KI-Modelle über unsere einfache API bereitzustellen, und gleichzeitig eine erschwingliche und zuverlässige GPU-Cloud für das Erstellen und Skalieren bereitstellt.

Schritt 1: Einloggen und auf die Modellbibliothek zugreifen

Melden Sie sich in Ihrem Konto an und klicken Sie auf die Schaltfläche Modellbibliothek.

Wan 2.1 I2V jetzt ausprobieren!

Schritt 2: Wählen Sie Ihr Modell

Durchsuchen Sie die verfügbaren Optionen und wählen Sie das Modell, das Ihren Anforderungen entspricht.

Schritt 3: Starten Sie Ihre kostenlose Testversion

Schritt 4: Holen Sie sich Ihren API-Schlüssel

Zur Authentifizierung mit der API stellen wir Ihnen einen neuen API-Schlüssel zur Verfügung. Wenn Sie die Seite betreten, können Sie den API-Schlüssel wie im Bild angegeben kopieren.

Schritt 5: Installieren Sie die API

Installieren Sie die API mit dem für Ihre Programmiersprache spezifischen Paketmanager.

Importieren Sie nach der Installation die erforderlichen Bibliotheken in Ihre Entwicklungsumgebung. Initialisieren Sie die API mit Ihrem API-Schlüssel, um mit Novita AI LLM zu interagieren. Dies ist ein Beispiel für die Verwendung der Chat-Completions-API für Python-Benutzer.

import requests

url = "https://api.novita.ai/v3/async/wan-i2v"

payload = {
    "extra": {"webhook": {
            "url": "<string>",
            "test_mode": {
                "enabled": True,
                "return_task_status": "<string>"
            }
        }},
    "model_name": "<string>",
    "image_url": "<string>",
    "width": 123,
    "height": 123,
    "loras": [
        {
            "path": "<string>",
            "scale": {}
        }
    ],
    "seed": 123,
    "prompt": "<string>",
    "negative_prompt": "<string>",
    "steps": 123,
    "guidance_scale": 123,
    "flow_shift": 123,
    "enable_safety_checker": True
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

Häufig gestellte Fragen

Welche Hardwareanforderungen hat Wan 2.1 I2V?

Wan 2.1 I2V ist ein fortschrittliches Modell zur Generierung hochwertiger Videos aus Text- oder Bildeingaben. Seine Einzigartigkeit liegt in der hochgetreuen Bewegungsreproduktion, zeitlichen Konsistenz und mehrsprachigen Unterstützung für die Text-zu-Video-Generierung.

Was ist Wan 2.1 I2V und was macht es einzigartig?

Wettbewerbsfähige Preise: 0,40 $ pro 5-Sekunden-720P-Video im Vergleich zu 2,39 $ auf ähnlichen Plattformen.
Einfach zu verwendende API mit ausführlicher Dokumentation für Entwickler.

Wie kann ich auf Wan 2.1 I2V zugreifen?

Sie können Wan 2.1 I2V über die Novita AI-Plattform nutzen. Melden Sie sich einfach an, wählen Sie das Modell, holen Sie sich Ihren API-Schlüssel und integrieren Sie die API in Ihre Entwicklungsumgebung.

Novita AI ist die All-in-One-Cloud-Plattform, die Ihre KI-Ambitionen vorantreibt. Integrierte APIs, Serverless, GPU-Instanz – die kosteneffizienten Werkzeuge, die Sie benötigen. Verzichten Sie auf Infrastruktur, starten Sie kostenlos und machen Sie Ihre KI-Vision zur Realität.

Wan 2.1 14B Image-to-Video ist live auf Novita AI – nur $0,04/Sekunde!

Fähigkeiten von Wan2.1 I2V