Wan 2.7 auf Novita AI: Text-zu-Video vs. Bild-zu-Video vs. Referenz-zu-Video

Wan 2.7 auf Novita AI: Text-zu-Video vs. Bild-zu-Video vs. Referenz-zu-Video

Wan 2.7 auf Novita AI bietet drei verschiedene Generierungsmodi – Text-zu-Video, Bild-zu-Video und Referenz-zu-Video – die jeweils ein anderes Problem lösen. T2V generiert direkt aus einer Eingabeaufforderung (Prompt) Video mit optionalem Audio; I2V animiert ein Startbild und unterstützt die Videofortsetzung; R2V bringt Referenzfiguren mit Mehrfachaufnahme-Steuerung in neue Szenen. Die Wahl des falschen Modus erhöht den Aufwand; dieser Leitfaden ordnet jeden Modus den Workflows zu, für die er tatsächlich geeignet ist.

Was hat sich von Wan 2.6 zu 2.7 geändert?

Wan 2.6 führte Rollenspiele über Referenzvideos, Multi-Shot-Narrative und audiovisuelle Synchronisation ein – eine leistungsfähige, aber weitläufige Funktionssammlung, die auf drei Endpunkte verteilt war, mit einigen Überschneidungen. Wan 2.7 schärft dieses Modell deutlich.

Das deutlichste Upgrade liegt im I2V. Wan 2.7 I2V geht über die Einzelbild-Animation hinaus und unterstützt drei verschiedene Eingabemodi in einem Endpunkt: Nur erstes Bild, erstes+letztes Bild und Videofortsetzung. Wan 2.6 I2V verarbeitete nur Einzelbild-Animation; die Fortsetzung wurde von R2V übernommen. Diese Konsolidierung ist wichtig für Entwickler, die Pipelines zur Erweiterung oder Wiederverwendung vorhandenen Filmmaterials erstellen.

Auch R2V in 2.7 ändert sein Figurenmodell. Während 2.6 bis zu zwei Referenzvideos für Rollenspiele akzeptierte, akzeptiert 2.7 bis zu fünf Referenzmedien (Bilder oder Videos), die jeweils einem benannten Figurenslot (character1, character2, usw.) in Ihrem Prompt zugeordnet werden. Die Interaktion mehrerer Figuren im großen Maßstab ist nun eine erstklassige Funktion, keine Notlösung.

Die Kernfunktionalität von T2V – Text-Prompt zu Video mit Audio – bleibt ähnlich, aber der Endpunkt ist sauberer: Die Audio-Generierung ist standardmäßig aktiviert (Sie können sie deaktivieren), und das Flag prompt_extend schreibt kurze Prompts vor der Generierung intelligent um. Die Parameteroberfläche von Wan 2.6 T2V wird mit Verfeinerungen fortgeführt, nicht ersetzt.

Auch die Dauerbereiche unterscheiden sich in 2.7 je nach Modus: T2V und I2V unterstützen beide 2–15 Sekunden, während R2V bei 10 Sekunden gedeckelt ist. Das 2-Sekunden-Minimum ersetzt die 5-Sekunden-Untergrenze aus den Standard-Dauern von 2.6.

Modusübersicht und Schnellauswahltabelle

T2V I2V R2V
Eingabe Text-Prompt Bild + optionaler Text Referenzmedien (Bilder/Videos) + Text
Ausgabedauer 2–15 s 2–15 s 2–10 s
Auflösungen 720P, 1080P 720P, 1080P 720P, 1080P
Audio Automatisch generiert oder audiogesteuert Automatisch generiert oder audiogesteuert Steuerbar über audio-Flag + reference_voice
Aufnahme-Steuerung Einzelaufnahme Einzelaufnahme Einzel- oder Mehrfachaufnahme
Figuren Prompt-definiert Prompt-definiert Bis zu 5 benannte Referenzfiguren
Modell-ID wan2.7-t2v wan2.7-i2v wan2.7-r2v
Endpunkt /v3/async/wan2.7-t2v /v3/async/wan2.7-i2v /v3/async/wan2.7-r2v
Am besten geeignet für Originalinhalte von Grund auf Animieren vorhandener Assets Figurenkonsistente Rollenspielszenen

Wie funktioniert Wan 2.7 T2V auf Novita AI?

T2V ist der richtige Ausgangspunkt, wenn Sie ein kreatives Konzept, aber keine vorhandenen visuellen Assets haben. Das Modell generiert direkt aus einer Textbeschreibung flüssiges Video und fügt automatisch Audio hinzu – entweder Hintergrundmusik/Soundeffekte, die zur Szene passen, oder von Ihnen bereitgestelltes Audio als Treiber für Lippensynchronisation und Taktanpassung.

Wichtige Parameter:

  • prompt – Szenenbeschreibung; unterstützt Chinesisch und Englisch
  • size – Auflösungsstufe: 1920*1080, 1280*720, 720*1280, 960*960, 1088*832, 832*1088 (1080P oder 720P)
  • duration – ganze Sekunden, Bereich 2–15
  • audio_url – optional; wenn angegeben, verwendet das Modell dieses Audio zur Steuerung der Generierung (Lippensynchronisation, Taktanpassung). Weglassen, um das Modell automatisch generieren zu lassen
  • prompt_extend – Standard true; schreibt kurze Prompts vor der Generierung mit einem LLM um, um eine bessere Qualität zu erzielen
  • seed – für reproduzierbare Ausgaben festlegen

Für wen T2V geeignet ist: Vermarkter, die aus Werbetexten Produktkampagnen-Clips erstellen, Entwickler, die Videoinhalte in großem Maßstab prototypisieren, oder jeder, der Originalmaterial ohne Quellmaterial benötigt.

Wo es an seine Grenzen stößt: Ohne Referenzbild oder vorheriges Videobild ist eine komplexe Figurenkonsistenz über mehrere Generationen hinweg schwer aufrechtzuerhalten. Wenn Sie an einer bestimmten Szene oder Figur iterieren, gibt Ihnen I2V oder R2V mehr Kontrolle.

Wie funktioniert Wan 2.7 I2V auf Novita AI?

Das bestimmende Merkmal von I2V in 2.7 ist, dass es drei verschiedene Animationsmuster über einen einzigen Endpunkt verarbeitet, die sich dadurch unterscheiden, welche Parameter Sie befüllen:

Erstes Bild zu Video: Geben Sie image_url an. Das Modul animiert das Bild vorwärts. Dies ist der klassische Anwendungsfall „ein Foto zum Leben erwecken".

Erstes+letztes Bild zu Video: Geben Sie sowohl image_url als auch last_frame_url an. Das Modell generiert die Brücke zwischen zwei Keyframes, was für kontrollierte Übergänge oder Morphing-Sequenzen nützlich ist.

Videofortsetzung: Geben Sie first_clip_url an (ein vorhandener Videoclip, mp4 oder mov, 2–10 Sekunden). Das Modell verlängert das Video basierend auf seinem Inhalt und Ihrem Prompt.

Der Parameter driving_audio_url funktioniert genauso wie bei T2V – wenn angegeben, steuert er die Generierung mit Lippensynchronisation oder Taktanpassung; wenn weggelassen, wird Audio automatisch generiert.

Wichtige Parameter:

  • image_url – erforderlich für die Modi Erstes Bild und Erstes+letztes Bild; erstes Bild (JPEG, JPG, PNG, BMP, WEBP; bis zu 20 MB; Breite/Höhe 240–8000 px). Wird im Fortsetzungsmodus nicht verwendet.
  • last_frame_url – optional; letztes Bild für den Keyframe-zu-Keyframe-Modus
  • first_clip_url – optional; vorhandener Videoclip für den Fortsetzungsmodus (mp4/mov, 2–10 s)
  • resolution720P oder 1080P (Standard 1080P); das Seitenverhältnis des Videos entspricht dem eingegebenen Medium
  • duration – 2–15 Sekunden (ganze Zahl)
  • driving_audio_url – optionales treibendes Audio
  • prompt – optional; leitet die Animationsrichtung und den Stil

Für wen I2V geeignet ist: E-Commerce-Teams, die Produktfotos animieren, Konzeptkünstler, die Illustrationen Bewegung verleihen, oder Entwickler, die Pipelines zur Erweiterung vorhandenen Filmmaterials erstellen.

Achtung: Der Fortsetzungs-Eingabeclip muss 2–10 Sekunden lang sein. Das Seitenverhältnis der Ausgabevideoauflösung folgt dem eingegebenen Medium – Sie können Auflösung und Seitenverhältnis nicht unabhängig voneinander einstellen.

Wie funktioniert Wan 2.7 R2V auf Novita AI?

R2V ist der Modus für figurenkonsistentes, narratives Video. Sie stellen ein oder mehrere Referenzmedien bereit – Bilder oder kurze Videoclips – und das Modell extrahiert das Aussehen, die Bewegung und die Stimme jeder Figur. Dann steuern Sie diese Figuren in Ihrem Prompt mit character1, character2 usw.

Hier macht Wan 2.7 einen bedeutenden Fortschritt gegenüber 2.6. Anstatt auf 1–2 Referenzvideos beschränkt zu sein, akzeptiert 2.7 bis zu fünf Medien insgesamt (Bilder: 0–5, Videos: 0–3, insgesamt ≤ 5), was Ihnen einen Figurenensemble ermöglicht, ohne separate Generationen zusammenflicken zu müssen.

Der Parameter shot_type steuert die narrative Struktur: single belässt die Ausgabe als eine durchgehende Aufnahme; multi generiert eine Sequenz mit Übergängen. Der Wert multi hat Vorrang vor allen Aufnahme-für-Aufnahme-Anweisungen in Ihrem Prompt, es handelt sich also um einen bewussten Moduswechsel und nicht um einen Prompt-Hinweis.

Das Audioverhalten in R2V ist ebenfalls expliziter: Der boolesche Wert audio (Standard true) steuert, ob überhaupt Audio generiert wird, und reference_voice ermöglicht es Ihnen, eine Sprachreferenz für den Figurendialog anzugeben.

Wichtige Parameter:

  • media – erforderlich; Array von Referenzmedien; die Reihenfolge ordnet character1, character2 usw. zu.
  • prompt – erforderlich; verwenden Sie character1, character2, um auf Figuren zu verweisen
  • size – Auflösung; gleiche 720P/1080P-Optionen wie T2V
  • duration – 2–10 Sekunden (kürzere Obergrenze als T2V/I2V)
  • shot_typesingle (Standard) oder multi
  • audio – boolesch, Standard true
  • reference_voice – optionale Sprachreferenz für die Figurenrede
  • negative_prompt – optional; maximal 500 Zeichen; Chinesisch oder Englisch

Für wen R2V geeignet ist: Entwickler, die Video-Avatare erstellen, Ersteller von Kurzinhalten, die eine konsistente Besetzung benötigen, oder jeder, der Rollenspiel-/Figurenleistungsszenarien umsetzt.

Achtung: R2V ist auf 10 Sekunden pro Generierung begrenzt. Für längere Sequenzen planen Sie, mehrere R2V-Aufrufe aneinanderzureihen. Der multi-Aufnahmetyp verarbeitet Übergänge innerhalb dieses Fensters, hebt aber die 10-Sekunden-Obergrenze nicht auf.

Preisvergleich zwischen den Modi

Alle drei Wan 2.7-Modi werden pro Sekunde des generierten Videos abgerechnet, nicht pro Anfrage. Die Auflösung wirkt sich ebenfalls auf die Kosten aus – 1080P-Ausgaben kosten mehr als 720P. Der R2V-Endpunkt hat einen zusätzlichen booleschen Wert audio, der sich auf die Preisgestaltung auswirkt, wenn er aktiviert ist.

Die Preise sind auf den Modellseiten für Wan 2.7 T2V, Wan 2.7 I2V und Wan 2.7 R2V auf Novita AI aufgeführt. Überprüfen Sie diese Seiten direkt auf die aktuellen Preise pro Sekunde, da die Preise für Videomodelle häufig aktualisiert werden.

Um die Kosten für einen Workflow zu schätzen: Multiplizieren Sie Ihre Zieldauer mit dem Preis pro Sekunde für Ihre gewählte Auflösung. Zum Beispiel kostet ein 10-Sekunden-1080P-T2V-Clip das 10-fache des angegebenen 1080P/s-Satzes. Da T2V und I2V die gleiche Dauerobergrenze (15 s) und Auflösungsoptionen teilen, sind ihre Kostenverläufe vergleichbar; die 10-Sekunden-Obergrenze von R2V bedeutet, dass seine maximalen Kosten pro Generierung niedriger sind.

Kostenkontrollhebel:

  • Verwenden Sie 720P für Entwicklung und Tests; wechseln Sie nur für endgültige Ausgaben zu 1080P
  • Lassen Sie prompt_extend aktiviert (T2V-Standard) – es verbessert die Qualität, ohne die Kosten zu beeinflussen
  • Für R2V setzen Sie audio: false, wenn Sie in der Postproduktion Ihr eigenes Audio bereitstellen

Welchen Modus sollten Sie verwenden?

Beginnen Sie mit T2V, wenn: Sie Originalinhalte aus einem Skript oder Prompt generieren und keine Quellbilder haben. Es ist der Weg mit dem geringsten Aufwand – ein Prompt, ein Aufruf, Video plus Audio als Ausgabe. Gut für die Generierung von Masseninhalten, die Erstellung von Kampagnen-Assets und die schnelle Konzepterkundung.

Wechseln Sie zu I2V, wenn: Sie vorhandene Bilder oder Filmmaterial haben, die sich bewegen sollen. Der Erstbild-Modus animiert Produktfotos oder Illustrationen; der Erst+Letztbild-Modus bietet kontrollierte Übergänge zwischen zwei Keyframes; der Fortsetzungsmodus erweitert vorhandenes Filmmaterial. I2V ist die richtige Wahl, wenn Ihr Quellmaterial die visuelle Ausgabe bestimmt.

Verwenden Sie R2V, wenn: Figurenidentität und -konsistenz wichtig sind. Wenn Ihr Anwendungsfall erfordert, dass dieselbe Person (oder mehrere Personen) in mehreren Videos erscheint, oder wenn Sie leistungsbasierte Inhalte wie Video-Avatare oder inszenierte Szenen erstellen, ist das Referenzfigurensystem von R2V die maßgeschneiderte Lösung. Der multi-Aufnahmetyp verleiht filmische Struktur ohne separaten Storyboarding-Schritt.

Ein praktischer Entscheidungsbaum:

  1. Haben Sie Referenzfiguren oder Personen, die im Video erscheinen müssen? → R2V
  2. Haben Sie ein vorhandenes Bild oder einen Videoclip, den Sie animieren oder erweitern möchten? → I2V
  3. Generieren Sie Originalmaterial ausschließlich aus einer Textbeschreibung? → T2V

Erste Schritte mit der Novita AI API

Alle drei Endpunkte folgen dem gleichen asynchronen Muster: POST zum Einreichen eines Jobs, Erhalten einer task_id, dann Abfragen der Task Result API.

Voraussetzungen: Ein API-Schlüssel aus Ihrer Novita AI-Konsole. Neue Konten erhalten 1 $ Gratisguthaben.

T2V-Schnellstart

import requests, time

API_KEY = "your_api_key"
BASE = "https://api.novita.ai"

# Generierung einreichen
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# Auf Ergebnis warten
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V – Videofortsetzung

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://example.com/existing-clip.mp4",
            "prompt": "Continue the scene with smooth camera pan to the right"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V – Mehrfiguren-Szene

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://example.com/person-a.jpg"},
                {"type": "image", "url": "https://example.com/person-b.jpg"}
            ],
            "prompt": "character1 and character2 are having a conversation at a café, natural daylight"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

Die vollständige Parameterreferenz für jeden Modus finden Sie in den Wan 2.7 T2V API-Dokumenten, Wan 2.7 I2V API-Dokumenten und Wan 2.7 R2V API-Dokumenten.

Wenn Sie Wan 2.7 mit der vorherigen Generation vergleichen möchten, finden Sie im Leitfaden zu Wan 2.6 auf Novita AI die vollständige Funktionspalette und Parameteroberfläche von 2.6.

Fazit

Wan 2.7 organisiert seine Generierungsfähigkeiten in drei zweckgebundene Modi anstelle eines ausufernden Endpunkts. T2V ist der schnellste Weg von der Idee zum Video, wenn Sie kein Quellmaterial haben – ein Prompt und ein API-Schlüssel sind alles, was Sie brauchen. I2V gibt Ihnen die Kontrolle über Bewegung und Kontinuität, wenn Sie mit vorhandenen Bildern oder Filmmaterial arbeiten, mit drei verschiedenen Eingabemustern in einem einzigen Endpunkt. R2V bewältigt das schwierigste Problem: figurenkonsistentes Video über Szenen hinweg, mit bis zu fünf Referenzfiguren und integrierter Multi-Shot-Struktur.

Das Upgrade von 2.6 auf 2.7 zeigt sich am deutlichsten bei I2V (Fortsetzung ist jetzt nativer Bestandteil, keine Notlösung) und R2V (fünf Figuren statt zwei, benannte Slots statt positionaler). T2V führt die Stärken von 2.6 mit einer saubereren Parameteroberfläche fort.

Für die meisten Workflows ist der Entscheidungsbaum einfach: Beginnen Sie mit T2V für Originalinhalte, wechseln Sie zu I2V, wenn Sie ein Quellbild oder einen Clip haben, und greifen Sie zu R2V, wenn die Figurenidentität über mehrere Generationen hinweg konsistent bleiben muss.

FAQ

Was ist der Unterschied zwischen Wan 2.7 T2V, I2V und R2V? T2V generiert Video ausschließlich aus einem Text-Prompt. I2V animiert ein vorhandenes Bild oder verlängert einen vorhandenen Videoclip. R2V generiert figurenkonsistentes Video unter Verwendung von Referenzbildern oder -clips als Figurenvorlagen. Jeder Modus ist ein separater, für seinen Eingabetyp optimierter Endpunkt.

Kann Wan 2.7 automatisch Audio generieren? Ja. Alle drei Modi unterstützen standardmäßig automatisch generiertes Audio. T2V und I2V generieren Hintergrundmusik und Soundeffekte, die auf die Szene abgestimmt sind; R2V fügt einen reference_voice-Parameter für den Figurendialog hinzu. Sie können Ihr eigenes Audio über audio_url (T2V) oder driving_audio_url (I2V) bereitstellen oder Audio mit audio: false (R2V) deaktivieren.

Welche Videolängen unterstützt Wan 2.7? T2V und I2V unterstützen beide 2–15 Sekunden. R2V ist auf 10 Sekunden pro Generierung begrenzt. Alle Modi haben ein Minimum von 2 Sekunden.

Wie funktioniert die I2V-Videofortsetzung? Senden Sie first_clip_url, das auf eine vorhandene mp4- oder mov-Datei (2–10 Sekunden) verweist. Das Modell analysiert den Inhalt und die Bewegung des Clips und generiert dann ein neues Segment, das natürlich an den letzten Frame anschließt. Senden Sie image_url nicht zusammen mit first_clip_url – sie sind für verschiedene Modi gedacht.

Wie viele Referenzfiguren unterstützt Wan 2.7 R2V? Bis zu fünf Medien insgesamt (Bilder: 0–5, Videos: 0–3, Gesamtsumme ≤ 5). Jedes Element wird einem benannten Figurenslot (character1, character2, usw.) zugeordnet, den Sie in Ihrem Prompt verwenden.

Wirkt sich die Auflösung auf den Preis aus? Ja. Alle drei Modi rechnen pro Sekunde generierten Videos ab, und 1080P kostet pro Sekunde mehr als 720P. Verwenden Sie 720P während der Entwicklung und wechseln Sie für endgültige Ausgaben zu 1080P, um die Kosten zu kontrollieren.

Kann ich Wan 2.7 über eine REST-API verwenden? Ja. Alle Endpunkte sind REST-basiert und folgen einem asynchronen Muster: POST eines Jobs, um eine task_id zu erhalten, dann Abfragen der Task Result API. Siehe die API-Beispiele im Abschnitt „Erste Schritte" oben und die vollständige Parameterreferenz in den Novita AI API-Dokumenten.

Empfohlene Artikel