Kling O1 auf Novita AI: T2V-, I2V-, Ref2V- und Video-Edit-Modi

Kling O1 auf Novita AI: T2V-, I2V-, Ref2V- und Video-Edit-Modi

Kling O1 (Kling Omni Video O1) ist Kuaishous erstes einheitliches multimodales Videomodell, das über die Novita AI API vier verschiedene Generierungsmodi bereitstellt: Text-zu-Video (T2V), Bild-zu-Video (I2V), Referenz-zu-Video (Ref2V) und Video-Edit. Jeder Modus akzeptiert unterschiedliche Eingaben und löst ein anderes Problem – die Wahl des falschen Modus verursacht Reibung und höhere Kosten. Dieser Leitfaden erklärt, was jeder Modus tatsächlich tut, welche Eingaben er benötigt, wie er auf Novita AI bepreist ist und welchen du für typische Entwickler-Anwendungsfälle zuerst ausprobieren solltest.

Was ist Kling O1?

Kling O1 basiert auf Kuaishous MVL-Architektur (Multimodal Visual Language), die Text-, Bild-, Referenz- und Videobearbeitungsaufgaben in einem einzigen Modell zusammenfasst, anstatt sie auf separate spezialisierte Modelle zu verteilen. Das hat praktische Auswirkungen: Das zugrunde liegende Bewegungsmodell und die Identitätskodierung werden modusübergreifend gemeinsam genutzt, sodass Charaktere und Objekte, die in einem Modus beschrieben werden, konsistente visuelle Eigenschaften in den nächsten Modus mitnehmen.

Im Vergleich zu früheren Kling-Versionen (V2.5, V2.6, V3.0 Standard/Pro) bietet Kling O1 neue Ref2V- und Video-Edit-Funktionen, die strukturell neu sind – sie waren in keiner Standard- oder Pro-Stufe vor O1 verfügbar. T2V und I2V in O1 profitieren vom gemeinsamen MVL-Backbone, was die Subjektkonsistenz zwischen den Frames im Vergleich zu den früheren Generierungsmodellen verbessert.

Kling O1 ist nicht zu verwechseln mit Kling 3.0 (auch Kling O3 genannt). Kling 3.0 ist ein Nachfolgemodell, das native Audio-Kogeneration und erweiterte 15-Sekunden-Clips bietet. Kling O1 auf Novita AI deckt derzeit Videos bis zu 10 Sekunden ohne natives Audio ab.

Die vier Modi auf einen Blick

Modus Primäre Eingabe Erforderliche Eingaben Dauer Preis auf Novita AI
T2V Text-Prompt prompt 5–10 s 0,112 $/s
I2V Bild + Prompt image_url, prompt 5–10 s 0,112 $/s
Ref2V Referenzbilder + Prompt prompt, image_urls oder elements 3–10 s 0,168 $/s
Video Edit Quellvideo + Prompt video_url, prompt 3–10 s (Fast: 6–20 s) 0,168 $/s (Fast: 0,09 $/s)

Preise bestätigt auf den Novita AI Modellseiten am 26.06.2026. Die Abrechnung erfolgt pro Sekunde für die von dir angegebene Dauer.

Kling O1 Text-zu-Video (T2V) auf Novita AI

Endpunkt: POST /v3/async/kling-o1-t2v

T2V generiert ein Video vollständig aus einer Textbeschreibung. Du gibst einen Prompt an; das Modell erstellt Bewegung, Beleuchtung, Kamerabewegung und Szenenkomposition von Grund auf neu. Es gibt keinen Bildanker, sodass das Modell innerhalb der Prompt-Einschränkungen völlige kreative Freiheit hat.

Verwende T2V, wenn:

  • Du kein Referenzbild oder Szenenbild hast.
  • Du ein Konzept erkundest, bevor du dich auf eine visuelle Richtung festlegst.
  • Du viele visuelle Variationen zu niedrigen Kosten pro Clip generieren möchtest.

Bei 0,112 $/s kostet ein 5-Sekunden-Clip 0,56 $ und ein 10-Sekunden-Clip 1,12 $. T2V unterstützt auf Novita AI Dauer von 5 und 10 Sekunden mit den Seitenverhältnissen 16:9, 9:16 und 1:1.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Ein roter Fuchs, der durch einen verschneiten Kiefernwald trabt, Golden-Hour-Licht, filmische Totalaufnahme",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 Bild-zu-Video (I2V) auf Novita AI

Endpunkt: POST /v3/async/kling-o1-i2v

I2V animiert ein statisches Bild zu einem Videoclip. Das Quellbild wird zum Startframe; der Prompt steuert, welche Bewegung und Szenenentwicklung folgt. Du kannst optional einen Endframe angeben, um dem Modell einen Zielzustand vorzugeben, und das Modell interpoliert die Bewegung zwischen Start und Ende.

Erforderlich: image_url (Startframe) und prompt. Der Endframe (end_image_url) ist optional, aber nützlich, wenn du eine bestimmte Komposition am Schnittpunkt haben möchtest.

Verwende I2V, wenn:

  • Du ein vorhandenes Bild oder Design hast, das sich bewegen soll.
  • Du eine deterministische visuelle Verankerung wünschst – das Aussehen des Charakters oder der Szene ist bereits im Quellbild definiert.
  • Du Produktdemos, Social-Media-Inhalte oder E-Commerce-Animationen aus vorhandenen Assets erstellst.

Bei 0,112 $/s kostet I2V genauso viel wie T2V. Der entscheidende Kompromiss ist, dass I2V den Anfangsrahmen auf dein Eingabebild festlegt, was die Konsistenz verbessert, aber auch bedeutet, dass ein minderwertiges Quellbild die Ausgabe einschränkt. Bildbeschränkungen auf Novita AI: mindestens 300×300 Pixel, maximale Dateigröße 10 MB, Seitenverhältnis zwischen 0,4 und 2,5.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-i2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "image_url": "https://example.com/product-shot.jpg",
    "prompt": "Das Produkt dreht sich langsam, um die Rückseite zu zeigen, weiche Studiolicht",
    "duration": 5,
    "aspect_ratio": "1:1"
  }'

Kling O1 Referenz-zu-Video (Ref2V) auf Novita AI

Endpunkt: POST /v3/async/kling-o1-ref2v

Ref2V ist der flexibelste Modus und derjenige, der die MVL-Architektur von O1 am direktesten nutzt. Anstelle eines einzelnen Startframes lieferst du bis zu sieben Referenzbilder über zwei Eingabetypen: image_urls (Stil- oder Szenenreferenzen) und elements (Charakter- oder Objektidentitätsanker). Der Prompt verwendet @Image1, @Image2 und @Element1, @Element2-Tags, um dem Modell mitzuteilen, welche Referenz wo angewendet werden soll.

So kannst du eine Szene aus mehreren Quell-Assets zusammensetzen: einen Charakter aus einem Porträtfoto, einen Hintergrund aus einem Ortsbild und ein Requisit aus einem Produktbild – alle im Prompt namentlich referenziert.

Eingaberegeln:

  • prompt ist erforderlich.
  • image_urls und elements sind optional, aber mindestens eine muss sinnvoll sein; ein reiner Prompt ohne Referenzen funktioniert, verhält sich aber eher wie T2V.
  • Die Gesamtzahl der Referenzen (elements + image_urls) darf 7 nicht überschreiten.
  • Jedes Element in elements kann mehrere reference_image_urls (Aufnahmen aus verschiedenen Winkeln) sowie eine optionale frontal_image_url für eine sauberere Identitätszuordnung enthalten.

Verwende Ref2V, wenn:

  • Du konsistente Charaktere über mehrere Clips hinweg benötigst (episodische Inhalte, Marketing-Sequenzen).
  • Du Charaktere oder Objekte aus verschiedenen Quellbildern in einer einzigen Szene kombinierst.
  • Du möchtest, dass das Modell von einem Startframe aus interpoliert, während die visuelle Identität aus einem separaten Referenzsatz erhalten bleibt.

Ref2V kostet 0,168 $/s – 50 % mehr als T2V und I2V. Für einen 5-Sekunden-Clip sind das 0,84 $; für 10 Sekunden 1,68 $. Der Aufpreis spiegelt den zusätzlichen Referenzkodierungsschritt wider. Wenn dein Anwendungsfall keine bildübergreifende Identitätskonsistenz erfordert, ist I2V für 0,112 $/s ausreichend.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-ref2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Nimm @Image1 als Startframe. @Element1 betritt die Szene und hebt das leuchtende Artefakt auf. Filmische Beleuchtung, ruhige Kamera.",
    "image_urls": ["https://example.com/scene-bg.jpg"],
    "elements": [
      {
        "reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
        "frontal_image_url": "https://example.com/character-front.jpg"
      }
    ],
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 Video-Edit-Modus auf Novita AI

Endpunkt (Standard): POST /v3/async/kling-o1-video-edit

Endpunkt (Fast): verfügbar über Novita AIs Fast VideoEdit-Variante

Video Edit nimmt ein vorhandenes Video als Eingabe und transformiert es mithilfe einer natürlichsprachlichen Aufforderung. Das Modell behält die ursprüngliche Bewegungsstruktur bei – Timing, Kamerabewegung, Handlungsbogen – während es Subjekte, Umgebungen oder den visuellen Stil entsprechend dem Prompt ändert. Du kannst auch Referenzbilder und Elementanker mit demselben @Image1 / @Element1-Tagging-System wie bei Ref2V bereitstellen.

Erforderlich: video_url (Quellvideo, 3–10 s, MP4 oder MOV, 720–2160 px, max. 200 MB) und prompt.

Zwei Varianten:

  • Standard VideoEdit: unterstützt Quellvideos von 3–10 Sekunden, Preis 0,168 $/s.
  • Fast VideoEdit: unterstützt Quellvideos von 6–20 Sekunden, Preis 0,09 $/s – die niedrigsten Kosten pro Sekunde aller Kling O1 Modi auf Novita AI.

Verwende Video Edit, wenn:

  • Du vorhandenes Filmmaterial hast, das eine Stil- oder Inhaltsänderung benötigt, ohne neu drehen zu müssen.
  • Du einen Charakter in einem vorhandenen Video ersetzen möchtest, während die gleiche Bewegung erhalten bleibt.
  • Du einen Live-Action-Clip in einen animierten Stil umwandeln möchtest.

Die wichtigste Einschränkung: Das Quellvideo steuert die Bewegung. Video Edit kann nicht ändern, was ein Subjekt tut – es kann nur ändern, wie das Subjekt aussieht und in welcher Umgebung es sich befindet. Für Bewegungsänderungen generiere neues Filmmaterial mit T2V oder I2V.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-video-edit \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "video_url": "https://example.com/source-clip.mp4",
    "prompt": "Verwandle die Umgebung in eine Neon-illuminierte Cyberpunk-Gasse, behalte die Charakterbewegungen exakt bei",
    "duration": 5
  }'

Preise auf Novita AI

Alle Kling O1 Modi auf Novita AI verwenden eine sekundengenaue Abrechnung basierend auf der von dir bei der Anfrage festgelegten Dauer. Preise bestätigt am 26.06.2026.

Modus Endpunkt Dauerbereich Preis/s Kosten 5s Kosten 10s
T2V /v3/async/kling-o1-t2v 5–10 s 0,112 $ 0,56 $ 1,12 $
I2V /v3/async/kling-o1-i2v 5–10 s 0,112 $ 0,56 $ 1,12 $
Ref2V /v3/async/kling-o1-ref2v 3–10 s 0,168 $ 0,84 $ 1,68 $
VideoEdit /v3/async/kling-o1-video-edit 3–10 s 0,168 $ 0,84 $ 1,68 $
VideoEdit Fast (Novita AI Fast-Variante) 6–20 s 0,090 $ 0,90 $

Neue Benutzer von Novita AI erhalten kostenlose Credits. Überprüfe die Novita AI Preisseite für aktuelle Tarife, da sich die Preise ändern können.

Mit welchem Modus solltest du beginnen?

Beginne mit T2V, wenn dein Ziel die Konzepterkundung ist oder du kein bestimmtes Bild-Asset hast. Es ist der Einstieg mit der geringsten Reibung: ein erforderlicher Parameter (prompt), keine Asset-Vorbereitung nötig.

Wechsle zu I2V, wenn du ein Bild hast, das sich bewegen soll. Produktbilder, Charakterillustrationen und Szenenhintergründe eignen sich alle gut als I2V-Startframes. Gleicher Preis wie T2V, mehr visuelle Kontrolle.

Verwende Ref2V, wenn die Identitätskonsistenz über Clips hinweg wichtig ist – zum Beispiel ein wiederkehrender Charakter in mehreren Szenen oder die Kombination einer bestimmten Person mit einer bestimmten Umgebung. Kalkuliere die 50 % Preisaufschlag ein; für die Generierung einzelner Clips ist es nicht notwendig.

Reserviere Video Edit für Postproduktions-Workflows, bei denen vorhandenes Filmmaterial eine visuelle Überarbeitung benötigt, die Bewegung jedoch intakt bleiben soll. Die Fast-Variante für 0,09 $/s ist die kosteneffizienteste Option für längere Bearbeitungen (6–20 Sekunden), bei denen die Generierungsgeschwindigkeit weniger kritisch ist.

Situation Empfohlener Modus
Kein Bild, Ideen erkunden T2V
Vorhandenes Produkt- oder Szenenbild, Bewegung gewünscht I2V
Gleicher Charakter in mehreren Clips erforderlich Ref2V
Vorhandenes Video, andere Optik gewünscht VideoEdit (Standard)
Lange Bearbeitung (6–20 s), kostenbewusst VideoEdit Fast

So rufst du die Kling O1 API auf Novita AI auf

Alle vier Kling O1 Modi auf Novita AI sind asynchron. Jede Anfrage gibt sofort ein task_id zurück; rufe den Task-Result-Endpunkt ab, bis der Status succeed ist.

# Schritt 1: Sende deine Generierungsaufgabe (Beispiel: T2V)
RESPONSE=$(curl --silent --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{"prompt": "Dein Prompt hier", "duration": 5, "aspect_ratio": "16:9"}')

TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")

# Schritt 2: Ergebnisse abfragen
curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

Die Antwort enthält ein Feld status. Wenn es succeed lautet, enthält das Array videos die Ausgabe-URL. Die typische Generierungszeit beträgt 30–120 Sekunden, abhängig von Dauer und Modus.

Hole deinen API-Schlüssel aus dem Novita AI Dashboard. Neue Konten erhalten kostenlose Credits, um alle vier Modi zu testen, bevor du dich für das Produktionsvolumen entscheidest.

Fazit

Kling O1 auf Novita AI bietet Entwicklern Zugang zu vier verschiedenen Video-Generierungsmodi – T2V, I2V, Ref2V und Video Edit – über eine einzige einheitliche API. T2V und I2V decken die üblichen Generierungsfälle zu 0,112 $/s ab. Ref2V erweitert die Multi-Referenz-Identitätskomposition für wiederkehrende Charaktere zu 0,168 $/s. Video Edit transformiert vorhandenes Filmmaterial unter Beibehaltung der Bewegung, mit einer Fast-Variante für 0,09 $/s für längere Clips. Die Wahl des richtigen Modus spart Kosten und reduziert Reibung: Beginne mit T2V, wenn du kein Bild-Asset hast, mit I2V, wenn du eines hast, mit Ref2V, wenn die Identitätskonsistenz über Clips hinweg wichtig ist, und mit Video Edit, wenn die Bewegung bereits aufgezeichnet ist. Alle Modi teilen das gleiche asynchrone Task-Muster auf Novita AI, sodass die Integration mehrerer Modi in eine Pipeline nur minimalen zusätzlichen Code erfordert.

Novita AI ist eine KI-Cloud-Plattform, die Entwicklern gehosteten Zugriff auf Video-, Bild-, Audio- und Sprachmodelle über eine einheitliche API bietet.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Kling O1 T2V und I2V auf Novita AI?

T2V generiert ein Video ausschließlich aus einem Text-Prompt – es ist kein Bild erforderlich. I2V nimmt ein Bild als Startframe und animiert es gemäß dem Prompt. Beide kosten 0,112 $/s und unterstützen Clips von 5–10 Sekunden. Verwende T2V zur Erkundung; verwende I2V, wenn du einen bestimmten visuellen Anker hast.

Was kann Kling O1 Ref2V, das I2V nicht kann?

Ref2V akzeptiert bis zu 7 Referenzbilder über mehrere Eingabefelder und ermöglicht es dir, separate Quellen für Charakteridentität, Szenenhintergrund und Stil zu kombinieren. Du referenzierst jede Eingabe namentlich im Prompt (@Element1, @Image1). I2V verwendet einen einzelnen Startframe ohne benanntes Referenzsystem.

Ist Kling O1 dasselbe wie Kling 3.0?

Nein. Kling O1 (veröffentlicht Dezember 2025) ist das grundlegende einheitliche multimodale Videomodell. Kling 3.0 (auch Kling O3 genannt, veröffentlicht Februar 2026) ist ein Nachfolgemodell, das native Audio-Kogeneration und Clips bis zu 15 Sekunden hinzufügt. Kling O1 auf Novita AI unterstützt Video bis zu 10 Sekunden ohne natives Audio.

Wie wähle ich zwischen VideoEdit Standard und VideoEdit Fast?

Standard VideoEdit akzeptiert Quellclips von 3–10 Sekunden zu 0,168 $/s. Fast VideoEdit akzeptiert Clips von 6–20 Sekunden zu 0,09 $/s. Wenn dein Quellvideo unter 10 Sekunden liegt und die Bearbeitungszeit wichtig ist, verwende Standard. Wenn du längere Clips hast oder Batch-Postproduktionsarbeit durchführst, ist Fast deutlich günstiger.

Empfohlene Artikel