- Qu'est-ce que Kling O1 ?
- Les Quatre Modes en Un Coup d'Œil
- Kling O1 Texte vers Vidéo (T2V) sur Novita AI
- Kling O1 Image vers Vidéo (I2V) sur Novita AI
- Kling O1 Référence vers Vidéo (Ref2V) sur Novita AI
- Mode Montage Vidéo de Kling O1 sur Novita AI
- Tarification sur Novita AI
- Quel Mode Devriez-Vous Utiliser en Premier ?
- Comment Appeler l'API Kling O1 sur Novita AI
- Conclusion
- Questions Fréquemment Posées
- Articles recommandés
Kling O1 (Kling Omni Video O1) est le premier modèle vidéo multimodal unifié de Kuaishou, exposant quatre modes de génération distincts via l’API Novita AI : Texte vers Vidéo (T2V), Image vers Vidéo (I2V), Référence vers Vidéo (Ref2V) et Montage vidéo. Chaque mode accepte des entrées différentes et résout un problème différent — choisir le mauvais ajoute des frictions et des coûts. Ce guide explique ce que fait réellement chaque mode, ce qu’il nécessite, comment il est tarifé sur Novita AI, et lequel essayer en premier pour les cas d’usage courants des développeurs.
Qu’est-ce que Kling O1 ?
Kling O1 est construit sur l’architecture MVL (Multimodal Visual Language) de Kuaishou, qui consolide les tâches de texte, d’image, de référence et de montage vidéo en un seul modèle plutôt que de les router vers des modèles spécialisés séparés. Cela compte concrètement : le modèle de mouvement sous-jacent et le codage d’identité sont partagés entre les modes, de sorte que les personnages et objets décrits dans un mode conservent des propriétés visuelles cohérentes pour le suivant.
Comparé aux versions antérieures de Kling (V2.5, V2.6, V3.0 Standard/Pro), Kling O1 ajoute les capacités Ref2V et Montage vidéo qui sont structurellement nouvelles — elles n’étaient disponibles dans aucun niveau Standard ou Pro avant O1. T2V et I2V dans O1 bénéficient du socle MVL partagé, ce qui améliore la cohérence des sujets entre les images par rapport aux modèles de génération précédents.
Kling O1 est distinct de Kling 3.0 (également appelé Kling O3). Kling 3.0 est un modèle ultérieur qui ajoute la co-génération audio native et des clips étendus de 15 secondes. Kling O1 sur Novita AI couvre actuellement des vidéos jusqu’à 10 secondes sans audio natif.
Les Quatre Modes en Un Coup d’Œil
| Mode | Entrée principale | Entrées requises | Durée | Prix sur Novita AI |
|---|---|---|---|---|
| T2V | Prompt texte | prompt |
5–10 s | 0,112 $/s |
| I2V | Image + prompt | image_url, prompt |
5–10 s | 0,112 $/s |
| Ref2V | Images de référence + prompt | prompt, image_urls ou elements |
3–10 s | 0,168 $/s |
| Montage vidéo | Vidéo source + prompt | video_url, prompt |
3–10 s (Fast : 6–20 s) | 0,168 $/s (Fast : 0,09 $/s) |
Tarification vérifiée sur les pages de modèle Novita AI le 26/06/2026. La facturation à la seconde s’applique à la durée que vous spécifiez.
Kling O1 Texte vers Vidéo (T2V) sur Novita AI
Point de terminaison : POST /v3/async/kling-o1-t2v
T2V génère une vidéo entièrement à partir d’une description textuelle. Vous fournissez un prompt ; le modèle crée le mouvement, l’éclairage, les mouvements de caméra et la composition de la scène à partir de zéro. Il n’y a pas d’ancrage d’image, donc le modèle a une liberté créative totale dans les limites du prompt.
Utilisez T2V quand :
- Vous n’avez pas d’image de référence ou d’image de scène.
- Vous explorez un concept avant de vous engager dans une direction visuelle.
- Vous devez générer de nombreuses variations visuelles à faible coût par clip.
À 0,112 $/s, un clip de 5 secondes coûte 0,56 $ et un clip de 10 secondes coûte 1,12 $. T2V prend en charge des durées de 5 et 10 secondes sur Novita AI avec les ratios d’aspect 16:9, 9:16 et 1:1.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "Un renard roux trottant dans une forêt de pins enneigée, lumière dorée, plan large cinématographique",
"duration": 5,
"aspect_ratio": "16:9"
}'
Kling O1 Image vers Vidéo (I2V) sur Novita AI
Point de terminaison : POST /v3/async/kling-o1-i2v
I2V anime une image statique en un clip vidéo. L’image source devient l’image de départ ; le prompt contrôle le mouvement et le développement de la scène qui s’ensuit. Vous pouvez éventuellement fournir une image de fin pour donner au modèle un état cible, et le modèle interpole le mouvement entre le début et la fin.
Requis : image_url (image de départ) et prompt. L’image de fin (end_image_url) est optionnelle mais utile lorsque vous voulez une composition spécifique au point de coupure.
Utilisez I2V quand :
- Vous avez une image ou un design existant qui doit bouger.
- Vous voulez un ancrage visuel déterministe — l’apparence du personnage ou de la scène est déjà définie dans l’image source.
- Vous créez des démos de produits, du contenu social ou des animations e-commerce à partir d’actifs existants.
À 0,112 $/s, I2V coûte le même prix que T2V. Le compromis principal est que I2V verrouille l’image d’ouverture sur votre image d’entrée, ce qui améliore la cohérence mais signifie aussi qu’une image source de mauvaise qualité limite la sortie. Contraintes d’image sur Novita AI : minimum 300×300px, taille de fichier max 10 Mo, rapport d’aspect entre 0,4 et 2,5.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-i2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"image_url": "https://example.com/product-shot.jpg",
"prompt": "Le produit tourne lentement pour révéler le panneau arrière, éclairage studio doux",
"duration": 5,
"aspect_ratio": "1:1"
}'
Kling O1 Référence vers Vidéo (Ref2V) sur Novita AI
Point de terminaison : POST /v3/async/kling-o1-ref2v
Ref2V est le mode le plus flexible et celui qui utilise le plus directement l’architecture MVL d’O1. Au lieu d’une seule image de départ, vous fournissez jusqu’à sept images de référence réparties sur deux types d’entrées : image_urls (références de style ou de scène) et elements (ancres d’identité de personnage ou d’objet). Le prompt utilise les balises @Image1, @Image2, @Element1, @Element2 pour indiquer au modèle quelle référence appliquer et où.
Cela vous permet de composer une scène à partir de plusieurs actifs sources : un personnage à partir d’une photo portrait, un arrière-plan à partir d’une image de lieu, et un accessoire à partir d’une image de produit — tous référencés par leur nom dans le prompt.
Règles d’entrée :
promptest requis.image_urlsetelementssont optionnels mais au moins l’un d’eux doit être pertinent ; un prompt nu sans références fonctionne mais se comporte plus comme T2V.- Le nombre total de références (elements + image_urls) ne doit pas dépasser 7.
- Chaque élément dans
elementspeut inclure plusieursreference_image_urls(prises sous plusieurs angles) plus unefrontal_image_urloptionnelle pour un meilleur appariement d’identité.
Utilisez Ref2V quand :
- Vous avez besoin de personnages cohérents dans plusieurs clips (contenu épisodique, séquences marketing).
- Vous combinez des personnages ou objets provenant de différentes images sources en une seule scène.
- Vous voulez que le modèle interpole à partir d’une image de départ tout en maintenant l’identité visuelle d’un ensemble de références séparé.
Ref2V coûte 0,168 $/s — 50 % de plus que T2V et I2V. Pour un clip de 5 secondes, cela représente 0,84 $ ; pour 10 secondes, 1,68 $. La prime reflète l’étape supplémentaire de codage des références. Si votre cas d’usage n’exige pas de cohérence d’identité entre les images, I2V à 0,112 $/s est suffisant.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-ref2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "Prenez @Image1 comme image de départ. @Element1 entre dans la scène et ramasse l artefact lumineux. Éclairage cinématographique, caméra stable.",
"image_urls": ["https://example.com/scene-bg.jpg"],
"elements": [
{
"reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
"frontal_image_url": "https://example.com/character-front.jpg"
}
],
"duration": 5,
"aspect_ratio": "16:9"
}'
Mode Montage Vidéo de Kling O1 sur Novita AI
Point de terminaison (standard) : POST /v3/async/kling-o1-video-edit
Point de terminaison (fast) : disponible via la variante Fast VideoEdit de Novita AI
Le montage vidéo prend une vidéo existante comme entrée et la transforme à l’aide d’un prompt en langage naturel. Le modèle préserve la structure de mouvement d’origine — timing, mouvement de caméra, arc d’action — tout en modifiant les sujets, environnements ou styles visuels selon le prompt. Vous pouvez également fournir des images de référence et des ancres d’éléments en utilisant le même système de balises @Image1 / @Element1 que Ref2V.
Requis : video_url (vidéo source, 3–10 s, MP4 ou MOV, 720–2160px, max 200 Mo) et prompt.
Deux variantes :
- VideoEdit standard : prend en charge les vidéos source de 3 à 10 secondes, tarifé à 0,168 $/s.
- VideoEdit Fast : prend en charge les vidéos source de 6 à 20 secondes, tarifé à 0,09 $/s — le coût par seconde le plus bas de tous les modes Kling O1 sur Novita AI.
Utilisez le montage vidéo quand :
- Vous avez des images qui nécessitent un changement de style ou de contenu sans re-tournage.
- Vous voulez remplacer un personnage dans une vidéo existante tout en conservant le même mouvement.
- Vous devez transformer un clip en prise de vue réelle en un style animé.
La limitation principale : la vidéo source contrôle le mouvement. Le montage vidéo ne peut pas changer ce qu’un sujet fait — il peut seulement changer l’apparence du sujet et l’environnement qu’il occupe. Pour des changements de mouvement, générez de nouvelles images avec T2V ou I2V à la place.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-video-edit \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"video_url": "https://example.com/source-clip.mp4",
"prompt": "Transformez le décor en une ruelle cyberpunk éclairée au néon, conservez exactement les mouvements du personnage tels quels",
"duration": 5
}'
Tarification sur Novita AI
Tous les modes Kling O1 sur Novita AI utilisent une facturation à la seconde basée sur la durée que vous définissez lors de la requête. Tarification vérifiée le 26/06/2026.
| Mode | Point de terminaison | Plage de durée | Prix/s | Coût 5s | Coût 10s |
|---|---|---|---|---|---|
| T2V | /v3/async/kling-o1-t2v |
5–10 s | 0,112 $ | 0,56 $ | 1,12 $ |
| I2V | /v3/async/kling-o1-i2v |
5–10 s | 0,112 $ | 0,56 $ | 1,12 $ |
| Ref2V | /v3/async/kling-o1-ref2v |
3–10 s | 0,168 $ | 0,84 $ | 1,68 $ |
| VideoEdit | /v3/async/kling-o1-video-edit |
3–10 s | 0,168 $ | 0,84 $ | 1,68 $ |
| VideoEdit Fast | (Variante Fast de Novita AI) | 6–20 s | 0,090 $ | — | 0,90 $ |
Les nouveaux utilisateurs de Novita AI reçoivent des crédits gratuits. Consultez la page de tarification Novita AI pour les tarifs actuels, car les prix peuvent changer.
Quel Mode Devriez-Vous Utiliser en Premier ?
Commencez par T2V si votre objectif est l’exploration de concepts ou si vous ne disposez pas d’un actif image spécifique. C’est le point d’entrée le plus simple : un paramètre requis (prompt), aucune préparation d’actif nécessaire.
Passez à I2V lorsque vous avez une image qui doit bouger. Les images de produits, les illustrations de personnages et les arrière-plans de scène fonctionnent tous bien comme images de départ I2V. Même prix que T2V, plus de contrôle visuel.
Utilisez Ref2V lorsque la cohérence d’identité entre les clips est importante — par exemple, un personnage récurrent dans plusieurs scènes, ou la combinaison d’une personne spécifique avec un environnement spécifique. Budget pour la prime de 50 % ; elle n’est pas nécessaire pour une génération à clip unique.
Réservez le montage vidéo pour les workflows de post-production où des images existantes nécessitent une refonte visuelle mais où le mouvement doit rester intact. La variante Fast à 0,09 $/s est l’option la plus économique pour les montages plus longs (6–20 secondes) où la vitesse de génération est moins critique.
| Situation | Mode Recommandé |
|---|---|
| Pas d’image, exploration d’idées | T2V |
| Vous avez une image de produit ou de scène, vous voulez du mouvement | I2V |
| Vous avez besoin du même personnage dans plusieurs clips | Ref2V |
| Vous avez des images vidéo, vous voulez un look différent | Montage vidéo (standard) |
| Montage long (6–20 s), sensible au coût | Montage vidéo Fast |
Comment Appeler l’API Kling O1 sur Novita AI
Les quatre modes Kling O1 sur Novita AI sont asynchrones. Chaque requête renvoie immédiatement un task_id ; interrogez le point de terminaison Task Result jusqu’à ce que le statut soit succeed.
# Étape 1 : Soumettez votre tâche de génération (exemple : T2V)
RESPONSE=$(curl --silent --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data '{"prompt": "Votre prompt ici", "duration": 5, "aspect_ratio": "16:9"}')
TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")
# Étape 2 : Interrogez pour obtenir les résultats
curl --request GET \
--url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
--header "Authorization: Bearer $NOVITA_API_KEY"
La réponse inclut un champ status. Lorsqu’il indique succeed, le tableau videos contient l’URL de sortie. Le temps de génération typique est de 30 à 120 secondes selon la durée et le mode.
Obtenez votre clé API depuis le tableau de bord Novita AI. Les nouveaux comptes reçoivent des crédits gratuits pour tester les quatre modes avant de s’engager dans un volume de production.
Conclusion
Kling O1 sur Novita AI donne aux développeurs accès à quatre modes distincts de génération vidéo — T2V, I2V, Ref2V et Montage vidéo — via une seule API unifiée. T2V et I2V couvrent les cas de génération courants à 0,112 $/s. Ref2V ajoute la composition d’identité multi-référence pour les personnages récurrents à 0,168 $/s. Le montage vidéo transforme des images existantes tout en préservant le mouvement, avec une variante Fast à 0,09 $/s pour les clips plus longs. Choisir le bon mode dès le départ permet d’économiser de l’argent et d’éviter les frictions : commencez par T2V si vous n’avez pas d’actif image, I2V si vous en avez un, Ref2V lorsque la cohérence d’identité entre clips est importante, et le montage vidéo lorsque le mouvement est déjà capturé. Tous les modes partagent le même modèle de tâche asynchrone sur Novita AI, donc l’intégration de plusieurs modes dans un seul pipeline nécessite un minimum de code supplémentaire.
Novita AI est une plateforme cloud IA qui offre aux développeurs un accès hébergé aux modèles vidéo, image, audio et langage via une API unifiée.
Questions Fréquemment Posées
Quelle est la différence entre Kling O1 T2V et I2V sur Novita AI ?
T2V génère une vidéo à partir d’un seul prompt texte — aucune image n’est requise. I2V prend une image comme image de départ et l’anime selon le prompt. Les deux sont tarifés à 0,112 $/s et prennent en charge des clips de 5 à 10 secondes. Utilisez T2V pour l’exploration ; utilisez I2V lorsque vous avez un ancrage visuel spécifique.
Que fait Kling O1 Ref2V que I2V ne peut pas faire ?
Ref2V accepte jusqu’à 7 images de référence réparties sur plusieurs emplacements d’entrée, vous permettant de combiner des sources séparées pour l’identité du personnage, l’arrière-plan de la scène et le style. Vous référencez chaque entrée par son nom dans le prompt (@Element1, @Image1). I2V utilise une seule image de départ sans système de référence nommé.
Kling O1 est-il identique à Kling 3.0 ?
Non. Kling O1 (sorti en décembre 2025) est le modèle vidéo multimodal unifié de base. Kling 3.0 (également appelé Kling O3, sorti en février 2026) est un modèle ultérieur qui ajoute la co-génération audio native et des clips jusqu’à 15 secondes. Kling O1 sur Novita AI prend en charge la vidéo jusqu’à 10 secondes sans audio natif.
Comment choisir entre VideoEdit standard et VideoEdit Fast ?
Le montage vidéo standard accepte les clips source de 3 à 10 secondes à 0,168 $/s. Le montage vidéo Fast accepte les clips de 6 à 20 secondes à 0,09 $/s. Si votre vidéo source fait moins de 10 secondes et que le délai d’exécution est important, utilisez la version standard. Si vous avez des clips plus longs ou effectuez un travail de post-production par lots, le mode Fast est nettement moins cher.
