Wan 2.7 sur Novita AI : Text-to-Video vs Image-to-Video vs Reference-to-Video

Table des matières

Ce qui a changé de Wan 2.6 à 2.7
Aperçu des modes et tableau de sélection rapide
Comment fonctionne Wan 2.7 T2V sur Novita AI ?
Comment fonctionne Wan 2.7 I2V sur Novita AI ?
Comment fonctionne Wan 2.7 R2V sur Novita AI ?
Comparaison des tarifs entre les modes
Quel mode devriez-vous utiliser ?
Premiers pas avec l’API Novita AI
Conclusion
FAQ
Articles recommandés

Wan 2.7 sur Novita AI propose trois modes de génération distincts — Text-to-Video, Image-to-Video et Reference-to-Video — chacun résolvant un problème différent. T2V génère une vidéo directement à partir d’une invite avec audio optionnel ; I2V anime une image de départ et prend en charge la continuation vidéo ; R2V intègre des personnages de référence dans de nouvelles scènes avec contrôle multi-shot. Choisir le mauvais mode ajoute des frictions ; ce guide associe chaque mode aux workflows où il trouve sa place.

Ce qui a changé de Wan 2.6 à 2.7

Wan 2.6 a introduit le jeu de rôle via vidéo de référence, les narrations multi-shot et la synchronisation audio-visuelle — un ensemble de fonctionnalités capable mais dispersé sur trois points de terminaison avec certains chevauchements. Wan 2.7 affine considérablement ce modèle.

La mise à niveau la plus nette concerne I2V. Wan 2.7 I2V va au-delà de l’animation d’une seule image pour prendre en charge trois modes d’entrée distincts dans un seul point de terminaison : première image uniquement, première+dernière image, et continuation vidéo. Wan 2.6 I2V ne gérait que l’animation d’une seule image ; la continuation était gérée par R2V. Cette consolidation compte pour les développeurs construisant des pipelines qui étendent ou remixent des séquences existantes.

R2V dans 2.7 change également son modèle de personnage. Alors que 2.6 acceptait jusqu’à deux vidéos de référence pour le jeu de rôle, 2.7 accepte jusqu’à cinq éléments multimédias de référence (images ou vidéos), mappant chacun à un emplacement de personnage nommé (character1, character2, etc.) dans votre invite. L’interaction multi-personnage à grande échelle est désormais une fonctionnalité de première classe, pas un contournement.

La capacité principale de T2V — texte en invite vers vidéo avec audio — reste similaire, mais le point de terminaison est plus propre : la génération audio est activée par défaut (vous pouvez la désactiver), et le drapeau prompt_extend réécrit intelligemment les courtes invites avant génération. La surface des paramètres de Wan 2.6 T2V est reprise avec des améliorations, sans être remplacée.

Les plages de durée divergent également par mode dans 2.7 : T2V et I2V prennent en charge 2 à 15 secondes, tandis que R2V est limité à 10 secondes. Le minimum de 2 secondes remplace le plancher de 5 secondes des durées standard de 2.6.

Aperçu des modes et tableau de sélection rapide

	T2V	I2V	R2V
Entrée	Invite textuelle	Image + texte optionnel	Médias de référence (images/vidéos) + texte
Durée de sortie	2–15 s	2–15 s	2–10 s
Résolutions	720P, 1080P	720P, 1080P	720P, 1080P
Audio	Auto-généré ou piloté par audio	Auto-généré ou piloté par audio	Contrôlable via le drapeau `audio` + `reference_voice`
Contrôle des plans	Plan unique	Plan unique	Plan unique ou multi-shot
Personnages	Défini par l’invite	Défini par l’invite	Jusqu’à 5 personnages de référence nommés
ID du modèle	`wan2.7-t2v`	`wan2.7-i2v`	`wan2.7-r2v`
Point de terminaison	`/v3/async/wan2.7-t2v`	`/v3/async/wan2.7-i2v`	`/v3/async/wan2.7-r2v`
Idéal pour	Contenu original à partir de zéro	Animation d’actifs existants	Scènes de jeu de rôle cohérentes avec les personnages

Comment fonctionne Wan 2.7 T2V sur Novita AI ?

T2V est le bon point de départ lorsque vous avez un concept créatif mais aucun actif visuel existant. Le modèle génère une vidéo fluide directement à partir d’une description textuelle et attache automatiquement de l’audio — soit de la musique de fond/effets sonores générés pour correspondre à la scène, soit de l’audio que vous fournissez comme source pilotante pour le lip-sync et le beat-matching.

Paramètres clés :

prompt — description de la scène ; prend en charge le chinois et l’anglais
size — niveau de résolution : 1920*1080, 1280*720, 720*1280, 960*960, 1088*832, 832*1088 (1080P ou 720P)
duration — secondes entières, plage 2–15
audio_url — optionnel ; lorsqu’il est fourni, le modèle utilise cet audio pour piloter la génération (lip-sync, beat-matching). Omettez pour laisser le modèle générer automatiquement.
prompt_extend — par défaut true ; réécrit les courtes invites à l’aide d’un LLM avant génération pour une meilleure qualité.
seed — définir pour des sorties reproductibles

À qui T2V convient : Aux marketeurs générant des clips de campagne produit à partir de copy, aux développeurs prototypant du contenu vidéo à grande échelle, ou à quiconque a besoin de séquences originales sans matériel source.

Où il est limité : Sans image de référence ni image vidéo antérieure, la cohérence complexe des personnages sur plusieurs générations est difficile à maintenir. Si vous itérez sur une scène ou un personnage spécifique, I2V ou R2V vous donne plus de contrôle.

Comment fonctionne Wan 2.7 I2V sur Novita AI ?

La caractéristique déterminante d’I2V dans 2.7 est qu’il gère trois schémas d’animation différents via un seul point de terminaison, distingués par les paramètres que vous renseignez :

Première image vers vidéo : Fournissez image_url. Le modèle anime l’image vers l’avant. C’est le cas d’usage classique « donner vie à une photo ».

Première+dernière image vers vidéo : Fournissez à la fois image_url et last_frame_url. Le modèle génère le pont entre deux images clés, ce qui est utile pour des transitions contrôlées ou des séquences de morphing.

Continuation vidéo : Fournissez first_clip_url (un clip vidéo existant, mp4 ou mov, 2–10 secondes). Le modèle étend la vidéo vers l’avant en fonction de son contenu et de votre invite.

Le paramètre driving_audio_url fonctionne de la même manière que dans T2V — lorsqu’il est fourni, il pilote la génération avec lip-sync ou beat-matching ; lorsqu’il est omis, l’audio est généré automatiquement.

Paramètres clés :

image_url — requis pour les modes première image et première+dernière image ; image de première image (JPEG, JPG, PNG, BMP, WEBP ; jusqu’à 20 Mo ; largeur/hauteur 240–8000 px). Non utilisé en mode continuation.
last_frame_url — optionnel ; image de dernière image pour le mode image clé à image clé.
first_clip_url — optionnel ; clip vidéo existant pour le mode continuation (mp4/mov, 2–10 s).
resolution — 720P ou 1080P (par défaut 1080P) ; le rapport hauteur/largeur de la vidéo correspond au média d’entrée.
duration — 2–15 secondes (entier).
driving_audio_url — audio de pilotage optionnel.
prompt — optionnel ; guide la direction et le style de l’animation.

À qui I2V convient : Aux équipes e-commerce animant des photos de produits, aux artistes conceptuels ajoutant du mouvement aux illustrations, ou aux développeurs construisant des pipelines qui étendent des séquences existantes.

Attention : Le clip d’entrée pour la continuation doit être de 2 à 10 secondes. Le rapport hauteur/largeur de la résolution de la vidéo de sortie suit le média d’entrée — vous ne pouvez pas définir indépendamment la résolution et le rapport hauteur/largeur.

Comment fonctionne Wan 2.7 R2V sur Novita AI ?

R2V est le mode pour une vidéo narrative cohérente avec les personnages. Vous fournissez un ou plusieurs éléments multimédias de référence — images ou courts clips vidéo — et le modèle extrait l’apparence, le mouvement et la voix de chaque personnage. Vous dirigez ensuite ces personnages dans votre invite en utilisant character1, character2, etc.

C’est là que Wan 2.7 progresse de manière significative par rapport à 2.6. Au lieu d’être limité à 1–2 vidéos de référence, 2.7 accepte jusqu’à cinq éléments multimédias au total (images : 0–5, vidéos : 0–3, total combiné ≤ 5), vous donnant une distribution de personnages sans avoir à assembler des générations séparées.

Le paramètre shot_type contrôle la structure narrative : single maintient la sortie comme un seul plan continu ; multi génère une séquence avec transitions. La valeur multi a priorité sur toute instruction plan par plan dans votre invite, c’est donc un changement de mode délibéré plutôt qu’un indice dans l’invite.

Le comportement audio dans R2V est également plus explicite : le booléen audio (par défaut true) contrôle si l’audio est généré ou non, et reference_voice vous permet de spécifier une référence vocale pour le dialogue des personnages.

Paramètres clés :

media — requis ; tableau d’éléments multimédias de référence ; l’ordre correspond à character1, character2, etc.
prompt — requis ; utilisez character1, character2 pour référencer les personnages.
size — résolution ; mêmes options 720P/1080P que T2V.
duration — 2–10 secondes (limite plus courte que T2V/I2V).
shot_type — single (par défaut) ou multi.
audio — booléen, par défaut true.
reference_voice — référence vocale optionnelle pour la parole du personnage.
negative_prompt — optionnel ; max 500 caractères ; chinois ou anglais.

À qui R2V convient : Aux développeurs construisant des avatars vidéo, aux créateurs de contenu court qui ont besoin d’une distribution cohérente, ou à quiconque réalise des scénarios de jeu de rôle/performance de personnage.

Attention : R2V est limité à 10 secondes par génération. Pour des séquences plus longues, prévoyez d’assembler plusieurs appels R2V. Le type de plan multi gère les transitions dans cette fenêtre, mais n’étend pas le plafond de 10 secondes.

Comparaison des tarifs entre les modes

Les trois modes Wan 2.7 sont facturés par seconde de vidéo générée, pas par requête. La résolution affecte également le coût — les sorties 1080P coûtent plus cher que 720P. Le point de terminaison R2V a un booléen audio supplémentaire qui affecte le prix lorsqu’il est activé.

Les tarifs sont listés sur les pages des modèles Wan 2.7 T2V, Wan 2.7 I2V, et Wan 2.7 R2V sur Novita AI. Consultez ces pages directement pour les tarifs actuels par seconde, car les prix des modèles vidéo sont mis à jour fréquemment.

Pour estimer le coût d’un workflow : multipliez votre durée cible par le tarif par seconde pour la résolution choisie. Par exemple, un clip T2V 1080P de 10 secondes coûte 10× le tarif 1080P/s indiqué. Comme T2V et I2V partagent le même plafond de durée (15 s) et les mêmes options de résolution, leurs courbes de coût sont comparables ; le plafond de 10 secondes de R2V signifie que son coût maximum par génération est inférieur.

Leviers de contrôle des coûts :

Utilisez 720P pour le développement et les tests ; passez au 1080P uniquement pour les sorties finales.
Gardez prompt_extend activé (par défaut T2V) — il améliore la qualité sans affecter le coût.
Pour R2V, définissez audio: false lorsque vous fournissez votre propre audio en post-production.

Quel mode devriez-vous utiliser ?

Commencez par T2V lorsque : Vous générez du contenu original à partir d’un script ou d’une invite et vous n’avez pas de visuels source. C’est le chemin le moins frictionnel — une invite, un appel, vidéo plus audio en sortie. Bon pour la génération de contenu en volume, la création d’actifs de campagne et l’exploration rapide de concepts.

Passez à I2V lorsque : Vous avez des images ou des séquences existantes qui doivent bouger. Le mode première image anime des photos de produits ou des illustrations ; le mode première+dernière image vous donne des transitions contrôlées entre deux images clés ; le mode continuation étend des séquences que vous avez déjà. I2V est le bon choix chaque fois que votre matériel source pilote la sortie visuelle.

Utilisez R2V lorsque : L’identité et la cohérence des personnages sont importantes. Si votre cas d’usage nécessite que la même personne (ou plusieurs personnes) apparaisse dans plusieurs vidéos, ou si vous construisez du contenu basé sur la performance comme des avatars vidéo ou des scènes scénarisées, le système de personnages de référence de R2V est la solution dédiée. Le type de plan multi ajoute une structure cinématique sans étape de storyboard séparée.

Un arbre de décision pratique :

Avez-vous des personnages de référence ou des personnes qui doivent apparaître dans la vidéo ? → R2V
Avez-vous une image ou un clip vidéo existant que vous souhaitez animer ou étendre ? → I2V
Générez-vous des séquences originales à partir d’une seule description textuelle ? → T2V

Premiers pas avec l’API Novita AI

Les trois points de terminaison suivent le même modèle asynchrone : POST pour soumettre une tâche, recevoir un task_id, puis interroger l’API Task Result.

Prérequis : Une clé API depuis votre console Novita AI. Les nouveaux comptes reçoivent 1 $ de crédits gratuits.

Démarrage rapide T2V

import requests, time

API_KEY = "your_api_key"
BASE = "https://api.novita.ai"

# Submit generation
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# Poll for result
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V — Continuation vidéo

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://example.com/existing-clip.mp4",
            "prompt": "Continue the scene with smooth camera pan to the right"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V — Scène multi-personnage

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://example.com/person-a.jpg"},
                {"type": "image", "url": "https://example.com/person-b.jpg"}
            ],
            "prompt": "character1 and character2 are having a conversation at a café, natural daylight"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

La référence complète des paramètres pour chaque mode se trouve dans les docs API Wan 2.7 T2V, docs API Wan 2.7 I2V, et docs API Wan 2.7 R2V.

Si vous souhaitez comparer Wan 2.7 avec la génération précédente, le guide Wan 2.6 sur Novita AI couvre l’ensemble des fonctionnalités et la surface des paramètres de la 2.6.

Conclusion

Wan 2.7 organise ses capacités de génération en trois modes dédiés plutôt qu’en un seul point de terminaison tentaculaire. T2V est le chemin le plus rapide de l’idée à la vidéo lorsque vous n’avez pas de matériel source — une invite et une clé API sont tout ce dont vous avez besoin. I2V vous donne le contrôle du mouvement et de la continuité lorsque vous travaillez à partir d’images ou de séquences existantes, avec trois schémas d’entrée distincts dans un seul point de terminaison. R2V gère le problème le plus difficile : une vidéo cohérente avec les personnages à travers les scènes, avec jusqu’à cinq personnages de référence et une structure multi-shot intégrée.

La mise à niveau de 2.6 à 2.7 est plus visible dans I2V (la continuation est désormais native, pas un contournement) et R2V (cinq personnages contre deux, emplacements nommés contre positionnels). T2V reprend les forces de 2.6 avec une surface de paramètres plus propre.

Pour la plupart des workflows, l’arbre de décision est simple : commencez par T2V pour le contenu original, passez à I2V lorsque vous avez une image ou un clip source, et utilisez R2V lorsque l’identité du personnage doit rester cohérente sur plusieurs générations.

FAQ

Quelle est la différence entre Wan 2.7 T2V, I2V et R2V ? T2V génère une vidéo à partir d’une seule invite textuelle. I2V anime une image existante ou étend un clip vidéo existant. R2V génère une vidéo cohérente avec les personnages en utilisant des images ou clips de référence comme modèles de personnages. Chaque mode est un point de terminaison séparé optimisé pour son type d’entrée.

Wan 2.7 peut-il générer de l’audio automatiquement ? Oui. Les trois modes prennent en charge la génération automatique de l’audio par défaut. T2V et I2V génèrent de la musique de fond et des effets sonores adaptés à la scène ; R2V ajoute un paramètre reference_voice pour le dialogue des personnages. Vous pouvez fournir votre propre audio via audio_url (T2V) ou driving_audio_url (I2V), ou désactiver l’audio avec audio: false (R2V).

Quelles longueurs vidéo Wan 2.7 prend-il en charge ? T2V et I2V prennent en charge 2 à 15 secondes. R2V est limité à 10 secondes par génération. Tous les modes utilisent un minimum de 2 secondes.

Comment fonctionne la continuation vidéo I2V ? Envoyez first_clip_url pointant vers un fichier mp4 ou mov existant (2–10 secondes). Le modèle analyse le contenu et le mouvement du clip, puis génère un nouveau segment qui continue naturellement à partir de la dernière image. N’envoyez pas image_url en même temps que first_clip_url — ils sont pour des modes différents.

Combien de personnages de référence Wan 2.7 R2V prend-il en charge ? Jusqu’à cinq éléments multimédias au total (images : 0–5, vidéos : 0–3, total combiné ≤ 5). Chaque élément correspond à un emplacement de personnage nommé (character1, character2, etc.) que vous utilisez dans votre invite.

La résolution affecte-t-elle les tarifs ? Oui. Les trois modes facturent par seconde de vidéo générée, et le 1080P coûte plus cher par seconde que le 720P. Utilisez le 720P pendant le développement et passez au 1080P pour les sorties finales pour gérer les coûts.

Puis-je utiliser Wan 2.7 via une API REST ? Oui. Tous les points de terminaison sont basés sur REST et suivent un modèle asynchrone : POST une tâche pour recevoir un task_id, puis interrogez l’API Task Result. Consultez les exemples d’API dans la section « Premiers pas » ci-dessus, et la référence complète des paramètres dans les docs API Novita AI.

Wan 2.7 sur Novita AI : Text-to-Video vs Image-to-Video vs Reference-to-Video

Ce qui a changé de Wan 2.6 à 2.7

Aperçu des modes et tableau de sélection rapide

Comment fonctionne Wan 2.7 T2V sur Novita AI ?

Comment fonctionne Wan 2.7 I2V sur Novita AI ?

Comment fonctionne Wan 2.7 R2V sur Novita AI ?

Comparaison des tarifs entre les modes

Quel mode devriez-vous utiliser ?

Premiers pas avec l’API Novita AI

Démarrage rapide T2V

I2V — Continuation vidéo

R2V — Scène multi-personnage

Conclusion

FAQ

Articles recommandés

Product

RESOURCES

Partners

Company

Ce qui a changé de Wan 2.6 à 2.7

Aperçu des modes et tableau de sélection rapide

Comment fonctionne Wan 2.7 T2V sur Novita AI ?

Comment fonctionne Wan 2.7 I2V sur Novita AI ?

Comment fonctionne Wan 2.7 R2V sur Novita AI ?

Comparaison des tarifs entre les modes

Quel mode devriez-vous utiliser ?

Premiers pas avec l’API Novita AI

Démarrage rapide T2V

I2V — Continuation vidéo

R2V — Scène multi-personnage

Conclusion

FAQ

Articles recommandés

Articles associés

Product

RESOURCES

Partners

Company