Wan2.6 sur Novita AI : Modèle de création cinématographique avec jeu de rôle et contrôle multi-plans

Table des matières

Qu'est-ce que Wan2.6 ?
Fonctionnalités clés de Wan2.6
Variantes du modèle Wan2.6 sur Novita AI
Démarrer avec Wan2.6 sur Novita AI
Exemple de génération Texte vers vidéo
Structure de prompt multi-plans
Conclusion

Wan2.6 représente une avancée majeure dans la génération de vidéos par IA, offrant les capacités de création vidéo les plus complètes au monde. Le modèle intègre des fonctionnalités de jeu de rôle, de contrôle multi-plans et de synchronisation audio-visuelle qui le distinguent de ses concurrents.

Désormais disponible sur la plateforme d’API de modèles de Novita AI, les développeurs et les entreprises peuvent accéder à ce modèle de pointe via une intégration API simple, sans avoir à gérer d’infrastructure complexe.

Ce guide explique comment exploiter Wan2.6 sur Novita AI pour la génération de vidéos à partir de texte, d’images ou de vidéos de référence.

Essayez Wan2.6 dans le Playground Novita AI

Qu’est-ce que Wan2.6 ?

Cette vidéo est générée par Wan2.6

Wan2.6 est la dernière génération de la série de modèles de génération vidéo d’Alibaba Cloud, spécialement conçue pour la production cinématographique professionnelle et les scénarios de contenu créatif.

En tant que modèle de génération vidéo le plus complet fonctionnellement au monde, Wan2.6 introduit des capacités révolutionnaires qui comblent le fossé entre la création de contenu amateur et la cinématographie professionnelle.

Technologie de base

Wan2.6 utilise une modélisation conjointe multimodale avancée pour traiter les vidéos de référence. Le système extrait des informations temporelles sur les émotions des sujets, leurs poses et des caractéristiques visuelles complètes sous plusieurs angles.

Le modèle capture simultanément les caractéristiques acoustiques, y compris le timbre de voix et le débit de parole. Ces éléments servent de conditions de contrôle pendant la génération pour maintenir une cohérence sensorielle complète, des éléments visuels à l’audio.

Innovations techniques

Le modèle intègre plusieurs technologies révolutionnaires :

Apprentissage multimodal : traite simultanément les données visuelles, audio et temporelles pour des sorties cohérentes
Compréhension sémantique de haut niveau : transforme des prompts simples en récits multi-plans professionnels avec des scénarios complets
Modélisation unifiée : maintient la cohérence des sujets principaux, des dispositions de scènes et de l’atmosphère environnementale lors des transitions entre plans
Synchronisation audio-visuelle : garantit une synchronisation labiale parfaite et un alignement audio avec le contenu visuel

Fonctionnalités clés de Wan2.6

1. Capacité de jeu de rôle

La fonctionnalité signature de Wan2.6 permet aux utilisateurs de télécharger des vidéos personnelles et de se transformer en personnages dans des scènes de qualité professionnelle.

Le modèle prend en charge :

Performances solo et multi-personnages : prend en charge les performances solo ou les interactions de groupe
Transfert d’émotions et de gestes : capture et reproduit des expressions et mouvements nuancés
Transformation entre styles : applique différents genres (science-fiction, suspense, romance) aux séquences sources
Simulation de jeu d’acteur professionnel : génère des performances de qualité cinématographique à partir de vidéos d’utilisateurs ordinaires

2. Contrôle multi-plans et transitions

Le modèle excelle dans la composition de plans et les transitions de qualité professionnelle :

Planification automatique des plans : convertit des prompts simples en scénarios multi-plans
Transitions fluides : coupes fluides entre différents angles de caméra et perspectives
Cohérence narrative : maintient la continuité de l’histoire sur plusieurs plans
Préservation de la cohérence : garde les personnages, les décors et l’atmosphère unifiés tout au long de la vidéo

3. Durée vidéo étendue

Wan2.6 prend en charge jusqu’à 15 secondes par génération — la durée de génération unitaire la plus longue disponible sur le marché chinois de la vidéo IA.

Cette durée étendue permet des histoires plus complexes et un développement complet de scènes sans avoir besoin de plusieurs générations et d’assemblage.

4. Synchronisation audio-visuelle

Alignement parfait entre les éléments audio et visuels :

Précision de la synchronisation labiale : correspondance précise des mouvements de bouche pour les dialogues
Animation pilotée par le son : les indices audio guident les mouvements et expressions des personnages
Audio environnemental : sons de fond et effets contextuellement appropriés

5. Métriques de qualité améliorées

Les mises à jour récentes ont considérablement amélioré plusieurs aspects du modèle :

Fidélité visuelle améliorée : résolution plus élevée et qualité de détails accrue
Meilleurs effets audio : conception sonore de qualité professionnelle
Meilleur respect des prompts : interprétation plus précise des instructions complexes
Travail de caméra cinématographique : techniques de cinématographie professionnelles appliquées automatiquement

Variantes du modèle Wan2.6 sur Novita AI

Novita AI propose trois points de terminaison API distincts pour Wan2.6, chacun optimisé pour des cas d’usage spécifiques et accessible via la plateforme d’API de modèles.

Texte vers vidéo (T2V)

Générez des vidéos directement à partir de prompts textuels, sans avoir besoin d’images ou de vidéos d’entrée.

Idéal pour créer du contenu original à partir de descriptions créatives, avec contrôle multi-plans et séquencement narratif.

Capacités clés :

Génération de récits multi-plans à partir de prompts séquentiels
Sélection automatique du type de plan et mouvements de caméra
Transitions cinématographiques entre les scènes
Prise en charge des durées vidéo de 5, 10 et 15 secondes

Spécifications techniques :

Parameter	Supported Values	Notes
Duration	5s, 10s, 15s	Choisissez en fonction de la complexité du contenu
Resolution	1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632	Ne prend pas en charge le 480P
Model ID	`wan2.6-t2v`	Utilisez cet identifiant dans les appels API

En savoir plus : Documentation de l’API Wan2.6 Texte vers vidéo

Image vers vidéo (I2V)

Animez des images statiques en séquences vidéo dynamiques.

Parfait pour donner vie à des photos de produits, des illustrations ou des concepts artistiques avec un mouvement contrôlé et un contexte narratif.

Capacités clés :

Contrôle de l’intensité du mouvement pour l’intensité de l’animation
Plusieurs options de résolution pour différents cas d’usage
Direction de l’animation guidée par prompt
Animation de personnages et d’objets

Spécifications techniques :

Parameter	Supported Values	Notes
Duration	5s, 10s, 15s	Durée étendue pour les animations complexes
Resolution	1080P, 720P	Ne prend pas en charge le 480P
Model ID	`wan2.6-i2v`	Utilisez cet identifiant dans les appels API

En savoir plus : Documentation de l’API Wan2.6 Image vers vidéo

Vidéo de référence (R2V)

Transformez des vidéos existantes avec transfert de style, jeu de rôle ou modifications de scènes en utilisant une entrée vidéo de référence.

Capacités clés :

Jeu de rôle et remplacement de personnages
Transfert de style entre genres visuels
Préservation de la synchronisation audio-visuelle
Prise en charge de plusieurs vidéos de référence (1 à 2 vidéos recommandées)

Spécifications techniques :

Parameter	Supported Values
Duration	5s, 10s (ne prend pas en charge le 15s)
Resolution	1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 (pas de 480P)
Video Format	MP4, MOV
File Size	< 30 Mo par fichier
Single Reference	Durée max 5s
Dual Reference	Max 2,5s chacune (3 vidéos non recommandées)
Model ID	`wan2.6-v2v`

Notes importantes : Les vidéos de référence ne peuvent pas être téléchargées simultanément avec des fichiers audio. Le paramètre reference_video_urls accepte un tableau d’URLs de vidéos.

En savoir plus : Documentation de l’API Wan2.6 Vidéo de référence

Démarrer avec Wan2.6 sur Novita AI

Prérequis

Avant de commencer, assurez-vous de disposer de :

Compte Novita AI : inscrivez-vous sur novita.ai. Vous recevez 1 $ de crédits gratuits automatiquement lors de l’inscription
Clé API : récupérez-la depuis votre console
Environnement de développement : Python, Node.js ou tout client HTTP

Flux de requête asynchrone

Wan2.6 sur Novita AI utilise un modèle de traitement asynchrone pour traiter les demandes de génération efficacement :

Soumettre la demande : envoyez une requête POST au point de terminaison approprié avec vos paramètres
Recevoir l’ID de tâche : l’API renvoie immédiatement un task_id
Interroger pour obtenir les résultats : utilisez l’ID de tâche pour vérifier l’état de la génération
Récupérer la sortie : téléchargez la vidéo générée une fois celle-ci terminée

Exemple de génération Texte vers vidéo

Voici un exemple complet de génération d’une vidéo à partir de texte en utilisant l’API T2V de Wan2.6 :

Étape 1 : Soumettre la demande de génération

import requests

url = "https://api.novita.ai/v3/async/wan2.6-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "audio_url": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "seed": 123,
        "size": "<string>",
        "audio": True,
        "duration": 123,
        "shot_type": "<string>",
        "watermark": True,
        "prompt_extend": True
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

Étape 2 : Récupérer les résultats de génération de vidéo

import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

Paramètres clés expliqués

Paramètre	Description	Options
`prompt`	Description textuelle de la vidéo souhaitée	Description détaillée de la scène
`audio_url`	Fichier audio facultatif pour la synchronisation	URL HTTPS vers le fichier audio
`negative_prompt`	Éléments à éviter	Problèmes de qualité, objets indésirables
`seed`	Graine aléatoire pour la reproductibilité	Tout entier
`size`	Résolution de la vidéo	“1280x720”, “1920x1080”, “720x1280”, etc.
`duration`	Durée de la vidéo en secondes	5, 10 ou 15
`shot_type`	Angle de caméra	“wide_shot”, “medium_shot”, “close_up”
`prompt_extend`	Amélioration automatique du prompt	true/false
`watermark`	Ajouter un filigrane à la vidéo	true/false
`audio`	Activer la génération audio	true/false

Pour les spécifications API complètes et des paramètres supplémentaires, consultez la Documentation de l’API Wan2.6.

Structure de prompt multi-plans

La capacité multi-plans de Wan2.6 vous permet de créer des séquences narratives cohérentes avec plusieurs angles de caméra et scènes. Pour maximiser la qualité des vidéos multi-plans, suivez ce format de prompt structuré.

Formule de structure de prompt

Prompt = Overall Description + Shot Number + Timestamp + Shot Content

Décomposition des composants

1. Description générale

Fournissez un bref aperçu de l’ensemble du contenu de la vidéo. Cette section doit décrire :

Thème de l’histoire et style narratif
Émotions principales ou événements centraux
Ton général et atmosphère

Cela aide l’IA à comprendre la direction narrative globale et à maintenir la cohérence entre les plans.

2. Numéro de plan

Attribuez un numéro séquentiel à chaque plan pour :

Distinguer les différentes scènes ou segments
Organiser clairement la structure de la vidéo
Maintenir un flux logique entre les transitions

3. Horodatage

Spécifiez la plage de temps exacte pour chaque plan dans la timeline de la vidéo :

Garantit que le contenu est aligné sur le timing de la vidéo
Améliore la précision de la génération
Aide à un contrôle précis de la durée de chaque plan

4. Contenu du plan

Fournissez des descriptions détaillées de chaque plan, incluant :

Personnages ou objets principaux et leurs comportements spécifiques
Actions, dialogues, expressions et gestes
Angles de caméra et mouvements
Détails d’éclairage et d’atmosphère

Suivez les conventions d’écriture de prompt standard pour les plans uniques pour cette section.

Exemple de prompt multi-plans

Voici un exemple pratique démontrant la structure complète :

This story is told from a third-person perspective, depicting a short drama about abandonment and the rekindling of hope.

Shot 1 [0-3 seconds]: A boy sits alone in the corner of a playground, head down, looking at a letter in his hands. He lets out a soft sigh, his eyes revealing confusion and uncertainty.

Shot 2 [3-5 seconds]: Hard cut transition, fixed camera position, focusing on the boy's eyes. Tears glisten, conveying a sense of loss and helplessness.

Shot 3 [5-10 seconds]: Hard cut transition, scene shifts to a simple classroom. A girl with gentle yet determined eyes, wearing modest clothing, approaches the boy with a warm and reassuring smile to comfort him.

Conclusion

Wan2.6 sur Novita AI démocratise la production vidéo professionnelle, offrant un contrôle créatif sans précédent grâce au jeu de rôle, aux récits multi-plans et à la synchronisation audio-visuelle.

Que vous soyez un développeur créant des fonctionnalités de génération de vidéos, un marketeur créant du contenu de campagne ou un cinéaste explorant la prévisualisation, la plateforme d’API de modèles de Novita AI élimine la complexité de l’infrastructure tout en offrant des résultats de qualité cinématographique.

Commencez à générer des vidéos professionnelles dès aujourd’hui et transformez votre vision créative en réalité en quelques minutes.

Prêt à vous lancer ? Créez votre compte Novita AI et accédez à Wan2.6 avec des crédits gratuits pour découvrir l’avenir de la génération de vidéos par IA.

Novita AI est une plateforme cloud IA leader qui fournit aux développeurs des API faciles à utiliser et une infrastructure GPU abordable et fiable pour créer et mettre à l’échelle des applications IA.

Wan2.6 sur Novita AI : Modèle de création cinématographique avec jeu de rôle et contrôle multi-plans

Qu’est-ce que Wan2.6 ?

Technologie de base

Innovations techniques

Fonctionnalités clés de Wan2.6

1. Capacité de jeu de rôle

2. Contrôle multi-plans et transitions

3. Durée vidéo étendue

4. Synchronisation audio-visuelle

5. Métriques de qualité améliorées

Variantes du modèle Wan2.6 sur Novita AI

Texte vers vidéo (T2V)

Image vers vidéo (I2V)

Vidéo de référence (R2V)

Démarrer avec Wan2.6 sur Novita AI

Prérequis

Flux de requête asynchrone

Exemple de génération Texte vers vidéo

Étape 1 : Soumettre la demande de génération

Étape 2 : Récupérer les résultats de génération de vidéo

Paramètres clés expliqués

Structure de prompt multi-plans

Formule de structure de prompt

Décomposition des composants

Exemple de prompt multi-plans

Conclusion

Product

RESOURCES

Partners

Company

Qu’est-ce que Wan2.6 ?

Technologie de base

Innovations techniques

Fonctionnalités clés de Wan2.6

1. Capacité de jeu de rôle

2. Contrôle multi-plans et transitions

3. Durée vidéo étendue

4. Synchronisation audio-visuelle

5. Métriques de qualité améliorées

Variantes du modèle Wan2.6 sur Novita AI

Texte vers vidéo (T2V)

Image vers vidéo (I2V)

Vidéo de référence (R2V)

Démarrer avec Wan2.6 sur Novita AI

Prérequis

Flux de requête asynchrone

Exemple de génération Texte vers vidéo

Étape 1 : Soumettre la demande de génération

Étape 2 : Récupérer les résultats de génération de vidéo

Paramètres clés expliqués

Structure de prompt multi-plans

Formule de structure de prompt

Décomposition des composants

Exemple de prompt multi-plans

Conclusion

Articles associés

Product

RESOURCES

Partners

Company