Wan2.6 représente une avancée majeure dans la génération de vidéos par IA, offrant les capacités de création vidéo les plus complètes au monde. Le modèle intègre des fonctionnalités de jeu de rôle, de contrôle multi-plans et de synchronisation audio-visuelle qui le distinguent de ses concurrents.
Désormais disponible sur la plateforme d’API de modèles de Novita AI, les développeurs et les entreprises peuvent accéder à ce modèle de pointe via une intégration API simple, sans avoir à gérer d’infrastructure complexe.
Ce guide explique comment exploiter Wan2.6 sur Novita AI pour la génération de vidéos à partir de texte, d’images ou de vidéos de référence.
Essayez Wan2.6 dans le Playground Novita AI
Qu’est-ce que Wan2.6 ?
Cette vidéo est générée par Wan2.6
Wan2.6 est la dernière génération de la série de modèles de génération vidéo d’Alibaba Cloud, spécialement conçue pour la production cinématographique professionnelle et les scénarios de contenu créatif.
En tant que modèle de génération vidéo le plus complet fonctionnellement au monde, Wan2.6 introduit des capacités révolutionnaires qui comblent le fossé entre la création de contenu amateur et la cinématographie professionnelle.
Technologie de base
Wan2.6 utilise une modélisation conjointe multimodale avancée pour traiter les vidéos de référence. Le système extrait des informations temporelles sur les émotions des sujets, leurs poses et des caractéristiques visuelles complètes sous plusieurs angles.
Le modèle capture simultanément les caractéristiques acoustiques, y compris le timbre de voix et le débit de parole. Ces éléments servent de conditions de contrôle pendant la génération pour maintenir une cohérence sensorielle complète, des éléments visuels à l’audio.
Innovations techniques
Le modèle intègre plusieurs technologies révolutionnaires :
- Apprentissage multimodal : traite simultanément les données visuelles, audio et temporelles pour des sorties cohérentes
- Compréhension sémantique de haut niveau : transforme des prompts simples en récits multi-plans professionnels avec des scénarios complets
- Modélisation unifiée : maintient la cohérence des sujets principaux, des dispositions de scènes et de l’atmosphère environnementale lors des transitions entre plans
- Synchronisation audio-visuelle : garantit une synchronisation labiale parfaite et un alignement audio avec le contenu visuel
Fonctionnalités clés de Wan2.6
1. Capacité de jeu de rôle
La fonctionnalité signature de Wan2.6 permet aux utilisateurs de télécharger des vidéos personnelles et de se transformer en personnages dans des scènes de qualité professionnelle.
Le modèle prend en charge :
- Performances solo et multi-personnages : prend en charge les performances solo ou les interactions de groupe
- Transfert d’émotions et de gestes : capture et reproduit des expressions et mouvements nuancés
- Transformation entre styles : applique différents genres (science-fiction, suspense, romance) aux séquences sources
- Simulation de jeu d’acteur professionnel : génère des performances de qualité cinématographique à partir de vidéos d’utilisateurs ordinaires
2. Contrôle multi-plans et transitions
Le modèle excelle dans la composition de plans et les transitions de qualité professionnelle :
- Planification automatique des plans : convertit des prompts simples en scénarios multi-plans
- Transitions fluides : coupes fluides entre différents angles de caméra et perspectives
- Cohérence narrative : maintient la continuité de l’histoire sur plusieurs plans
- Préservation de la cohérence : garde les personnages, les décors et l’atmosphère unifiés tout au long de la vidéo
3. Durée vidéo étendue
Wan2.6 prend en charge jusqu’à 15 secondes par génération — la durée de génération unitaire la plus longue disponible sur le marché chinois de la vidéo IA.
Cette durée étendue permet des histoires plus complexes et un développement complet de scènes sans avoir besoin de plusieurs générations et d’assemblage.
4. Synchronisation audio-visuelle
Alignement parfait entre les éléments audio et visuels :
- Précision de la synchronisation labiale : correspondance précise des mouvements de bouche pour les dialogues
- Animation pilotée par le son : les indices audio guident les mouvements et expressions des personnages
- Audio environnemental : sons de fond et effets contextuellement appropriés
5. Métriques de qualité améliorées
Les mises à jour récentes ont considérablement amélioré plusieurs aspects du modèle :
- Fidélité visuelle améliorée : résolution plus élevée et qualité de détails accrue
- Meilleurs effets audio : conception sonore de qualité professionnelle
- Meilleur respect des prompts : interprétation plus précise des instructions complexes
- Travail de caméra cinématographique : techniques de cinématographie professionnelles appliquées automatiquement
Variantes du modèle Wan2.6 sur Novita AI
Novita AI propose trois points de terminaison API distincts pour Wan2.6, chacun optimisé pour des cas d’usage spécifiques et accessible via la plateforme d’API de modèles.
Texte vers vidéo (T2V)
Générez des vidéos directement à partir de prompts textuels, sans avoir besoin d’images ou de vidéos d’entrée.
Idéal pour créer du contenu original à partir de descriptions créatives, avec contrôle multi-plans et séquencement narratif.
Capacités clés :
- Génération de récits multi-plans à partir de prompts séquentiels
- Sélection automatique du type de plan et mouvements de caméra
- Transitions cinématographiques entre les scènes
- Prise en charge des durées vidéo de 5, 10 et 15 secondes
Spécifications techniques :
| Parameter | Supported Values | Notes |
|---|---|---|
| Duration | 5s, 10s, 15s | Choisissez en fonction de la complexité du contenu |
| Resolution | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 | Ne prend pas en charge le 480P |
| Model ID | wan2.6-t2v |
Utilisez cet identifiant dans les appels API |
En savoir plus : Documentation de l’API Wan2.6 Texte vers vidéo
Image vers vidéo (I2V)
Animez des images statiques en séquences vidéo dynamiques.
Parfait pour donner vie à des photos de produits, des illustrations ou des concepts artistiques avec un mouvement contrôlé et un contexte narratif.
Capacités clés :
- Contrôle de l’intensité du mouvement pour l’intensité de l’animation
- Plusieurs options de résolution pour différents cas d’usage
- Direction de l’animation guidée par prompt
- Animation de personnages et d’objets
Spécifications techniques :
| Parameter | Supported Values | Notes |
|---|---|---|
| Duration | 5s, 10s, 15s | Durée étendue pour les animations complexes |
| Resolution | 1080P, 720P | Ne prend pas en charge le 480P |
| Model ID | wan2.6-i2v |
Utilisez cet identifiant dans les appels API |
En savoir plus : Documentation de l’API Wan2.6 Image vers vidéo
Vidéo de référence (R2V)
Transformez des vidéos existantes avec transfert de style, jeu de rôle ou modifications de scènes en utilisant une entrée vidéo de référence.
Capacités clés :
- Jeu de rôle et remplacement de personnages
- Transfert de style entre genres visuels
- Préservation de la synchronisation audio-visuelle
- Prise en charge de plusieurs vidéos de référence (1 à 2 vidéos recommandées)
Spécifications techniques :
| Parameter | Supported Values |
|---|---|
| Duration | 5s, 10s (ne prend pas en charge le 15s) |
| Resolution | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 (pas de 480P) |
| Video Format | MP4, MOV |
| File Size | < 30 Mo par fichier |
| Single Reference | Durée max 5s |
| Dual Reference | Max 2,5s chacune (3 vidéos non recommandées) |
| Model ID | wan2.6-v2v |
Notes importantes : Les vidéos de référence ne peuvent pas être téléchargées simultanément avec des fichiers audio. Le paramètre reference_video_urls accepte un tableau d’URLs de vidéos.
En savoir plus : Documentation de l’API Wan2.6 Vidéo de référence
Démarrer avec Wan2.6 sur Novita AI
Prérequis
Avant de commencer, assurez-vous de disposer de :
- Compte Novita AI : inscrivez-vous sur novita.ai. Vous recevez 1 $ de crédits gratuits automatiquement lors de l’inscription
- Clé API : récupérez-la depuis votre console
- Environnement de développement : Python, Node.js ou tout client HTTP
Flux de requête asynchrone
Wan2.6 sur Novita AI utilise un modèle de traitement asynchrone pour traiter les demandes de génération efficacement :
- Soumettre la demande : envoyez une requête POST au point de terminaison approprié avec vos paramètres
- Recevoir l’ID de tâche : l’API renvoie immédiatement un
task_id - Interroger pour obtenir les résultats : utilisez l’ID de tâche pour vérifier l’état de la génération
- Récupérer la sortie : téléchargez la vidéo générée une fois celle-ci terminée
Exemple de génération Texte vers vidéo
Voici un exemple complet de génération d’une vidéo à partir de texte en utilisant l’API T2V de Wan2.6 :
Étape 1 : Soumettre la demande de génération
import requests
url = "https://api.novita.ai/v3/async/wan2.6-t2v"
payload = {
"input": {
"prompt": "<string>",
"audio_url": "<string>",
"negative_prompt": "<string>"
},
"parameters": {
"seed": 123,
"size": "<string>",
"audio": True,
"duration": 123,
"shot_type": "<string>",
"watermark": True,
"prompt_extend": True
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Étape 2 : Récupérer les résultats de génération de vidéo
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
Paramètres clés expliqués
| Paramètre | Description | Options |
|---|---|---|
prompt |
Description textuelle de la vidéo souhaitée | Description détaillée de la scène |
audio_url |
Fichier audio facultatif pour la synchronisation | URL HTTPS vers le fichier audio |
negative_prompt |
Éléments à éviter | Problèmes de qualité, objets indésirables |
seed |
Graine aléatoire pour la reproductibilité | Tout entier |
size |
Résolution de la vidéo | “1280x720”, “1920x1080”, “720x1280”, etc. |
duration |
Durée de la vidéo en secondes | 5, 10 ou 15 |
shot_type |
Angle de caméra | “wide_shot”, “medium_shot”, “close_up” |
prompt_extend |
Amélioration automatique du prompt | true/false |
watermark |
Ajouter un filigrane à la vidéo | true/false |
audio |
Activer la génération audio | true/false |
Pour les spécifications API complètes et des paramètres supplémentaires, consultez la Documentation de l’API Wan2.6.
Structure de prompt multi-plans
La capacité multi-plans de Wan2.6 vous permet de créer des séquences narratives cohérentes avec plusieurs angles de caméra et scènes. Pour maximiser la qualité des vidéos multi-plans, suivez ce format de prompt structuré.
Formule de structure de prompt
Prompt = Overall Description + Shot Number + Timestamp + Shot Content
Décomposition des composants
1. Description générale
Fournissez un bref aperçu de l’ensemble du contenu de la vidéo. Cette section doit décrire :
- Thème de l’histoire et style narratif
- Émotions principales ou événements centraux
- Ton général et atmosphère
Cela aide l’IA à comprendre la direction narrative globale et à maintenir la cohérence entre les plans.
2. Numéro de plan
Attribuez un numéro séquentiel à chaque plan pour :
- Distinguer les différentes scènes ou segments
- Organiser clairement la structure de la vidéo
- Maintenir un flux logique entre les transitions
3. Horodatage
Spécifiez la plage de temps exacte pour chaque plan dans la timeline de la vidéo :
- Garantit que le contenu est aligné sur le timing de la vidéo
- Améliore la précision de la génération
- Aide à un contrôle précis de la durée de chaque plan
4. Contenu du plan
Fournissez des descriptions détaillées de chaque plan, incluant :
- Personnages ou objets principaux et leurs comportements spécifiques
- Actions, dialogues, expressions et gestes
- Angles de caméra et mouvements
- Détails d’éclairage et d’atmosphère
Suivez les conventions d’écriture de prompt standard pour les plans uniques pour cette section.
Exemple de prompt multi-plans
Voici un exemple pratique démontrant la structure complète :
This story is told from a third-person perspective, depicting a short drama about abandonment and the rekindling of hope.
Shot 1 [0-3 seconds]: A boy sits alone in the corner of a playground, head down, looking at a letter in his hands. He lets out a soft sigh, his eyes revealing confusion and uncertainty.
Shot 2 [3-5 seconds]: Hard cut transition, fixed camera position, focusing on the boy's eyes. Tears glisten, conveying a sense of loss and helplessness.
Shot 3 [5-10 seconds]: Hard cut transition, scene shifts to a simple classroom. A girl with gentle yet determined eyes, wearing modest clothing, approaches the boy with a warm and reassuring smile to comfort him.
Conclusion
Wan2.6 sur Novita AI démocratise la production vidéo professionnelle, offrant un contrôle créatif sans précédent grâce au jeu de rôle, aux récits multi-plans et à la synchronisation audio-visuelle.
Que vous soyez un développeur créant des fonctionnalités de génération de vidéos, un marketeur créant du contenu de campagne ou un cinéaste explorant la prévisualisation, la plateforme d’API de modèles de Novita AI élimine la complexité de l’infrastructure tout en offrant des résultats de qualité cinématographique.
Commencez à générer des vidéos professionnelles dès aujourd’hui et transformez votre vision créative en réalité en quelques minutes.
Prêt à vous lancer ? Créez votre compte Novita AI et accédez à Wan2.6 avec des crédits gratuits pour découvrir l’avenir de la génération de vidéos par IA.
Novita AI est une plateforme cloud IA leader qui fournit aux développeurs des API faciles à utiliser et une infrastructure GPU abordable et fiable pour créer et mettre à l’échelle des applications IA.
