Wan 2.1 14B Image-to-Video est disponible sur Novita AI à 0,04 $/s !

Table des matières

Capacités de Wan2.1 I2V
Innovations clés de Wan 2.1
Vbench de Wan 2.1
Configuration matérielle requise pour Wan 2.1
Comment accéder à Wan 2.1 via Novita AI ?
Questions fréquentes

Novita propose des tarifs extrêmement compétitifs sur le marché.

Par exemple, une vidéo Wan 2.1 I2V 720P de 5 secondes coûte seulement 0,30 $ par vidéo, une vidéo Wan 2.1 I2V 480P de 5 secondes coûte seulement 0,20 $ par vidéo !

Prend actuellement en charge jusqu’à 3 Loras !

Démarrez un essai gratuit sur Novita AI dès aujourd’hui. Pour intégrer l’API Wan 2.1, consultez notre documentation développeur pour plus de détails.

Wan 2.1 I2V (Image-to-Video) est un modèle de génération vidéo de pointe qui combine des technologies de dernier cri comme Wan-VAE et Video Diffusion DiT. Il excelle dans la reconstruction vidéo haute fidélité, la compression efficace et la génération transparente texte-vers-vidéo, soutenu par un ensemble de données d’entraînement robuste et propre.

Capacités de Wan2.1 I2V

Innovations clés de Wan 2.1

1. Wan-VAE

Aperçu

Un autoencodeur variationnel 3D (VAE) conçu pour une compression efficace et une reproduction de mouvement haute fidélité.
Capable d’encoder et décoder des vidéos 1080P tout en maintenant la cohérence temporelle.
Intègre plusieurs stratégies pour optimiser la compression spatio-temporelle, réduire l’utilisation mémoire et assurer la causalité temporelle.

Problèmes résolus

Compression efficace : Réduit les besoins de stockage et de calcul pour les données vidéo.
Reconstruction haute fidélité : Garantit que les vidéos générées sont de haute qualité avec un mouvement cohérent.
Cohérence temporelle : Évite les problèmes courants comme la discontinuité ou le tremblement des images dans les vidéos générées.

2. Video Diffusion DiT

Aperçu

Basé sur les Transformers de diffusion, amélioré par le cadre Flow Matching.
Prend en charge l’entrée de texte multilingue (via l’encodeur T5) et l’incorporation de texte (cross-attention).
Utilise un MLP partagé pour prédire les paramètres de modulation des plongements temporels, permettant à chaque bloc transformer d’apprendre des biais distincts, améliorant ainsi les performances.

Problèmes résolus

Intégration profonde du texte et de la génération vidéo : Permet au modèle de mieux comprendre et générer des vidéos selon des descriptions textuelles.
Amélioration des performances de génération : Améliore considérablement la qualité et l’expressivité des vidéos générées sans augmenter le nombre de paramètres.
Support multimodal : Gère plusieurs langues et types d’entrée, élargissant les scénarios d’application.

3. Ensemble de données candidat

Aperçu

Un jeu de données à grande échelle, organisé et dédupliqué d’images et de vidéos.
Utilise un processus de nettoyage des données en quatre étapes, axé sur les dimensions des données, la qualité visuelle et la qualité du mouvement.
Constitue un ensemble d’entraînement diversifié et de haute qualité.

Problèmes résolus

Bruit et redondance des données : Supprime efficacement les données de faible qualité ou dupliquées, améliorant l’efficacité des données d’entraînement.
Diversité et qualité : Fournit au modèle des échantillons riches et propres, améliorant la généralisation et les capacités de génération.
Entraînement à grande échelle : Prend en charge un entraînement efficace sur de grands ensembles de données de haute qualité.

Vbench de Wan 2.1

Wan 2.1 (Wan-14B) démontre d’excellentes performances dans les tâches principales telles que la cohérence d’identité, la plausibilité physique et la fluidité. Son score pondéré global est parmi les plus élevés du secteur, ce qui en fait l’un des modèles de génération vidéo les plus performants disponibles aujourd’hui. Cependant, il reste encore des possibilités d’amélioration dans des domaines comme la capacité de stylisation et le contrôle de la caméra.

Configuration matérielle requise pour Wan 2.1

Wan 2.1 a des exigences matérielles élevées, en particulier pour les tâches haute résolution et les grands modèles. La mémoire requise pour Wan 2.1 I2V approche les 80 Go. Il est recommandé d’utiliser plusieurs GPU de classe centre de données haut de gamme (tels que A100, H100 ou H20) pour répondre aux besoins de mémoire et de vitesse. Les GPU grand public ne conviennent que pour les petits modèles et les scénarios basse résolution.

Modèle	Compatible carte unique	Recommandation multi-GPU	Niveau de recommandation
RTX 4090	Non	Non	uniquement pour T2V-1.3B en 480P
H20	Non supporté	4 GPU ou 8 GPU	★★★
A800/A100	Supporté	4 GPU ou 8 GPU	★★★★
H800/H100	Supporté	4 GPU ou 8 GPU	★★★★★

Comment accéder à Wan 2.1 via Novita AI ?

Novita AI est une plateforme cloud d’IA qui offre aux développeurs un moyen simple de déployer des modèles d’IA grâce à notre API simple, tout en fournissant un GPU cloud abordable et fiable pour construire et passer à l’échelle.

Étape 1 : Connectez-vous et accédez à la bibliothèque de modèles

Connectez-vous à votre compte et cliquez sur le bouton Bibliothèque de modèles.

Essayez Wan 2.1 I2V maintenant !

Étape 2 : Choisissez votre modèle

Parcourez les options disponibles et sélectionnez le modèle qui correspond à vos besoins.

Étape 3 : Démarrez votre essai gratuit

Étape 4 : Obtenez votre clé API

Pour vous authentifier auprès de l’API, nous vous fournirons une nouvelle clé API. En entrant sur la page, vous pouvez copier la clé API comme indiqué sur l’image.

Étape 5 : Installez l’API

Installez l’API à l’aide du gestionnaire de paquets spécifique à votre langage de programmation.

Après l’installation, importez les bibliothèques nécessaires dans votre environnement de développement. Initialisez l’API avec votre clé API pour commencer à interagir avec Novita AI LLM. Voici un exemple d’utilisation de l’API de complétion de chat pour les utilisateurs Python.

import requests

url = "https://api.novita.ai/v3/async/wan-i2v"

payload = {
    "extra": {"webhook": {
            "url": "<string>",
            "test_mode": {
                "enabled": True,
                "return_task_status": "<string>"
            }
        }},
    "model_name": "<string>",
    "image_url": "<string>",
    "width": 123,
    "height": 123,
    "loras": [
        {
            "path": "<string>",
            "scale": {}
        }
    ],
    "seed": 123,
    "prompt": "<string>",
    "negative_prompt": "<string>",
    "steps": 123,
    "guidance_scale": 123,
    "flow_shift": 123,
    "enable_safety_checker": True
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

Questions fréquentes

Quelles sont les exigences matérielles pour Wan 2.1 I2V ?

Wan 2.1 I2V est un modèle avancé pour générer des vidéos de haute qualité à partir d’entrées textuelles ou d’images. Son unicité réside dans sa reproduction de mouvement haute fidélité, sa cohérence temporelle et son support multilingue pour la génération texte-vers-vidéo.

Qu’est-ce que Wan 2.1 I2V et qu’est-ce qui le rend unique ?

Tarification compétitive : 0,40 $ par vidéo 720P de 5 secondes contre 2,39 $ sur des plateformes similaires.
API facile à utiliser avec une documentation détaillée pour les développeurs.

Comment puis-je accéder à Wan 2.1 I2V ?

Vous pouvez utiliser Wan 2.1 I2V via la plateforme Novita AI. Connectez-vous simplement, sélectionnez le modèle, obtenez votre clé API et intégrez l’API dans votre environnement de développement.

Novita AI est la plateforme cloud tout-en-un qui donne vie à vos ambitions IA. API intégrées, serverless, GPU Instance — les outils rentables dont vous avez besoin. Éliminez l’infrastructure, commencez gratuitement et faites de votre vision IA une réalité.

Wan 2.1 14B Image-to-Video est disponible sur Novita AI à 0,04 $/s !

Capacités de Wan2.1 I2V