Wan2.6 representa un gran avance en la generación de videos con IA, ofreciendo las capacidades de creación de video más completas del mundo. El modelo incluye funciones de interpretación de roles, control multi-toma y sincronización audiovisual que lo diferencian de la competencia.
Ahora disponible en la plataforma Model API de Novita AI, los desarrolladores y las empresas pueden acceder a este modelo de vanguardia mediante una integración simple de API, sin necesidad de gestionar infraestructuras complejas.
Esta guía explora cómo aprovechar Wan2.6 en Novita AI para generación de texto a video, imagen a video y video de referencia.
Prueba Wan2.6 en el Playground de Novita AI
¿Qué es Wan2.6?
Este video ha sido generado por Wan2.6
Wan2.6 es la última generación de la serie de modelos de generación de video de Alibaba Cloud, diseñada específicamente para la producción cinematográfica profesional y escenarios de contenido creativo.
Como el modelo de generación de video más completo en funciones del mundo, Wan2.6 introduce capacidades revolucionarias que tienden un puente entre la creación de contenido amateur y la cinematografía profesional.
Tecnología principal
Wan2.6 emplea un modelado conjunto multimodal avanzado para procesar videos de referencia. El sistema extrae información temporal sobre las emociones del sujeto, las poses y las características visuales completas desde múltiples ángulos.
El modelo captura simultáneamente características acústicas, incluido el timbre de la voz y la velocidad del habla. Estos elementos sirven como condiciones de control durante la generación para mantener una consistencia sensorial completa, desde lo visual hasta lo auditivo.
Innovaciones técnicas
El modelo integra varias tecnologías innovadoras:
- Aprendizaje multimodal: Procesa datos visuales, auditivos y temporales de forma simultánea para obtener una salida coherente.
- Comprensión semántica de alto nivel: Transforma indicaciones simples en narrativas profesionales multi-toma con historias completas.
- Modelado unificado: Mantiene la consistencia en los sujetos principales, la disposición de las escenas y la atmósfera ambiental en las transiciones de tomas.
- Sincronización audiovisual: Garantiza una sincronización labial perfecta y una alineación del audio con el contenido visual.
Características clave de Wan2.6
1. Capacidad de interpretación de roles
La función insignia de Wan2.6 permite a los usuarios subir videos personales y transformarse en personajes dentro de escenas de calidad profesional.
El modelo maneja:
- Actuaciones de uno o múltiples personajes: Admite actuaciones en solitario o interacciones grupales.
- Transferencia de emociones y gestos: Captura y replica expresiones y movimientos sutiles.
- Transformación entre estilos: Aplica diferentes géneros (ciencia ficción, suspense, romance) al material de origen.
- Simulación de actuación profesional: Genera actuaciones de calidad cinematográfica a partir de videos de usuario comunes.
2. Control multi-toma y transiciones
El modelo destaca en la composición y transiciones de tomas de nivel profesional:
- Planificación automática de tomas: Convierte indicaciones simples en guiones multi-toma.
- Transiciones fluidas: Cortes suaves entre diferentes ángulos de cámara y perspectivas.
- Coherencia narrativa: Mantiene la continuidad de la historia a través de múltiples tomas.
- Preservación de la consistencia: Mantiene unificados los personajes, escenarios y atmósfera en todo momento.
3. Duración extendida del video
Wan2.6 admite hasta 15 segundos por generación, la duración de generación única más larga disponible en el mercado chino de videos con IA.
Esta duración extendida permite narraciones más complejas y un desarrollo completo de la escena sin necesidad de múltiples generaciones y uniones.
4. Sincronización audiovisual
Alineación perfecta entre elementos de audio y visuales:
- Precisión en la sincronización labial: Coincidencia precisa del movimiento de la boca para el diálogo.
- Animación impulsada por audio: Las señales de audio guían los movimientos y expresiones del personaje.
- Audio ambiental: Sonidos de fondo y efectos contextualmente apropiados.
5. Métricas de calidad mejoradas
Las actualizaciones recientes han mejorado significativamente múltiples aspectos del modelo:
- Fidelidad visual mejorada: Mayor resolución y calidad de detalle.
- Mejores efectos de audio: Diseño de sonido de grado profesional.
- Seguimiento superior de indicaciones: Interpretación más precisa de instrucciones complejas.
- Trabajo de cámara cinematográfico: Técnicas cinematográficas profesionales aplicadas automáticamente.
Variantes del modelo Wan2.6 en Novita AI
Novita AI proporciona tres endpoints API distintos para Wan2.6, cada uno optimizado para casos de uso específicos y accesible a través de la plataforma Model API.
Texto a video (T2V)
Genera videos directamente a partir de indicaciones de texto sin necesidad de imágenes o videos de entrada.
Ideal para crear contenido original a partir de descripciones creativas con control multi-toma y secuenciación narrativa.
Capacidades clave:
- Generación de narrativas multi-toma a partir de indicaciones secuenciales.
- Selección automática del tipo de toma y movimientos de cámara.
- Transiciones cinematográficas entre escenas.
- Compatibilidad con duraciones de video de 5, 10 y 15 segundos.
Especificaciones técnicas:
| Parámetro | Valores admitidos | Notas |
|---|---|---|
| Duración | 5s, 10s, 15s | Elige según la complejidad del contenido |
| Resolución | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 | No admite 480P |
| ID del modelo | wan2.6-t2v |
Usa este identificador en las llamadas API |
Más información: Documentación de la API Texto a Video de Wan2.6
Imagen a video (I2V)
Anima imágenes estáticas en secuencias de video dinámicas.
Perfecto para dar vida a fotos de productos, ilustraciones o arte conceptual con movimiento controlado y contexto narrativo.
Capacidades clave:
- Control de la intensidad del movimiento para la animación.
- Múltiples opciones de resolución para diferentes casos de uso.
- Dirección de animación guiada por indicaciones.
- Animación de personajes y objetos.
Especificaciones técnicas:
| Parámetro | Valores admitidos | Notas |
|---|---|---|
| Duración | 5s, 10s, 15s | Duración extendida para animaciones complejas |
| Resolución | 1080P, 720P | No admite 480P |
| ID del modelo | wan2.6-i2v |
Usa este identificador en las llamadas API |
Más información: Documentación de la API Imagen a Video de Wan2.6
Video de referencia (R2V)
Transforma videos existentes con transferencia de estilo, interpretación de roles o modificaciones de escena utilizando un video de referencia como entrada.
Capacidades clave:
- Interpretación de roles y reemplazo de personajes.
- Transferencia de estilo entre géneros visuales.
- Preservación de la sincronización audiovisual.
- Compatibilidad con múltiples videos de referencia (se recomiendan 1-2 videos).
Especificaciones técnicas:
| Parámetro | Valores admitidos |
|---|---|
| Duración | 5s, 10s (no admite 15s) |
| Resolución | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 (sin 480P) |
| Formato de video | MP4, MOV |
| Tamaño de archivo | < 30 MB por archivo |
| Referencia única | Duración máxima de 5s |
| Referencia doble | Máximo 2.5s cada una (no se recomiendan 3 videos) |
| ID del modelo | wan2.6-v2v |
Notas importantes: Los videos de referencia no pueden subirse simultáneamente con archivos de audio. El parámetro reference_video_urls acepta un arreglo de URLs de video.
Más información: Documentación de la API Video de Referencia de Wan2.6
Primeros pasos con Wan2.6 en Novita AI
Requisitos previos
Antes de comenzar, asegúrate de tener:
- Cuenta de Novita AI: Regístrate en novita.ai. Obtén $1 en créditos gratis automáticamente al registrarte.
- Clave API: Consíguela desde tu consola.
- Entorno de desarrollo: Python, Node.js o cualquier cliente HTTP.
Flujo de solicitud asíncrona
Wan2.6 en Novita AI utiliza un modelo de procesamiento asíncrono para manejar las solicitudes de generación de manera eficiente:
- Enviar solicitud: POST al endpoint correspondiente con tus parámetros.
- Recibir ID de tarea: La API devuelve un
task_idde inmediato. - Consultar resultados: Usa el ID de tarea para verificar el estado de generación.
- Recuperar salida: Descarga el video generado una vez completado.
Ejemplo de generación de texto a video
A continuación, un ejemplo completo de generación de un video a partir de texto utilizando la API T2V de Wan2.6:
Paso 1: Enviar solicitud de generación
import requests
url = "https://api.novita.ai/v3/async/wan2.6-t2v"
payload = {
"input": {
"prompt": "<string>",
"audio_url": "<string>",
"negative_prompt": "<string>"
},
"parameters": {
"seed": 123,
"size": "<string>",
"audio": True,
"duration": 123,
"shot_type": "<string>",
"watermark": True,
"prompt_extend": True
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Paso 2: Obtener los resultados de la generación del video
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
Parámetros clave explicados
| Parámetro | Descripción | Opciones |
|---|---|---|
prompt |
Descripción textual del video deseado | Descripción detallada de la escena |
audio_url |
Archivo de audio opcional para sincronización | URL HTTPS al archivo de audio |
negative_prompt |
Elementos a evitar | Problemas de calidad, objetos no deseados |
seed |
Semilla aleatoria para reproducibilidad | Cualquier entero |
size |
Resolución del video | “1280x720”, “1920x1080”, “720x1280”, etc. |
duration |
Duración del video en segundos | 5, 10 o 15 |
shot_type |
Ángulo de cámara | “wide_shot”, “medium_shot”, “close_up” |
prompt_extend |
Mejora automática de la indicación | true/false |
watermark |
Añadir marca de agua al video | true/false |
audio |
Habilitar generación de audio | true/false |
Para especificaciones completas de la API y parámetros adicionales, visita la Documentación de la API de Wan2.6.
Estructura de indicaciones multi-toma
La capacidad multi-toma de Wan2.6 te permite crear secuencias narrativas coherentes con múltiples ángulos de cámara y escenas. Para maximizar la calidad de los videos multi-toma, sigue este formato estructurado de indicaciones.
Fórmula de estructura de indicación
Indicación = Descripción general + Número de toma + Marca de tiempo + Contenido de la toma
Desglose de componentes
1. Descripción general
Proporciona una breve visión general de todo el contenido del video. Esta sección debe describir:
- Tema de la historia y estilo narrativo.
- Emociones principales o eventos clave.
- Tono y atmósfera general.
Esto ayuda a la IA a comprender la dirección narrativa global y mantener la consistencia entre las tomas.
2. Número de toma
Asigna un número secuencial a cada toma para:
- Distinguir diferentes escenas o segmentos.
- Organizar la estructura del video de manera clara.
- Mantener un flujo lógico entre las transiciones.
3. Marca de tiempo
Especifica el rango de tiempo exacto para cada toma dentro de la línea temporal del video:
- Garantiza que el contenido esté alineado con la duración del video.
- Mejora la precisión de la generación.
- Ayuda a un control preciso de la duración de la toma.
4. Contenido de la toma
Proporciona descripciones detalladas de cada toma, incluyendo:
- Personajes u objetos principales y sus comportamientos específicos.
- Acciones, diálogos, expresiones y gestos.
- Ángulos y movimientos de cámara.
- Detalles de iluminación y atmósfera.
Sigue las convenciones estándar de redacción de indicaciones de una sola toma para esta sección.
Ejemplo de indicación multi-toma
Aquí tienes un ejemplo práctico que demuestra la estructura completa:
Esta historia se cuenta desde una perspectiva en tercera persona, representando un breve drama sobre el abandono y el reavivamiento de la esperanza.
Toma 1 [0-3 segundos]: Un niño se sienta solo en la esquina de un patio de recreo, con la cabeza gacha, mirando una carta en sus manos. Deja escapar un suave suspiro, sus ojos revelan confusión e incertidumbre.
Toma 2 [3-5 segundos]: Transición de corte duro, posición fija de cámara, centrándose en los ojos del niño. Las lágrimas brillan, transmitiendo una sensación de pérdida e impotencia.
Toma 3 [5-10 segundos]: Transición de corte duro, la escena cambia a un aula sencilla. Una chica con ojos suaves pero decididos, vistiendo ropa modesta, se acerca al niño con una sonrisa cálida y tranquilizadora para consolarlo.
Conclusión
Wan2.6 en Novita AI democratiza la producción de video profesional, ofreciendo un control creativo sin precedentes mediante la interpretación de roles, narrativas multi-toma y sincronización audiovisual.
Ya seas un desarrollador que construye funciones de generación de video, un especialista en marketing que crea contenido para campañas, o un cineasta que explora la previsualización, la plataforma Model API de Novita AI elimina la complejidad de la infraestructura mientras ofrece resultados de calidad cinematográfica.
Comienza a generar videos profesionales hoy y transforma tu visión creativa en realidad en cuestión de minutos.
¿Listo para empezar? Crea tu cuenta de Novita AI y accede a Wan2.6 con créditos gratis para experimentar el futuro de la generación de video con IA.
Novita AI es una plataforma líder en la nube de IA que proporciona a los desarrolladores API fáciles de usar e infraestructura GPU asequible y confiable para construir y escalar aplicaciones de IA.
