Wan2.6 en Novita AI: Modelo de creación cinematográfica con interpretación de roles y control multi-toma

Wan2.6 en Novita AI: Modelo de creación cinematográfica con interpretación de roles y control multi-toma

Wan2.6 representa un gran avance en la generación de videos con IA, ofreciendo las capacidades de creación de video más completas del mundo. El modelo incluye funciones de interpretación de roles, control multi-toma y sincronización audiovisual que lo diferencian de la competencia.

Ahora disponible en la plataforma Model API de Novita AI, los desarrolladores y las empresas pueden acceder a este modelo de vanguardia mediante una integración simple de API, sin necesidad de gestionar infraestructuras complejas.

Esta guía explora cómo aprovechar Wan2.6 en Novita AI para generación de texto a video, imagen a video y video de referencia.

Prueba Wan2.6 en el Playground de Novita AI

¿Qué es Wan2.6?

Este video ha sido generado por Wan2.6

Wan2.6 es la última generación de la serie de modelos de generación de video de Alibaba Cloud, diseñada específicamente para la producción cinematográfica profesional y escenarios de contenido creativo.

Como el modelo de generación de video más completo en funciones del mundo, Wan2.6 introduce capacidades revolucionarias que tienden un puente entre la creación de contenido amateur y la cinematografía profesional.

Tecnología principal

Wan2.6 emplea un modelado conjunto multimodal avanzado para procesar videos de referencia. El sistema extrae información temporal sobre las emociones del sujeto, las poses y las características visuales completas desde múltiples ángulos.

El modelo captura simultáneamente características acústicas, incluido el timbre de la voz y la velocidad del habla. Estos elementos sirven como condiciones de control durante la generación para mantener una consistencia sensorial completa, desde lo visual hasta lo auditivo.

Innovaciones técnicas

El modelo integra varias tecnologías innovadoras:

  • Aprendizaje multimodal: Procesa datos visuales, auditivos y temporales de forma simultánea para obtener una salida coherente.
  • Comprensión semántica de alto nivel: Transforma indicaciones simples en narrativas profesionales multi-toma con historias completas.
  • Modelado unificado: Mantiene la consistencia en los sujetos principales, la disposición de las escenas y la atmósfera ambiental en las transiciones de tomas.
  • Sincronización audiovisual: Garantiza una sincronización labial perfecta y una alineación del audio con el contenido visual.

Características clave de Wan2.6

1. Capacidad de interpretación de roles

La función insignia de Wan2.6 permite a los usuarios subir videos personales y transformarse en personajes dentro de escenas de calidad profesional.

El modelo maneja:

  • Actuaciones de uno o múltiples personajes: Admite actuaciones en solitario o interacciones grupales.
  • Transferencia de emociones y gestos: Captura y replica expresiones y movimientos sutiles.
  • Transformación entre estilos: Aplica diferentes géneros (ciencia ficción, suspense, romance) al material de origen.
  • Simulación de actuación profesional: Genera actuaciones de calidad cinematográfica a partir de videos de usuario comunes.

2. Control multi-toma y transiciones

El modelo destaca en la composición y transiciones de tomas de nivel profesional:

  • Planificación automática de tomas: Convierte indicaciones simples en guiones multi-toma.
  • Transiciones fluidas: Cortes suaves entre diferentes ángulos de cámara y perspectivas.
  • Coherencia narrativa: Mantiene la continuidad de la historia a través de múltiples tomas.
  • Preservación de la consistencia: Mantiene unificados los personajes, escenarios y atmósfera en todo momento.

3. Duración extendida del video

Wan2.6 admite hasta 15 segundos por generación, la duración de generación única más larga disponible en el mercado chino de videos con IA.

Esta duración extendida permite narraciones más complejas y un desarrollo completo de la escena sin necesidad de múltiples generaciones y uniones.

4. Sincronización audiovisual

Alineación perfecta entre elementos de audio y visuales:

  • Precisión en la sincronización labial: Coincidencia precisa del movimiento de la boca para el diálogo.
  • Animación impulsada por audio: Las señales de audio guían los movimientos y expresiones del personaje.
  • Audio ambiental: Sonidos de fondo y efectos contextualmente apropiados.

5. Métricas de calidad mejoradas

Las actualizaciones recientes han mejorado significativamente múltiples aspectos del modelo:

  • Fidelidad visual mejorada: Mayor resolución y calidad de detalle.
  • Mejores efectos de audio: Diseño de sonido de grado profesional.
  • Seguimiento superior de indicaciones: Interpretación más precisa de instrucciones complejas.
  • Trabajo de cámara cinematográfico: Técnicas cinematográficas profesionales aplicadas automáticamente.

Variantes del modelo Wan2.6 en Novita AI

Novita AI proporciona tres endpoints API distintos para Wan2.6, cada uno optimizado para casos de uso específicos y accesible a través de la plataforma Model API.

Texto a video (T2V)

Genera videos directamente a partir de indicaciones de texto sin necesidad de imágenes o videos de entrada.

Ideal para crear contenido original a partir de descripciones creativas con control multi-toma y secuenciación narrativa.

Capacidades clave:

  • Generación de narrativas multi-toma a partir de indicaciones secuenciales.
  • Selección automática del tipo de toma y movimientos de cámara.
  • Transiciones cinematográficas entre escenas.
  • Compatibilidad con duraciones de video de 5, 10 y 15 segundos.

Especificaciones técnicas:

Parámetro Valores admitidos Notas
Duración 5s, 10s, 15s Elige según la complejidad del contenido
Resolución 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 No admite 480P
ID del modelo wan2.6-t2v Usa este identificador en las llamadas API

Más información: Documentación de la API Texto a Video de Wan2.6

Imagen a video (I2V)

Anima imágenes estáticas en secuencias de video dinámicas.

Perfecto para dar vida a fotos de productos, ilustraciones o arte conceptual con movimiento controlado y contexto narrativo.

Capacidades clave:

  • Control de la intensidad del movimiento para la animación.
  • Múltiples opciones de resolución para diferentes casos de uso.
  • Dirección de animación guiada por indicaciones.
  • Animación de personajes y objetos.

Especificaciones técnicas:

Parámetro Valores admitidos Notas
Duración 5s, 10s, 15s Duración extendida para animaciones complejas
Resolución 1080P, 720P No admite 480P
ID del modelo wan2.6-i2v Usa este identificador en las llamadas API

Más información: Documentación de la API Imagen a Video de Wan2.6

Video de referencia (R2V)

Transforma videos existentes con transferencia de estilo, interpretación de roles o modificaciones de escena utilizando un video de referencia como entrada.

Capacidades clave:

  • Interpretación de roles y reemplazo de personajes.
  • Transferencia de estilo entre géneros visuales.
  • Preservación de la sincronización audiovisual.
  • Compatibilidad con múltiples videos de referencia (se recomiendan 1-2 videos).

Especificaciones técnicas:

Parámetro Valores admitidos
Duración 5s, 10s (no admite 15s)
Resolución 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 (sin 480P)
Formato de video MP4, MOV
Tamaño de archivo < 30 MB por archivo
Referencia única Duración máxima de 5s
Referencia doble Máximo 2.5s cada una (no se recomiendan 3 videos)
ID del modelo wan2.6-v2v

Notas importantes: Los videos de referencia no pueden subirse simultáneamente con archivos de audio. El parámetro reference_video_urls acepta un arreglo de URLs de video.

Más información: Documentación de la API Video de Referencia de Wan2.6

Primeros pasos con Wan2.6 en Novita AI

Requisitos previos

Antes de comenzar, asegúrate de tener:

  1. Cuenta de Novita AI: Regístrate en novita.ai. Obtén $1 en créditos gratis automáticamente al registrarte.
  2. Clave API: Consíguela desde tu consola.
  3. Entorno de desarrollo: Python, Node.js o cualquier cliente HTTP.

Flujo de solicitud asíncrona

Wan2.6 en Novita AI utiliza un modelo de procesamiento asíncrono para manejar las solicitudes de generación de manera eficiente:

  1. Enviar solicitud: POST al endpoint correspondiente con tus parámetros.
  2. Recibir ID de tarea: La API devuelve un task_id de inmediato.
  3. Consultar resultados: Usa el ID de tarea para verificar el estado de generación.
  4. Recuperar salida: Descarga el video generado una vez completado.

Ejemplo de generación de texto a video

A continuación, un ejemplo completo de generación de un video a partir de texto utilizando la API T2V de Wan2.6:

Paso 1: Enviar solicitud de generación

import requests

url = "https://api.novita.ai/v3/async/wan2.6-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "audio_url": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "seed": 123,
        "size": "<string>",
        "audio": True,
        "duration": 123,
        "shot_type": "<string>",
        "watermark": True,
        "prompt_extend": True
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

Paso 2: Obtener los resultados de la generación del video

import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

Parámetros clave explicados

Parámetro Descripción Opciones
prompt Descripción textual del video deseado Descripción detallada de la escena
audio_url Archivo de audio opcional para sincronización URL HTTPS al archivo de audio
negative_prompt Elementos a evitar Problemas de calidad, objetos no deseados
seed Semilla aleatoria para reproducibilidad Cualquier entero
size Resolución del video “1280x720”, “1920x1080”, “720x1280”, etc.
duration Duración del video en segundos 5, 10 o 15
shot_type Ángulo de cámara “wide_shot”, “medium_shot”, “close_up”
prompt_extend Mejora automática de la indicación true/false
watermark Añadir marca de agua al video true/false
audio Habilitar generación de audio true/false

Para especificaciones completas de la API y parámetros adicionales, visita la Documentación de la API de Wan2.6.

Estructura de indicaciones multi-toma

La capacidad multi-toma de Wan2.6 te permite crear secuencias narrativas coherentes con múltiples ángulos de cámara y escenas. Para maximizar la calidad de los videos multi-toma, sigue este formato estructurado de indicaciones.

Fórmula de estructura de indicación

Indicación = Descripción general + Número de toma + Marca de tiempo + Contenido de la toma

Desglose de componentes

1. Descripción general

Proporciona una breve visión general de todo el contenido del video. Esta sección debe describir:

  • Tema de la historia y estilo narrativo.
  • Emociones principales o eventos clave.
  • Tono y atmósfera general.

Esto ayuda a la IA a comprender la dirección narrativa global y mantener la consistencia entre las tomas.

2. Número de toma

Asigna un número secuencial a cada toma para:

  • Distinguir diferentes escenas o segmentos.
  • Organizar la estructura del video de manera clara.
  • Mantener un flujo lógico entre las transiciones.

3. Marca de tiempo

Especifica el rango de tiempo exacto para cada toma dentro de la línea temporal del video:

  • Garantiza que el contenido esté alineado con la duración del video.
  • Mejora la precisión de la generación.
  • Ayuda a un control preciso de la duración de la toma.

4. Contenido de la toma

Proporciona descripciones detalladas de cada toma, incluyendo:

  • Personajes u objetos principales y sus comportamientos específicos.
  • Acciones, diálogos, expresiones y gestos.
  • Ángulos y movimientos de cámara.
  • Detalles de iluminación y atmósfera.

Sigue las convenciones estándar de redacción de indicaciones de una sola toma para esta sección.

Ejemplo de indicación multi-toma

Aquí tienes un ejemplo práctico que demuestra la estructura completa:

Esta historia se cuenta desde una perspectiva en tercera persona, representando un breve drama sobre el abandono y el reavivamiento de la esperanza.

Toma 1 [0-3 segundos]: Un niño se sienta solo en la esquina de un patio de recreo, con la cabeza gacha, mirando una carta en sus manos. Deja escapar un suave suspiro, sus ojos revelan confusión e incertidumbre.

Toma 2 [3-5 segundos]: Transición de corte duro, posición fija de cámara, centrándose en los ojos del niño. Las lágrimas brillan, transmitiendo una sensación de pérdida e impotencia.

Toma 3 [5-10 segundos]: Transición de corte duro, la escena cambia a un aula sencilla. Una chica con ojos suaves pero decididos, vistiendo ropa modesta, se acerca al niño con una sonrisa cálida y tranquilizadora para consolarlo.

Conclusión

Wan2.6 en Novita AI democratiza la producción de video profesional, ofreciendo un control creativo sin precedentes mediante la interpretación de roles, narrativas multi-toma y sincronización audiovisual.

Ya seas un desarrollador que construye funciones de generación de video, un especialista en marketing que crea contenido para campañas, o un cineasta que explora la previsualización, la plataforma Model API de Novita AI elimina la complejidad de la infraestructura mientras ofrece resultados de calidad cinematográfica.

Comienza a generar videos profesionales hoy y transforma tu visión creativa en realidad en cuestión de minutos.

¿Listo para empezar? Crea tu cuenta de Novita AI y accede a Wan2.6 con créditos gratis para experimentar el futuro de la generación de video con IA.

Novita AI es una plataforma líder en la nube de IA que proporciona a los desarrolladores API fáciles de usar e infraestructura GPU asequible y confiable para construir y escalar aplicaciones de IA.