Wan 2.7 en Novita AI: Comparativa entre Texto a Video, Imagen a Video y Referencia a Video

Wan 2.7 en Novita AI: Comparativa entre Texto a Video, Imagen a Video y Referencia a Video

Wan 2.7 en Novita AI incluye tres modos de generación distintos — Texto a Video (T2V), Imagen a Video (I2V) y Referencia a Video (R2V) — cada uno diseñado para resolver un problema diferente. T2V genera video directamente a partir de un prompt con audio opcional; I2V anima una imagen inicial y admite continuación de video; R2V aporta personajes de referencia a nuevas escenas con control de múltiples tomas. Elegir el modo incorrecto añade fricción; esta guía asigna cada modo a los flujos de trabajo donde realmente encaja.

Lo que cambió de Wan 2.6 a 2.7

Wan 2.6 introdujo la interpretación de roles mediante video de referencia, narrativas de múltiples tomas y sincronización audiovisual: un conjunto de funciones potente pero disperso en tres endpoints con cierta superposición. Wan 2.7 afina significativamente ese modelo.

La mejora más clara está en I2V. Wan 2.7 I2V va más allá de la animación de un solo fotograma y admite tres modos de entrada distintos en un único endpoint: solo primer fotograma, primer+último fotograma y continuación de video. Wan 2.6 I2V solo manejaba animación de un solo fotograma; la continuación se gestionaba mediante R2V. Esta consolidación es relevante para desarrolladores que construyen pipelines que extienden o remezclan metraje existente.

R2V en 2.7 también cambia su modelo de personajes. Mientras que 2.6 aceptaba hasta dos videos de referencia para interpretación de roles, 2.7 acepta hasta cinco elementos de referencia (imágenes o videos), asignando cada uno a un hueco de personaje con nombre (character1, character2, etc.) en tu prompt. La interacción con múltiples personajes a escala ahora es una funcionalidad de primera clase, no una solución improvisada.

La capacidad central de T2V (prompt de texto a video con audio) sigue siendo similar, pero el endpoint es más limpio: la generación de audio está activada por defecto (puedes desactivarla) y la bandera prompt_extend reescribe inteligentemente prompts cortos antes de la generación. La superficie de parámetros de Wan 2.6 T2V se mantiene con mejoras, no se reemplaza.

Los rangos de duración también divergen según el modo en 2.7: T2V e I2V admiten de 2 a 15 segundos, mientras que R2V tiene un límite de 10 segundos. El mínimo de 2 segundos reemplaza el piso de 5 segundos de las duraciones estándar de 2.6.

Vista general de modos y tabla de selección rápida

T2V I2V R2V
Entrada Prompt de texto Imagen + texto opcional Medios de referencia (imágenes/videos) + texto
Duración de salida 2–15 s 2–15 s 2–10 s
Resoluciones 720P, 1080P 720P, 1080P 720P, 1080P
Audio Generado automáticamente o guiado por audio Generado automáticamente o guiado por audio Controlable mediante la bandera audio + reference_voice
Control de toma Una sola toma Una sola toma Una o múltiples tomas
Personajes Definidos por el prompt Definidos por el prompt Hasta 5 personajes de referencia nombrados
ID del modelo wan2.7-t2v wan2.7-i2v wan2.7-r2v
Endpoint /v3/async/wan2.7-t2v /v3/async/wan2.7-i2v /v3/async/wan2.7-r2v
Ideal para Contenido original desde cero Animar activos existentes Escenas de interpretación de roles con personajes consistentes

¿Cómo funciona Wan 2.7 T2V en Novita AI?

T2V es el punto de partida adecuado cuando tienes un concepto creativo pero ningún activo visual existente. El modelo genera video fluido directamente a partir de una descripción de texto y adjunta audio automáticamente: ya sea música de fondo/efectos de sonido generados para coincidir con la escena, o audio que tú suministras como fuente para sincronización de labios y coincidencia de ritmo.

Parámetros clave:

  • prompt — descripción de la escena; admite chino e inglés
  • size — nivel de resolución: 1920*1080, 1280*720, 720*1280, 960*960, 1088*832, 832*1088 (1080P o 720P)
  • duration — segundos enteros, rango 2–15
  • audio_url — opcional; cuando se proporciona, el modelo usa este audio para guiar la generación (sincronización de labios, coincidencia de ritmo). Omítelo para que el modelo genere audio automáticamente
  • prompt_extend — por defecto true; reescribe prompts cortos usando un LLM antes de la generación para mejorar la calidad
  • seed — establece para obtener salidas reproducibles

Para quién es T2V: Profesionales de marketing que generan clips de campañas publicitarias a partir de textos, desarrolladores que prototipan contenido de video a escala, o cualquier persona que necesite metraje original sin material de origen.

Dónde se queda corto: Sin una imagen de referencia o un fotograma de video previo, es difícil mantener una consistencia compleja de personajes en múltiples generaciones. Si estás iterando sobre una escena o personaje específico, I2V o R2V te dan más control.

¿Cómo funciona Wan 2.7 I2V en Novita AI?

La característica definitoria de I2V en 2.7 es que maneja tres patrones de animación diferentes a través de un único endpoint, distinguiéndose según qué parámetros pobles:

Primer fotograma a video: Proporciona image_url. El modelo anima la imagen hacia adelante. Este es el caso de uso clásico de “dar vida a una foto”.

Primer+último fotograma a video: Proporciona tanto image_url como last_frame_url. El modelo genera el puente entre dos fotogramas clave, útil para transiciones controladas o secuencias de morphing.

Continuación de video: Proporciona first_clip_url (un clip de video existente, mp4 o mov, de 2 a 10 segundos). El modelo extiende el video hacia adelante basándose en su contenido y tu prompt.

El parámetro driving_audio_url funciona igual que en T2V: cuando se proporciona, guía la generación con sincronización de labios o coincidencia de ritmo; cuando se omite, el audio se genera automáticamente.

Parámetros clave:

  • image_url — obligatorio para los modos de primer fotograma y primer+último fotograma; imagen del primer fotograma (JPEG, JPG, PNG, BMP, WEBP; hasta 20 MB; ancho/alto 240–8000 px). No se usa en modo de continuación.
  • last_frame_url — opcional; imagen del último fotograma para el modo de fotograma clave a fotograma clave
  • first_clip_url — opcional; clip de video existente para modo de continuación (mp4/mov, 2–10 s)
  • resolution720P o 1080P (por defecto 1080P); la relación de aspecto del video coincide con el medio de entrada
  • duration — 2–15 segundos (entero)
  • driving_audio_url — audio guía opcional
  • prompt — opcional; guía la dirección y el estilo de la animación

Para quién es I2V: Equipos de comercio electrónico que animan fotos de productos, artistas conceptuales que añaden movimiento a ilustraciones, o desarrolladores que construyen pipelines para extender metraje existente.

Advertencia: El clip de entrada para continuación debe tener entre 2 y 10 segundos. La resolución y relación de aspecto del video de salida siguen al medio de entrada; no puedes establecer la resolución y la relación de aspecto de forma independiente.

¿Cómo funciona Wan 2.7 R2V en Novita AI?

R2V es el modo para video narrativo con personajes consistentes. Proporcionas uno o más elementos de referencia (imágenes o clips de video cortos) y el modelo extrae la apariencia, movimiento y voz de cada personaje. Luego diriges a esos personajes en tu prompt usando character1, character2, etc.

Aquí es donde Wan 2.7 avanza significativamente sobre 2.6. En lugar de limitarse a 1 o 2 videos de referencia, 2.7 acepta hasta cinco elementos multimedia en total (imágenes: 0–5, videos: 0–3, total ≤ 5), dándote un elenco de personajes sin tener que combinar generaciones separadas.

El parámetro shot_type controla la estructura narrativa: single mantiene la salida como una sola toma continua; multi genera una secuencia con transiciones. El valor multi tiene prioridad sobre cualquier instrucción toma por toma en tu prompt, por lo que es un cambio de modo deliberado, no una sugerencia.

El comportamiento del audio en R2V también es más explícito: el booleano audio (por defecto true) controla si se genera audio, y reference_voice permite especificar una referencia de voz para el diálogo de los personajes.

Parámetros clave:

  • media — obligatorio; lista de elementos multimedia de referencia; el orden se asigna a character1, character2, etc.
  • prompt — obligatorio; usa character1, character2 para referenciar personajes
  • size — resolución; mismas opciones 720P/1080P que T2V
  • duration — 2–10 segundos (límite más corto que T2V/I2V)
  • shot_typesingle (por defecto) o multi
  • audio — booleano, por defecto true
  • reference_voice — referencia de voz opcional para el habla del personaje
  • negative_prompt — opcional; máximo 500 caracteres; chino o inglés

Para quién es R2V: Desarrolladores que construyen avatares de video, creadores de contenido de formato corto que necesitan un elenco consistente, o cualquier persona que realice escenarios de interpretación de roles o actuación de personajes.

Advertencia: R2V tiene un límite de 10 segundos por generación. Para secuencias más largas, planea concatenar múltiples llamadas R2V. El tipo de toma multi maneja transiciones dentro de esa ventana, pero no extiende el límite de 10 segundos.

Comparación de precios entre modos

Los tres modos de Wan 2.7 se facturan por segundo de video generado, no por solicitud. La resolución también afecta el costo: las salidas en 1080P cuestan más que en 720P. El endpoint R2V tiene un booleano audio adicional que afecta el precio cuando está habilitado.

Los precios se muestran en las páginas de modelo Wan 2.7 T2V, Wan 2.7 I2V y Wan 2.7 R2V en Novita AI. Consulta esas páginas directamente para conocer las tarifas actuales por segundo, ya que los precios de los modelos de video se actualizan con frecuencia.

Para estimar el costo de un flujo de trabajo: multiplica la duración objetivo por la tarifa por segundo para la resolución elegida. Por ejemplo, un clip T2V de 10 segundos en 1080P cuesta 10 veces la tarifa indicada por segundo en 1080P. Dado que T2V e I2V comparten el mismo límite de duración (15 s) y opciones de resolución, sus curvas de costo son comparables; el límite de 10 segundos de R2V hace que su costo máximo por generación sea menor.

Palancas de control de costos:

  • Usa 720P para desarrollo y pruebas; cambia a 1080P solo para salidas finales
  • Mantén prompt_extend habilitado (valor predeterminado en T2V): mejora la calidad sin afectar el costo
  • Para R2V, establece audio: false cuando vayas a añadir tu propio audio en postproducción

¿Qué modo deberías usar?

Empieza con T2V cuando: Estás generando contenido original a partir de un guion o prompt y no tienes elementos visuales de origen. Es el camino de menor fricción: un prompt, una llamada, video y audio de salida. Ideal para generación de contenido en volumen, creación de activos para campañas y exploración rápida de conceptos.

Cambia a I2V cuando: Tienes imágenes o metraje existente que necesita movimiento. El modo de primer fotograma anima fotos de productos o ilustraciones; el modo primer+último fotograma te da transiciones controladas entre dos fotogramas clave; el modo de continuación extiende el metraje que ya tienes. I2V es la opción correcta siempre que tu material de origen guíe la salida visual.

Usa R2V cuando: La identidad y consistencia del personaje son importantes. Si tu caso de uso requiere que la misma persona (o varias) aparezca en múltiples videos, o si estás creando contenido basado en actuaciones como avatares de video o escenas guionizadas, el sistema de personajes de referencia de R2V es la solución diseñada a propósito. El tipo de toma multi añade estructura cinematográfica sin un paso adicional de storyboard.

Un árbol de decisión práctico:

  1. ¿Tienes personajes o personas de referencia que deben aparecer en el video? → R2V
  2. ¿Tienes una imagen o clip de video existente que quieras animar o extender? → I2V
  3. ¿Estás generando metraje original solo a partir de una descripción de texto? → T2V

Primeros pasos con la API de Novita AI

Los tres endpoints siguen el mismo patrón asíncrono: POST para enviar un trabajo, obtienes un task_id, luego consultas la API de Resultado de Tarea.

Requisitos previos: Una clave API desde tu consola de Novita AI. Las cuentas nuevas reciben $1 en créditos gratuitos.

Inicio rápido con T2V

import requests, time

API_KEY = "your_api_key"
BASE = "https://api.novita.ai"

# Submit generation
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# Poll for result
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V — Continuación de video

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://example.com/existing-clip.mp4",
            "prompt": "Continue the scene with smooth camera pan to the right"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V — Escena con múltiples personajes

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://example.com/person-a.jpg"},
                {"type": "image", "url": "https://example.com/person-b.jpg"}
            ],
            "prompt": "character1 and character2 are having a conversation at a café, natural daylight"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

La referencia completa de parámetros para cada modo está en la documentación de la API de Wan 2.7 T2V, documentación de la API de Wan 2.7 I2V y documentación de la API de Wan 2.7 R2V.

Si deseas comparar Wan 2.7 con la generación anterior, la guía de Wan 2.6 en Novita AI cubre todo el conjunto de funciones y la superficie de parámetros de 2.6.

Conclusión

Wan 2.7 organiza sus capacidades de generación en tres modos diseñados para propósitos específicos en lugar de un único endpoint extenso. T2V es el camino más rápido desde la idea al video cuando no tienes material de origen: solo necesitas un prompt y una clave API. I2V te da control sobre el movimiento y la continuidad cuando trabajas con imágenes o metraje existentes, con tres patrones de entrada distintos en un solo endpoint. R2V maneja el problema más difícil: video con personajes consistentes en diferentes escenas, con hasta cinco personajes de referencia y estructura de múltiples tomas incorporada.

La mejora de 2.6 a 2.7 es más visible en I2V (la continuación ahora es nativa, no una solución improvisada) y en R2V (cinco personajes frente a dos, espacios nombrados frente a posicionales). T2V conserva las fortalezas de 2.6 con una superficie de parámetros más limpia.

Para la mayoría de los flujos de trabajo, el árbol de decisión es simple: comienza con T2V para contenido original, cambia a I2V cuando tengas una imagen o clip de origen, y recurre a R2V cuando la identidad del personaje deba mantenerse constante en múltiples generaciones.

Preguntas frecuentes

¿Cuál es la diferencia entre Wan 2.7 T2V, I2V y R2V? T2V genera video solo a partir de un prompt de texto. I2V anima una imagen existente o extiende un clip de video existente. R2V genera video con personajes consistentes utilizando imágenes o clips de referencia como plantillas de personajes. Cada modo es un endpoint separado optimizado para su tipo de entrada.

¿Puede Wan 2.7 generar audio automáticamente? Sí. Los tres modos admiten audio generado automáticamente por defecto. T2V e I2V generan música de fondo y efectos de sonido que coinciden con la escena; R2V añade un parámetro reference_voice para el diálogo de los personajes. Puedes proporcionar tu propio audio mediante audio_url (T2V) o driving_audio_url (I2V), o desactivar el audio con audio: false (R2V).

¿Qué duraciones de video admite Wan 2.7? T2V e I2V admiten de 2 a 15 segundos. R2V tiene un límite de 10 segundos por generación. Todos los modos usan un mínimo de 2 segundos.

¿Cómo funciona la continuación de video en I2V? Envía first_clip_url apuntando a un archivo mp4 o mov existente (2–10 segundos). El modelo analiza el contenido y el movimiento del clip, luego genera un nuevo segmento que continúa naturalmente desde el fotograma final. No envíes image_url junto con first_clip_url, son para modos diferentes.

¿Cuántos personajes de referencia admite Wan 2.7 R2V? Hasta cinco elementos multimedia en total (imágenes: 0–5, videos: 0–3, suma total ≤ 5). Cada elemento se asigna a un espacio de personaje con nombre (character1, character2, etc.) que usas en tu prompt.

¿La resolución afecta el precio? Sí. Los tres modos facturan por segundo de video generado, y 1080P cuesta más por segundo que 720P. Usa 720P durante el desarrollo y cambia a 1080P para las salidas finales para gestionar los costos.

¿Puedo usar Wan 2.7 mediante una API REST? Sí. Todos los endpoints están basados en REST y siguen un patrón asíncrono: envía un trabajo POST para recibir un task_id, luego consulta la API de Resultado de Tarea. Consulta los ejemplos de API en la sección “Primeros pasos” de arriba, y la referencia completa de parámetros en la documentación de la API de Novita AI.

Artículos recomendados