Guía de la API de VIDU Q2 en Novita AI: de imagen a video (Turbo, Pro, Pro Fast)

Guía de la API de VIDU Q2 en Novita AI: de imagen a video (Turbo, Pro, Pro Fast)

VIDU Q2 en Novita AI ofrece generación de video a partir de imágenes de calidad profesional a través de una API pensada para desarrolladores, creando clips de 540p a 1080p en 10 segundos con control de cámara cinematográfico y fusión de múltiples imágenes de referencia. Construido sobre la arquitectura U-ViT, destaca por su movimiento consistente, microexpresiones y manejo de hasta 7 imágenes de referencia, con precios de pago por uso.

¿Qué es VIDU Q2 en Novita AI?

VIDU Q2 es un modelo avanzado de IA para convertir imágenes en video disponible en Novita AI en múltiples variantes:

  • Start-End Frame: Tú defines exactamente cómo empieza y termina el video; la IA se encarga del desarrollo intermedio.
  • Multi-frame: Proporcionas una serie de imágenes (como un storyboard) y la IA anima el movimiento entre ellas.
  • Turbo: Enfocado en velocidad y eficiencia (probablemente más barato o rápido de ejecutar).
  • Pro: Enfocado en calidad visual, adherencia a las instrucciones y detalle (probablemente más lento y costoso).
  • Reference Image: La imagen no es necesariamente el primer fotograma del video, sino una referencia de “cómo deben verse las cosas” (por ejemplo, el diseño de un personaje).
  • Template: API de plantilla a video de VIDU Q2; admite varias plantillas de escenas con efectos y genera contenido de video con efectos basados en la plantilla y las imágenes de entrada.
Categoría / Nombre del endpoint Tipos de entrada (lo que subes)
VIDU Q2 Text to Video Texto descriptivo
VIDU Q2 Template to Video Plantilla + recursos
VIDU Q2 Reference Image to Video Imagen de referencia + texto
VIDU Q2 Turbo Image to Video Imagen única
VIDU Q2 Turbo Start-End Frame Imagen de inicio y de fin
VIDU Q2 Turbo Multi-frame Múltiples fotogramas clave
VIDU Q2 Pro Image to Video Imagen única
VIDU Q2 Pro Start-End Frame Imagen de inicio y de fin
VIDU Q2 Pro Multi-frame Múltiples fotogramas clave
VIDU Q2 Pro Fast Image to Video Imagen única
VIDU Q2 Pro Fast Start-End Frame Imagen de inicio y de fin

Características principales de la arquitectura de VIDU Q2 en Novita AI

Característica Especificación Beneficio para el desarrollador
Fusión de múltiples referencias Imágenes Preservación coherente de la identidad en los sujetos
Opciones de resolución 540p, 720p, 1080p Equilibrio entre calidad y velocidad de generación
Rango de duración 1-10 segundos Optimizado para contenido de formato corto
Control de movimiento Automático / Pequeño / Mediano / Grande Ajuste fino de la intensidad de la animación
Operaciones de cámara Push, pull, órbita, paneo, zoom Control de tomas cinematográficas mediante instrucciones de texto

¡Prueba VIDU Q2 ahora!

Capacidades clave para desarrolladores de VIDU Q2 en Novita AI

1. Fusión de imágenes de múltiples referencias

La característica distintiva de VIDU Q2 es su capacidad para procesar varias imágenes de entrada simultáneamente. A diferencia de los modelos de una sola imagen, la fusión multirreferencia de Q2 permite escenarios complejos: combina el rostro de un personaje de una imagen con un objeto de otra, o mantén la coherencia entre sujetos distintos en un mismo video. El modelo admite el bloqueo de fotograma inicial/final para conservar poses concretas o la ubicación de logotipos a lo largo del clip.

Caso de uso: Genera una demostración de producto combinando (1) imagen del logotipo de la marca, (2) foto del producto, (3) referencia de gestos con la mano. Q2 fusiona las tres en un video cohesionado de 5 segundos con movimientos naturales de la mano presentando el producto promocionado.

2. Control de cámara cinematográfico

Q2 entiende la gramática cinematográfica en las instrucciones de texto: “dolly zoom”, “plano en movimiento”, “órbita antihoraria”. Esto permite movimientos de cámara precisos sin animación manual. Especifica “dolly zoom en primer plano del rostro con paneo lento a la derecha” y Q2 ejecutará la toma con transiciones suaves.

3. Movimiento con física realista

Q2 destaca en la simulación de física realista. Las pruebas de usuarios muestran una aceleración precisa de los coches en pistas, movimiento natural de las telas y dinámicas de agua creíbles. Para escenas de acción o demostraciones de productos que requieran realismo físico, el motor de movimiento de Q2 supera a los modelos que carecen de conciencia física.

4. Microexpresiones y control de emociones

El modelo captura movimientos faciales sutiles: sonrisas inseguras, cambios en el contacto visual, micromovimientos de los labios. Esto es fundamental para el contenido basado en personajes donde la autenticidad emocional importa: videos explicativos con presentadores animados, videos de formación con avatares realistas o clips para redes sociales que requieren reacciones expresivas.

¡Prueba VIDU Q2 ahora!

Integración de la API de Novita AI para VIDU Q2

Requisitos de configuración

Novita AI ofrece una API serverless de pago por uso, sin necesidad de infraestructura GPU. La configuración lleva menos de 5 minutos:

  1. Regístrate en novita.ai
  2. Ve a API Keys en el panel de control
  3. Genera una nueva clave de API (hay nivel gratuito para pruebas)
  4. Usa el formato de endpoint compatible con OpenAI

vidu q2 on novita ai

¡Prueba VIDU Q2 ahora!

Generación de audio y música de fondo: Q2 Pro admite música de fondo y síntesis de voz mediante los parámetros bgm y voice_id: genera clips de video completos con audio sincronizado en una sola llamada a la API.

Procesamiento fuera de horas punta: Activa el modo off_peak para reducir el coste entre un 30 y un 40 %, con tiempos de espera ligeramente mayores; ideal para trabajos por lotes sin requisitos de tiempo real.

Rendimiento de VIDU Q2 en Novita AI

  • Q2 Turbo logra una mejora de velocidad 3× respecto a Q1
  • Mejor coherencia facial y de movimiento en comparación con Q1
  • Transiciones más nítidas entre movimientos de cámara (menos saltos)
  • Motores de movimiento reconstruidos para paneos, zooms y planos de seguimiento naturales
  • Preservación superior de objetos entre fotogramas frente a modelos de la categoría Sora

¡Prueba VIDU Q2 ahora!

Precios de VIDU Q2 en Novita AI

Novita AI utiliza precios por generación, sin suscripciones ni alquiler de GPU. Los costes varían según la resolución, la duración y la variante elegida:

Modelo Modo Duración Resolución Precio (/video)
VIDU Q2 Text to Video 5s 540P 0,0802 $
VIDU Q2 Text to Video 5s 720P 0,1562 $
VIDU Q2 Text to Video 5s 1080P 0,2677 $
VIDU Q2 Reference to Video 5s 540P 0,1562 $
VIDU Q2 Reference to Video 5s 720P 0,2008 $
VIDU Q2 Reference to Video 5s 1080P 0,5132 $
VIDU Q2 Pro Image to Video 5s 540P 0,1472 $
VIDU Q2 Pro Image to Video 5s 720P 0,2454 $
VIDU Q2 Pro Image to Video 5s 1080P 0,5135 $
VIDU Q2 Pro Fast Image to Video 5s 720P 0,0713 $
VIDU Q2 Pro Fast Image to Video 5s 1080P 0,1430 $
VIDU Q2 Turbo Image to Video 5s 540P 0,0624 $
VIDU Q2 Turbo Image to Video 5s 720P 0,2141 $
VIDU Q2 Turbo Image to Video 5s 1080P 0,3347 $

¡Prueba VIDU Q2 ahora!

Buenas prácticas de VIDU Q2 en Novita AI

Ingeniería de instrucciones para Q2

Mantén las instrucciones por debajo de 100 palabras, prioriza el movimiento y la cámara sobre narrativas densas. Una buena estructura de instrucción:

[Movimiento de cámara] + [Acción del sujeto] + [Emoción/expresión] + [Especificaciones técnicas]

Ejemplo: "Dolly zoom lento en el rostro de una mujer, sonrisa insegura que se forma, ojos que miran hacia abajo y luego arriba, iluminación natural, 24fps"

Evita: “Una mujer hermosa en un parque en un día soleado piensa en su pasado mientras mira los árboles y siente nostalgia mientras los pájaros vuelan…” (demasiado denso, diluye la adherencia)

Consejos para imágenes de múltiples referencias

  • Indica explícitamente qué elementos conservar: “Usa el rostro de la imagen 1, la ropa de la imagen 2, el fondo de la imagen 3”
  • Las imágenes no relacionadas se mezclan mal sin orientación: si combinas un rostro y un objeto, especifica su relación
  • Limítate a 3 o 4 referencias para obtener mejores resultados: la capacidad de 7 imágenes es para escenas complejas con múltiples sujetos, no siempre es óptima.

Flujo de trabajo iterativo

  1. Empieza con 720p, 4 segundos, movimiento automático: ciclo de iteración más rápido
  2. Prueba de 3 a 5 variaciones de instrucciones con semilla fija: identifica la mejor combinación de cámara/emoción
  3. Escala la variante ganadora a 1080p, 6-8 segundos para el resultado final
  4. Usa el modo fuera de horas punta para trabajos por lotes (ahorro del 30 % en costes)

Procesamiento por lotes con cola

Para generación de alto volumen:

  1. Envía de 50 a 100 tareas con el modo fuera de horas punta activado
  2. Usa devoluciones de llamada webhook para capturar los resultados de forma asíncrona
  3. Almacena los ID de las tareas en la base de datos para hacer seguimiento del estado
  4. Implementa lógica de reintento para tareas fallidas (límites de velocidad, tiempos de espera)

Extensión de video para contenido de larga duración

Q2 genera clips de 1 a 10 segundos. Para videos más largos:

  • Método 1: Usa la API de extensión de VIDU para añadir 6 o más segundos a clips existentes sin cortes bruscos
  • Método 2: Genera clips superpuestos (el último fotograma del clip 1 se convierte en el primer fotograma del clip 2) y únelos con FFmpeg
  • Método 3: Trata Q2 como generador de escenas: produce de 5 a 10 escenas distintas, edítalas en una narrativa con transiciones

¡Prueba VIDU Q2 ahora!

VIDU Q2 en Novita AI ofrece generación de video a partir de imágenes de calidad profesional a través de una API pensada para desarrolladores, eliminando la sobrecarga de infraestructura GPU y proporcionando control de cámara cinematográfico, fusión de múltiples imágenes de referencia y tiempos de generación inferiores a 15 segundos.

Con una generación 3 veces más rápida que Q1 y una coherencia mejorada, Q2 Turbo está optimizado para contenido de alto volumen en redes sociales, prototipado rápido y flujos de trabajo iterativos.

Q2 Pro añade la máxima fidelidad con control de microexpresiones y generación de audio para activos comerciales finales.

La relación coste-eficacia hace que la API de Novita sea atractiva: los clips Pro Fast en 1080p empiezan desde solo 0,143 $, y el modo fuera de horas punta reduce los costes un 30-40 % adicional.

Preguntas frecuentes

¿Cuál es la diferencia entre VIDU Q2 Turbo y Q2 Pro en Novita AI?

Q2 Turbo prioriza la velocidad (3 veces más rápido que Q1, ~10 segundos por clip) para flujos de trabajo iterativos. Q2 Pro maximiza la fidelidad con microexpresiones mejoradas, sincronización de labios y generación de audio; usa Pro para activos finales donde la calidad supera los requisitos de velocidad.

¿Cuánto cuesta VIDU Q2 por video en Novita AI?

El precio varía según la variante, la resolución y la duración (base de 5 s):
Turbo: 0,0624 $ (540p) – 0,3347 $ (1080p)
Pro Fast: 0,0713 $ (720p) – 0,1430 $ (1080p)
Pro: 0,1472 $ (540p) – 0,5135 $ (1080p)
Text to Video: 0,0802 $ (540p) – 0,2677 $ (1080p)

¿Qué límites de resolución y duración se aplican a VIDU Q2 en Novita?

Las opciones de resolución incluyen 540p, 720p y 1080p. La duración va de 1 a 10 segundos por clip. Usa la función de extensión de VIDU o el ensamblado con FFmpeg para videos más largos.

Novita AI es una plataforma de nube de IA y agentes que ayuda a desarrolladores y startups a construir, desplegar y escalar modelos y aplicaciones de agentes con alto rendimiento, fiabilidad y eficiencia de costes.