VIDU Q2 en Novita AI ofrece generación de video a partir de imágenes de calidad profesional a través de una API pensada para desarrolladores, creando clips de 540p a 1080p en 10 segundos con control de cámara cinematográfico y fusión de múltiples imágenes de referencia. Construido sobre la arquitectura U-ViT, destaca por su movimiento consistente, microexpresiones y manejo de hasta 7 imágenes de referencia, con precios de pago por uso.
¿Qué es VIDU Q2 en Novita AI?
VIDU Q2 es un modelo avanzado de IA para convertir imágenes en video disponible en Novita AI en múltiples variantes:
- Start-End Frame: Tú defines exactamente cómo empieza y termina el video; la IA se encarga del desarrollo intermedio.
- Multi-frame: Proporcionas una serie de imágenes (como un storyboard) y la IA anima el movimiento entre ellas.
- Turbo: Enfocado en velocidad y eficiencia (probablemente más barato o rápido de ejecutar).
- Pro: Enfocado en calidad visual, adherencia a las instrucciones y detalle (probablemente más lento y costoso).
- Reference Image: La imagen no es necesariamente el primer fotograma del video, sino una referencia de “cómo deben verse las cosas” (por ejemplo, el diseño de un personaje).
- Template: API de plantilla a video de VIDU Q2; admite varias plantillas de escenas con efectos y genera contenido de video con efectos basados en la plantilla y las imágenes de entrada.
| Categoría / Nombre del endpoint | Tipos de entrada (lo que subes) |
|---|---|
| VIDU Q2 Text to Video | Texto descriptivo |
| VIDU Q2 Template to Video | Plantilla + recursos |
| VIDU Q2 Reference Image to Video | Imagen de referencia + texto |
| VIDU Q2 Turbo Image to Video | Imagen única |
| VIDU Q2 Turbo Start-End Frame | Imagen de inicio y de fin |
| VIDU Q2 Turbo Multi-frame | Múltiples fotogramas clave |
| VIDU Q2 Pro Image to Video | Imagen única |
| VIDU Q2 Pro Start-End Frame | Imagen de inicio y de fin |
| VIDU Q2 Pro Multi-frame | Múltiples fotogramas clave |
| VIDU Q2 Pro Fast Image to Video | Imagen única |
| VIDU Q2 Pro Fast Start-End Frame | Imagen de inicio y de fin |
Características principales de la arquitectura de VIDU Q2 en Novita AI
| Característica | Especificación | Beneficio para el desarrollador |
|---|---|---|
| Fusión de múltiples referencias | Imágenes | Preservación coherente de la identidad en los sujetos |
| Opciones de resolución | 540p, 720p, 1080p | Equilibrio entre calidad y velocidad de generación |
| Rango de duración | 1-10 segundos | Optimizado para contenido de formato corto |
| Control de movimiento | Automático / Pequeño / Mediano / Grande | Ajuste fino de la intensidad de la animación |
| Operaciones de cámara | Push, pull, órbita, paneo, zoom | Control de tomas cinematográficas mediante instrucciones de texto |
Capacidades clave para desarrolladores de VIDU Q2 en Novita AI
1. Fusión de imágenes de múltiples referencias
La característica distintiva de VIDU Q2 es su capacidad para procesar varias imágenes de entrada simultáneamente. A diferencia de los modelos de una sola imagen, la fusión multirreferencia de Q2 permite escenarios complejos: combina el rostro de un personaje de una imagen con un objeto de otra, o mantén la coherencia entre sujetos distintos en un mismo video. El modelo admite el bloqueo de fotograma inicial/final para conservar poses concretas o la ubicación de logotipos a lo largo del clip.
Caso de uso: Genera una demostración de producto combinando (1) imagen del logotipo de la marca, (2) foto del producto, (3) referencia de gestos con la mano. Q2 fusiona las tres en un video cohesionado de 5 segundos con movimientos naturales de la mano presentando el producto promocionado.
2. Control de cámara cinematográfico
Q2 entiende la gramática cinematográfica en las instrucciones de texto: “dolly zoom”, “plano en movimiento”, “órbita antihoraria”. Esto permite movimientos de cámara precisos sin animación manual. Especifica “dolly zoom en primer plano del rostro con paneo lento a la derecha” y Q2 ejecutará la toma con transiciones suaves.
3. Movimiento con física realista
Q2 destaca en la simulación de física realista. Las pruebas de usuarios muestran una aceleración precisa de los coches en pistas, movimiento natural de las telas y dinámicas de agua creíbles. Para escenas de acción o demostraciones de productos que requieran realismo físico, el motor de movimiento de Q2 supera a los modelos que carecen de conciencia física.
4. Microexpresiones y control de emociones
El modelo captura movimientos faciales sutiles: sonrisas inseguras, cambios en el contacto visual, micromovimientos de los labios. Esto es fundamental para el contenido basado en personajes donde la autenticidad emocional importa: videos explicativos con presentadores animados, videos de formación con avatares realistas o clips para redes sociales que requieren reacciones expresivas.
Integración de la API de Novita AI para VIDU Q2
Requisitos de configuración
Novita AI ofrece una API serverless de pago por uso, sin necesidad de infraestructura GPU. La configuración lleva menos de 5 minutos:
- Regístrate en novita.ai
- Ve a API Keys en el panel de control
- Genera una nueva clave de API (hay nivel gratuito para pruebas)
- Usa el formato de endpoint compatible con OpenAI

Generación de audio y música de fondo: Q2 Pro admite música de fondo y síntesis de voz mediante los parámetros
bgmyvoice_id: genera clips de video completos con audio sincronizado en una sola llamada a la API.Procesamiento fuera de horas punta: Activa el modo
off_peakpara reducir el coste entre un 30 y un 40 %, con tiempos de espera ligeramente mayores; ideal para trabajos por lotes sin requisitos de tiempo real.
Rendimiento de VIDU Q2 en Novita AI
- Q2 Turbo logra una mejora de velocidad 3× respecto a Q1
- Mejor coherencia facial y de movimiento en comparación con Q1
- Transiciones más nítidas entre movimientos de cámara (menos saltos)
- Motores de movimiento reconstruidos para paneos, zooms y planos de seguimiento naturales
- Preservación superior de objetos entre fotogramas frente a modelos de la categoría Sora
Precios de VIDU Q2 en Novita AI
Novita AI utiliza precios por generación, sin suscripciones ni alquiler de GPU. Los costes varían según la resolución, la duración y la variante elegida:
| Modelo | Modo | Duración | Resolución | Precio (/video) |
|---|---|---|---|---|
| VIDU Q2 | Text to Video | 5s | 540P | 0,0802 $ |
| VIDU Q2 | Text to Video | 5s | 720P | 0,1562 $ |
| VIDU Q2 | Text to Video | 5s | 1080P | 0,2677 $ |
| VIDU Q2 | Reference to Video | 5s | 540P | 0,1562 $ |
| VIDU Q2 | Reference to Video | 5s | 720P | 0,2008 $ |
| VIDU Q2 | Reference to Video | 5s | 1080P | 0,5132 $ |
| VIDU Q2 Pro | Image to Video | 5s | 540P | 0,1472 $ |
| VIDU Q2 Pro | Image to Video | 5s | 720P | 0,2454 $ |
| VIDU Q2 Pro | Image to Video | 5s | 1080P | 0,5135 $ |
| VIDU Q2 Pro Fast | Image to Video | 5s | 720P | 0,0713 $ |
| VIDU Q2 Pro Fast | Image to Video | 5s | 1080P | 0,1430 $ |
| VIDU Q2 Turbo | Image to Video | 5s | 540P | 0,0624 $ |
| VIDU Q2 Turbo | Image to Video | 5s | 720P | 0,2141 $ |
| VIDU Q2 Turbo | Image to Video | 5s | 1080P | 0,3347 $ |
Buenas prácticas de VIDU Q2 en Novita AI
Ingeniería de instrucciones para Q2
Mantén las instrucciones por debajo de 100 palabras, prioriza el movimiento y la cámara sobre narrativas densas. Una buena estructura de instrucción:
[Movimiento de cámara] + [Acción del sujeto] + [Emoción/expresión] + [Especificaciones técnicas]
Ejemplo: "Dolly zoom lento en el rostro de una mujer, sonrisa insegura que se forma, ojos que miran hacia abajo y luego arriba, iluminación natural, 24fps"
Evita: “Una mujer hermosa en un parque en un día soleado piensa en su pasado mientras mira los árboles y siente nostalgia mientras los pájaros vuelan…” (demasiado denso, diluye la adherencia)
Consejos para imágenes de múltiples referencias
- Indica explícitamente qué elementos conservar: “Usa el rostro de la imagen 1, la ropa de la imagen 2, el fondo de la imagen 3”
- Las imágenes no relacionadas se mezclan mal sin orientación: si combinas un rostro y un objeto, especifica su relación
- Limítate a 3 o 4 referencias para obtener mejores resultados: la capacidad de 7 imágenes es para escenas complejas con múltiples sujetos, no siempre es óptima.
Flujo de trabajo iterativo
- Empieza con 720p, 4 segundos, movimiento automático: ciclo de iteración más rápido
- Prueba de 3 a 5 variaciones de instrucciones con semilla fija: identifica la mejor combinación de cámara/emoción
- Escala la variante ganadora a 1080p, 6-8 segundos para el resultado final
- Usa el modo fuera de horas punta para trabajos por lotes (ahorro del 30 % en costes)
Procesamiento por lotes con cola
Para generación de alto volumen:
- Envía de 50 a 100 tareas con el modo fuera de horas punta activado
- Usa devoluciones de llamada webhook para capturar los resultados de forma asíncrona
- Almacena los ID de las tareas en la base de datos para hacer seguimiento del estado
- Implementa lógica de reintento para tareas fallidas (límites de velocidad, tiempos de espera)
Extensión de video para contenido de larga duración
Q2 genera clips de 1 a 10 segundos. Para videos más largos:
- Método 1: Usa la API de extensión de VIDU para añadir 6 o más segundos a clips existentes sin cortes bruscos
- Método 2: Genera clips superpuestos (el último fotograma del clip 1 se convierte en el primer fotograma del clip 2) y únelos con FFmpeg
- Método 3: Trata Q2 como generador de escenas: produce de 5 a 10 escenas distintas, edítalas en una narrativa con transiciones
VIDU Q2 en Novita AI ofrece generación de video a partir de imágenes de calidad profesional a través de una API pensada para desarrolladores, eliminando la sobrecarga de infraestructura GPU y proporcionando control de cámara cinematográfico, fusión de múltiples imágenes de referencia y tiempos de generación inferiores a 15 segundos.
Con una generación 3 veces más rápida que Q1 y una coherencia mejorada, Q2 Turbo está optimizado para contenido de alto volumen en redes sociales, prototipado rápido y flujos de trabajo iterativos.
Q2 Pro añade la máxima fidelidad con control de microexpresiones y generación de audio para activos comerciales finales.
La relación coste-eficacia hace que la API de Novita sea atractiva: los clips Pro Fast en 1080p empiezan desde solo 0,143 $, y el modo fuera de horas punta reduce los costes un 30-40 % adicional.
Preguntas frecuentes
¿Cuál es la diferencia entre VIDU Q2 Turbo y Q2 Pro en Novita AI?
Q2 Turbo prioriza la velocidad (3 veces más rápido que Q1, ~10 segundos por clip) para flujos de trabajo iterativos. Q2 Pro maximiza la fidelidad con microexpresiones mejoradas, sincronización de labios y generación de audio; usa Pro para activos finales donde la calidad supera los requisitos de velocidad.
¿Cuánto cuesta VIDU Q2 por video en Novita AI?
El precio varía según la variante, la resolución y la duración (base de 5 s):
Turbo: 0,0624 $ (540p) – 0,3347 $ (1080p)
Pro Fast: 0,0713 $ (720p) – 0,1430 $ (1080p)
Pro: 0,1472 $ (540p) – 0,5135 $ (1080p)
Text to Video: 0,0802 $ (540p) – 0,2677 $ (1080p)
¿Qué límites de resolución y duración se aplican a VIDU Q2 en Novita?
Las opciones de resolución incluyen 540p, 720p y 1080p. La duración va de 1 a 10 segundos por clip. Usa la función de extensión de VIDU o el ensamblado con FFmpeg para videos más largos.
Novita AI es una plataforma de nube de IA y agentes que ayuda a desarrolladores y startups a construir, desplegar y escalar modelos y aplicaciones de agentes con alto rendimiento, fiabilidad y eficiencia de costes.
