MiniMax Hailuo 2.3 en Novita AI: Comparativa entre Texto a Video, Imagen a Video y Modo Rápido

MiniMax Hailuo 2.3 en Novita AI: Comparativa entre Texto a Video, Imagen a Video y Modo Rápido

Elegir MiniMax Hailuo 2.3 en Novita AI es más sencillo si empiezas por tu entrada: usa Texto a Video cuando la escena solo exista como prompt, usa Imagen a Video cuando un primer fotograma o imagen de referencia deba anclar el clip, y usa Imagen a Video Rápida cuando ya tengas una imagen y quieras probar el endpoint Fast I2V de menor precio antes de gastar en I2V estándar.

Tabla de selección de modo MiniMax Hailuo 2.3

Decisión Empieza aquí Por qué
Solo tienes una escena escrita Hailuo 2.3 Texto a Video El endpoint T2V requiere prompt y no necesita imagen.
Tienes un fotograma de producto, personaje, storyboard o imagen visual aprobada Hailuo 2.3 Imagen a Video El endpoint I2V requiere tanto prompt como image, así que la imagen de entrada fija el estado visual inicial.
Tienes una imagen y necesitas una primera pasada I2V más barata Hailuo 2.3 Imagen a Video Rápida Los precios de Fast I2V son inferiores a los de I2V estándar para las mismas combinaciones de duración y resolución visibles.
Necesitas salida 1080P Cualquiera de los tres modos, limitado a 6 segundos La documentación de Novita lista soporte 1080P para trabajos Hailuo 2.3 de 6 segundos; los trabajos de 10 segundos se listan solo a 768P.
Necesitas un clip de 10 segundos T2V, I2V o Fast I2V a 768P La documentación lista 10 segundos como duración disponible, con 768P como resolución soportada para 10 segundos.
Necesitas comandos de cámara mediante prompt documentados en la referencia API T2V o I2V estándar Los documentos de T2V e I2V listan 15 comandos de cámara soportados; la página de Fast I2V no incluye esa sección de comandos de cámara.
Estás presupuestando un lote de pruebas amplio Empieza con 6s 768P; usa Fast I2V solo cuando tengas imagen disponible 6s 768P es la fila visible más baja para cada modo, y Fast I2V es la fila visible más baja de Hailuo 2.3 I2V.
Estás produciendo un clip casi final solo con prompt T2V a la resolución y duración objetivo T2V es el único endpoint de la familia Hailuo 2.3 que no necesita entrada de imagen.
Estás produciendo un clip casi final guiado por un activo I2V estándar a la resolución y duración objetivo I2V estándar mantiene el flujo guiado por imagen usando el endpoint no rápido.

La distinción importante no es «cuál modo es mejor» en abstracto. Es si tu primera prueba útil debe ser solo con prompt, guiada por imagen, o una pasada Fast I2V más económica. Si no hay imagen de origen, el modo Fast no es una opción porque Fast Hailuo 2.3 está documentado como un endpoint de imagen a video.

Modos API de MiniMax Hailuo 2.3 en Novita AI

Novita AI documenta tres APIs de video asíncronas separadas para MiniMax Hailuo 2.3:

Modo Ruta API de Novita Entradas requeridas Controles compartidos
MiniMax Hailuo 2.3 Texto a Video POST /v3/async/minimax-hailuo-2.3-t2v prompt duration, resolution, enable_prompt_expansion, fast_pretreatment
MiniMax Hailuo 2.3 Imagen a Video POST /v3/async/minimax-hailuo-2.3-i2v prompt, image duration, resolution, enable_prompt_expansion, fast_pretreatment
MiniMax Hailuo 2.3 Imagen a Video Rápida POST /v3/async/minimax-hailuo-2.3-fast-i2v prompt, image duration, resolution, enable_prompt_expansion

Los tres endpoints son asíncronos. La solicitud de creación devuelve un task_id, no una URL de video terminada. Las aplicaciones deben almacenar el ID de tarea y usar la API de Resultado de Tarea de Novita AI para recuperar el resultado generado cuando el trabajo finalice.

Las referencias de la API Hailuo 2.3 consultadas el 23 de junio de 2026 listan opciones de duration de 6 y 10. Listan valores predeterminados de resolution en 768P, con 768P y 1080P disponibles para videos de 6 segundos y 768P disponible para videos de 10 segundos. El campo prompt es obligatorio en los tres modos y admite de 1 a 2000 caracteres.

Para modos guiados por imagen, el campo image admite una URL pública o una URL de datos Base64 como data:image/jpeg;base64,.... Esto hace que I2V y Fast I2V sean más adecuados para flujos de trabajo donde la semilla visual ya existe en almacenamiento, una herramienta de diseño, un catálogo de productos o un paso de generación anterior.

¿Cuál es la diferencia entre T2V, I2V y Fast I2V?

Elige Hailuo 2.3 Texto a Video cuando la primera versión del clip deba provenir solo del lenguaje. Es el punto de partida más limpio para exploración de conceptos, ideación de escenas, planificación de tomas y pruebas de prompt donde aún no tienes una imagen fija de producto o fotograma de personaje.

T2V también tiene la forma de solicitud más simple. No requiere carga de imagen ni URL de imagen, por lo que un producto puede recoger un prompt, elegir duración y resolución, enviar la tarea y consultar el resultado. Úsalo cuando los criterios de aceptación traten sobre la idea de la escena más que sobre la fidelidad a una imagen inicial específica.

Elige Hailuo 2.3 Imagen a Video cuando la imagen de entrada sea parte de los criterios de aceptación. Una imagen fija de producto, fotograma de personaje aprobado, visual de marca, panel de storyboard o fotograma clave generado no deben recrearse a partir de texto si ya tienes el activo. Usa I2V para que la generación comience desde la imagen que proporcionas.

I2V estándar también se adapta a flujos de revisión donde un diseñador, comercial o equipo de producto aprueba un fotograma fijo antes de añadir movimiento. La imagen de entrada se convierte en el punto de referencia del clip, mientras que el prompt describe cómo debe moverse la escena.

Elige Hailuo 2.3 Imagen a Video Rápida cuando ya tengas una imagen y quieras probar los precios más bajos listados del endpoint Fast I2V. Fast I2V no es un modo solo con prompt; sigue requiriendo image más prompt. Por lo tanto, es una elección de costo y endpoint dentro de un flujo guiado por imagen, no un reemplazo de T2V.

La documentación describe Fast Hailuo 2.3 como acelerado y posicionado para equilibrar calidad y rendimiento a una tarifa más rentable. Para la planificación práctica, trátalo como una razón para probarlo temprano con tus propios activos en lugar de asumir que siempre reemplazará al I2V estándar. Si Fast I2V cumple con tus criterios visuales de aceptación, puede ser el carril de iteración mejor. Si no, mueve la misma imagen y dirección de prompt al I2V estándar.

Hay una diferencia de control documentada a notar. Los cuerpos de solicitud de T2V e I2V estándar incluyen fast_pretreatment; el cuerpo de solicitud de Fast I2V mostrado en la documentación no lo incluye. Los documentos de T2V e I2V estándar también listan 15 comandos de cámara soportados, incluyen pan, tilt, zoom, truck, push, pull, pedestal, shake, tracking shot y static shot. La página de Fast I2V consultada para este artículo no incluye esa sección de comandos de cámara, así que evita prometer un comportamiento idéntico de comandos de cámara en los tres modos a menos que tus propias pruebas lo confirmen.

¿Cuánto cuesta Hailuo 2.3 en Novita AI?

Los datos actuales de biblioteca de modelos y precios de Novita consultados el 23 de junio de 2026 listan las siguientes filas de MiniMax Hailuo 2.3:

Modo Duración Resolución Precio
Hailuo 2.3 Texto a Video 6s 768P $0.28/video
Hailuo 2.3 Texto a Video 10s 768P $0.56/video
Hailuo 2.3 Texto a Video 6s 1080P $0.49/video
Hailuo 2.3 Imagen a Video 6s 768P $0.28/video
Hailuo 2.3 Imagen a Video 10s 768P $0.56/video
Hailuo 2.3 Imagen a Video 6s 1080P $0.49/video
Hailuo 2.3 Imagen a Video Rápida 6s 768P $0.19/video
Hailuo 2.3 Imagen a Video Rápida 10s 768P $0.32/video
Hailuo 2.3 Imagen a Video Rápida 6s 1080P $0.33/video

Dos conclusiones sobre precios son importantes para la planificación. Primero, T2V estándar e I2V estándar tienen las mismas filas de precio visibles para la misma duración y resolución. Elige entre ellos según la entrada, no el costo. Segundo, Fast I2V tiene un precio más bajo que I2V estándar en todas las filas visibles de Hailuo 2.3, pero requiere una imagen y debe evaluarse según tus propios criterios de salida.

Para exploración temprana, 6s a 768P es la opción visible más baja en cada modo. Para una prueba solo con prompt, eso significa $0.28/video con T2V. Para una prueba guiada por imagen, eso significa $0.28/video con I2V estándar o $0.19/video con Fast I2V.

Para 1080P, las filas visibles de Hailuo 2.3 son trabajos de 6 segundos: $0.49/video para T2V o I2V estándar, y $0.33/video para Fast I2V. Para trabajos de 10 segundos, las filas visibles son 768P: $0.56/video para T2V o I2V estándar, y $0.32/video para Fast I2V.

Los precios pueden cambiar. Antes de un lote de gran volumen, verifica la fila exacta en la biblioteca de modelos de Novita AI o en la vista de precios de la consola.

¿Qué modo deberías probar primero?

Si la idea aún vive solo en un briefing, comienza con T2V. Mantén el primer prompt corto, elige 6s 768P y añade dirección de cámara solo cuando afecte la revisión. Esto mantiene la primera pasada ligera: sin preparación de imagen, sin carga de activos, solo una comprobación rápida de si vale la pena desarrollar el concepto de escena.

Si la imagen ya es parte del briefing, usa I2V estándar primero. Una imagen fija de producto, fotograma de personaje o panel de storyboard cambia el trabajo de «inventar una escena» a «animar este punto de partida exacto». T2V puede crear algo plausible, pero no puede preservar una imagen de origen específica a menos que esa imagen se pase a un endpoint I2V.

Fast I2V es útil cuando ya tienes la imagen y quieres más margen para experimentar antes de elegir finalistas. Debido a que tiene las filas de precio visibles más bajas de Hailuo 2.3 para trabajos guiados por imagen, es un carril sensato para probar dirección de movimiento, redacción de prompt y si la imagen de origen funciona como semilla. Después de esa pasada, sigue usando Fast I2V si la salida cumple con tu estándar, o mueve los candidatos más fuertes a I2V estándar.

La trampa principal es elegir Fast I2V demasiado pronto. Sigue siendo imagen a video, por lo que no es un atajo para un briefing escrito sin imagen adjunta. En ese caso, T2V es la mejor primera prueba.

Para exploración amplia, 768P suele ser suficiente para juzgar la dirección del prompt, el ajuste de la imagen y las ideas de movimiento. Reserva 1080P para el conjunto más pequeño de clips que estén lo suficientemente cerca como para inspeccionarlos en detalle.

Usa pruebas de 10 segundos cuando el tiempo extra cambie la decisión creativa, no como la primera pasada predeterminada. La fila documentada de Hailuo 2.3 para trabajos de 10 segundos es 768P; si tu equipo necesita 1080P, planifica en torno a trabajos de 6 segundos o confirma si la consola en vivo ha añadido una opción más nueva antes de comprometerte con un lote.

Flujo de trabajo de la API MiniMax Hailuo 2.3

Una integración de producción debe tratar Hailuo 2.3 como un flujo de trabajo de trabajo asíncrono:

  1. Elige T2V, I2V o Fast I2V según la entrada disponible.
  2. Elige duración de 6s o 10s.
  3. Elige 768P o 1080P, teniendo en cuenta que 1080P está documentado para trabajos de 6 segundos.
  4. Envía la solicitud al endpoint asíncrono específico del modelo.
  5. Almacena el task_id devuelto.
  6. Consulta la API de Resultado de Tarea hasta que la tarea tenga éxito o falle.
  7. Almacena la URL del medio devuelto según las reglas de retención de tu producto.

Aquí hay una solicitud mínima de texto a video:

curl --location --request POST 'https://api.novita.ai/v3/async/minimax-hailuo-2.3-t2v' \
  --header 'Content-Type: application/json' \
  --header "Authorization: Bearer ${NOVITA_API_KEY}" \
  --data-raw '{
    "prompt": "A compact smart speaker on a kitchen counter lights up as the camera slowly pushes in. Soft morning light, clean product demo, no text overlays.",
    "duration": 6,
    "resolution": "768P",
    "enable_prompt_expansion": true,
    "fast_pretreatment": false
  }'

Aquí hay una solicitud mínima de imagen a video:

curl --location --request POST 'https://api.novita.ai/v3/async/minimax-hailuo-2.3-i2v' \
  --header 'Content-Type: application/json' \
  --header "Authorization: Bearer ${NOVITA_API_KEY}" \
  --data-raw '{
    "image": "https://example.com/product-frame.jpg",
    "prompt": "Animate the product with a subtle light pulse while the camera makes a slow push-in. Keep the product centered and avoid adding text.",
    "duration": 6,
    "resolution": "768P",
    "enable_prompt_expansion": true,
    "fast_pretreatment": false
  }'

Aquí está la misma prueba guiada por imagen usando Fast I2V:

curl --location --request POST 'https://api.novita.ai/v3/async/minimax-hailuo-2.3-fast-i2v' \
  --header 'Content-Type: application/json' \
  --header "Authorization: Bearer ${NOVITA_API_KEY}" \
  --data-raw '{
    "image": "https://example.com/product-frame.jpg",
    "prompt": "Animate the product with a subtle light pulse while the camera makes a slow push-in. Keep the product centered and avoid adding text.",
    "duration": 6,
    "resolution": "768P",
    "enable_prompt_expansion": true
  }'

En los tres casos, construye para estados en cola, procesando, exitoso y fallido. La respuesta inicial te da un ID de tarea; no significa que el video ya esté disponible.

Recomendación final

Para la mayoría de los equipos, la primera prueba con MiniMax Hailuo 2.3 debería ser 6s 768P. Usa T2V si solo tienes un prompt. Usa I2V estándar si el primer fotograma o imagen de referencia es innegociable. Usa Fast I2V si tienes una imagen y quieres un carril de iteración de menor precio antes de decidir qué salidas merecen I2V estándar o revisión 1080P.

Esa secuencia mantiene la primera pasada ligada a la restricción de entrada real. También evita un error común: tratar el modo Fast como un atajo universal. Fast Hailuo 2.3 es un endpoint de imagen a video, por lo que solo es útil después de que exista una imagen.

Preguntas frecuentes

¿MiniMax Hailuo 2.3 está disponible para texto a video en Novita AI?

Sí. Novita AI documenta POST /v3/async/minimax-hailuo-2.3-t2v para MiniMax Hailuo 2.3 Texto a Video.

¿MiniMax Hailuo 2.3 está disponible para imagen a video en Novita AI?

Sí. Novita AI documenta POST /v3/async/minimax-hailuo-2.3-i2v para Imagen a Video estándar y POST /v3/async/minimax-hailuo-2.3-fast-i2v para Imagen a Video Rápida.

¿Cuál es la diferencia entre Hailuo 2.3 I2V y Fast I2V?

Ambos requieren prompt e image. El endpoint Fast I2V tiene filas de precio visibles más bajas que I2V estándar y está documentado por separado como minimax-hailuo-2.3-fast-i2v. I2V estándar incluye fast_pretreatment en el cuerpo de la solicitud documentado; Fast I2V no muestra ese campo.

¿Hailuo 2.3 soporta 1080P?

Sí, para trabajos de 6 segundos. Los documentos de Hailuo 2.3 consultados el 23 de junio de 2026 listan 768P y 1080P para videos de 6 segundos y solo 768P para videos de 10 segundos.

¿Cuánto cuesta MiniMax Hailuo 2.3 en Novita AI?

Las filas visibles consultadas el 23 de junio de 2026 comienzan en $0.28/video para T2V o I2V estándar a 6s 768P, $0.19/video para Fast I2V a 6s 768P, $0.49/video para T2V o I2V estándar a 6s 1080P y $0.33/video para Fast I2V a 6s 1080P.

Artículos recomendados