Kling O1 en Novita AI: Modos T2V, I2V, Ref2V y Edición de Video

Kling O1 en Novita AI: Modos T2V, I2V, Ref2V y Edición de Video

Kling O1 (Kling Omni Video O1) es el primer modelo multimodal unificado de video de Kuaishou, que expone cuatro modos de generación distintos a través de la API de Novita AI: Texto a Video (T2V), Imagen a Video (I2V), Referencia a Video (Ref2V) y Edición de Video. Cada modo acepta entradas diferentes y resuelve un problema distinto: elegir el incorrecto añade fricción y costo. Esta guía explica qué hace realmente cada modo, qué requiere, cómo se factura en Novita AI y cuál probar primero para casos de uso comunes de desarrolladores.

¿Qué es Kling O1?

Kling O1 está construido sobre la arquitectura MVL (Visual Language Multimodal) de Kuaishou, que consolida tareas de texto, imagen, referencia y edición de video en un solo modelo en lugar de enrutarlas a modelos especializados separados. Esto tiene importancia práctica: el modelo de movimiento subyacente y la codificación de identidad se comparten entre los modos, por lo que los personajes y objetos descritos en un modo mantienen propiedades visuales consistentes en el siguiente.

En comparación con versiones anteriores de Kling (V2.5, V2.6, V3.0 Standard/Pro), Kling O1 añade capacidades de Ref2V y Edición de Video que son estructuralmente nuevas: no estaban disponibles en ningún nivel Standard o Pro antes de O1. T2V e I2V en O1 obtienen la columna vertebral MVL compartida, lo que mejora la consistencia del sujeto entre fotogramas en comparación con los modelos de generación anteriores.

Kling O1 es distinto de Kling 3.0 (también llamado Kling O3). Kling 3.0 es un modelo posterior que añade co-generación de audio nativa y clips extendidos de 15 segundos. Kling O1 en Novita AI actualmente cubre videos de hasta 10 segundos sin audio nativo.

Los Cuatro Modos de un Vistazo

Modo Entrada Principal Entradas Requeridas Duración Precio en Novita AI
T2V Prompt de texto prompt 5–10 s $0.112/s
I2V Imagen + prompt image_url, prompt 5–10 s $0.112/s
Ref2V Imágenes de referencia + prompt prompt, image_urls o elements 3–10 s $0.168/s
Edición de Video Video fuente + prompt video_url, prompt 3–10 s (Fast: 6–20 s) $0.168/s (Fast: $0.09/s)

Precios verificados en las páginas de modelos de Novita AI el 2026-06-26. La facturación por segundo se aplica a la duración que especifiques.

Kling O1 Texto a Video (T2V) en Novita AI

Endpoint: POST /v3/async/kling-o1-t2v

T2V genera un video completamente a partir de una descripción de texto. Proporcionas un prompt; el modelo crea movimiento, iluminación, movimiento de cámara y composición de escena desde cero. No hay un anclaje de imagen, por lo que el modelo tiene plena libertad creativa dentro de las restricciones del prompt.

Usa T2V cuando:

  • No tienes una imagen de referencia o un fotograma de escena.
  • Estás explorando un concepto antes de comprometerte con una dirección visual.
  • Necesitas generar muchas variaciones visuales a bajo costo por clip.

A $0.112/s, un clip de 5 segundos cuesta $0.56 y un clip de 10 segundos cuesta $1.12. T2V admite duraciones de 5 y 10 segundos en Novita AI con relaciones de aspecto 16:9, 9:16 y 1:1.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "A red fox trotting through a snowy pine forest, golden hour light, cinematic wide shot",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 Imagen a Video (I2V) en Novita AI

Endpoint: POST /v3/async/kling-o1-i2v

I2V anima una imagen estática en un clip de video. La imagen original se convierte en el fotograma inicial; el prompt controla qué movimiento y desarrollo de escena siguen. Opcionalmente, puedes proporcionar un fotograma final para dar al modelo un estado objetivo, y el modelo interpola el movimiento entre el inicio y el final.

Requerido: image_url (fotograma inicial) y prompt. El fotograma final (end_image_url) es opcional pero útil cuando deseas una composición específica en el punto de corte.

Usa I2V cuando:

  • Tienes una imagen o diseño existente que necesita movimiento.
  • Deseas un anclaje visual determinista: la apariencia del personaje o la escena ya está definida en la imagen original.
  • Estás creando demostraciones de productos, contenido social o animaciones de comercio electrónico a partir de activos existentes.

A $0.112/s, I2V cuesta lo mismo que T2V. La compensación clave es que I2V bloquea el fotograma de apertura a tu imagen de entrada, lo que mejora la consistencia pero también significa que una imagen original de baja calidad limita la salida. Restricciones de imagen en Novita AI: mínimo 300×300px, tamaño máximo de archivo 10MB, relación de aspecto entre 0.4 y 2.5.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-i2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "image_url": "https://example.com/product-shot.jpg",
    "prompt": "The product slowly rotates to reveal the back panel, soft studio lighting",
    "duration": 5,
    "aspect_ratio": "1:1"
  }'

Kling O1 Referencia a Video (Ref2V) en Novita AI

Endpoint: POST /v3/async/kling-o1-ref2v

Ref2V es el modo más flexible y el que utiliza más directamente la arquitectura MVL de O1. En lugar de un solo fotograma inicial, proporcionas hasta siete imágenes de referencia en dos tipos de entrada: image_urls (referencias de estilo o escena) y elements (anclajes de identidad de personajes u objetos). El prompt utiliza las etiquetas @Image1, @Image2, @Element1, @Element2 para indicar al modelo qué referencia aplicar y dónde.

Esto te permite componer una escena a partir de múltiples activos fuente: un personaje de una foto de retrato, un fondo de una imagen de ubicación y un accesorio de una imagen de producto, todos referenciados por nombre en el prompt.

Reglas de entrada:

  • prompt es obligatorio.
  • image_urls y elements son opcionales, pero al menos uno debe ser significativo; un prompt desnudo sin referencias funciona pero se comporta más cerca de T2V.
  • El total de referencias (elements + image_urls) no debe exceder 7.
  • Cada elemento en elements puede incluir múltiples reference_image_urls (tomas desde múltiples ángulos) más una frontal_image_url opcional para una coincidencia de identidad más limpia.

Usa Ref2V cuando:

  • Necesitas personajes consistentes en múltiples clips (contenido episódico, secuencias de marketing).
  • Estás combinando personajes u objetos de diferentes imágenes fuente en una sola escena.
  • Deseas que el modelo interpole desde un fotograma inicial mientras mantiene la identidad visual de un conjunto de referencias separado.

Ref2V cuesta $0.168/s — un 50% más que T2V e I2V. Para un clip de 5 segundos, eso es $0.84; para 10 segundos, $1.68. La prima refleja el paso adicional de codificación de referencia. Si tu caso de uso no requiere consistencia de identidad entre imágenes, I2V a $0.112/s es suficiente.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-ref2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Take @Image1 as the start frame. @Element1 walks into the scene and picks up the glowing artifact. Cinematic lighting, steady camera.",
    "image_urls": ["https://example.com/scene-bg.jpg"],
    "elements": [
      {
        "reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
        "frontal_image_url": "https://example.com/character-front.jpg"
      }
    ],
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Modo Edición de Video de Kling O1 en Novita AI

Endpoint (estándar): POST /v3/async/kling-o1-video-edit

Endpoint (rápido): disponible a través de la variante Fast VideoEdit de Novita AI

Edición de Video toma un video existente como entrada y lo transforma usando un prompt en lenguaje natural. El modelo conserva la estructura de movimiento original: tiempo, movimiento de cámara, el arco de la acción—mientras cambia sujetos, entornos o estilo visual según el prompt. También puedes proporcionar imágenes de referencia y anclajes de elementos usando el mismo sistema de etiquetado @Image1 / @Element1 que Ref2V.

Requerido: video_url (video fuente, 3–10s, MP4 o MOV, 720–2160px, máximo 200MB) y prompt.

Dos variantes:

  • VideoEdit estándar: admite videos fuente de 3 a 10 segundos, con un precio de $0.168/s.
  • Fast VideoEdit: admite videos fuente de 6 a 20 segundos, con un precio de $0.09/s — el costo por segundo más bajo de cualquier modo de Kling O1 en Novita AI.

Usa Edición de Video cuando:

  • Tienes material grabado que necesita un cambio de estilo o contenido sin volver a grabar.
  • Deseas reemplazar un personaje en un video existente manteniendo el mismo movimiento.
  • Necesitas transformar un clip de acción real en un estilo animado.

La limitación clave: el video fuente controla el movimiento. Edición de Video no puede cambiar lo que hace un sujeto—solo puede cambiar cómo se ve el sujeto y qué entorno ocupa. Para cambios de movimiento, genera nuevo material con T2V o I2V.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-video-edit \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "video_url": "https://example.com/source-clip.mp4",
    "prompt": "Transform the setting to a neon-lit cyberpunk alley, keep the character movements exactly as-is",
    "duration": 5
  }'

Precios en Novita AI

Todos los modos de Kling O1 en Novita AI utilizan facturación por segundo contra la duración que establezcas en el momento de la solicitud. Precios verificados el 2026-06-26.

Modo Endpoint Rango de Duración Precio/s Costo 5s Costo 10s
T2V /v3/async/kling-o1-t2v 5–10 s $0.112 $0.56 $1.12
I2V /v3/async/kling-o1-i2v 5–10 s $0.112 $0.56 $1.12
Ref2V /v3/async/kling-o1-ref2v 3–10 s $0.168 $0.84 $1.68
VideoEdit /v3/async/kling-o1-video-edit 3–10 s $0.168 $0.84 $1.68
VideoEdit Fast (Variante Fast de Novita AI) 6–20 s $0.090 $0.90

Los nuevos usuarios de Novita AI reciben créditos gratuitos. Consulta la página de precios de Novita AI para tarifas actuales, ya que los precios pueden cambiar.

¿Con Qué Modo Deberías Empezar?

Comienza con T2V si tu objetivo es la exploración de conceptos o no tienes un activo de imagen específico. Es el punto de entrada de menor fricción: un parámetro requerido (prompt), sin necesidad de preparación de activos.

Pasa a I2V cuando tengas una imagen que necesite movimiento. Las imágenes de productos, ilustraciones de personajes y fondos de escena funcionan bien como fotogramas iniciales de I2V. Mismo precio que T2V, más control visual.

Usa Ref2V cuando la consistencia de identidad entre clips sea importante—por ejemplo, un personaje recurrente en múltiples escenas, o combinar una persona específica con un entorno específico. Presupuesta la prima de precio del 50%; no es necesaria para generación de un solo clip.

Reserva Edición de Video para flujos de trabajo de postproducción donde el material existente necesita una renovación visual pero el movimiento debe permanecer intacto. La variante Fast a $0.09/s es la opción más rentable para ediciones más largas (6–20 segundos) donde la velocidad de generación es menos crítica.

Situación Modo Recomendado
Sin imagen, explorando ideas T2V
Tienes una imagen de producto o escena, quieres movimiento I2V
Necesitas el mismo personaje en múltiples clips Ref2V
Tienes material de video, quieres un aspecto diferente VideoEdit (estándar)
Edición larga (6–20 s), sensible al costo VideoEdit Fast

Cómo Llamar a la API de Kling O1 en Novita AI

Los cuatro modos de Kling O1 en Novita AI son asíncronos. Cada solicitud devuelve un task_id inmediatamente; consulta el endpoint de Resultado de Tarea hasta que el estado sea succeed.

# Paso 1: Envía tu tarea de generación (ejemplo: T2V)
RESPONSE=$(curl --silent --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{"prompt": "Your prompt here", "duration": 5, "aspect_ratio": "16:9"}')

TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")

# Paso 2: Consulta los resultados
curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

La respuesta incluye un campo status. Cuando dice succeed, el array videos contiene la URL de salida. El tiempo de generación típico es de 30 a 120 segundos dependiendo de la duración y el modo.

Obtén tu clave API desde el panel de Novita AI. Las nuevas cuentas reciben créditos gratuitos para probar los cuatro modos antes de comprometerse con un volumen de producción.

Conclusión

Kling O1 en Novita AI brinda a los desarrolladores acceso a cuatro modos distintos de generación de video—T2V, I2V, Ref2V y Edición de Video—a través de una única API unificada. T2V e I2V cubren los casos de generación comunes a $0.112/s. Ref2V añade composición de identidad con múltiples referencias para personajes recurrentes a $0.168/s. Edición de Video transforma material existente preservando el movimiento, con una variante Fast a $0.09/s para clips más largos. Elegir el modo correcto desde el principio ahorra costos y elimina fricciones: comienza con T2V si no tienes un activo de imagen, con I2V si lo tienes, con Ref2V cuando la consistencia de identidad entre clips sea importante, y con Edición de Video cuando el movimiento ya esté capturado. Todos los modos comparten el mismo patrón de tareas asíncronas en Novita AI, por lo que integrar múltiples modos en un solo pipeline requiere un mínimo de código adicional.

Novita AI es una plataforma en la nube de IA que brinda a los desarrolladores acceso alojado a modelos de video, imagen, audio y lenguaje a través de una API unificada.

Preguntas Frecuentes

¿Cuál es la diferencia entre Kling O1 T2V e I2V en Novita AI?

T2V genera video a partir de un prompt de texto solo—no se requiere imagen. I2V toma una imagen como fotograma inicial y la anima según el prompt. Ambos tienen un precio de $0.112/s y admiten clips de 5 a 10 segundos. Usa T2V para exploración; usa I2V cuando tengas un anclaje visual específico.

¿Qué hace Kling O1 Ref2V que I2V no puede hacer?

Ref2V acepta hasta 7 imágenes de referencia en múltiples ranuras de entrada, lo que te permite combinar fuentes separadas para la identidad del personaje, el fondo de la escena y el estilo. Haces referencia a cada entrada por nombre en el prompt (@Element1, @Image1). I2V utiliza un solo fotograma inicial sin un sistema de referencia nombrado.

¿Kling O1 es lo mismo que Kling 3.0?

No. Kling O1 (lanzado en diciembre de 2025) es el modelo de video multimodal unificado base. Kling 3.0 (también llamado Kling O3, lanzado en febrero de 2026) es un modelo posterior que añade co-generación de audio nativa y clips de hasta 15 segundos. Kling O1 en Novita AI admite video de hasta 10 segundos sin audio nativo.

¿Cómo elijo entre VideoEdit estándar y VideoEdit Fast?

VideoEdit estándar acepta clips fuente de 3 a 10 segundos a $0.168/s. Fast VideoEdit acepta clips de 6 a 20 segundos a $0.09/s. Si tu video fuente dura menos de 10 segundos y el tiempo de respuesta importa, usa el estándar. Si tienes clips más largos o estás haciendo trabajo de postproducción por lotes, Fast es significativamente más barato.

Artículos recomendados