Kling O1 na Novita AI: Modos T2V, I2V, Ref2V e Edição de Vídeo

Kling O1 na Novita AI: Modos T2V, I2V, Ref2V e Edição de Vídeo

Kling O1 (Kling Omni Video O1) é o primeiro modelo unificado de vídeo multimodal da Kuaishou, expondo quatro modos distintos de geração através da API Novita AI: Texto para Vídeo (T2V), Imagem para Vídeo (I2V), Referência para Vídeo (Ref2V) e Edição de Vídeo. Cada modo aceita entradas diferentes e resolve um problema diferente — escolher o modo errado adiciona atrito e custo. Este guia explica o que cada modo realmente faz, o que ele exige, como é precificado na Novita AI e qual experimentar primeiro para casos de uso comuns de desenvolvedores.

O que é o Kling O1?

O Kling O1 é construído sobre a arquitetura MVL (Linguagem Visual Multimodal) da Kuaishou, que consolida tarefas de texto, imagem, referência e edição de vídeo em um único modelo, em vez de roteá-las para modelos especializados separados. Isso importa na prática: o modelo de movimento subjacente e a codificação de identidade são compartilhados entre os modos, então personagens e objetos descritos em um modo carregam propriedades visuais consistentes para o próximo.

Comparado com versões anteriores do Kling (V2.5, V2.6, V3.0 Standard/Pro), o Kling O1 adiciona capacidades Ref2V e Edição de Vídeo que são estruturalmente novas — elas não estavam disponíveis em nenhum nível Standard ou Pro antes do O1. T2V e I2V no O1 ganham o backbone MVL compartilhado, o que melhora a consistência do sujeito entre os quadros em comparação com os modelos de geração anteriores.

Kling O1 é distinto do Kling 3.0 (também chamado de Kling O3). O Kling 3.0 é um modelo sucessor que adiciona co-geração de áudio nativa e clipes estendidos de 15 segundos. O Kling O1 na Novita AI atualmente cobre vídeos de até 10 segundos sem áudio nativo.

Os Quatro Modos de Relance

Modo Entrada Principal Entradas Obrigatórias Duração Preço na Novita AI
T2V Prompt de texto prompt 5–10 s $0.112/s
I2V Imagem + prompt image_url, prompt 5–10 s $0.112/s
Ref2V Imagens de referência + prompt prompt, image_urls ou elements 3–10 s $0.168/s
Edição de Vídeo Vídeo fonte + prompt video_url, prompt 3–10 s (Fast: 6–20 s) $0.168/s (Fast: $0.09/s)

Preços verificados nas páginas dos modelos da Novita AI em 26/06/2026. A cobrança por segundo se aplica à duração que você especificar.

Kling O1 Texto para Vídeo (T2V) na Novita AI

Endpoint: POST /v3/async/kling-o1-t2v

T2V gera um vídeo inteiramente a partir de uma descrição textual. Você fornece um prompt; o modelo cria movimento, iluminação, movimento de câmera e composição da cena do zero. Não há uma âncora de imagem, então o modelo tem total liberdade criativa dentro das restrições do prompt.

Use T2V quando:

  • Você não tem uma imagem de referência ou quadro de cena.
  • Você está explorando um conceito antes de se comprometer com uma direção visual.
  • Você precisa gerar muitas variações visuais a baixo custo por clipe.

A $0.112/s, um clipe de 5 segundos custa $0.56 e um clipe de 10 segundos custa $1.12. O T2V suporta durações de 5 e 10 segundos na Novita AI com proporções 16:9, 9:16 e 1:1.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Uma raposa vermelha trotando por uma floresta de pinheiros nevada, luz da hora dourada, plano aberto cinematográfico",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 Imagem para Vídeo (I2V) na Novita AI

Endpoint: POST /v3/async/kling-o1-i2v

I2V anima uma imagem estática em um clipe de vídeo. A imagem de origem se torna o quadro inicial; o prompt controla qual movimento e desenvolvimento da cena se seguem. Você pode opcionalmente fornecer um quadro final para dar ao modelo um estado alvo, e o modelo interpola o movimento entre o início e o fim.

Obrigatório: image_url (quadro inicial) e prompt. O quadro final (end_image_url) é opcional, mas útil quando você quer uma composição específica no ponto de corte.

Use I2V quando:

  • Você tem uma imagem ou design existente que precisa se mover.
  • Você deseja uma ancoragem visual determinística — a aparência do personagem ou cena já está definida na imagem de origem.
  • Você está construindo demonstrações de produtos, conteúdo para redes sociais ou animações de e-commerce a partir de ativos existentes.

A $0.112/s, o I2V custa o mesmo que o T2V. A principal compensação é que o I2V fixa o quadro de abertura na sua imagem de entrada, o que melhora a consistência, mas também significa que uma imagem de origem de baixa qualidade limita a saída. Restrições de imagem na Novita AI: mínimo 300×300px, tamanho máximo de arquivo 10MB, proporção entre 0.4 e 2.5.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-i2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "image_url": "https://example.com/product-shot.jpg",
    "prompt": "O produto gira lentamente para revelar o painel traseiro, iluminação suave de estúdio",
    "duration": 5,
    "aspect_ratio": "1:1"
  }'

Kling O1 Referência para Vídeo (Ref2V) na Novita AI

Endpoint: POST /v3/async/kling-o1-ref2v

Ref2V é o modo mais flexível e o que mais diretamente usa a arquitetura MVL do O1. Em vez de um único quadro inicial, você fornece até sete imagens de referência em dois tipos de entrada: image_urls (referências de estilo ou cena) e elements (âncoras de identidade de personagem ou objeto). O prompt usa as tags @Image1, @Image2, e @Element1, @Element2 para dizer ao modelo qual referência aplicar e onde.

Isso permite que você componha uma cena a partir de múltiplos ativos de origem: um personagem de uma foto de retrato, um fundo de uma imagem de localização e um adereço de uma imagem de produto — todos referenciados pelo nome no prompt.

Regras de entrada:

  • prompt é obrigatório.
  • image_urls e elements são opcionais, mas pelo menos um deve ser significativo; um prompt simples sem referências funciona, mas se comporta mais próximo ao T2V.
  • O total de referências (elements + image_urls) não deve exceder 7.
  • Cada elemento em elements pode incluir múltiplos reference_image_urls (fotos de vários ângulos) mais um frontal_image_url opcional para uma correspondência de identidade mais limpa.

Use Ref2V quando:

  • Você precisa de personagens consistentes em vários clipes (conteúdo episódico, sequências de marketing).
  • Você está combinando personagens ou objetos de diferentes imagens de origem em uma única cena.
  • Você deseja que o modelo interpole a partir de um quadro inicial enquanto mantém a identidade visual de um conjunto de referências separado.

Ref2V custa $0.168/s — 50% a mais que T2V e I2V. Para um clipe de 5 segundos, isso dá $0.84; para 10 segundos, $1.68. O prêmio reflete a etapa adicional de codificação de referência. Se o seu caso de uso não exigir consistência de identidade entre imagens, o I2V a $0.112/s é suficiente.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-ref2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Use @Image1 como quadro inicial. @Element1 entra na cena e pega o artefato brilhante. Iluminação cinematográfica, câmera estável.",
    "image_urls": ["https://example.com/scene-bg.jpg"],
    "elements": [
      {
        "reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
        "frontal_image_url": "https://example.com/character-front.jpg"
      }
    ],
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Modo Edição de Vídeo do Kling O1 na Novita AI

Endpoint (padrão): POST /v3/async/kling-o1-video-edit

Endpoint (rápido): disponível através da variante Fast VideoEdit da Novita AI

Edição de Vídeo recebe um vídeo existente como entrada e o transforma usando um prompt em linguagem natural. O modelo preserva a estrutura de movimento original — tempo, movimento de câmera, o arco da ação — enquanto altera assuntos, ambientes ou estilo visual de acordo com o prompt. Você também pode fornecer imagens de referência e âncoras de elemento usando o mesmo sistema de marcação @Image1 / @Element1 do Ref2V.

Obrigatório: video_url (vídeo de origem, 3–10s, MP4 ou MOV, 720–2160px, max 200MB) e prompt.

Duas variantes:

  • VideoEdit Padrão: suporta vídeos de origem de 3–10 segundos, precificado a $0.168/s.
  • VideoEdit Fast: suporta vídeos de origem de 6–20 segundos, precificado a $0.09/s — o menor custo por segundo de qualquer modo Kling O1 na Novita AI.

Use Edição de Vídeo quando:

  • Você tem filmagens que precisam de uma mudança de estilo ou conteúdo sem refilmagem.
  • Você deseja substituir um personagem em um vídeo existente mantendo o mesmo movimento.
  • Você precisa transformar um clipe de ação ao vivo em um estilo animado.

A limitação principal: o vídeo de origem controla o movimento. A Edição de Vídeo não pode mudar o que um sujeito faz — ela só pode mudar a aparência do sujeito e o ambiente que ele ocupa. Para mudanças de movimento, gere novas filmagens com T2V ou I2V.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-video-edit \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "video_url": "https://example.com/source-clip.mp4",
    "prompt": "Transforme o cenário para um beco cyberpunk iluminado por néon, mantenha os movimentos do personagem exatamente como estão",
    "duration": 5
  }'

Preços na Novita AI

Todos os modos Kling O1 na Novita AI usam cobrança por segundo com base na duração definida no momento da requisição. Preços verificados em 26/06/2026.

Modo Endpoint Faixa de Duração Preço/s Custo 5s Custo 10s
T2V /v3/async/kling-o1-t2v 5–10 s $0.112 $0.56 $1.12
I2V /v3/async/kling-o1-i2v 5–10 s $0.112 $0.56 $1.12
Ref2V /v3/async/kling-o1-ref2v 3–10 s $0.168 $0.84 $1.68
VideoEdit /v3/async/kling-o1-video-edit 3–10 s $0.168 $0.84 $1.68
VideoEdit Fast (variante Fast Novita AI) 6–20 s $0.090 $0.90

Novos usuários da Novita AI recebem créditos gratuitos. Verifique a página de preços da Novita AI para taxas atuais, pois os preços podem mudar.

Qual Modo Começar?

Comece com T2V se seu objetivo é exploração de conceitos ou você não tem um ativo de imagem específico. É o ponto de entrada de menor atrito: um parâmetro obrigatório (prompt), sem necessidade de preparação de ativos.

Mude para I2V quando você tem uma imagem que precisa se mover. Imagens de produtos, ilustrações de personagens e fundos de cena funcionam bem como quadros iniciais do I2V. Mesmo preço do T2V, mais controle visual.

Use Ref2V quando a consistência de identidade entre clipes é importante — por exemplo, um personagem recorrente em várias cenas, ou combinar uma pessoa específica com um ambiente específico. Reserve orçamento para o prêmio de 50%; não é necessário para geração de clipe único.

Reserve Edição de Vídeo para fluxos de pós-produção onde filmagens existentes precisam de uma reformulação visual, mas o movimento deve permanecer intacto. A variante Fast a $0.09/s é a opção mais econômica para edições mais longas (6–20 segundos) onde a velocidade de geração é menos crítica.

Situação Modo Recomendado
Sem imagem, explorando ideias T2V
Tem uma imagem de produto ou cena, deseja movimento I2V
Precisa do mesmo personagem em vários clipes Ref2V
Tem filmagens de vídeo, deseja uma aparência diferente VideoEdit (padrão)
Edição longa (6–20 s), sensível a custo VideoEdit Fast

Como Chamar a API Kling O1 na Novita AI

Todos os quatro modos Kling O1 na Novita AI são assíncronos. Cada requisição retorna um task_id imediatamente; consulte o endpoint de Resultado da Tarefa até que o status seja succeed.

# Passo 1: Envie sua tarefa de geração (exemplo: T2V)
RESPONSE=$(curl --silent --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{"prompt": "Seu prompt aqui", "duration": 5, "aspect_ratio": "16:9"}')

TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")

# Passo 2: Consulte os resultados
curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

A resposta inclui um campo status. Quando ele mostrar succeed, o array videos contém a URL de saída. O tempo típico de geração é de 30 a 120 segundos, dependendo da duração e do modo.

Obtenha sua chave de API no painel da Novita AI. Novas contas recebem créditos gratuitos para testar todos os quatro modos antes de se comprometer com o volume de produção.

Conclusão

Kling O1 na Novita AI fornece aos desenvolvedores acesso a quatro modos distintos de geração de vídeo — T2V, I2V, Ref2V e Edição de Vídeo — através de uma única API unificada. T2V e I2V cobrem os casos comuns de geração a $0.112/s. Ref2V adiciona composição de identidade com múltiplas referências para personagens recorrentes a $0.168/s. Edição de Vídeo transforma filmagens existentes preservando o movimento, com uma variante Fast a $0.09/s para clipes mais longos. Escolher o modo certo antecipadamente economiza custos e remove atritos: comece com T2V se você não tem um ativo de imagem, I2V se tem, Ref2V quando a consistência de identidade entre clipes é importante, e Edição de Vídeo quando o movimento já está capturado. Todos os modos compartilham o mesmo padrão de tarefa assíncrona na Novita AI, então integrar vários modos em um único pipeline requer código adicional mínimo.

Novita AI é uma plataforma de nuvem de IA que fornece aos desenvolvedores acesso hospedado a modelos de vídeo, imagem, áudio e linguagem através de uma API unificada.

Perguntas Frequentes

Qual é a diferença entre Kling O1 T2V e I2V na Novita AI?

T2V gera vídeo a partir de um prompt de texto sozinho — nenhuma imagem é necessária. I2V recebe uma imagem como quadro inicial e a anima de acordo com o prompt. Ambos são precificados a $0.112/s e suportam clipes de 5 a 10 segundos. Use T2V para exploração; use I2V quando você tem uma âncora visual específica.

O que o Kling O1 Ref2V faz que o I2V não pode?

Ref2V aceita até 7 imagens de referência em múltiplos slots de entrada, permitindo combinar fontes separadas para identidade do personagem, fundo da cena e estilo. Você referencia cada entrada pelo nome no prompt (@Element1, @Image1). I2V usa um único quadro inicial sem sistema de referência nomeada.

O Kling O1 é o mesmo que o Kling 3.0?

Não. Kling O1 (lançado em dezembro de 2025) é o modelo unificado de vídeo multimodal base. Kling 3.0 (também chamado de Kling O3, lançado em fevereiro de 2026) é um sucessor que adiciona co-geração de áudio nativa e clipes de até 15 segundos. Kling O1 na Novita AI suporta vídeo de até 10 segundos sem áudio nativo.

Como escolher entre VideoEdit padrão e VideoEdit Fast?

VideoEdit padrão aceita clipes de origem de 3 a 10 segundos a $0.168/s. VideoEdit Fast aceita clipes de 6 a 20 segundos a $0.09/s. Se seu vídeo de origem tem menos de 10 segundos e o tempo de resposta é importante, use o padrão. Se você tem clipes mais longos ou está fazendo trabalho de pós-produção em lote, o Fast é significativamente mais barato.

Artigos recomendados