- O que é o Kling O1?
- Os Quatro Modos de Relance
- Kling O1 Texto para Vídeo (T2V) na Novita AI
- Kling O1 Imagem para Vídeo (I2V) na Novita AI
- Kling O1 Referência para Vídeo (Ref2V) na Novita AI
- Modo Edição de Vídeo do Kling O1 na Novita AI
- Preços na Novita AI
- Qual Modo Começar?
- Como Chamar a API Kling O1 na Novita AI
- Conclusão
- Perguntas Frequentes
- Artigos recomendados
Kling O1 (Kling Omni Video O1) é o primeiro modelo unificado de vídeo multimodal da Kuaishou, expondo quatro modos distintos de geração através da API Novita AI: Texto para Vídeo (T2V), Imagem para Vídeo (I2V), Referência para Vídeo (Ref2V) e Edição de Vídeo. Cada modo aceita entradas diferentes e resolve um problema diferente — escolher o modo errado adiciona atrito e custo. Este guia explica o que cada modo realmente faz, o que ele exige, como é precificado na Novita AI e qual experimentar primeiro para casos de uso comuns de desenvolvedores.
O que é o Kling O1?
O Kling O1 é construído sobre a arquitetura MVL (Linguagem Visual Multimodal) da Kuaishou, que consolida tarefas de texto, imagem, referência e edição de vídeo em um único modelo, em vez de roteá-las para modelos especializados separados. Isso importa na prática: o modelo de movimento subjacente e a codificação de identidade são compartilhados entre os modos, então personagens e objetos descritos em um modo carregam propriedades visuais consistentes para o próximo.
Comparado com versões anteriores do Kling (V2.5, V2.6, V3.0 Standard/Pro), o Kling O1 adiciona capacidades Ref2V e Edição de Vídeo que são estruturalmente novas — elas não estavam disponíveis em nenhum nível Standard ou Pro antes do O1. T2V e I2V no O1 ganham o backbone MVL compartilhado, o que melhora a consistência do sujeito entre os quadros em comparação com os modelos de geração anteriores.
Kling O1 é distinto do Kling 3.0 (também chamado de Kling O3). O Kling 3.0 é um modelo sucessor que adiciona co-geração de áudio nativa e clipes estendidos de 15 segundos. O Kling O1 na Novita AI atualmente cobre vídeos de até 10 segundos sem áudio nativo.
Os Quatro Modos de Relance
| Modo | Entrada Principal | Entradas Obrigatórias | Duração | Preço na Novita AI |
|---|---|---|---|---|
| T2V | Prompt de texto | prompt |
5–10 s | $0.112/s |
| I2V | Imagem + prompt | image_url, prompt |
5–10 s | $0.112/s |
| Ref2V | Imagens de referência + prompt | prompt, image_urls ou elements |
3–10 s | $0.168/s |
| Edição de Vídeo | Vídeo fonte + prompt | video_url, prompt |
3–10 s (Fast: 6–20 s) | $0.168/s (Fast: $0.09/s) |
Preços verificados nas páginas dos modelos da Novita AI em 26/06/2026. A cobrança por segundo se aplica à duração que você especificar.
Kling O1 Texto para Vídeo (T2V) na Novita AI
Endpoint: POST /v3/async/kling-o1-t2v
T2V gera um vídeo inteiramente a partir de uma descrição textual. Você fornece um prompt; o modelo cria movimento, iluminação, movimento de câmera e composição da cena do zero. Não há uma âncora de imagem, então o modelo tem total liberdade criativa dentro das restrições do prompt.
Use T2V quando:
- Você não tem uma imagem de referência ou quadro de cena.
- Você está explorando um conceito antes de se comprometer com uma direção visual.
- Você precisa gerar muitas variações visuais a baixo custo por clipe.
A $0.112/s, um clipe de 5 segundos custa $0.56 e um clipe de 10 segundos custa $1.12. O T2V suporta durações de 5 e 10 segundos na Novita AI com proporções 16:9, 9:16 e 1:1.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "Uma raposa vermelha trotando por uma floresta de pinheiros nevada, luz da hora dourada, plano aberto cinematográfico",
"duration": 5,
"aspect_ratio": "16:9"
}'
Kling O1 Imagem para Vídeo (I2V) na Novita AI
Endpoint: POST /v3/async/kling-o1-i2v
I2V anima uma imagem estática em um clipe de vídeo. A imagem de origem se torna o quadro inicial; o prompt controla qual movimento e desenvolvimento da cena se seguem. Você pode opcionalmente fornecer um quadro final para dar ao modelo um estado alvo, e o modelo interpola o movimento entre o início e o fim.
Obrigatório: image_url (quadro inicial) e prompt. O quadro final (end_image_url) é opcional, mas útil quando você quer uma composição específica no ponto de corte.
Use I2V quando:
- Você tem uma imagem ou design existente que precisa se mover.
- Você deseja uma ancoragem visual determinística — a aparência do personagem ou cena já está definida na imagem de origem.
- Você está construindo demonstrações de produtos, conteúdo para redes sociais ou animações de e-commerce a partir de ativos existentes.
A $0.112/s, o I2V custa o mesmo que o T2V. A principal compensação é que o I2V fixa o quadro de abertura na sua imagem de entrada, o que melhora a consistência, mas também significa que uma imagem de origem de baixa qualidade limita a saída. Restrições de imagem na Novita AI: mínimo 300×300px, tamanho máximo de arquivo 10MB, proporção entre 0.4 e 2.5.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-i2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"image_url": "https://example.com/product-shot.jpg",
"prompt": "O produto gira lentamente para revelar o painel traseiro, iluminação suave de estúdio",
"duration": 5,
"aspect_ratio": "1:1"
}'
Kling O1 Referência para Vídeo (Ref2V) na Novita AI
Endpoint: POST /v3/async/kling-o1-ref2v
Ref2V é o modo mais flexível e o que mais diretamente usa a arquitetura MVL do O1. Em vez de um único quadro inicial, você fornece até sete imagens de referência em dois tipos de entrada: image_urls (referências de estilo ou cena) e elements (âncoras de identidade de personagem ou objeto). O prompt usa as tags @Image1, @Image2, e @Element1, @Element2 para dizer ao modelo qual referência aplicar e onde.
Isso permite que você componha uma cena a partir de múltiplos ativos de origem: um personagem de uma foto de retrato, um fundo de uma imagem de localização e um adereço de uma imagem de produto — todos referenciados pelo nome no prompt.
Regras de entrada:
prompté obrigatório.image_urlseelementssão opcionais, mas pelo menos um deve ser significativo; um prompt simples sem referências funciona, mas se comporta mais próximo ao T2V.- O total de referências (elements + image_urls) não deve exceder 7.
- Cada elemento em
elementspode incluir múltiplosreference_image_urls(fotos de vários ângulos) mais umfrontal_image_urlopcional para uma correspondência de identidade mais limpa.
Use Ref2V quando:
- Você precisa de personagens consistentes em vários clipes (conteúdo episódico, sequências de marketing).
- Você está combinando personagens ou objetos de diferentes imagens de origem em uma única cena.
- Você deseja que o modelo interpole a partir de um quadro inicial enquanto mantém a identidade visual de um conjunto de referências separado.
Ref2V custa $0.168/s — 50% a mais que T2V e I2V. Para um clipe de 5 segundos, isso dá $0.84; para 10 segundos, $1.68. O prêmio reflete a etapa adicional de codificação de referência. Se o seu caso de uso não exigir consistência de identidade entre imagens, o I2V a $0.112/s é suficiente.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-ref2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "Use @Image1 como quadro inicial. @Element1 entra na cena e pega o artefato brilhante. Iluminação cinematográfica, câmera estável.",
"image_urls": ["https://example.com/scene-bg.jpg"],
"elements": [
{
"reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
"frontal_image_url": "https://example.com/character-front.jpg"
}
],
"duration": 5,
"aspect_ratio": "16:9"
}'
Modo Edição de Vídeo do Kling O1 na Novita AI
Endpoint (padrão): POST /v3/async/kling-o1-video-edit
Endpoint (rápido): disponível através da variante Fast VideoEdit da Novita AI
Edição de Vídeo recebe um vídeo existente como entrada e o transforma usando um prompt em linguagem natural. O modelo preserva a estrutura de movimento original — tempo, movimento de câmera, o arco da ação — enquanto altera assuntos, ambientes ou estilo visual de acordo com o prompt. Você também pode fornecer imagens de referência e âncoras de elemento usando o mesmo sistema de marcação @Image1 / @Element1 do Ref2V.
Obrigatório: video_url (vídeo de origem, 3–10s, MP4 ou MOV, 720–2160px, max 200MB) e prompt.
Duas variantes:
- VideoEdit Padrão: suporta vídeos de origem de 3–10 segundos, precificado a $0.168/s.
- VideoEdit Fast: suporta vídeos de origem de 6–20 segundos, precificado a $0.09/s — o menor custo por segundo de qualquer modo Kling O1 na Novita AI.
Use Edição de Vídeo quando:
- Você tem filmagens que precisam de uma mudança de estilo ou conteúdo sem refilmagem.
- Você deseja substituir um personagem em um vídeo existente mantendo o mesmo movimento.
- Você precisa transformar um clipe de ação ao vivo em um estilo animado.
A limitação principal: o vídeo de origem controla o movimento. A Edição de Vídeo não pode mudar o que um sujeito faz — ela só pode mudar a aparência do sujeito e o ambiente que ele ocupa. Para mudanças de movimento, gere novas filmagens com T2V ou I2V.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-video-edit \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"video_url": "https://example.com/source-clip.mp4",
"prompt": "Transforme o cenário para um beco cyberpunk iluminado por néon, mantenha os movimentos do personagem exatamente como estão",
"duration": 5
}'
Preços na Novita AI
Todos os modos Kling O1 na Novita AI usam cobrança por segundo com base na duração definida no momento da requisição. Preços verificados em 26/06/2026.
| Modo | Endpoint | Faixa de Duração | Preço/s | Custo 5s | Custo 10s |
|---|---|---|---|---|---|
| T2V | /v3/async/kling-o1-t2v |
5–10 s | $0.112 | $0.56 | $1.12 |
| I2V | /v3/async/kling-o1-i2v |
5–10 s | $0.112 | $0.56 | $1.12 |
| Ref2V | /v3/async/kling-o1-ref2v |
3–10 s | $0.168 | $0.84 | $1.68 |
| VideoEdit | /v3/async/kling-o1-video-edit |
3–10 s | $0.168 | $0.84 | $1.68 |
| VideoEdit Fast | (variante Fast Novita AI) | 6–20 s | $0.090 | — | $0.90 |
Novos usuários da Novita AI recebem créditos gratuitos. Verifique a página de preços da Novita AI para taxas atuais, pois os preços podem mudar.
Qual Modo Começar?
Comece com T2V se seu objetivo é exploração de conceitos ou você não tem um ativo de imagem específico. É o ponto de entrada de menor atrito: um parâmetro obrigatório (prompt), sem necessidade de preparação de ativos.
Mude para I2V quando você tem uma imagem que precisa se mover. Imagens de produtos, ilustrações de personagens e fundos de cena funcionam bem como quadros iniciais do I2V. Mesmo preço do T2V, mais controle visual.
Use Ref2V quando a consistência de identidade entre clipes é importante — por exemplo, um personagem recorrente em várias cenas, ou combinar uma pessoa específica com um ambiente específico. Reserve orçamento para o prêmio de 50%; não é necessário para geração de clipe único.
Reserve Edição de Vídeo para fluxos de pós-produção onde filmagens existentes precisam de uma reformulação visual, mas o movimento deve permanecer intacto. A variante Fast a $0.09/s é a opção mais econômica para edições mais longas (6–20 segundos) onde a velocidade de geração é menos crítica.
| Situação | Modo Recomendado |
|---|---|
| Sem imagem, explorando ideias | T2V |
| Tem uma imagem de produto ou cena, deseja movimento | I2V |
| Precisa do mesmo personagem em vários clipes | Ref2V |
| Tem filmagens de vídeo, deseja uma aparência diferente | VideoEdit (padrão) |
| Edição longa (6–20 s), sensível a custo | VideoEdit Fast |
Como Chamar a API Kling O1 na Novita AI
Todos os quatro modos Kling O1 na Novita AI são assíncronos. Cada requisição retorna um task_id imediatamente; consulte o endpoint de Resultado da Tarefa até que o status seja succeed.
# Passo 1: Envie sua tarefa de geração (exemplo: T2V)
RESPONSE=$(curl --silent --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data '{"prompt": "Seu prompt aqui", "duration": 5, "aspect_ratio": "16:9"}')
TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")
# Passo 2: Consulte os resultados
curl --request GET \
--url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
--header "Authorization: Bearer $NOVITA_API_KEY"
A resposta inclui um campo status. Quando ele mostrar succeed, o array videos contém a URL de saída. O tempo típico de geração é de 30 a 120 segundos, dependendo da duração e do modo.
Obtenha sua chave de API no painel da Novita AI. Novas contas recebem créditos gratuitos para testar todos os quatro modos antes de se comprometer com o volume de produção.
Conclusão
Kling O1 na Novita AI fornece aos desenvolvedores acesso a quatro modos distintos de geração de vídeo — T2V, I2V, Ref2V e Edição de Vídeo — através de uma única API unificada. T2V e I2V cobrem os casos comuns de geração a $0.112/s. Ref2V adiciona composição de identidade com múltiplas referências para personagens recorrentes a $0.168/s. Edição de Vídeo transforma filmagens existentes preservando o movimento, com uma variante Fast a $0.09/s para clipes mais longos. Escolher o modo certo antecipadamente economiza custos e remove atritos: comece com T2V se você não tem um ativo de imagem, I2V se tem, Ref2V quando a consistência de identidade entre clipes é importante, e Edição de Vídeo quando o movimento já está capturado. Todos os modos compartilham o mesmo padrão de tarefa assíncrona na Novita AI, então integrar vários modos em um único pipeline requer código adicional mínimo.
Novita AI é uma plataforma de nuvem de IA que fornece aos desenvolvedores acesso hospedado a modelos de vídeo, imagem, áudio e linguagem através de uma API unificada.
Perguntas Frequentes
Qual é a diferença entre Kling O1 T2V e I2V na Novita AI?
T2V gera vídeo a partir de um prompt de texto sozinho — nenhuma imagem é necessária. I2V recebe uma imagem como quadro inicial e a anima de acordo com o prompt. Ambos são precificados a $0.112/s e suportam clipes de 5 a 10 segundos. Use T2V para exploração; use I2V quando você tem uma âncora visual específica.
O que o Kling O1 Ref2V faz que o I2V não pode?
Ref2V aceita até 7 imagens de referência em múltiplos slots de entrada, permitindo combinar fontes separadas para identidade do personagem, fundo da cena e estilo. Você referencia cada entrada pelo nome no prompt (@Element1, @Image1). I2V usa um único quadro inicial sem sistema de referência nomeada.
O Kling O1 é o mesmo que o Kling 3.0?
Não. Kling O1 (lançado em dezembro de 2025) é o modelo unificado de vídeo multimodal base. Kling 3.0 (também chamado de Kling O3, lançado em fevereiro de 2026) é um sucessor que adiciona co-geração de áudio nativa e clipes de até 15 segundos. Kling O1 na Novita AI suporta vídeo de até 10 segundos sem áudio nativo.
Como escolher entre VideoEdit padrão e VideoEdit Fast?
VideoEdit padrão aceita clipes de origem de 3 a 10 segundos a $0.168/s. VideoEdit Fast aceita clipes de 6 a 20 segundos a $0.09/s. Se seu vídeo de origem tem menos de 10 segundos e o tempo de resposta é importante, use o padrão. Se você tem clipes mais longos ou está fazendo trabalho de pós-produção em lote, o Fast é significativamente mais barato.
