Kling O1 на Novita AI: режимы T2V, I2V, Ref2V и Video Edit

Kling O1 на Novita AI: режимы T2V, I2V, Ref2V и Video Edit

Kling O1 (Kling Omni Video O1) — первая унифицированная мультимодальная видеомодель от Kuaishou, предоставляющая четыре различных режима генерации через API Novita AI: «Текст в видео» (Text-to-Video, T2V), «Изображение в видео» (Image-to-Video, I2V), «По референсу» (Reference-to-Video, Ref2V) и «Редактирование видео» (Video Edit). Каждый режим принимает разные входные данные и решает свою задачу — выбор неподходящего режима добавляет сложности и увеличивает расходы. Это руководство объясняет, что делает каждый режим, какие входные данные ему нужны, как он тарифицируется на Novita AI и какой режим стоит попробовать первым для типичных сценариев разработки.

Что такое Kling O1?

Kling O1 построен на архитектуре MVL (Multimodal Visual Language) от Kuaishou, которая объединяет задачи по работе с текстом, изображениями, референсами и редактированию видео в единую модель, а не направляет их в отдельные специализированные модели. Это важно на практике: базовая модель движения и кодирования идентичности используется во всех режимах, поэтому персонажи и объекты, описанные в одном режиме, сохраняют согласованные визуальные свойства в следующем.

По сравнению с более ранними версиями Kling (V2.5, V2.6, V3.0 Standard/Pro), Kling O1 добавляет возможности Ref2V и Video Edit, которые структурно новы — они были недоступны ни в Standard, ни в Pro до появления O1. T2V и I2V в O1 получают общую основу MVL, что улучшает согласованность объектов между кадрами по сравнению с моделями предыдущего поколения.

Kling O1 отличается от Kling 3.0 (также называемого Kling O3). Kling 3.0 — это последующая модель, которая добавляет встроенную совместную генерацию аудио и расширенные 15-секундные клипы. Kling O1 на Novita AI в настоящее время поддерживает видео длительностью до 10 секунд без встроенного аудио.

Четыре режима вкратце

Режим Основной входной параметр Обязательные входные данные Длительность Цена на Novita AI
T2V Текстовый запрос prompt 5–10 с $0.112/с
I2V Изображение + запрос image_url, prompt 5–10 с $0.112/с
Ref2V Референсные изображения + запрос prompt, image_urls или elements 3–10 с $0.168/с
Video Edit Исходное видео + запрос video_url, prompt 3–10 с (Fast: 6–20 с) $0.168/с (Fast: $0.09/с)

Цены подтверждены на страницах моделей Novita AI на 26.06.2026. С вас взимается плата за указанную вами длительность.

Kling O1 «Текст в видео» (T2V) на Novita AI

Эндпоинт: POST /v3/async/kling-o1-t2v

T2V создаёт видео целиком на основе текстового описания. Вы предоставляете запрос; модель создает движение, освещение, движение камеры и композицию сцены с нуля. Нет привязки к изображению, поэтому модель имеет полную творческую свободу в рамках ограничений запроса.

Используйте T2V, когда:

  • У вас нет референсного изображения или кадра сцены.
  • Вы исследуете концепцию, прежде чем определиться с визуальным направлением.
  • Вам нужно сгенерировать много визуальных вариаций с низкой стоимостью за клип.

По цене $0.112/с, 5-секундный клип стоит $0.56, а 10-секундный — $1.12. T2V поддерживает длительность 5 и 10 секунд на Novita AI с соотношениями сторон 16:9, 9:16 и 1:1.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Рыжая лиса бежит рысью по заснеженному сосновому лесу, свет золотого часа, кинематографичный общий план",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 «Изображение в видео» (I2V) на Novita AI

Эндпоинт: POST /v3/async/kling-o1-i2v

I2V анимирует статическое изображение в видеоклип. Исходное изображение становится начальным кадром; запрос управляет движением и развитием сцены. Вы можете опционально указать конечный кадр, чтобы задать целевое состояние, и модель интерполирует движение между началом и концом.

Обязательно: image_url (начальный кадр) и prompt. Конечный кадр (end_image_url) необязателен, но полезен, когда нужна конкретная композиция в точке склейки.

Используйте I2V, когда:

  • У вас есть существующее изображение или дизайн, который нужно оживить.
  • Вы хотите детерминированную визуальную привязку — внешность персонажа или сцены уже определена в исходном изображении.
  • Вы создаете демонстрации продуктов, контент для соцсетей или анимации для электронной коммерции из существующих ассетов.

При $0.112/с I2V стоит столько же, сколько T2V. Ключевой компромисс: I2V фиксирует начальный кадр на вашем входном изображении, что улучшает согласованность, но также означает, что низкокачественное исходное изображение ограничивает результат. Ограничения по изображению на Novita AI: минимум 300×300 пикселей, максимальный размер файла 10 МБ, соотношение сторон от 0.4 до 2.5.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-i2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "image_url": "https://example.com/product-shot.jpg",
    "prompt": "Товар медленно вращается, показывая заднюю панель, мягкое студийное освещение",
    "duration": 5,
    "aspect_ratio": "1:1"
  }'

Kling O1 «По референсу» (Ref2V) на Novita AI

Эндпоинт: POST /v3/async/kling-o1-ref2v

Ref2V — самый гибкий режим и тот, который наиболее напрямую использует архитектуру MVL от O1. Вместо одного начального кадра вы предоставляете до семи референсных изображений двух типов: image_urls (референсы стиля или сцены) и elements (якоря идентичности персонажа или объекта). В запросе используются теги @Image1, @Image2 и @Element1, @Element2, чтобы указать модели, какой референс применить и где.

Это позволяет составить сцену из нескольких исходных ассетов: один персонаж с портретного фото, фон с изображения локации и реквизит с изображения товара — все они упоминаются по имени в запросе.

Правила ввода:

  • prompt обязателен.
  • image_urls и elements необязательны, но хотя бы один из них должен быть значимым; пустой запрос без референсов работает, но ведет себя ближе к T2V.
  • Общее количество референсов (elements + image_urls) не должно превышать 7.
  • Каждый элемент в elements может включать несколько reference_image_urls (снимки с разных углов) и опциональный frontal_image_url для более чистого сопоставления идентичности.

Используйте Ref2V, когда:

  • Вам нужны согласованные персонажи в нескольких клипах (эпизодический контент, маркетинговые последовательности).
  • Вы комбинируете персонажей или объекты из разных исходных изображений в одной сцене.
  • Вы хотите, чтобы модель интерполировала от начального кадра, сохраняя визуальную идентичность из отдельного набора референсов.

Ref2V стоит $0.168/с — на 50% дороже, чем T2V и I2V. Для 5-секундного клипа это $0.84; для 10 секунд — $1.68. Надбавка отражает дополнительный этап кодирования референсов. Если ваш сценарий не требует согласованности идентичности между изображениями, I2V за $0.112/с будет достаточным.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-ref2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Используй @Image1 как начальный кадр. @Element1 входит в сцену и поднимает светящийся артефакт. Кинематографичное освещение, устойчивая камера.",
    "image_urls": ["https://example.com/scene-bg.jpg"],
    "elements": [
      {
        "reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
        "frontal_image_url": "https://example.com/character-front.jpg"
      }
    ],
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Режим «Редактирование видео» (Video Edit) Kling O1 на Novita AI

Эндпоинт (стандартный): POST /v3/async/kling-o1-video-edit

Эндпоинт (быстрый): доступен через вариант Novita AI Fast VideoEdit

Video Edit принимает существующее видео и преобразует его с помощью запроса на естественном языке. Модель сохраняет исходную структуру движения — тайминг, движение камеры, дугу действия — изменяя при этом субъекты, окружение или визуальный стиль в соответствии с запросом. Вы также можете предоставить референсные изображения и якоря элементов, используя ту же систему тегов @Image1 / @Element1, что и в Ref2V.

Обязательно: video_url (исходное видео, 3–10 с, MP4 или MOV, 720–2160 пикселей, макс. 200 МБ) и prompt.

Два варианта:

  • Стандартный VideoEdit: поддерживает исходные видео длительностью 3–10 секунд, стоимость $0.168/с.
  • Быстрый VideoEdit: поддерживает исходные видео длительностью 6–20 секунд, стоимость $0.09/с — самая низкая стоимость за секунду среди всех режимов Kling O1 на Novita AI.

Используйте Video Edit, когда:

  • У вас есть видеоматериал, который нужно изменить по стилю или содержанию без пересъемки.
  • Вы хотите заменить персонажа в существующем видео, сохранив те же движения.
  • Вам нужно преобразовать кадр из реальной съемки в анимационный стиль.

Ключевое ограничение: исходное видео управляет движением. Video Edit не может изменить то, что делает субъект — он может только изменить внешний вид субъекта и окружение, в котором он находится. Для изменения движения генерируйте новый материал с помощью T2V или I2V.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-video-edit \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "video_url": "https://example.com/source-clip.mp4",
    "prompt": "Преобразуй обстановку в киберпанковый переулок с неоновым освещением, оставь движения персонажа в точности как есть",
    "duration": 5
  }'

Цены на Novita AI

Все режимы Kling O1 на Novita AI используют посекундную тарификацию в зависимости от установленной длительности. Цены подтверждены на 26.06.2026.

Режим Эндпоинт Диапазон длительности Цена/с Стоимость 5 с Стоимость 10 с
T2V /v3/async/kling-o1-t2v 5–10 с $0.112 $0.56 $1.12
I2V /v3/async/kling-o1-i2v 5–10 с $0.112 $0.56 $1.12
Ref2V /v3/async/kling-o1-ref2v 3–10 с $0.168 $0.84 $1.68
VideoEdit /v3/async/kling-o1-video-edit 3–10 с $0.168 $0.84 $1.68
VideoEdit Fast (вариант Novita AI Fast) 6–20 с $0.090 $0.90

Новые пользователи Novita AI получают бесплатные кредиты. Актуальные тарифы смотрите на странице цен Novita AI, так как цены могут меняться.

С какого режима начать?

Начните с T2V, если ваша цель — исследование концепции или у вас нет конкретного графического актива. Это точка входа с наименьшими сложностями: один обязательный параметр (prompt), не требуется подготовка ассетов.

Переходите к I2V, когда у вас есть изображение, которое нужно оживить. Изображения продуктов, иллюстрации персонажей и фоны сцен отлично подходят в качестве начальных кадров I2V. Та же цена, что и T2V, но больше визуального контроля.

Используйте Ref2V, когда важна согласованность идентичности между клипами — например, повторяющийся персонаж в нескольких сценах или объединение конкретного человека с конкретным окружением. Учитывайте 50%-ную надбавку к цене; она не нужна для генерации одного клипа.

Оставьте Video Edit для постпроизводственных процессов, когда существующий видеоматериал нуждается в визуальной переработке, но движение должно остаться нетронутым. Быстрый вариант по цене $0.09/с — самый экономичный для длинных правок (6–20 секунд), когда скорость генерации менее критична.

Ситуация Рекомендуемый режим
Нет изображения, исследуете идеи T2V
Есть изображение продукта или сцены, нужна анимация I2V
Нужен один и тот же персонаж в нескольких клипах Ref2V
Есть видеоматериал, нужен другой вид VideoEdit (стандартный)
Длинная правка (6–20 с), важно сэкономить VideoEdit Fast

Как вызвать Kling O1 API на Novita AI

Все четыре режима Kling O1 на Novita AI являются асинхронными. Каждый запрос немедленно возвращает task_id; опрашивайте конечную точку Task Result, пока статус не станет succeed.

# Шаг 1: Отправьте задачу генерации (пример: T2V)
RESPONSE=$(curl --silent --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{"prompt": "Your prompt here", "duration": 5, "aspect_ratio": "16:9"}')

TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")

# Шаг 2: Опрашивайте результаты
curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

Ответ содержит поле status. Когда оно принимает значение succeed, массив videos содержит URL выходного файла. Типичное время генерации — 30–120 секунд в зависимости от длительности и режима.

Получите свой API-ключ на панели управления Novita AI. Новые аккаунты получают бесплатные кредиты для тестирования всех четырёх режимов перед переходом на промышленные объёмы.

Заключение

Kling O1 на Novita AI предоставляет разработчикам доступ к четырём различным режимам генерации видео — T2V, I2V, Ref2V и Video Edit — через единый унифицированный API. T2V и I2V покрывают типичные случаи генерации по цене $0.112/с. Ref2V добавляет композицию с несколькими референсами для повторяющихся персонажей по цене $0.168/с. Video Edit преобразует существующий видеоматериал, сохраняя движение, с быстрым вариантом по цене $0.09/с для длинных клипов. Правильный выбор режима заранее экономит средства и устраняет лишние сложности: начинайте с T2V, если у вас нет графического актива, с I2V — если есть, с Ref2V — когда важна согласованность идентичности между клипами, и с Video Edit — когда движение уже записано. Все режимы используют один и тот же асинхронный шаблон задач на Novita AI, поэтому интеграция нескольких режимов в один конвейер требует минимума дополнительного кода.

Novita AI — это облачная AI-платформа, предоставляющая разработчикам хостинговый доступ к видео-, изображение-, аудио- и языковым моделям через единый API.

Часто задаваемые вопросы

В чем разница между Kling O1 T2V и I2V на Novita AI?

T2V генерирует видео только на основе текстового запроса — изображение не требуется. I2V использует изображение в качестве начального кадра и анимирует его в соответствии с запросом. Оба режима стоят $0.112/с и поддерживают клипы длительностью 5–10 секунд. Используйте T2V для исследования, I2V — когда у вас есть конкретный визуальный якорь.

Что делает Kling O1 Ref2V такого, чего не может I2V?

Ref2V принимает до 7 референсных изображений через несколько полей ввода, позволяя комбинировать отдельные источники для идентичности персонажа, фона сцены и стиля. Вы ссылаетесь на каждый вход по имени в запросе (@Element1, @Image1). I2V использует один начальный кадр без системы именованных референсов.

Одинаковы ли Kling O1 и Kling 3.0?

Нет. Kling O1 (выпущен в декабре 2025) — это базовая унифицированная мультимодальная видеомодель. Kling 3.0 (также называемый Kling O3, выпущен в феврале 2026) — последующая модель, добавляющая встроенную совместную генерацию аудио и клипы до 15 секунд. Kling O1 на Novita AI поддерживает видео до 10 секунд без встроенного аудио.

Как сделать выбор между VideoEdit стандартным и VideoEdit быстрым?

Стандартный VideoEdit принимает исходные видео длительностью 3–10 секунд по цене $0.168/с. Быстрый VideoEdit принимает видео длительностью 6–20 секунд по цене $0.09/с. Если ваше исходное видео короче 10 секунд и время выполнения имеет значение, используйте стандартный. Если у вас более длинные клипы или вы выполняете пакетную постобработку, быстрый вариант значительно дешевле.

Рекомендуемые статьи