- Что такое Kling O1?
- Четыре режима вкратце
- Kling O1 «Текст в видео» (T2V) на Novita AI
- Kling O1 «Изображение в видео» (I2V) на Novita AI
- Kling O1 «По референсу» (Ref2V) на Novita AI
- Режим «Редактирование видео» (Video Edit) Kling O1 на Novita AI
- Цены на Novita AI
- С какого режима начать?
- Как вызвать Kling O1 API на Novita AI
- Заключение
- Часто задаваемые вопросы
- Рекомендуемые статьи
Kling O1 (Kling Omni Video O1) — первая унифицированная мультимодальная видеомодель от Kuaishou, предоставляющая четыре различных режима генерации через API Novita AI: «Текст в видео» (Text-to-Video, T2V), «Изображение в видео» (Image-to-Video, I2V), «По референсу» (Reference-to-Video, Ref2V) и «Редактирование видео» (Video Edit). Каждый режим принимает разные входные данные и решает свою задачу — выбор неподходящего режима добавляет сложности и увеличивает расходы. Это руководство объясняет, что делает каждый режим, какие входные данные ему нужны, как он тарифицируется на Novita AI и какой режим стоит попробовать первым для типичных сценариев разработки.
Что такое Kling O1?
Kling O1 построен на архитектуре MVL (Multimodal Visual Language) от Kuaishou, которая объединяет задачи по работе с текстом, изображениями, референсами и редактированию видео в единую модель, а не направляет их в отдельные специализированные модели. Это важно на практике: базовая модель движения и кодирования идентичности используется во всех режимах, поэтому персонажи и объекты, описанные в одном режиме, сохраняют согласованные визуальные свойства в следующем.
По сравнению с более ранними версиями Kling (V2.5, V2.6, V3.0 Standard/Pro), Kling O1 добавляет возможности Ref2V и Video Edit, которые структурно новы — они были недоступны ни в Standard, ни в Pro до появления O1. T2V и I2V в O1 получают общую основу MVL, что улучшает согласованность объектов между кадрами по сравнению с моделями предыдущего поколения.
Kling O1 отличается от Kling 3.0 (также называемого Kling O3). Kling 3.0 — это последующая модель, которая добавляет встроенную совместную генерацию аудио и расширенные 15-секундные клипы. Kling O1 на Novita AI в настоящее время поддерживает видео длительностью до 10 секунд без встроенного аудио.
Четыре режима вкратце
| Режим | Основной входной параметр | Обязательные входные данные | Длительность | Цена на Novita AI |
|---|---|---|---|---|
| T2V | Текстовый запрос | prompt |
5–10 с | $0.112/с |
| I2V | Изображение + запрос | image_url, prompt |
5–10 с | $0.112/с |
| Ref2V | Референсные изображения + запрос | prompt, image_urls или elements |
3–10 с | $0.168/с |
| Video Edit | Исходное видео + запрос | video_url, prompt |
3–10 с (Fast: 6–20 с) | $0.168/с (Fast: $0.09/с) |
Цены подтверждены на страницах моделей Novita AI на 26.06.2026. С вас взимается плата за указанную вами длительность.
Kling O1 «Текст в видео» (T2V) на Novita AI
Эндпоинт: POST /v3/async/kling-o1-t2v
T2V создаёт видео целиком на основе текстового описания. Вы предоставляете запрос; модель создает движение, освещение, движение камеры и композицию сцены с нуля. Нет привязки к изображению, поэтому модель имеет полную творческую свободу в рамках ограничений запроса.
Используйте T2V, когда:
- У вас нет референсного изображения или кадра сцены.
- Вы исследуете концепцию, прежде чем определиться с визуальным направлением.
- Вам нужно сгенерировать много визуальных вариаций с низкой стоимостью за клип.
По цене $0.112/с, 5-секундный клип стоит $0.56, а 10-секундный — $1.12. T2V поддерживает длительность 5 и 10 секунд на Novita AI с соотношениями сторон 16:9, 9:16 и 1:1.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "Рыжая лиса бежит рысью по заснеженному сосновому лесу, свет золотого часа, кинематографичный общий план",
"duration": 5,
"aspect_ratio": "16:9"
}'
Kling O1 «Изображение в видео» (I2V) на Novita AI
Эндпоинт: POST /v3/async/kling-o1-i2v
I2V анимирует статическое изображение в видеоклип. Исходное изображение становится начальным кадром; запрос управляет движением и развитием сцены. Вы можете опционально указать конечный кадр, чтобы задать целевое состояние, и модель интерполирует движение между началом и концом.
Обязательно: image_url (начальный кадр) и prompt. Конечный кадр (end_image_url) необязателен, но полезен, когда нужна конкретная композиция в точке склейки.
Используйте I2V, когда:
- У вас есть существующее изображение или дизайн, который нужно оживить.
- Вы хотите детерминированную визуальную привязку — внешность персонажа или сцены уже определена в исходном изображении.
- Вы создаете демонстрации продуктов, контент для соцсетей или анимации для электронной коммерции из существующих ассетов.
При $0.112/с I2V стоит столько же, сколько T2V. Ключевой компромисс: I2V фиксирует начальный кадр на вашем входном изображении, что улучшает согласованность, но также означает, что низкокачественное исходное изображение ограничивает результат. Ограничения по изображению на Novita AI: минимум 300×300 пикселей, максимальный размер файла 10 МБ, соотношение сторон от 0.4 до 2.5.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-i2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"image_url": "https://example.com/product-shot.jpg",
"prompt": "Товар медленно вращается, показывая заднюю панель, мягкое студийное освещение",
"duration": 5,
"aspect_ratio": "1:1"
}'
Kling O1 «По референсу» (Ref2V) на Novita AI
Эндпоинт: POST /v3/async/kling-o1-ref2v
Ref2V — самый гибкий режим и тот, который наиболее напрямую использует архитектуру MVL от O1. Вместо одного начального кадра вы предоставляете до семи референсных изображений двух типов: image_urls (референсы стиля или сцены) и elements (якоря идентичности персонажа или объекта). В запросе используются теги @Image1, @Image2 и @Element1, @Element2, чтобы указать модели, какой референс применить и где.
Это позволяет составить сцену из нескольких исходных ассетов: один персонаж с портретного фото, фон с изображения локации и реквизит с изображения товара — все они упоминаются по имени в запросе.
Правила ввода:
promptобязателен.image_urlsиelementsнеобязательны, но хотя бы один из них должен быть значимым; пустой запрос без референсов работает, но ведет себя ближе к T2V.- Общее количество референсов (elements + image_urls) не должно превышать 7.
- Каждый элемент в
elementsможет включать несколькоreference_image_urls(снимки с разных углов) и опциональныйfrontal_image_urlдля более чистого сопоставления идентичности.
Используйте Ref2V, когда:
- Вам нужны согласованные персонажи в нескольких клипах (эпизодический контент, маркетинговые последовательности).
- Вы комбинируете персонажей или объекты из разных исходных изображений в одной сцене.
- Вы хотите, чтобы модель интерполировала от начального кадра, сохраняя визуальную идентичность из отдельного набора референсов.
Ref2V стоит $0.168/с — на 50% дороже, чем T2V и I2V. Для 5-секундного клипа это $0.84; для 10 секунд — $1.68. Надбавка отражает дополнительный этап кодирования референсов. Если ваш сценарий не требует согласованности идентичности между изображениями, I2V за $0.112/с будет достаточным.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-ref2v \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "Используй @Image1 как начальный кадр. @Element1 входит в сцену и поднимает светящийся артефакт. Кинематографичное освещение, устойчивая камера.",
"image_urls": ["https://example.com/scene-bg.jpg"],
"elements": [
{
"reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
"frontal_image_url": "https://example.com/character-front.jpg"
}
],
"duration": 5,
"aspect_ratio": "16:9"
}'
Режим «Редактирование видео» (Video Edit) Kling O1 на Novita AI
Эндпоинт (стандартный): POST /v3/async/kling-o1-video-edit
Эндпоинт (быстрый): доступен через вариант Novita AI Fast VideoEdit
Video Edit принимает существующее видео и преобразует его с помощью запроса на естественном языке. Модель сохраняет исходную структуру движения — тайминг, движение камеры, дугу действия — изменяя при этом субъекты, окружение или визуальный стиль в соответствии с запросом. Вы также можете предоставить референсные изображения и якоря элементов, используя ту же систему тегов @Image1 / @Element1, что и в Ref2V.
Обязательно: video_url (исходное видео, 3–10 с, MP4 или MOV, 720–2160 пикселей, макс. 200 МБ) и prompt.
Два варианта:
- Стандартный VideoEdit: поддерживает исходные видео длительностью 3–10 секунд, стоимость $0.168/с.
- Быстрый VideoEdit: поддерживает исходные видео длительностью 6–20 секунд, стоимость $0.09/с — самая низкая стоимость за секунду среди всех режимов Kling O1 на Novita AI.
Используйте Video Edit, когда:
- У вас есть видеоматериал, который нужно изменить по стилю или содержанию без пересъемки.
- Вы хотите заменить персонажа в существующем видео, сохранив те же движения.
- Вам нужно преобразовать кадр из реальной съемки в анимационный стиль.
Ключевое ограничение: исходное видео управляет движением. Video Edit не может изменить то, что делает субъект — он может только изменить внешний вид субъекта и окружение, в котором он находится. Для изменения движения генерируйте новый материал с помощью T2V или I2V.
curl --request POST \
--url https://api.novita.ai/v3/async/kling-o1-video-edit \
--header 'Authorization: Bearer $NOVITA_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"video_url": "https://example.com/source-clip.mp4",
"prompt": "Преобразуй обстановку в киберпанковый переулок с неоновым освещением, оставь движения персонажа в точности как есть",
"duration": 5
}'
Цены на Novita AI
Все режимы Kling O1 на Novita AI используют посекундную тарификацию в зависимости от установленной длительности. Цены подтверждены на 26.06.2026.
| Режим | Эндпоинт | Диапазон длительности | Цена/с | Стоимость 5 с | Стоимость 10 с |
|---|---|---|---|---|---|
| T2V | /v3/async/kling-o1-t2v |
5–10 с | $0.112 | $0.56 | $1.12 |
| I2V | /v3/async/kling-o1-i2v |
5–10 с | $0.112 | $0.56 | $1.12 |
| Ref2V | /v3/async/kling-o1-ref2v |
3–10 с | $0.168 | $0.84 | $1.68 |
| VideoEdit | /v3/async/kling-o1-video-edit |
3–10 с | $0.168 | $0.84 | $1.68 |
| VideoEdit Fast | (вариант Novita AI Fast) | 6–20 с | $0.090 | — | $0.90 |
Новые пользователи Novita AI получают бесплатные кредиты. Актуальные тарифы смотрите на странице цен Novita AI, так как цены могут меняться.
С какого режима начать?
Начните с T2V, если ваша цель — исследование концепции или у вас нет конкретного графического актива. Это точка входа с наименьшими сложностями: один обязательный параметр (prompt), не требуется подготовка ассетов.
Переходите к I2V, когда у вас есть изображение, которое нужно оживить. Изображения продуктов, иллюстрации персонажей и фоны сцен отлично подходят в качестве начальных кадров I2V. Та же цена, что и T2V, но больше визуального контроля.
Используйте Ref2V, когда важна согласованность идентичности между клипами — например, повторяющийся персонаж в нескольких сценах или объединение конкретного человека с конкретным окружением. Учитывайте 50%-ную надбавку к цене; она не нужна для генерации одного клипа.
Оставьте Video Edit для постпроизводственных процессов, когда существующий видеоматериал нуждается в визуальной переработке, но движение должно остаться нетронутым. Быстрый вариант по цене $0.09/с — самый экономичный для длинных правок (6–20 секунд), когда скорость генерации менее критична.
| Ситуация | Рекомендуемый режим |
|---|---|
| Нет изображения, исследуете идеи | T2V |
| Есть изображение продукта или сцены, нужна анимация | I2V |
| Нужен один и тот же персонаж в нескольких клипах | Ref2V |
| Есть видеоматериал, нужен другой вид | VideoEdit (стандартный) |
| Длинная правка (6–20 с), важно сэкономить | VideoEdit Fast |
Как вызвать Kling O1 API на Novita AI
Все четыре режима Kling O1 на Novita AI являются асинхронными. Каждый запрос немедленно возвращает task_id; опрашивайте конечную точку Task Result, пока статус не станет succeed.
# Шаг 1: Отправьте задачу генерации (пример: T2V)
RESPONSE=$(curl --silent --request POST \
--url https://api.novita.ai/v3/async/kling-o1-t2v \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data '{"prompt": "Your prompt here", "duration": 5, "aspect_ratio": "16:9"}')
TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")
# Шаг 2: Опрашивайте результаты
curl --request GET \
--url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
--header "Authorization: Bearer $NOVITA_API_KEY"
Ответ содержит поле status. Когда оно принимает значение succeed, массив videos содержит URL выходного файла. Типичное время генерации — 30–120 секунд в зависимости от длительности и режима.
Получите свой API-ключ на панели управления Novita AI. Новые аккаунты получают бесплатные кредиты для тестирования всех четырёх режимов перед переходом на промышленные объёмы.
Заключение
Kling O1 на Novita AI предоставляет разработчикам доступ к четырём различным режимам генерации видео — T2V, I2V, Ref2V и Video Edit — через единый унифицированный API. T2V и I2V покрывают типичные случаи генерации по цене $0.112/с. Ref2V добавляет композицию с несколькими референсами для повторяющихся персонажей по цене $0.168/с. Video Edit преобразует существующий видеоматериал, сохраняя движение, с быстрым вариантом по цене $0.09/с для длинных клипов. Правильный выбор режима заранее экономит средства и устраняет лишние сложности: начинайте с T2V, если у вас нет графического актива, с I2V — если есть, с Ref2V — когда важна согласованность идентичности между клипами, и с Video Edit — когда движение уже записано. Все режимы используют один и тот же асинхронный шаблон задач на Novita AI, поэтому интеграция нескольких режимов в один конвейер требует минимума дополнительного кода.
Novita AI — это облачная AI-платформа, предоставляющая разработчикам хостинговый доступ к видео-, изображение-, аудио- и языковым моделям через единый API.
Часто задаваемые вопросы
В чем разница между Kling O1 T2V и I2V на Novita AI?
T2V генерирует видео только на основе текстового запроса — изображение не требуется. I2V использует изображение в качестве начального кадра и анимирует его в соответствии с запросом. Оба режима стоят $0.112/с и поддерживают клипы длительностью 5–10 секунд. Используйте T2V для исследования, I2V — когда у вас есть конкретный визуальный якорь.
Что делает Kling O1 Ref2V такого, чего не может I2V?
Ref2V принимает до 7 референсных изображений через несколько полей ввода, позволяя комбинировать отдельные источники для идентичности персонажа, фона сцены и стиля. Вы ссылаетесь на каждый вход по имени в запросе (@Element1, @Image1). I2V использует один начальный кадр без системы именованных референсов.
Одинаковы ли Kling O1 и Kling 3.0?
Нет. Kling O1 (выпущен в декабре 2025) — это базовая унифицированная мультимодальная видеомодель. Kling 3.0 (также называемый Kling O3, выпущен в феврале 2026) — последующая модель, добавляющая встроенную совместную генерацию аудио и клипы до 15 секунд. Kling O1 на Novita AI поддерживает видео до 10 секунд без встроенного аудио.
Как сделать выбор между VideoEdit стандартным и VideoEdit быстрым?
Стандартный VideoEdit принимает исходные видео длительностью 3–10 секунд по цене $0.168/с. Быстрый VideoEdit принимает видео длительностью 6–20 секунд по цене $0.09/с. Если ваше исходное видео короче 10 секунд и время выполнения имеет значение, используйте стандартный. Если у вас более длинные клипы или вы выполняете пакетную постобработку, быстрый вариант значительно дешевле.
