Kling O1 on Novita AI: T2V, I2V, Ref2V 및 Video Edit 모드

Kling O1 on Novita AI: T2V, I2V, Ref2V 및 Video Edit 모드

Kling O1(Kling Omni Video O1)은 Kuaishou의 첫 번째 통합 멀티모달 비디오 모델로, Novita AI API를 통해 네 가지 뚜렷한 생성 모드(Text-to-Video(T2V), Image-to-Video(I2V), Reference-to-Video(Ref2V), Video Edit)를 제공합니다. 각 모드는 서로 다른 입력을 받아들이고 다른 문제를 해결합니다. 잘못된 모드를 선택하면 마찰과 비용이 증가합니다. 이 가이드는 각 모드가 실제로 수행하는 작업, 필요한 입력, Novita AI에서의 가격, 그리고 일반적인 개발자 사용 사례에 대해 어떤 모드를 먼저 시도해야 하는지 설명합니다.

Kling O1이란 무엇인가?

Kling O1은 Kuaishou의 MVL(Multimodal Visual Language) 아키텍처를 기반으로 구축되었습니다. 이 아키텍처는 텍스트, 이미지, 참조 및 비디오 편집 작업을 별도의 specialized 모델로 라우팅하는 대신 단일 모델로 통합합니다. 이는 실제로 중요합니다: 기본 모션 모델과 아이덴티티 인코딩이 모드 간에 공유되므로 한 모드에서 설명된 캐릭터와 객체가 다음 모드에서도 일관된 시각적 속성을 유지합니다.

이전 Kling 버전(V2.5, V2.6, V3.0 Standard/Pro)과 비교하면 Kling O1은 구조적으로 새로운 Ref2V 및 Video Edit 기능을 추가했습니다. 이 기능은 O1 이전에는 Standard 또는 Pro 등급에서 사용할 수 없었습니다. O1의 T2V 및 I2V는 공유 MVL 백본을 얻어 이전 세대 모델에 비해 프레임 간 피사체 일관성이 향상되었습니다.

Kling O1은 Kling 3.0(Kling O3라고도 함)과 다릅니다. Kling 3.0은 기본 오디오 공동 생성과 15초 클립 확장을 추가한 후속 모델입니다. Novita AI의 Kling O1은 현재 기본 오디오 없이 최대 10초의 비디오를 지원합니다.

네 가지 모드 한눈에 보기

모드 기본 입력 필수 입력 지속 시간 Novita AI 가격
T2V 텍스트 프롬프트 prompt 5–10 s $0.112/s
I2V 이미지 + 프롬프트 image_url, prompt 5–10 s $0.112/s
Ref2V 참조 이미지 + 프롬프트 prompt, image_urls 또는 elements 3–10 s $0.168/s
Video Edit 소스 비디오 + 프롬프트 video_url, prompt 3–10 s (Fast: 6–20 s) $0.168/s (Fast: $0.09/s)

가격은 2026년 6월 26일 Novita AI 모델 페이지에서 확인되었습니다. 초당 과금은 지정한 지속 시간에 적용됩니다.

Kling O1 Text-to-Video (T2V) on Novita AI

엔드포인트: POST /v3/async/kling-o1-t2v

T2V는 텍스트 설명만으로 비디오를 완전히 생성합니다. 프롬프트를 제공하면 모델이 처음부터 모션, 조명, 카메라 움직임 및 장면 구성을 만듭니다. 이미지 앵커가 없으므로 모델은 프롬프트 제약 조건 내에서 완전한 창의적 자유를 가집니다.

T2V를 사용해야 하는 경우:

  • 참조 이미지나 장면 프레임이 없는 경우.
  • 시각적 방향을 결정하기 전에 개념을 탐색하는 경우.
  • 낮은 클립당 비용으로 많은 시각적 변형을 생성해야 하는 경우.

$0.112/s의 가격으로 5초 클립은 $0.56, 10초 클립은 $1.12입니다. T2V는 Novita AI에서 5초 및 10초 지속 시간을 지원하며, 화면 비율은 16:9, 9:16 및 1:1입니다.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "A red fox trotting through a snowy pine forest, golden hour light, cinematic wide shot",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 Image-to-Video (I2V) on Novita AI

엔드포인트: POST /v3/async/kling-o1-i2v

I2V는 정적 이미지를 비디오 클립으로 애니메이션화합니다. 소스 이미지는 시작 프레임이 되고, 프롬프트는 이후의 모션과 장면 전개를 제어합니다. 선택적으로 종료 프레임을 제공하여 모델에 목표 상태를 지정할 수 있으며, 모델은 시작과 종료 사이의 모션을 보간합니다.

필수: image_url(시작 프레임) 및 prompt. 종료 프레임(end_image_url)은 선택 사항이지만 컷 지점에서 특정 구성을 원할 때 유용합니다.

I2V를 사용해야 하는 경우:

  • 움직여야 하는 기존 이미지나 디자인이 있는 경우.
  • 결정적인 시각적 근거를 원하는 경우 — 캐릭터나 장면 모양이 소스 이미지에 이미 정의되어 있습니다.
  • 기존 자산으로 제품 데모, 소셜 콘텐츠 또는 전자상거래 애니메이션을 구축하는 경우.

$0.112/s로 I2V는 T2V와 동일한 비용입니다. 주요 트레이드오프는 I2V가 시작 프레임을 입력 이미지에 고정하여 일관성을 향상시키지만, 품질이 낮은 소스 이미지는 출력을 제한한다는 것입니다. Novita AI의 이미지 제약 조건: 최소 300×300px, 최대 파일 크기 10MB, 화면 비율 0.4~2.5.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-i2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "image_url": "https://example.com/product-shot.jpg",
    "prompt": "The product slowly rotates to reveal the back panel, soft studio lighting",
    "duration": 5,
    "aspect_ratio": "1:1"
  }'

Kling O1 Reference-to-Video (Ref2V) on Novita AI

엔드포인트: POST /v3/async/kling-o1-ref2v

Ref2V는 가장 유연한 모드이며 O1의 MVL 아키텍처를 가장 직접적으로 사용합니다. 단일 시작 프레임 대신 두 가지 입력 유형으로 최대 7개의 참조 이미지를 제공합니다: image_urls(스타일 또는 장면 참조) 및 elements(캐릭터 또는 객체 아이덴티티 앵커). 프롬프트는 @Image1, @Image2, @Element1, @Element2 태그를 사용하여 모델에 어떤 참조를 어디에 적용할지 지시합니다.

이를 통해 여러 소스 자산(초상화 사진의 캐릭터, 위치 이미지의 배경, 제품 이미지의 소품)을 프롬프트에서 이름으로 참조하여 하나의 장면으로 구성할 수 있습니다.

입력 규칙:

  • prompt는 필수입니다.
  • image_urlselements는 선택 사항이지만 최소한 하나는 의미 있어야 합니다. 참조 없이 프롬프트만 사용하면 T2V에 가깝게 동작합니다.
  • 총 참조(elements + image_urls)는 7개를 초과할 수 없습니다.
  • elements의 각 요소에는 여러 reference_image_urls(다중 각도 샷)와 더 깔끔한 아이덴티티 매칭을 위한 선택적 frontal_image_url이 포함될 수 있습니다.

Ref2V를 사용해야 하는 경우:

  • 여러 클립(에피소드 콘텐츠, 마케팅 시퀀스)에서 일관된 캐릭터가 필요한 경우.
  • 다른 소스 이미지의 캐릭터나 객체를 단일 장면으로 결합하는 경우.
  • 별도의 참조 세트에서 시각적 아이덴티티를 유지하면서 시작 프레임에서 모델이 보간하도록 하려는 경우.

Ref2V 비용은 $0.168/s로 T2V 및 I2V보다 50% 비쌉니다. 5초 클립의 경우 $0.84, 10초의 경우 $1.68입니다. 이 프리미엄은 추가 참조 인코딩 단계를 반영합니다. 사용 사례에 교차 이미지 아이덴티티 일관성이 필요하지 않은 경우 $0.112/s의 I2V로 충분합니다.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-ref2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Take @Image1 as the start frame. @Element1 walks into the scene and picks up the glowing artifact. Cinematic lighting, steady camera.",
    "image_urls": ["https://example.com/scene-bg.jpg"],
    "elements": [
      {
        "reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
        "frontal_image_url": "https://example.com/character-front.jpg"
      }
    ],
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 Video Edit Mode on Novita AI

엔드포인트(표준): POST /v3/async/kling-o1-video-edit

엔드포인트(빠른): Novita AI의 Fast VideoEdit 변형을 통해 사용 가능

Video Edit는 기존 비디오를 입력으로 받아 자연어 프롬프트를 사용하여 변환합니다. 모델은 원본 모션 구조(타이밍, 카메라 움직임, 액션의 흐름)를 유지하면서 프롬프트에 따라 피사체, 환경 또는 시각적 스타일을 변경합니다. 또한 Ref2V와 동일한 @Image1/@Element1 태깅 시스템을 사용하여 참조 이미지 및 요소 앵커를 제공할 수 있습니다.

필수: video_url(소스 비디오, 3–10초, MP4 또는 MOV, 720–2160px, 최대 200MB) 및 prompt.

두 가지 변형:

  • 표준 VideoEdit: 3–10초 소스 비디오 지원, $0.168/s.
  • 빠른 VideoEdit: 6–20초 소스 비디오 지원, $0.09/s — Novita AI에서 모든 Kling O1 모드 중 가장 낮은 초당 비용.

Video Edit를 사용해야 하는 경우:

  • 다시 촬영하지 않고 스타일이나 콘텐츠 변경이 필요한 푸티지가 있는 경우.
  • 동일한 움직임을 유지하면서 기존 비디오의 캐릭터를 교체하려는 경우.
  • 실사 클립을 애니메이션 스타일로 변환해야 하는 경우.

주요 제한 사항: 소스 비디오가 모션을 제어합니다. Video Edit는 피사체의 동작을 변경할 수 없으며 피사체의 모양과 환경만 변경할 수 있습니다. 모션 변경이 필요하면 T2V 또는 I2V로 새 푸티지를 생성하세요.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-video-edit \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "video_url": "https://example.com/source-clip.mp4",
    "prompt": "Transform the setting to a neon-lit cyberpunk alley, keep the character movements exactly as-is",
    "duration": 5
  }'

Novita AI의 가격

Novita AI의 모든 Kling O1 모드는 요청 시 설정한 지속 시간에 대해 초당 과금을 사용합니다. 가격은 2026년 6월 26일에 확인되었습니다.

모드 엔드포인트 지속 시간 범위 가격/초 5초 비용 10초 비용
T2V /v3/async/kling-o1-t2v 5–10 s $0.112 $0.56 $1.12
I2V /v3/async/kling-o1-i2v 5–10 s $0.112 $0.56 $1.12
Ref2V /v3/async/kling-o1-ref2v 3–10 s $0.168 $0.84 $1.68
VideoEdit /v3/async/kling-o1-video-edit 3–10 s $0.168 $0.84 $1.68
VideoEdit Fast (Novita AI Fast 변형) 6–20 s $0.090 $0.90

Novita AI 신규 사용자는 무료 크레딧을 받습니다. 현재 요금은 Novita AI 가격 페이지를 확인하세요. 가격은 변경될 수 있습니다.

어떤 모드로 시작해야 할까요?

T2V 로 시작하세요. 목표가 개념 탐색이거나 특정 이미지 자산이 없는 경우입니다. 하나의 필수 매개변수(prompt)만 필요하고 자산 준비가 필요 없는 가장 진입 장벽이 낮은 지점입니다.

I2V 로 이동하세요. 움직여야 하는 이미지가 있는 경우입니다. 제품 이미지, 캐릭터 일러스트레이션, 장면 배경 모두 I2V 시작 프레임으로 잘 작동합니다. T2V와 동일한 가격에 더 많은 시각적 제어가 가능합니다.

클립 간 아이덴티티 일관성이 중요할 때 Ref2V 를 사용하세요. 예를 들어 여러 장면에 반복되는 캐릭터가 있거나 특정 인물과 특정 환경을 결합하는 경우입니다. 50%의 가격 프리미엄을 예산에 포함하세요. 단일 클립 생성에는 필요하지 않습니다.

Video Edit 는 기존 푸티지의 시각적 개편이 필요하지만 모션은 그대로 유지해야 하는 포스트 프로덕션 워크플로에 사용하세요. Fast 변형($0.09/s)은 생성 속도가 덜 중요한 긴 편집(6–20초)에 가장 비용 효율적인 옵션입니다.

상황 권장 모드
이미지 없음, 아이디어 탐색 T2V
제품 또는 장면 이미지 있음, 모션 필요 I2V
여러 클립에 동일한 캐릭터 필요 Ref2V
비디오 푸티지 있음, 다른 모양 필요 VideoEdit(표준)
긴 편집(6–20초), 비용 민감 VideoEdit Fast

Novita AI에서 Kling O1 API 호출 방법

Novita AI의 네 가지 Kling O1 모드는 모두 비동기식입니다. 모든 요청은 즉시 task_id를 반환합니다. 작업 결과 엔드포인트를 폴링하여 상태가 succeed가 될 때까지 확인합니다.

# 1단계: 생성 작업 제출(예: T2V)
RESPONSE=$(curl --silent --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{"prompt": "Your prompt here", "duration": 5, "aspect_ratio": "16:9"}')

TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")

# 2단계: 결과 폴링
curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

응답에는 status 필드가 포함됩니다. succeed가 되면 videos 배열에 출력 URL이 포함됩니다. 일반적인 생성 시간은 지속 시간과 모드에 따라 30~120초입니다.

API 키는 Novita AI 대시보드에서 받으세요. 새 계정은 네 가지 모드를 모두 테스트할 수 있는 무료 크레딧을 받습니다.

결론

Novita AI의 Kling O1은 개발자에게 단일 통합 API를 통해 T2V, I2V, Ref2V 및 Video Edit의 네 가지 뚜렷한 비디오 생성 모드에 대한 액세스를 제공합니다. T2V 및 I2V는 $0.112/s로 일반적인 생성 사례를 다룹니다. Ref2V는 반복 캐릭터에 대한 다중 참조 아이덴티티 구성을 $0.168/s에 추가합니다. Video Edit는 모션을 유지하면서 기존 푸티지를 변환하며, 긴 클립의 경우 Fast 변형을 $0.09/s에 제공합니다. 올바른 모드를 미리 선택하면 비용이 절약되고 마찰이 제거됩니다: 이미지 자산이 없으면 T2V로 시작하고, 이미지가 있으면 I2V, 클립 간 아이덴티티 일관성이 중요하면 Ref2V, 모션이 이미 캡처된 경우 Video Edit를 사용하세요. 모든 모드는 Novita AI에서 동일한 비동기 작업 패턴을 공유하므로 여러 모드를 하나의 파이프라인에 통합하는 데 최소한의 추가 코드만 필요합니다.

Novita AI는 개발자에게 통합 API를 통해 비디오, 이미지, 오디오 및 언어 모델에 대한 호스팅 액세스를 제공하는 AI 클라우드 플랫폼입니다.

자주 묻는 질문

Novita AI에서 Kling O1 T2V와 I2V의 차이점은 무엇인가요?

T2V는 텍스트 프롬프트만으로 비디오를 생성합니다. 이미지가 필요하지 않습니다. I2V는 이미지를 시작 프레임으로 사용하고 프롬프트에 따라 애니메이션화합니다. 둘 다 $0.112/s이며 5~10초 클립을 지원합니다. 탐색에는 T2V를 사용하고 특정 시각적 앵커가 있을 때는 I2V를 사용하세요.

Kling O1 Ref2V는 I2V가 할 수 없는 어떤 기능을 제공하나요?

Ref2V는 여러 입력 슬롯에 최대 7개의 참조 이미지를 허용하여 캐릭터 아이덴티티, 장면 배경 및 스타일에 대해 별도의 소스를 결합할 수 있습니다. 프롬프트에서 각 입력을 이름으로 참조합니다(@Element1, @Image1). I2V는 명명된 참조 시스템 없이 단일 시작 프레임을 사용합니다.

Kling O1과 Kling 3.0은 동일한가요?

아니요. Kling O1(2025년 12월 출시)은 기본 통합 멀티모달 비디오 모델입니다. Kling 3.0(Kling O3라고도 함, 2026년 2월 출시)은 기본 오디오 공동 생성과 최대 15초 클립을 추가한 후속 모델입니다. Novita AI의 Kling O1은 기본 오디오 없이 최대 10초의 비디오를 지원합니다.

표준 VideoEdit과 빠른 VideoEdit 중 어떻게 선택하나요?

표준 VideoEdit은 $0.168/s에 3~10초 소스 클립을 허용합니다. 빠른 VideoEdit은 $0.09/s에 6~20초 클립을 허용합니다. 소스 비디오가 10초 미만이고 처리 시간이 중요하다면 표준을 사용하세요. 더 긴 클립이 있거나 배치 포스트 프로덕션 작업을 하는 경우 빠른 것이 훨씬 저렴합니다.

추천 문서