Novita AI の Kling O1 解説: T2V、I2V、Ref2V、Video Edit モード

Kling O1 とは？
4 つのモード概要
Novita AI の Kling O1 Text-to-Video（T2V）
Novita AI の Kling O1 Image-to-Video（I2V）
Novita AI の Kling O1 Reference-to-Video（Ref2V）
Novita AI の Kling O1 Video Edit モード
Novita AI での料金
どのモードから始めるべきか？
Novita AI で Kling O1 API を呼び出す方法
まとめ
よくある質問
関連記事

Kling O1（Kling Omni Video O1）は、Kuaishou 初の統合型マルチモーダルビデオモデルであり、Novita AI API を通じて Text-to-Video（T2V）、Image-to-Video（I2V）、Reference-to-Video（Ref2V）、Video Edit の 4 つの異なる生成モードを提供します。各モードは異なる入力を受け付け、異なる課題を解決します。間違ったモードを選ぶと摩擦とコストが増加します。このガイドでは、各モードの実際の動作、必要な入力、Novita AI での料金設定、そして一般的な開発者のユースケースで最初に試すべきモードについて説明します。

Kling O1 とは？

Kling O1 は、Kuaishou の MVL（Multimodal Visual Language）アーキテクチャに基づいて構築されています。このアーキテクチャは、テキスト、画像、参照、動画編集タスクを個別の専門モデルに振り分けるのではなく、単一のモデルに統合します。これは実用的に重要です。つまり、基礎となるモーションモデルとアイデンティティエンコーディングがモード間で共有されるため、あるモードで記述されたキャラクターやオブジェクトは、次のモードでも一貫した視覚的特性を保持します。

以前の Kling バージョン（V2.5、V2.6、V3.0 Standard/Pro）と比較して、Kling O1 は構造的に新しい Ref2V および Video Edit 機能を追加しています。これらは O1 以前の Standard または Pro ティアでは利用できませんでした。O1 の T2V と I2V は共有 MVL バックボーンを獲得し、以前の生成モデルと比較してフレーム間の被写体一貫性が向上しています。

Kling O1 は Kling 3.0（Kling O3 とも呼ばれる）とは異なります。Kling 3.0 は、ネイティブ音声同時生成と最大 15 秒のクリップを追加した後継モデルです。Novita AI 上の Kling O1 は現在、ネイティブ音声なしで最大 10 秒の動画をカバーしています。

4 つのモード概要

モード	主な入力	必須入力	長さ	Novita AI での料金
T2V	テキストプロンプト	`prompt`	5–10 秒	$0.112/秒
I2V	画像 + プロンプト	`image_url`, `prompt`	5–10 秒	$0.112/秒
Ref2V	参照画像 + プロンプト	`prompt`, `image_urls` または `elements`	3–10 秒	$0.168/秒
Video Edit	ソース動画 + プロンプト	`video_url`, `prompt`	3–10 秒（Fast: 6–20 秒）	$0.168/秒（Fast: $0.09/秒）

料金は 2026 年 6 月 26 日時点の Novita AI モデルページで確認済みです。秒単位の課金は、指定した長さに適用されます。

Novita AI の Kling O1 Text-to-Video（T2V）

エンドポイント: POST /v3/async/kling-o1-t2v

T2V は、テキストの説明のみから動画を生成します。プロンプトを提供すると、モデルがモーション、照明、カメラの動き、シーン構成をゼロから作成します。画像アンカーがないため、モデルはプロンプトの制約内で完全な創造的自由度を持ちます。

T2V を使用する場面:

参照画像やシーンフレームがない場合。
映像の方向性を決める前にコンセプトを検討している場合。
低コストで多くの視覚的バリエーションを生成する必要がある場合。

$0.112/秒の場合、5 秒クリップは $0.56、10 秒クリップは $1.12 です。T2V は Novita AI で 5 秒と 10 秒の長さをサポートし、アスペクト比は 16:9、9:16、1:1 です。

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "A red fox trotting through a snowy pine forest, golden hour light, cinematic wide shot",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Novita AI の Kling O1 Image-to-Video（I2V）

エンドポイント: POST /v3/async/kling-o1-i2v

I2V は、静止画像をアニメーション化してビデオクリップにします。ソース画像が開始フレームとなり、プロンプトがその後のモーションとシーンの展開を制御します。オプションで終了フレームを提供してモデルに目標状態を与えることができ、モデルは開始フレームと終了フレームの間のモーションを補間します。

必須: image_url（開始フレーム）と prompt。終了フレーム（end_image_url）はオプションですが、カットポイントで特定の構図を指定したい場合に便利です。

I2V を使用する場面:

動かす必要がある既存の画像やデザインがある場合。
決定論的な視覚的根拠が必要な場合 — キャラクターやシーンの外観はソース画像ですでに定義されています。
既存のアセットから製品デモ、ソーシャルコンテンツ、e コマースアニメーションを作成している場合。

$0.112/秒の場合、I2V のコストは T2V と同じです。主なトレードオフは、I2V が開始フレームを入力画像に固定するため、一貫性は向上しますが、品質の低いソース画像では出力が制限されることです。Novita AI の画像制約: 最小 300×300px、最大ファイルサイズ 10MB、アスペクト比は 0.4 から 2.5 の間。

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-i2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "image_url": "https://example.com/product-shot.jpg",
    "prompt": "The product slowly rotates to reveal the back panel, soft studio lighting",
    "duration": 5,
    "aspect_ratio": "1:1"
  }'

Novita AI の Kling O1 Reference-to-Video（Ref2V）

エンドポイント: POST /v3/async/kling-o1-ref2v

Ref2V は最も柔軟なモードであり、O1 の MVL アーキテクチャを最も直接的に利用するモードです。単一の開始フレームの代わりに、2 つの入力タイプにわたって最大 7 つの参照画像を提供します: image_urls（スタイルまたはシーンの参照）と elements（キャラクターまたはオブジェクトのアイデンティティアンカー）。プロンプトは @Image1、@Image2、@Element1、@Element2 タグを使用して、どの参照をどこに適用するかをモデルに指示します。

これにより、複数のソースアセットからシーンを構成できます: ポートレート写真からのキャラクター、ロケーション画像からの背景、製品画像からの小道具 — すべてプロンプト内で名前で参照されます。

入力ルール:

prompt は必須です。
image_urls と elements はオプションですが、少なくとも 1 つは意味を持つ必要があります。参照なしの bare プロンプトでも機能しますが、T2V に近い動作になります。
参照の合計（elements + image_urls）は 7 を超えてはいけません。
elements 内の各要素には、複数の reference_image_urls（マルチアングルショット）と、よりクリーンなアイデンティティマッチングのためのオプションの frontal_image_url を含めることができます。

Ref2V を使用する場面:

複数のクリップ（エピソードコンテンツ、マーケティングシーケンス）で一貫したキャラクターが必要な場合。
異なるソース画像のキャラクターやオブジェクトを 1 つのシーンに結合している場合。
開始フレームからモデルに補間させつつ、別の参照セットから視覚的アイデンティティを維持したい場合。

Ref2V の料金は $0.168/秒で、T2V および I2V より 50% 高いです。5 秒クリップの場合 $0.84、10 秒の場合 $1.68 です。このプレミアムは追加の参照エンコードステップを反映しています。ユースケースで画像間のアイデンティティ一貫性が不要な場合は、$0.112/秒の I2V で十分です。

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-ref2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "Take @Image1 as the start frame. @Element1 walks into the scene and picks up the glowing artifact. Cinematic lighting, steady camera.",
    "image_urls": ["https://example.com/scene-bg.jpg"],
    "elements": [
      {
        "reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
        "frontal_image_url": "https://example.com/character-front.jpg"
      }
    ],
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Novita AI の Kling O1 Video Edit モード

エンドポイント（標準）: POST /v3/async/kling-o1-video-edit

エンドポイント（高速）: Novita AI の Fast VideoEdit バリアントで利用可能

Video Edit は、既存の動画を入力として受け取り、自然言語のプロンプトを使用して変換します。モデルは元のモーション構造 — タイミング、カメラの動き、アクションの流れ — を保持しながら、プロンプトに従って被写体、環境、または視覚スタイルを変更します。Ref2V と同じ @Image1 / @Element1 タグ付けシステムを使用して、参照画像や要素アンカーを提供することもできます。

必須: video_url（ソース動画、3–10 秒、MP4 または MOV、720–2160px、最大 200MB）と prompt。

2 つのバリエーション:

標準 VideoEdit: 3–10 秒のソース動画をサポート、料金は $0.168/秒。
Fast VideoEdit: 6–20 秒のソース動画をサポート、料金は $0.09/秒 — Novita AI 上の全 Kling O1 モードの中で最も低い秒単位コスト。

Video Edit を使用する場面:

撮り直しせずにスタイルやコンテンツの変更が必要な映像がある場合。
既存の動画のキャラクターを、同じ動きを保ったまま置き換えたい場合。
実写クリップをアニメーションスタイルに変換する必要がある場合。

主な制限: ソース動画がモーションを制御します。Video Edit は被写体の動作を変更できません。できるのは、被写体の見た目と占有する環境を変更することだけです。モーションの変更が必要な場合は、代わりに T2V または I2V で新しい映像を生成してください。

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-video-edit \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "video_url": "https://example.com/source-clip.mp4",
    "prompt": "Transform the setting to a neon-lit cyberpunk alley, keep the character movements exactly as-is",
    "duration": 5
  }'

Novita AI での料金

Novita AI 上のすべての Kling O1 モードは、リクエスト時に設定した長さに対して秒単位の課金が適用されます。料金は 2026 年 6 月 26 日時点で確認済みです。

モード	エンドポイント	長さの範囲	料金/秒	5 秒のコスト	10 秒のコスト
T2V	`/v3/async/kling-o1-t2v`	5–10 秒	$0.112	$0.56	$1.12
I2V	`/v3/async/kling-o1-i2v`	5–10 秒	$0.112	$0.56	$1.12
Ref2V	`/v3/async/kling-o1-ref2v`	3–10 秒	$0.168	$0.84	$1.68
VideoEdit	`/v3/async/kling-o1-video-edit`	3–10 秒	$0.168	$0.84	$1.68
VideoEdit Fast	(Novita AI Fast バリアント)	6–20 秒	$0.090	—	$0.90

Novita AI の新規ユーザーには無料クレジットが付与されます。最新の料金は Novita AI 料金ページでご確認ください。価格は変更される場合があります。

どのモードから始めるべきか？

特定の画像アセットがなく、コンセプトの探索を目的とする場合は T2V から始めてください。1 つの必須パラメータ（prompt）のみで、アセットの準備が不要な、最も摩擦の少ないエントリーポイントです。

動かす必要のある画像がある場合は I2V に移行してください。製品画像、キャラクターイラスト、シーン背景はすべて I2V の開始フレームとして適しています。T2V と同じ価格で、より視覚的な制御が可能です。

クリップ間でのアイデンティティ一貫性が重要な場合 — 例えば、複数のシーンに登場する繰り返しのキャラクターや、特定の人物と特定の環境を組み合わせる場合 — は Ref2V を使用してください。50% の価格プレミアムを予算に組み込んでください。単一クリップの生成には必要ありません。

既存の映像に視覚的なオーバーホールが必要だがモーションはそのまま維持したいポストプロダクションワークフローには Video Edit を予約してください。長めの編集（6–20 秒）で生成速度がそれほど重要でない場合は、$0.09/秒の Fast バリアントが最もコスト効率の高いオプションです。

状況	推奨モード
画像なし、アイデアを探索中	T2V
製品やシーンの画像があり、動きをつけたい	I2V
複数のクリップで同じキャラクターが必要	Ref2V
動画素材があり、別の外観にしたい	VideoEdit（標準）
長めの編集（6–20 秒）、コスト重視	VideoEdit Fast

Novita AI で Kling O1 API を呼び出す方法

Novita AI 上の 4 つの Kling O1 モードはすべて非同期です。各リクエストは即座に task_id を返します。ステータスが succeed になるまで Task Result エンドポイントをポーリングします。

# ステップ 1: 生成タスクを送信（例: T2V）
RESPONSE=$(curl --silent --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{"prompt": "Your prompt here", "duration": 5, "aspect_ratio": "16:9"}')

TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")

# ステップ 2: 結果をポーリング
curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

レスポンスには status フィールドが含まれます。succeed になると、videos 配列に出力 URL が含まれます。一般的な生成時間は、長さとモードに応じて 30～120 秒です。

API キーは Novita AI ダッシュボードから取得してください。新規アカウントには、本番運用前に 4 つのモードすべてをテストできる無料クレジットが付与されます。

まとめ

Novita AI の Kling O1 は、開発者に 4 つの異なる動画生成モード — T2V、I2V、Ref2V、Video Edit — を単一の統一 API を通じて提供します。T2V と I2V は、一般的な生成ユースケースを $0.112/秒でカバーします。Ref2V は、繰り返し登場するキャラクターのための複数参照アイデンティティ合成を $0.168/秒で追加します。Video Edit は、モーションを保持しながら既存の映像を変換し、長めのクリップには $0.09/秒の Fast バリアントを提供します。適切なモードを事前に選択することで、コストを節約し摩擦を排除できます。画像アセットがない場合は T2V、ある場合は I2V、クリップ間のアイデンティティ一貫性が重要な場合は Ref2V、モーションがすでにキャプチャされている場合は Video Edit から始めてください。すべてのモードは Novita AI で同じ非同期タスクパターンを共有しているため、複数のモードを 1 つのパイプラインに統合するために必要な追加コードは最小限です。

Novita AI は、統一 API を通じてビデオ、画像、音声、言語モデルへのホスト型アクセスを開発者に提供する AI クラウドプラットフォームです。

よくある質問

Novita AI での Kling O1 T2V と I2V の違いは何ですか？

T2V はテキストプロンプトのみから動画を生成します — 画像は必要ありません。I2V は画像を開始フレームとして受け取り、プロンプトに従ってアニメーション化します。どちらも $0.112/秒で、5～10 秒のクリップをサポートしています。探索には T2V を、特定の視覚的アンカーがある場合は I2V を使用してください。

I2V ではできないことで、Kling O1 Ref2V は何ができるのですか？

Ref2V は、複数の入力スロットにわたって最大 7 つの参照画像を受け付け、キャラクターのアイデンティティ、シーン背景、スタイルのための異なるソースを組み合わせることができます。プロンプト内で各入力を名前で参照します（@Element1、@Image1）。I2V は単一の開始フレームを使用し、名前付き参照システムはありません。

Kling O1 は Kling 3.0 と同じですか？

いいえ。Kling O1（2025 年 12 月リリース）は、ベースとなる統合型マルチモーダルビデオモデルです。Kling 3.0（Kling O3 とも呼ばれ、2026 年 2 月リリース）は、ネイティブ音声同時生成と最大 15 秒のクリップを追加した後継モデルです。Novita AI 上の Kling O1 は、ネイティブ音声なしで最大 10 秒の動画をサポートしています。

VideoEdit 標準と VideoEdit Fast はどのように選べばよいですか？

標準 VideoEdit は 3～10 秒のソースクリップを $0.168/秒で受け付けます。Fast VideoEdit は 6～20 秒のクリップを $0.09/秒で受け付けます。ソース動画が 10 秒未満でターンアラウンドタイムが重要な場合は標準を使用してください。長いクリップがある場合やバッチポストプロダクション作業を行っている場合は、Fast の方が大幅に安価です。