Novita AI 上の Wan 2.7 には、テキストから動画 (Text-to-Video)、画像から動画 (Image-to-Video)、リファレンスから動画 (Reference-to-Video) という 3 つの異なる生成モードが搭載されており、それぞれ異なる問題を解決します。T2V はプロンプトから直接動画を生成し、オプションで音声も付与できます。I2V は開始画像をアニメーション化し、動画の継続もサポートします。R2V はリファレンスキャラクターを新しいシーンに持ち込み、マルチショット制御を実現します。間違ったモードを選択すると作業が増えるため、このガイドでは各モードを実際に適したワークフローにマッピングします。
Wan 2.6 から 2.7 への変更点
Wan 2.6 では、リファレンス動画によるロールプレイ、マルチショットナラティブ、視聴覚同期が導入されました。しかし、機能セットは 3 つのエンドポイントに分散しており、一部重複もありました。Wan 2.7 では、そのモデルが大幅に洗練されています。
最も明確なアップグレードは I2V です。Wan 2.7 I2V は単一フレームアニメーションを超え、1 つのエンドポイントで 3 つの異なる入力モード (先頭フレームのみ、先頭+最終フレーム、動画継続) をサポートします。Wan 2.6 I2V は単一フレームアニメーションのみを処理し、継続は R2V が担当していました。既存の映像を拡張またはリミックスするパイプラインを構築する開発者にとって、この統合は重要です。
2.7 の R2V もキャラクターモデルを変更しています。2.6 ではロールプレイ用に最大 2 つのリファレンス動画を受け入れていましたが、2.7 では最大 5 つのリファレンスメディア (画像または動画) を受け入れ、それぞれをプロンプト内の名前付きキャラクタースロット (character1、character2 など) にマッピングします。大規模なマルチキャラクターインタラクションは、もはや回避策ではなく最優先機能です。
T2V のコア機能 (テキストプロンプトから音声付き動画を生成) は同様ですが、エンドポイントはよりクリーンになっています。音声生成はデフォルトでオン (無効化可能) で、prompt_extend フラグが生成前に短いプロンプトをインテリジェントに書き換えます。Wan 2.6 T2V のパラメータ面は改良されて引き継がれており、置き換えられていません。
また、2.7 ではモードごとに期間範囲も異なります。T2V と I2V はどちらも 2~15 秒をサポートし、R2V は最大 10 秒です。2 秒の最小値は、2.6 の標準的な 5 秒の下限から置き換わっています。
モード概要とクイック選択表
| T2V | I2V | R2V | |
|---|---|---|---|
| 入力 | テキストプロンプト | 画像 + オプションのテキスト | リファレンスメディア (画像/動画) + テキスト |
| 出力時間 | 2~15 秒 | 2~15 秒 | 2~10 秒 |
| 解像度 | 720P, 1080P | 720P, 1080P | 720P, 1080P |
| 音声 | 自動生成 or 音声駆動 | 自動生成 or 音声駆動 | audio フラグ + reference_voice で制御可能 |
| ショット制御 | シングルショット | シングルショット | シングル or マルチショット |
| キャラクター | プロンプト定義 | プロンプト定義 | 最大 5 人の名前付きリファレンスキャラクター |
| モデル ID | wan2.7-t2v |
wan2.7-i2v |
wan2.7-r2v |
| エンドポイント | /v3/async/wan2.7-t2v |
/v3/async/wan2.7-i2v |
/v3/async/wan2.7-r2v |
| 最適な用途 | ゼロからのオリジナルコンテンツ作成 | 既存アセットのアニメーション化 | キャラクター一貫性のあるロールプレイシーン |
Novita AI で Wan 2.7 T2V はどのように動作しますか?
T2V は、既存のビジュアルアセットがなく、クリエイティブなコンセプトがある場合に適した出発点です。モデルはテキスト説明から直接スムーズな動画を生成し、自動的に音声を添付します。シーンに合わせて生成される背景音楽や効果音、またはリップシンクやビートマッチング用の駆動音源としてユーザーが提供する音声のいずれかです。
主要パラメータ:
prompt— シーンの説明。中国語と英語に対応size— 解像度階層:1920*1080、1280*720、720*1280、960*960、1088*832、832*1088(1080P または 720P)duration— 整数の秒数、範囲 2~15audio_url— オプション。指定すると、モデルはこの音声を使用して生成を駆動 (リップシンク、ビートマッチング)。省略するとモデルが自動生成prompt_extend— デフォルトtrue。生成前に LLM を使用して短いプロンプトを書き換え、品質を向上seed— 再現可能な出力用に設定
T2V が適しているユーザー: コピーから製品キャンペーンクリップを生成するマーケター、規模に応じてビデオコンテンツをプロトタイプする開発者、またはソースマテリアルなしでオリジナルの映像が必要なすべての人。
弱点: リファレンス画像や以前のビデオフレームがない場合、複数の生成にわたって複雑なキャラクターの一貫性を維持するのは困難です。特定のシーンやキャラクターを繰り返し作成する場合、I2V または R2V の方が制御しやすくなります。
Novita AI で Wan 2.7 I2V はどのように動作しますか?
2.7 の I2V の特徴は、入力するパラメータによって区別される 3 つの異なるアニメーションパターンを 1 つのエンドポイントで処理することです。
先頭フレームから動画: image_url を指定します。モデルは画像を前方にアニメーション化します。これは「写真に命を吹き込む」典型的なユースケースです。
先頭+最終フレームから動画: image_url と last_frame_url の両方を指定します。モデルは 2 つのキーフレーム間の橋渡しを生成します。これは制御されたトランジションやモーフィングシーケンスに便利です。
動画継続: first_clip_url (既存の動画クリップ、mp4 または mov、2~10 秒) を指定します。モデルはその内容とプロンプトに基づいて動画を前方に拡張します。
driving_audio_url パラメータは T2V と同様に機能します。指定するとリップシンクまたはビートマッチングで生成を駆動し、省略すると音声が自動生成されます。
主要パラメータ:
image_url— 先頭フレームモードと先頭+最終フレームモードで必須。先頭フレーム画像 (JPEG, JPG, PNG, BMP, WEBP; 最大 20 MB; 幅/高さ 240~8000 px)。継続モードでは使用しません。last_frame_url— オプション。キーフレーム間モード用の最終フレーム画像first_clip_url— オプション。継続モード用の既存動画クリップ (mp4/mov、2~10 秒)resolution—720Pまたは1080P(デフォルト1080P)。動画のアスペクト比は入力メディアに準拠duration— 2~15 秒 (整数)driving_audio_url— オプションの駆動音声prompt— オプション。アニメーションの方向性とスタイルをガイド
I2V が適しているユーザー: 商品写真をアニメーション化する E コマースチーム、イラストに動きを加えるコンセプトアーティスト、既存の映像を拡張するパイプラインを構築する開発者。
注意点: 継続入力クリップは 2~10 秒である必要があります。出力動画の解像度アスペクト比は入力メディアに従います。解像度とアスペクト比を独立して設定することはできません。
Novita AI で Wan 2.7 R2V はどのように動作しますか?
R2V は、キャラクターの一貫性があり、ナラティブな動画のためのモードです。1 つ以上のリファレンスメディア (画像または短い動画クリップ) を提供すると、モデルが各キャラクターの外見、動き、音声を抽出します。その後、プロンプト内で character1、character2 などを使ってそれらのキャラクターを指示します。
ここが Wan 2.7 が 2.6 から大幅に進歩した点です。1~2 つのリファレンス動画に制限される代わりに、2.7 では最大 5 つのメディアアイテム (画像: 0~5、動画: 0~3、合計 ≤ 5) を受け入れ、個別の生成をつなぎ合わせることなくキャラクターのキャストを提供します。
shot_type パラメータはナラティブ構造を制御します。single は出力を 1 つの連続ショットに保ち、multi はトランジションを含むシーケンスを生成します。multi 値はプロンプト内のショットごとの指示よりも優先されるため、プロンプトのヒントではなく意図的なモード切り替えとなります。
R2V の音声動作もより明示的です。audio ブール値 (デフォルト true) で音声を生成するかどうかを制御し、reference_voice でキャラクターの会話用の音声リファレンスを指定できます。
主要パラメータ:
media— 必須。リファレンスメディアアイテムの配列。順序はcharacter1、character2などにマッピングされます。prompt— 必須。character1、character2を使用してキャラクターを参照size— 解像度。T2V と同じ 720P/1080P オプションduration— 2~10 秒 (T2V/I2V より短い上限)shot_type—single(デフォルト) またはmultiaudio— ブール値、デフォルトtruereference_voice— キャラクターのスピーチ用のオプション音声リファレンスnegative_prompt— オプション。最大 500 文字。中国語または英語
R2V が適しているユーザー: ビデオアバターを構築する開発者、一貫したキャストを必要とするショートフォームコンテンツクリエイター、ロールプレイ/キャラクターパフォーマンスシナリオを扱うすべての人。
注意点: R2V は生成あたり最大 10 秒です。より長いシーケンスの場合は、複数の R2V 呼び出しを連結することを計画してください。multi ショットタイプはそのウィンドウ内でトランジションを処理しますが、10 秒の上限を延長するわけではありません。
モード間の料金比較
3 つの Wan 2.7 モードはいずれも、リクエスト単位ではなく生成された動画の秒数ごとに課金されます。解像度もコストに影響します。1080P 出力は 720P よりも高くなります。R2V エンドポイントには、有効にすると価格に影響する追加の audio ブール値があります。
料金は、Novita AI の Wan 2.7 T2V、Wan 2.7 I2V、Wan 2.7 R2V モデルページに記載されています。動画モデルの料金は頻繁に更新されるため、現在の 1 秒あたりのレートについてはこれらのページを直接確認してください。
ワークフローのコストを見積もるには、対象の時間に選択した解像度の 1 秒あたりのレートを掛けます。たとえば、10 秒の 1080P T2V クリップは、記載されている 1080P/s レートの 10 倍のコストになります。T2V と I2V は同じ時間上限 (15 秒) と解像度オプションを共有しているため、コスト曲線は同等です。R2V の 10 秒の上限では、生成あたりの最大コストが低くなります。
コスト管理のレバー:
- 開発とテストには 720P を使用し、最終出力のみ 1080P に切り替える
- T2V のデフォルトで
prompt_extendを有効にしておく — コストに影響を与えずに品質が向上する - R2V で、後処理で独自の音声を提供する場合は
audio: falseを設定する
どのモードを使用すべきですか?
T2V を使用するケース: スクリプトやプロンプトからオリジナルコンテンツを生成し、ソースビジュアルがない場合。最も摩擦が少なく、1 つのプロンプト、1 回の呼び出しで動画と音声が出力されます。大量のコンテンツ生成、キャンペーンアセット作成、迅速なコンセプト探索に適しています。
I2V に切り替えるケース: 既存の画像や映像に動きを加える必要がある場合。先頭フレームモードは商品写真やイラストをアニメーション化し、先頭+最終フレームモードは 2 つのキーフレーム間の制御されたトランジションを提供し、継続モードは既存の映像を拡張します。ソースマテリアルが視覚出力を決定する場合、I2V が適切な選択です。
R2V を使用するケース: キャラクターの同一性と一貫性が重要である場合。同じ人物 (または複数の人物) が複数の動画に登場する必要がある場合、またはビデオアバターやスクリプト化されたシーンなどのパフォーマンスベースのコンテンツを構築している場合、R2V のリファレンスキャラクターシステムは目的に合わせて構築されたソリューションです。multi ショットタイプは、別途ストーリーボードを作成しなくても映画的な構造を追加します。
実用的な判断ツリー:
- 動画に登場させなければならないリファレンスキャラクターや人物はいますか? → R2V
- アニメーション化または拡張したい既存の画像や動画クリップがありますか? → I2V
- テキスト説明のみからオリジナルの映像を生成していますか? → T2V
Novita AI API の始め方
3 つのエンドポイントはすべて同じ非同期パターンに従います。ジョブを送信するために POST し、task_id を取得して、Task Result API をポーリングします。
前提条件: Novita AI コンソールからの API キー。新規アカウントには $1 の無料クレジットが付与されます。
T2V クイックスタート
import requests, time
API_KEY = "your_api_key"
BASE = "https://api.novita.ai"
# Submit generation
resp = requests.post(
f"{BASE}/v3/async/wan2.7-t2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
},
"parameters": {
"size": "1920*1080",
"duration": 5,
"prompt_extend": True
}
}
)
task_id = resp.json()["task_id"]
# Poll for result
while True:
result = requests.get(
f"{BASE}/v3/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id}
).json()
if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
print(result["videos"][0]["video_url"])
break
time.sleep(5)
I2V — 動画継続
resp = requests.post(
f"{BASE}/v3/async/wan2.7-i2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"first_clip_url": "https://example.com/existing-clip.mp4",
"prompt": "Continue the scene with smooth camera pan to the right"
},
"parameters": {
"resolution": "1080P",
"duration": 8
}
}
)
task_id = resp.json()["task_id"]
R2V — マルチキャラクターシーン
resp = requests.post(
f"{BASE}/v3/async/wan2.7-r2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"media": [
{"type": "image", "url": "https://example.com/person-a.jpg"},
{"type": "image", "url": "https://example.com/person-b.jpg"}
],
"prompt": "character1 and character2 are having a conversation at a café, natural daylight"
},
"parameters": {
"size": "1920*1080",
"duration": 8,
"shot_type": "multi",
"audio": True
}
}
)
task_id = resp.json()["task_id"]
各モードの完全なパラメーターリファレンスは、Wan 2.7 T2V API ドキュメント、Wan 2.7 I2V API ドキュメント、Wan 2.7 R2V API ドキュメント にあります。
Wan 2.7 を前世代と比較したい場合は、Novita AI 上の Wan 2.6 ガイド で 2.6 の全機能セットとパラメーター面を網羅しています。
結論
Wan 2.7 は、生成機能を 1 つの広範なエンドポイントではなく、3 つの目的別モードに整理しています。T2V は、ソースマテリアルがない場合にアイデアから動画への最速のパスです。プロンプトと API キーがあればそれで十分です。I2V は、既存の画像や映像から作業する場合に、モーションと連続性を制御できます。1 つのエンドポイントに 3 つの異なる入力パターンがあります。R2V は最も難しい問題、つまりシーン間でキャラクターの一貫性を保つ動画を処理します。最大 5 つのリファレンスキャラクターとマルチショット構造が組み込まれています。
2.6 から 2.7 へのアップグレードは、I2V (継続がネイティブになり、回避策ではなくなった) と R2V (キャラクター数 2 → 5、位置指定 → 名前付きスロット) で最も顕著です。T2V は 2.6 の強みを引き継ぎ、よりクリーンなパラメーター面を備えています。
ほとんどのワークフローでは、判断ツリーは単純です。オリジナルコンテンツには T2V から始め、ソース画像やクリップがある場合は I2V に切り替え、複数の生成にわたってキャラクターの同一性を維持する必要がある場合は R2V を使用します。
FAQ
Wan 2.7 T2V、I2V、R2V の違いは何ですか? T2V はテキストプロンプトのみから動画を生成します。I2V は既存の画像をアニメーション化するか、既存の動画クリップを拡張します。R2V はリファレンス画像またはクリップをキャラクターテンプレートとして使用して、キャラクターの一貫性がある動画を生成します。各モードは、入力タイプに最適化された個別のエンドポイントです。
Wan 2.7 は音声を自動生成できますか?
はい。3 つのモードすべてがデフォルトで自動生成音声をサポートしています。T2V と I2V はシーンに合わせた背景音楽と効果音を生成し、R2V はキャラクターの会話用に reference_voice パラメータを追加します。T2V では audio_url、I2V では driving_audio_url を使用して独自の音声を提供するか、R2V では audio: false で音声を無効にすることができます。
Wan 2.7 はどのような動画長をサポートしますか? T2V と I2V はどちらも 2~15 秒をサポートします。R2V は生成あたり最大 10 秒です。すべてのモードで最小 2 秒です。
I2V の動画継続はどのように機能しますか?
first_clip_url に既存の mp4 または mov ファイル (2~10 秒) を指定します。モデルはクリップの内容と動きを分析し、最終フレームから自然に継続する新しいセグメントを生成します。image_url を first_clip_url と一緒に送信しないでください。これらは異なるモード用です。
Wan 2.7 R2V はいくつのリファレンスキャラクターをサポートしますか?
最大 5 つのメディアアイテム (画像: 0~5、動画: 0~3、合計 ≤ 5) です。各アイテムは、プロンプトで使用する名前付きキャラクタースロット (character1、character2 など) にマッピングされます。
解像度は料金に影響しますか? はい。3 つのモードすべてが生成された動画の秒数ごとに課金され、1080P は 720P よりも 1 秒あたりのコストが高くなります。コストを管理するには、開発中は 720P を使用し、最終出力のみ 1080P に切り替えてください。
Wan 2.7 は REST API 経由で使用できますか?
はい。すべてのエンドポイントは REST ベースで、非同期パターンに従います。ジョブを POST して task_id を受け取り、Task Result API をポーリングします。上記の「始め方」セクションの API 例と、Novita AI API ドキュメントの完全なパラメーターリファレンスを参照してください。
