Novita AI の VIDU Q2: 画像から動画への API ガイド (Turbo、Pro、Pro Fast)

Novita AI の VIDU Q2: 画像から動画への API ガイド (Turbo、Pro、Pro Fast)

Novita AI 上の VIDU Q2 は、開発者向け API を通じてプロダクショングレードの画像から動画生成を実現します。540p~1080p のクリップを 10 秒で生成し、映画のようなカメラ制御と複数画像参照の融合を提供します。 U-ViT アーキテクチャを基盤とし、一貫した動き、微表情、7 枚の画像参照処理に優れ、従量課金制で利用できます。

Novita AI 上の VIDU Q2 とは?

VIDU Q2 は、Novita AI 上で利用可能な高度な画像から動画への AI モデルで、複数のバリエーションがあります。

  • 開始・終了フレーム: 動画の開始と終了を正確に定義し、AI が中間部分を生成します。
  • マルチフレーム: ストーリーボードのように複数の画像を提供し、AI がそれらの間の動きをアニメーション化します。
  • Turbo: 速度と効率に重点を置いたバリアント(おそらくより安価または高速)。
  • Pro: 画質、プロンプトへの忠実性、ディテールに重点を置いたバリアント(おそらく低速で高コスト)。
  • 参照画像: 画像は必ずしも動画の最初のフレームではなく、「見た目」の参照(例:キャラクターデザイン)として機能します。
  • テンプレート: VIDU Q2 テンプレート to 動画 API。さまざまなエフェクトシーンテンプレートをサポートし、テンプレートと入力画像に基づいてエフェクト動画コンテンツを生成します。
カテゴリ / エンドポイント名 入力タイプ(アップロードするもの)
VIDU Q2 テキスト to 動画 テキストプロンプト
VIDU Q2 テンプレート to 動画 テンプレート + アセット
VIDU Q2 参照画像 to 動画 参照画像 + テキスト
VIDU Q2 Turbo 画像 to 動画 単一画像
VIDU Q2 Turbo 開始・終了フレーム 開始画像 & 終了画像
VIDU Q2 Turbo マルチフレーム 複数のキーフレーム
VIDU Q2 Pro 画像 to 動画 単一画像
VIDU Q2 Pro 開始・終了フレーム 開始画像 & 終了画像
VIDU Q2 Pro マルチフレーム 複数のキーフレーム
VIDU Q2 Pro Fast 画像 to 動画 単一画像
VIDU Q2 Pro Fast 開始・終了フレーム 開始画像 & 終了画像

Novita AI 上の VIDU Q2 のコアアーキテクチャ機能

機能 仕様 開発者にとっての利点
マルチ参照融合 画像 被写体間で一貫したアイデンティティを保持
解像度オプション 540p、720p、1080p 品質と生成速度のバランス調整
長さの範囲 1~10 秒 ショートフォームコンテンツに最適化
モーション制御 自動 / 小 / 中 / 大 振幅 アニメーションの強度を微調整
カメラ操作 プッシュ、プル、オービット、パン、ズーム テキストプロンプトによる映画的なショット制御

今すぐ VIDU Q2 を試す!

Novita AI 上の VIDU Q2 の開発者向け主要機能

1. マルチ参照画像融合

VIDU Q2 の特徴的な機能は、複数の入力画像を同時に処理できることです。 単一画像モデルとは異なり、Q2 のマルチ参照融合により複雑なシナリオが可能になります。ある画像のキャラクターの顔と別の画像の小道具をブレンドしたり、1 つの動画内で異なる被写体間の一貫性を維持したりできます。このモデルは開始/終了フレームのロックを処理し、クリップ全体で特定のポーズやロゴの配置を保持します。

ユースケース: (1) ブランドロゴ画像、(2) 商品写真、(3) 手のジェスチャー参照を組み合わせて商品デモを生成。Q2 はこれら 3 つを融合し、ブランド商品を提示する自然な手の動きを伴う一貫性のある 5 秒の動画を生成します。

2. 映画的なカメラ制御

Q2 はテキストプロンプト内の映画文法を理解します。「ドリーズーム」「トラッキングショット」「反時計回りのオービット」など。これにより、手動アニメーションなしで正確なカメラワークが可能になります。「顔のクローズアップドリーズーム、ゆっくり右にパン」と指定すると、Q2 はスムーズなトランジションでそのショットを実行します。

3. 物理認識モーション

Q2 は現実的な物理シミュレーションに優れています。 ユーザーテストでは、トラック上の正確な車の加速、自然な布地の動き、信頼性の高い水のダイナミクスが示されています。物理的なリアリズムが必要なアクションシーンや商品デモでは、Q2 のモーションエンジンは物理認識のないモデルを上回ります。

4. 微表情と感情制御

このモデルは微妙な顔の動きを捉えます。ためらいの笑顔、アイコンタクトの変化、唇の微細な動きなど。これはキャラクター主導のコンテンツにとって重要であり、感情の信憑性が重要な場面(アニメーションのプレゼンターを使った説明動画、リアルなアバターを使ったトレーニング動画、表情豊かな反応を必要とするソーシャルメディアクリップなど)で威力を発揮します。

今すぐ VIDU Q2 を試す!

Novita AI API による VIDU Q2 の統合

セットアップ要件

Novita AI はサーバーレス、従量課金制の API を提供します。GPU インフラは不要です。 セットアップは 5 分未満で完了します。

  1. novita.ai にサインアップ
  2. ダッシュボードで API キーに移動
  3. 新しい API キーを生成(テスト用の無料枠あり)
  4. OpenAI 互換のエンドポイント形式を使用

vidu q2 on novita ai

今すぐ VIDU Q2 を試す!

オーディオと BGM の生成: Q2 Pro は bgm および voice_id パラメーターを介して背景音楽と音声合成をサポートします。1 回の API 呼び出しで同期オーディオ付きの完全な動画クリップを生成できます。

オフピーク処理: off_peak モードを有効にすると、待ち時間が若干長くなりますが、コストを 30~40% 削減できます。リアルタイム要件のないバッチジョブに最適です。

Novita AI 上の VIDU Q2 のパフォーマンスベンチマーク

  • Q2 Turbo は Q1 比で 3 倍の速度向上を達成
  • Q1 と比較して顔とモーションの一貫性が改善
  • カメラワーク間のトランジションがよりシャープに(ぎこちなさの軽減)
  • 自然なパン、ズーム、トラッキングショットのためのモーションエンジンを再構築
  • Sora クラスのモデルと比較してフレーム間のオブジェクト保持が優れている

今すぐ VIDU Q2 を試す!

Novita AI 上の VIDU Q2 の料金

Novita AI は生成ごとの従量課金制を採用しています。サブスクリプションや GPU レンタルは不要です。 コストは解像度、長さ、バリアントの選択によって変動します。

モデル モード 長さ 解像度 価格(/動画)
VIDU Q2 テキスト to 動画 5 秒 540P $0.0802
VIDU Q2 テキスト to 動画 5 秒 720P $0.1562
VIDU Q2 テキスト to 動画 5 秒 1080P $0.2677
VIDU Q2 参照 to 動画 5 秒 540P $0.1562
VIDU Q2 参照 to 動画 5 秒 720P $0.2008
VIDU Q2 参照 to 動画 5 秒 1080P $0.5132
VIDU Q2 Pro 画像 to 動画 5 秒 540P $0.1472
VIDU Q2 Pro 画像 to 動画 5 秒 720P $0.2454
VIDU Q2 Pro 画像 to 動画 5 秒 1080P $0.5135
VIDU Q2 Pro Fast 画像 to 動画 5 秒 720P $0.0713
VIDU Q2 Pro Fast 画像 to 動画 5 秒 1080P $0.1430
VIDU Q2 Turbo 画像 to 動画 5 秒 540P $0.0624
VIDU Q2 Turbo 画像 to 動画 5 秒 720P $0.2141
VIDU Q2 Turbo 画像 to 動画 5 秒 1080P $0.3347

今すぐ VIDU Q2 を試す!

Novita AI 上の VIDU Q2 のベストプラクティス

Q2 のプロンプトエンジニアリング

プロンプトは 100 語以内に抑え、動きとカメラワークを優先し、密度の高いナレーションは避けます。 適切なプロンプト構造:

[カメラワーク] + [被写体のアクション] + [感情/表情] + [技術仕様]

例: "女性の顔にゆっくりドリーズーム、ためらいの笑みが浮かび、目が下を向いてから上を向く、自然光、24fps"

避けるべき: 「晴れた日の公園で美しい女性が木々を見ながら過去を思い出し、鳥が飛び交う中で懐かしさを感じている…」(密度が高すぎて忠実性が低下)

マルチ参照画像のヒント

  • 保持する要素をプロンプトで明示的に指定: 「画像 1 の顔、画像 2 の服装、画像 3 の背景を使用」
  • 無関係な画像はガイドなしではうまくブレンドされない — 顔とオブジェクトを組み合わせる場合は、それらの関係を指定する
  • 最良の結果を得るには 3~4 枚の参照に制限する — 7 枚の画像容量は複雑な複数被写体シーン向けであり、常に最適とは限らない

反復ワークフロー

  1. 720p、4 秒、自動モーションから開始 — 最も高速な反復サイクル
  2. 固定シードで 3~5 種類のプロンプトバリエーションをテスト — 最適なカメラ/感情の組み合わせを特定
  3. 勝ちバリアントを 1080p、6~8 秒にスケールアップ して最終出力
  4. バッチジョブにはオフピークを使用(30% のコスト削減)

キューを使ったバッチ処理

大量生成の場合:

  1. オフピークを有効にして 50~100 タスクを送信
  2. Webhook コールバックを使用して結果を非同期で取得
  3. タスク ID をデータベースに保存してステータスを追跡
  4. 失敗したタスクのリトライロジックを実装(レート制限、タイムアウト)

長尺コンテンツのための動画拡張

Q2 は 1~10 秒のクリップを生成します。より長い動画の場合:

  • 方法 1: VIDU の拡張 API を使用して、既存のクリップに 6 秒以上を追加(ジャンプカットなし)
  • 方法 2: 重複クリップを生成(クリップ 1 の最終フレームがクリップ 2 の最初のフレームになる)し、FFmpeg で結合
  • 方法 3: Q2 をシーンジェネレーターとして扱い、5~10 の異なるシーンを生成し、トランジションを入れて編集

今すぐ VIDU Q2 を試す!

Novita AI 上の VIDU Q2 は、開発者向け API を通じてプロダクショングレードの画像から動画生成を実現し、GPU インフラのオーバーヘッドを排除しながら、映画的なカメラ制御、複数画像参照の融合、15 秒未満の生成時間を提供します。

Q1 比 3 倍の生成速度と改善された一貫性により、Q2 Turbo は大量のソーシャルメディアコンテンツ、迅速なプロトタイピング、反復的なワークフローに最適化されています。

Q2 Pro は、最終的な商用アセット向けに、微表情制御とオーディオ生成を備えた最大の忠実性を追加します。

コスト効率の良さから、Novita の API は魅力的です。Pro Fast 1080p クリップはわずか $0.143 から始まり、オフピークモードでさらに 30~40% のコスト削減が可能です。

よくある質問

Novita AI 上の VIDU Q2 Turbo と Q2 Pro の違いは何ですか?

Q2 Turbo は反復的なワークフロー向けに速度を優先します(Q1 比 3 倍高速、クリップあたり約 10 秒)。Q2 Pro は、強化された微表情、リップシンク、オーディオ生成により忠実性を最大化します。品質が速度要件を上回る最終アセットには Pro を使用してください。

Novita AI で VIDU Q2 の動画 1 本あたりのコストはいくらですか?

料金はバリアント、解像度、長さ(5 秒ベース)によって異なります。
Turbo: $0.0624(540p)~ $0.3347(1080p)
Pro Fast: $0.0713(720p)~ $0.1430(1080p)
Pro: $0.1472(540p)~ $0.5135(1080p)
テキスト to 動画: $0.0802(540p)~ $0.2677(1080p)

Novita 上の VIDU Q2 に適用される解像度と長さの制限は?

解像度オプションは 540p、720p、1080p です。長さはクリップあたり 1~10 秒です。より長い動画には VIDU の拡張機能または FFmpeg の結合を使用してください。

Novita AI は、AI とエージェントのクラウドプラットフォームであり、開発者やスタートアップが高性能、信頼性、コスト効率に優れたモデルとエージェントアプリケーションを構築、デプロイ、スケーリングするのを支援します。