Novita AIは、動画コンテンツ制作に革命をもたらす、最先端の画像から動画への生成(I2V)ツールであるWan 2.2 I2V APIを誇りを持ってご紹介します。AlibabaのWan 2.2 T2Vの拡張版であるこのAPIは、Mixture-of-Experts(MoE)アーキテクチャと高度な圧縮技術を活用し、民生用GPUに最適化された720P・24fpsの動画を生成します。本記事では、Wan 2.2 I2Vとは何か、その特徴、そして動画制作ワークフローをどのように変革できるのかについて詳しく解説します。
Wan 2.2 I2Vとは?
Wan 2.2 I2Vは、テキストまたは画像入力を短い動画クリップに変換する、高度なAI搭載動画生成ツールです。「I2V」は画像から動画(image-to-video)の略で、生成モードの1つを表しています(テキストから動画(T2V)にも対応しています)。Wan 2.2はWanモデルシリーズの2回目のメジャーリリースで、バージョン2.1から大幅なアップグレードが施されています。このモデルは最先端のMixture-of-Experts(MoE)拡散アーキテクチャを採用し、プロンプトから高品質な720p解像度の動画を生成します。このモデルは**オープンソース(Apache 2.0ライセンス)**で、標準的な民生用ハードウェアでプロフェッショナルな仕上がりを実現するように設計されています。
コンパクトで多目的なTI2Vソリューション:Wan2.2は、先進のWan2.2-VAEを搭載したオープンソースの5Bモデルを導入し、驚異的な16×16×4の圧縮率を実現しています。この軽量モデルは、720P解像度・24fpsでのテキストから動画(T2V)と画像から動画(I2V)の両方の生成をシームレスにサポートします。NVIDIA 4090などの民生用GPUに最適化されており、利用可能な720P@24fpsモデルの中で最速クラスであり、産業用途と学術研究の両方に理想的なソリューションとなっています。
Wan 2.2 I2Vのアーキテクチャと画像理解
2種類のMoE
Wan 2.2の**Mixture-of-Experts(MoE)**拡散モデルは、高ノイズ用と低ノイズ用の2種類の専門家ネットワークを活用し、画像入力の多様な複雑さに適切に対応します。例えば、高ノイズネットワークは画像の細部の処理に優れ、低ノイズネットワークはシーンの全体構成に焦点を当てます。この役割分担により、モデルの画像コンテンツの分析・解釈能力が向上します。
圧縮と時空間的一貫性
このモデルは、時空間圧縮に**Wan-VAE(Variational Autoencoder)**を採用し、64倍の圧縮(時間方向に4倍、空間方向に16×16)を実現しています。これにより、重要な詳細と時間的一貫性を維持しながら、動画フレームの効率的なエンコード・デコードが可能になります。この圧縮技術は、生成効率を向上させるだけでなく、静止画から動画への滑らかで自然な移行を保証します。
画像から動画を生成する際、特に照明の変化や物体の動きなどの側面において、時間的一貫性を維持することが重要です。Wan-VAEの3D圧縮アーキテクチャは、視覚的な滑らかさを保証し、画像コンテンツを時間的に正しく拡張することで、高品質な動画出力を実現します。
Wan 2.2 I2Vの主な特徴
| 特徴 | 説明 |
|---|---|
| 🎥 映画的な美観制御 | プロフェッショナルな映画スタイルのパラメータで、映画レベルの美観制御を提供します。プロンプトで照明、色調、カメラアングル、構図の詳細を指定することで、生成される動画の見た目を制御できます。 |
| 🤖 複雑な動きと安定性 | 大規模で複雑な動きを滑らかに再現するのに優れています。高速なカメラワーク(パン、チルト、ズーム)や複数の移動被写体を、向上した安定性で処理します。MoEの専門家ネットワークの活用により、ちらつきや連続性の問題が少ない、より滑らかな動きを実現します。 |
| 🎯 正確な意味論的一致 | 複雑なシーンや複数物体の相互作用をより適切に理解し、ユーザーのプロンプトの意図に密接に一致する出力を生成します。拡張されたトレーニングデータと洗練された拡散戦略により、一貫性と信頼性が向上しています。 |
Wan 2.2のワークフロー最適化とは?

Wan 2.2 I2VとWan 2.1 I2Vの比較
Wan 2.2 I2VとWan 2.1 I2V:アーキテクチャ
| カテゴリ | Wan 2.1 | Wan 2.2 |
|---|---|---|
| 拡散モデル | 高密度拡散アーキテクチャ:単一のモデルがすべてのノイズ除去タイムステップを処理しました。 | Mixture-of-Experts(MoE)拡散:2つの専門的なサブモデルが異なるノイズレベルを処理し、1つが高ノイズの初期タイムステップを、もう1つが低ノイズの後期タイムステップを処理します。これにより、詳細と一貫性が向上します。 |
| モデルサイズとパラメータ | テキストから動画・画像から動画のタスクで約140億パラメータ。迅速なプロトタイピング向けに小型バリアント(例:13億パラメータ)も利用可能でした。 | 約270億パラメータ(2×140億の専門家)ですが、一度にアクティブになるのは1つの専門家のみです。720p出力に対応したTI2V(テキスト・画像条件付け)向けの新しい5Bハイブリッドモデルを導入し、2.1の小型モデルの役割をより高い忠実度で果たします。 |
| トレーニングデータと美学ラベル | プロンプト制御向けの基本的な記述子を含む限定的なデータセット。 | 画像が65%多く、動画クリップが83%多いデータセットでトレーニングされています。2.1の基本的な記述子と比較して、より細かいスタイル制御を可能にするために、映画的なタグ(照明、色、構図など)を導入しました。 |
| 基盤コンポーネント | 時間的一貫性の維持に焦点を当て、1080pエンコーディングにWan-VAEを使用しました。 | 品質とリソース使用量のバランスを向上させるために、Wan-VAEとMoE拡散の統合を改善しました。トランスフォーマー処理を高速化するFlashAttentionを追加し、2.1と比較してパフォーマンスを向上させています。 |
| 特徴 | VACEフレームワークを使用したT2V、I2V、編集に対応。LoRAファインチューニングを完全にサポートしていました。 | T2V、I2V、改善されたスタイル転送に対応。VACEフレームワークはまだ未対応で、LoRA互換性も限定的です。 |
Wan 2.2 I2VとWan 2.1 I2V:パフォーマンス

Wan 2.2 I2VとWan 2.1 I2V:生成例
Wan 2.2 I2V
Wan 2.1 I2V
Wan 2.2 I2Vのコストと利用方法
ハードウェアコスト
- I2V 5Bモデル:
- 最小VRAM要件: 24GB
- 最小GPUモデル: NVIDIA RTX 4090
- 最小GPU台数: 1台
- 単一GPU処理速度: 720P解像度で約524.8秒
- おおよそのGPU価格: NVIDIA RTX 4090は2022年10月12日に発売され、開始価格は1,599ドルです。
- I2V A14Bモデル:
- 480P解像度:
- 最小VRAM要件: 40GB
- 最小GPUモデル: NVIDIA A100 40GB
- 最小GPU台数: 1台
- 単一GPU処理速度: 約810.0秒
- おおよそのGPU価格: NVIDIA A100 40GBの定価は13,135ドルです。
- 720P解像度:
- 最小VRAM要件: 80GB
- 最小GPUモデル: NVIDIA H100 80GB
- 最小GPU台数: 1台
- 単一GPU処理速度: 約1,055.9秒
- おおよそのGPU価格: 提供された情報源では、NVIDIA H100 80GBの価格情報は利用できません。
- 480P解像度:
APIコスト
Novita AIは、開発者がシンプルなAPIを使ってAIモデルを簡単にデプロイできる方法を提供するとともに、構築とスケーリングのための手頃で信頼性の高いGPUクラウドを提供する、オールインワンのAIクラウドプラットフォームです。
| モデル | 価格 | 解像度 | 生成時間 |
| Wan 2.1 I2V | 1動画あたり0.3ドル | 1280*720 | 5秒 |
| Wan 2.2 I2V | 1動画あたり0.4ドル | 1080P | 5秒 |
Wan 2.2 I2Vの利用ガイド
ステップ1:ログインしてモデルライブラリにアクセスする アカウントにログインし、モデルライブラリボタンをクリックしてください。

ステップ2:モデルを選択する 利用可能なオプションを閲覧し、ニーズに合ったモデルを選択してください。

ステップ3:APIキーを取得する APIでの認証のために、新しいAPIキーを提供します。「設定」ページに移動すると、画像の指示に従ってAPIキーをコピーできます。

ステップ4:APIをインストールする 使用しているプログラミング言語専用のパッケージマネージャーを使ってAPIをインストールしてください。

インストール後、開発環境に必要なライブラリをインポートしてください。APIキーでAPIを初期化することで、Novita AI LLMとの連携を開始できます。以下はPythonユーザー向けのチャット補完APIの使用例です。
import requests
url = "https://api.novita.ai/v3/async/wan-2.2-i2v"
payload = {
"input": {
"prompt": "<string>",
"negative_prompt": "<string>",
"img_url": "<string>"
},
"parameters": {
"resolution": "<string>",
"duration": 123,
"prompt_extend": True,
"seed": 123
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Wan 2.2 I2V:よくある問題と解決策
| 問題 | 解決策 |
|---|---|
| フレームのちらつき | 拡散ステップまたはフレームレートを増加させる;I2Vモードを使用する;ポストプロセスで安定化させる。 |
| 処理速度の低下/メモリ不足 | 5Bモデルを使用するか、解像度を下げる;メモリ最適化を有効にする;クラウドGPUの利用を検討する。 |
| プロンプトの不一致 | プロンプトを簡略化する;ネガティブプロンプトを使用する;より良い結果を得るために反復的に改善する。 |
| 出力がぼやけている | 「DetailZ」LoRAを使用する;プロンプトでよりシャープな詳細を要求する;ポストプロセスでシャープ化またはアップスケールする。 |
| 物体が一貫しない | I2Vモードで参照画像を使用する;短いクリップを生成して連結する;プロンプトを一定に保つ。 |
| 音声がない | ポストプロダクションで音声を追加する;AIツールで音楽やナレーションを生成し、映像と同期させる。 |
小規模事業者向けWan 2.2 I2Vのメリットとデメリット
メリット:
- コンテンツ制作コストの削減:撮影や制作チームが不要なため、予算を節約できます。リソースが限られたスタートアップに最適です。
- クリエイティブの制作期間短縮:数分で動画を生成できるため、トレンドへの迅速な対応や迅速なプロトタイピングが可能です。
- 民生用ハードウェアで利用可能:まともなGPUを搭載した標準的なPCで動作するため、高価な専門ハードウェアが不要です。
- クリエイティブの柔軟性:多彩なスタイルやシーンをサポートし、プロンプトを調整するだけで多様なニーズに対応できます。
- オープンソースで進化するツール:コミュニティサポートにより継続的なアップデートが行われ、陳腐化のリスクが低減されます。
デメリット:
- 学習曲線と専門知識の必要性:AIに関する知識やプロンプト作成の学習に時間が必要なため、非技術者にはハードルが高い場合があります。
- 計算コスト:大規模な動画生成には継続的なGPUおよび電力コストが発生するため、予算計上が必要です。
- 品質の制限:出力は720pに制限されており、高品質なニーズにはポスト編集が必要になる場合があります。
- 一貫性とブランディング:生成されるコンテンツは動画間で一貫性に欠ける場合があり、ブランドの整合性を保つために追加のキュレーションが必要です。
- 倫理的・法的配慮:著作権、透明性、オーディエンスの信頼などの問題を慎重に対処する必要があります。
Wan 2.2 I2V技術の今後のトレンド
| トレンド | 説明 |
|---|---|
| 高解像度化 | 1080p以上の解像度と、より長い動画の再生時間(10~15秒、または完全な短編映画)への対応。 |
| 音声・インタラクション | 音声生成とインタラクティブな編集(例:動画から動画への拡張)の統合。 |
| 制御性の向上 | ストーリーボード、フレーム制御のツール、およびシーン間での一貫したキャラクター・ブランディングのサポート。 |
| 高速化とアクセシビリティ向上 | 最適化されたモデルとハードウェアの進化(GPU、クラウドなど)により、リアルタイムに近い動画生成を実現。 |
| 普及の拡大 | エンターテインメント、教育、広告での利用が進み、プラグインやコミュニティスタイルのエコシステムが構築される。 |
| 競争と協業 | オープンソースのWanは研究の進歩を活用し、品質の高いハイブリッドモデルによるイノベーションを推進する。 |
Wan 2.2 I2V APIは、映画的な美観制御、正確な動きの処理、比類のない効率性を提供し、動画生成の新たな標準を設定します。クリエイター、マーケター、研究者のいずれであっても、Wan 2.2の機能はワークフローを簡素化し、コストを削減し、新たなクリエイティブの可能性を開きます。オープンソースの基盤と堅牢なAPIを備えたWan 2.2 I2Vは、誰でも利用可能な強力な動画制作の未来です。
よくある質問
Wan 2.2 I2Vとは何ですか? Wan 2.2 I2Vは、AlibabaのMoEアーキテクチャとWan-VAE圧縮技術を活用して、画像から高品質な動画を生成する高度なAPIです。滑らかで一貫性のあるビジュアルを実現します。
Wan 2.2はどのような解像度に対応していますか? このAPIは720P解像度・24fpsに対応しており、NVIDIA RTX 4090などの民生用GPUに最適化されています。
Wan 2.2はどのように時間的一貫性を保証しますか? Wan 2.2はWan-VAEによる3D時空間圧縮を使用し、滑らかな遷移と一貫した照明・動きを保証します。
Novita AIは、あなたのAIの野望を実現するオールインワンのクラウドプラットフォームです。統合API、サーバーレス、GPUインスタンス——必要なコスト効率の良いツールを提供します。インフラの管理を不要にし、無料で始めて、あなたのAIビジョンを現実にしましょう。
