Novita は市場で非常に競争力のある価格を提供しています。
例: Wan 2.1 I2V 720P 5 秒動画は 1 本あたりわずか $0.3、 Wan 2.1 I2V 480P 5 秒動画は 1 本あたりわずか $0.2 です!
現在、最大 3 つの LoRA に対応!
今すぐ Novita AI で無料トライアルを開始しましょう。Wan 2.1 API を統合するには、詳細を開発者ドキュメントでご確認ください。
Wan 2.1 I2V(Image-to-Video)は、Wan-VAE や Video Diffusion DiT といった最先端技術を組み合わせた、最先端の動画生成モデルです。高忠実度の動画再構築、効率的な圧縮、シームレスなテキストから動画への生成に優れており、堅牢でクリーンなトレーニングデータセットによって支えられています。
Wan2.1 I2V の能力

Wan 2.1 の主な革新
1. Wan-VAE
概要
- 効率的な圧縮と高忠実度の動き再現のために設計された 3D 変分オートエンコーダ(VAE)です。
- 時間的一貫性を維持しながら 1080P 動画のエンコード・デコードが可能です。
- 時空間圧縮の最適化、メモリ使用量の削減、時間的因果性の確保のために複数の戦略を統合しています。
解決される課題
- 効率的な圧縮: 動画データのストレージと計算要件を削減します。
- 高忠実度の再構築: 生成された動画の品質が高く、動きが一貫していることを保証します。
- 時間的一貫性: 生成動画におけるフレームの不連続性やジッターなどの一般的な問題を回避します。
2. Video Diffusion DiT
概要
- Diffusion Transformers をベースに、Flow Matching フレームワークによって拡張されています。
- 多言語テキスト入力(T5 Encoder 経由)とテキスト埋め込み(cross-attention)をサポートします。
- 共有 MLP を使用して時間埋め込みの変調パラメータを予測し、各トランスフォーマーブロックが異なるバイアスを学習できるようにすることで、パフォーマンスを向上させます。
解決される課題
- テキストと動画生成の深い統合: モデルがテキスト記述に従って動画をより理解し生成できるようにします。
- 生成パフォーマンスの向上: パラメータ数を増やさずに、生成される動画の品質と表現力を大幅に向上させます。
- マルチモーダル対応: 複数の言語と入力タイプを処理し、応用範囲を広げます。
3. 候補データセット
概要
- 大規模で厳選され、重複除去された画像と動画のデータセットです。
- データの次元、視覚品質、動画品質に焦点を当てた 4 段階のデータクリーニングプロセスを採用しています。
- 多様で高品質なトレーニングセットを構築します。
解決される課題
- データノイズと冗長性: 低品質または重複したデータを効果的に除去し、トレーニングデータの有効性を向上させます。
- 多様性と品質: モデルに豊富でクリーンなサンプルを提供し、汎化能力と生成能力を高めます。
- 大規模トレーニング: 大規模で高品質なデータセットでの効率的なトレーニングをサポートします。
Wan 2.1 の Vbench
Wan 2.1(Wan-14B)は、ID 一貫性、物理的妥当性、滑らかさといった中核タスクで優れたパフォーマンスを示します。その総合加重スコアは業界で最高レベルであり、現在入手可能な主要な動画生成モデルの 1 つです。ただし、スタイライズ能力やカメラ制御の分野ではまだ改善の余地があります。

Wan 2.1 のハードウェア要件
Wan 2.1 は、特に高解像度や大規模モデルのタスクにおいて高いハードウェア要件があります。Wan 2.1 I2V のメモリ要件は 80GB 近くに達します。メモリと速度の要件を満たすために、複数のハイエンドなデータセンター向け GPU(A100、H100、H20 など)を使用することを推奨します。コンシューマ向け GPU は、小規模モデルと低解像度シナリオにのみ適しています。
| モデル | シングルカード対応 | マルチ GPU 推奨 | 推奨レベル |
|---|---|---|---|
| RTX 4090 | いいえ | いいえ | T2V-1.3B の 480P のみ |
| H20 | 非対応 | 4 GPU または 8 GPU | ★★★ |
| A800/A100 | 対応 | 4 GPU または 8 GPU | ★★★★ |
| H800/H100 | 対応 | 4 GPU または 8 GPU | ★★★★★ |
Novita AI 経由で Wan 2.1 にアクセスする方法
Novita AI は、シンプルな API を使用して AI モデルを簡単にデプロイできる AI クラウドプラットフォームであり、開発者向けに手頃で信頼性の高い GPU クラウドも提供しています。
ステップ 1:ログインしてモデルライブラリにアクセスする
アカウントにログインし、モデルライブラリ ボタンをクリックします。

ステップ 2:モデルを選択する
利用可能なオプションから、ニーズに合ったモデルを選択します。

ステップ 3:無料トライアルを開始する

ステップ 4:API キーを取得する
API を認証するために、新しい API キーを提供します。ページに入ったら、画像のように API キーをコピーできます。

ステップ 5:API をインストールする
使用するプログラミング言語のパッケージマネージャーを使用して API をインストールします。

インストール後、開発環境に必要なライブラリをインポートします。API キーを使って API を初期化し、Novita AI LLM との対話を開始します。以下は Python ユーザー向けのチャット補完 API の使用例です。
import requests
url = "https://api.novita.ai/v3/async/wan-i2v"
payload = {
"extra": {"webhook": {
"url": "<string>",
"test_mode": {
"enabled": True,
"return_task_status": "<string>"
}
}},
"model_name": "<string>",
"image_url": "<string>",
"width": 123,
"height": 123,
"loras": [
{
"path": "<string>",
"scale": {}
}
],
"seed": 123,
"prompt": "<string>",
"negative_prompt": "<string>",
"steps": 123,
"guidance_scale": 123,
"flow_shift": 123,
"enable_safety_checker": True
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.request("POST", url, json=payload, headers=headers)
print(response.text)
Wan 2.1 I2V(Image-to-Video)は、Wan-VAE や Video Diffusion DiT といった最先端技術を組み合わせた、最先端の動画生成モデルです。高忠実度の動画再構築、効率的な圧縮、シームレスなテキストから動画への生成に優れており、堅牢でクリーンなトレーニングデータセットによって支えられています。
よくある質問
Wan 2.1 I2V のハードウェア要件は?
Wan 2.1 I2V は、テキストや画像の入力から高品質な動画を生成するための高度なモデルです。その独自性は、高忠実度の動き再現、時間的一貫性、テキストから動画への生成における多言語サポートにあります。
Wan 2.1 I2V とは何か、そのユニークな点は?
競争力のある価格設定:同様のプラットフォームで $2.39 のところ、5 秒の 720P 動画は $0.40。
詳細なドキュメント付きの使いやすい API を開発者向けに提供。
Wan 2.1 I2V にアクセスするにはどうすればよいですか?
Novita AI プラットフォームを介して Wan 2.1 I2V を使用できます。ログインし、モデルを選択し、API キーを取得して、API を開発環境に統合するだけです。
Novita AI は、AI の野心を実現するオールインワンのクラウドプラットフォームです。統合 API、サーバーレス、GPU インスタンス — コスト効率の高いツールを提供します。インフラを排除し、無料で始めて、AI ビジョンを現実にしましょう。
