主なハイライト
Wan 2.1は、テキストから動画(T2V)、画像から動画(I2V)、動画編集といったタスクで際立ち、多言語のビジュアルテキスト生成もサポートしています。コンシューマー向けGPUに最適化されており、T2V-1.3Bモデルはわずか8.19 GBのVRAMで動作します。
Mochi 1は、オープンソースのAIモデルで、印象的なモーション品質と優れたプロンプト追随性を備えた高忠実度の動画生成に優れています。単一GPUでも動作しますが、最適なパフォーマンスには約60 GBのVRAMが必要です。
動画生成モデルは急速に進化しており、ユーザーはテキストプロンプトや画像から高品質な動画を作成できるようになりました。これらのモデルはアーキテクチャ、機能、ハードウェア要件が異なるため、それぞれの強みと限界を理解することが重要です。この分野で注目すべき2つのモデルがWan 2.1とMochi 1です。
今すぐNovita AIで無料トライアルを開始しましょう。Wan 2.1 APIを統合するには、開発者向けドキュメントをご覧ください。さらに、フルパワーの14Bバージョンも提供しています。
Novitaは市場で非常に競争力のある価格を提供しています。
例えば、Wan 2.1 720P 5秒動画は1本あたりわずか$0.4
一方、Replicateで同様の動画を生成すると1本あたり$2.39かかります
シンプルな比較
今回は、2つのモデルに同じテキストプロンプトを入力し、テキストの理解度と最終的な動画出力を評価します。
プロンプト: 庭園が生き生きと甦る。万華鏡のような蝶の群れが花々の間を舞い、その繊細な羽根が花びらに影を落とす。背景では、壮大な噴水が優雅に水を流し、そのリズミカルな音が心を落ち着かせる背景音となる。大きな木の涼しい陰の下、ひとつの木製の椅子が孤独と内省を誘う。その滑らかな表面は、自然の抱擁の中で静寂のひとときを求める無数の訪問者の感触によって摩耗している。
Wan 2.1
Mochi
プロンプト: スタイリッシュな黒いサングラスをかけ、長い毛を風になびかせたゴールデンレトリバーが、小雨に洗われたばかりの屋上テラスを楽しそうに駆け回る。遠景から始まるシーン。犬が元気に跳ねる様子が徐々に大きくカメラに近づき、尻尾を抑えきれない喜びで振る。背後では水滴がコンクリートにきらめく。曇り空が劇的な背景となり、犬の鮮やかな金色の被毛が視聴者に向かって駆け寄る様子を強調する。
Wan 2.1
Mochi
基本紹介
| **特徴 ** | Wan 2.1 | Mochi 1 |
|---|---|---|
| オープンソース | はい、Alibaba Cloudによりオープンソース化 | はい、Apache 2.0ライセンスでオープンソース |
| 解像度 | 480Pおよび720Pの動画生成に最適化 | 480P解像度で動画を生成。720Pは将来のアップデートで対応予定 |
| 機能 | テキストから動画(T2V)および画像から動画(I2V)タスクに優れる | 主にテキストから動画(T2V)モデル。I2V実装はコミュニティから要望あり |
| 動画長 | RTX 4090上で5秒の480P動画を約4分で生成 | 最大5.4秒の動画を生成。実際のテストでは1分未満で生成可能 |
アーキテクチャ
Wan 2.1
- Wan 2.1は、Flow Matchingフレームワークによって強化された拡散トランスフォーマーパラダイムに基づいています。
- 最先端の3D変分オートエンコーダであるWan-VAEを採用し、効率的な圧縮と高いモーション再現忠実度を実現します。
- T5エンコーダにより、多言語のテキスト入力をシームレスに処理できます。
- アーキテクチャは高度なパラメータ変調システムを統合し、テキスト情報の予測と生成動画への組み込みを最適化します。
- 各トランスフォーマーブロック内のクロスアテンション機構により、テキスト入力をモデルの構造に直接埋め込み、アライメントとコンテキスト統合を強化します。
Mochi 1
- Mochi 1は、非対称拡散トランスフォーマー(AsymmDiT)アーキテクチャに基づく100億パラメータの拡散モデルを搭載しています。
- 非対称エンコーダ・デコーダ構造を特徴とし、高効率かつ高品質な圧縮を実現します。
- AsymmVAEは動画を128倍に圧縮し、8x8の空間圧縮と6倍の時間圧縮を12チャンネルの潜在空間に実現します。
- プロンプトのエンコードには単一のT5-XXL言語モデルを使用し、堅牢な言語理解と統合を確保します。
- アーキテクチャはテキスト処理を合理化し、モデルがより多くのニューラル容量を視覚的推論と動画生成に割り当てられるように設計されています。
ハードウェア要件
Wan 2.1
- T2V-1.3Bモデルはわずか8.19 GBのVRAMで動作し、コンシューマー向けGPUと互換性があります。
- 例えば、RTX 4090上で5秒の480P動画を生成するのに約4分かかります。
Mochi 1
- 単一GPU動作には約60GBのVRAMが必要です。
- マルチGPU動作と単一GPU動作の両方をサポートしています。
- 初期の報告では4基のH100 GPUが必要とされていましたが、最適化により1基のGPUまで大幅に削減されました。
アプリケーション
Wan2.1
コスト効率の良い方法で高品質なビジュアルコンテンツを開発するためのAIを活用する多様なビジネスに適しています。
動画内で直接テキストコンテンツを生成できるため、クリエイティブおよびプロフェッショナルなコンテキストに適用可能です。
Mochi 1
クリエイターが広範な編集スキルや機材を必要とせず、書かれたコンテンツを迅速に動画に変換するのに役立つよう設計されています。
研究、製品開発、クリエイティブ表現など、多様な用途に活用できます。
結論
Wan 2.1を選ぶ のは、複数のタスク(テキストから動画、画像から動画、動画編集)、多言語機能、およびコンシューマー向けGPUでの効率的なパフォーマンスを必要とする場合です。特に、ダイナミックなモーション、空間関係、色の正確さ、複数オブジェクトの相互作用において高いパフォーマンスが要求されるアプリケーションに適しています。
Mochi 1を選ぶ のは、動画生成における高忠実度のモーションと強力なプロンプト追随性に焦点を当てる場合です。VRAM要件は高いものの、オープンソースであり、ComfyUIなどのツールとの互換性があるため、クリエイティブな実験や研究に最適な選択肢です。
Novita AIは、AIの野望を実現するためのオールインワンクラウドプラットフォームです。統合されたAPI、サーバーレス、GPUインスタンス — コスト効率の高い必要なツールを提供します。インフラを排除し、無料で始めて、AIのビジョンを現実にしましょう。

