Novita AI上のWan 2.2 T2V:新機能とその重要性

Novita AI上のWan 2.2 T2V:新機能とその重要性

Novita AIは公式に最新のWan 2.2 APIをリリースしました。これはテキストto動画生成のための最先端ツールです。本記事では、Wan 2.2とは何か、新機能やアップデートのポイント、パフォーマンスについて解説します。さらに、この強力な技術をすぐに使い始められるよう、よくある質問にもお答えします。

Wan 2.2 T2Vとは?

Wan 2.2 T2Vはアリババが開発した最新のオープンソーステキストto動画生成AIモデルで、以前のWan 2.1システムからの大規模なアップグレード版です。アリババの「Wan」シリーズ動画生成モデル(中国語ではTongyi Wanxiangとも呼ばれます)の一部で、**Mixture-of-Experts(MoE)**アーキテクチャを採用した業界初のオープンソース動画モデルとして注目されています。Wan 2.2は実際には専用のテキストto動画モデルや関連ツールを含むモデルスイートですが、「Wan 2.2 T2V」は特にこのシリーズのテキストto動画コンポーネントを指します。

Wan 2.2 T2Vの仕様

カテゴリ 説明
モデルアーキテクチャ 2つの専門家サブモデルからなるMixture-of-Expertsアーキテクチャを採用しています。
パラメータ数 モデル全体のパラメータ数は270億ですが、推論時にアクティブになるのは140億のみです。
設計上のメリット 専用の「専門家」(各約140億パラメータ)を採用することで、前モデルの**Wan 2.1(140億パラメータ)**と同等の実行コストを維持しつつ、モデルサイズを2倍に拡大しています。
リリースされているモデルバリアント 1. T2V-A14B:テキストから動画を生成するためのテキストto動画モデル。
2. TI2V-5B:両方のタスクに対応するハイブリッドモデルで、民生用ハードウェア向けに最適化されています(50億パラメータ)。
ハードウェア最適化 TI2V-5BNVIDIA RTX 4090単体での実行など、民生用GPU向けに最適化されています。
解像度とフレームレート 標準のWan 2.2 T2Vモデルは、720p解像度(1280×720)24フレーム毎秒5秒間の動画を生成できます。

Wan 2.2 T2Vの主な特徴

映画品質と制御性

  • 映画的な外観と雰囲気を持つ動画を生成するため、美的ラベルで厳選されたデータセットで学習されています。
  • 細かいテキスト制御をサポートしており、ユーザーは以下を指定できます:
    • 照明条件
    • 時間帯
    • 色調
    • カメラアングル
    • 焦点距離
    • その他の映画的な要素。
  • 「ゴールデンアワーの照明」「ワイドアングルレンズ」などの映画用語を理解しているため、動画出力を精密に制御できます。

マルチモーダル生成スイート

  • スタイル転送機能を搭載:
    • ワンクリックでアーティスティックなスタイルを適用でき、写真や動画を漫画やスケッチ形式に変換できます(veo-video.org)。
  • 多様な生成タスクをサポートする統合モデルファミリーを提供し、包括的なクリエイティブAIプラットフォームとなっています。

オープンソースとコミュニティエコシステム Apache 2.0ライセンスの下で公開されており、商用利用も可能です(hackernoon.com)。活発なコミュニティがサポートを提供しており、以下が貢献されています:

  • ガイド
  • 統合ツール(ComfyUI向けなど)
  • ファインチューニングの最適化
  • 一般的なサポート。

Wan 2.2のワークフロー最適化とは?

What Work Process Optimizations are in Wan 2.2?

Wan 2.2 T2VとWan 2.1 T2Vの比較

アーキテクチャの比較

項目 Wan 2.1 Wan 2.2
アーキテクチャ シングルステージのDiffusion Transformer(UNet)。 ハイノイズ専門家とローノイズ専門家を備えた2段階のMixture-of-Experts(MoE)。
パラメータ数 140億(ベース)と13億(小型)。 合計270億(うちアクティブ140億);140億のT2V、140億のI2V、50億のハイブリッドモデル。
学習データ 大規模なデータセットだが、キュレーションは少ない。 画像が+65%、動画が+83%増加し、美しさや映画的な属性にアノテーションされている。
出力品質 良好だがフリッカーが発生しやすく、シンプルなスタイル動画向け。 より高い詳細度、優れた時間的一貫性、リアリズム、映画的なビジュアル。
機能 T2V、I2V、編集(VACEフレームワーク)、LoRAファインチューニング対応。 T2V、I2V、より優れたスタイル転送;VACEは未対応、LoRA互換性は限定的。

パフォーマンスの比較

Wan 2.2 T2V vs Wan 2.1 T2V

出典:Artificial Analysis

生成品質の比較

Wan 2.2 T2V

Wan 2.1 T2V

Wan 2.2 T2Vのコストと利用方法

ハードウェアコスト

モデル 最小VRAM要件(GB) 最小GPUモデル 最小GPU台数 単一GPUでの生成速度(秒)(480P) 単一GPUでの生成速度(秒)(720P) GPUの概算価格(USD)
T2V-5B 22.6 NVIDIA RTX 4090 1 534.7 524.8 $1,599
T2V-A14B 41.3 NVIDIA A100 1 1133.9 4048.7 $10,000~$15,000

注意事項:

  • NVIDIA RTX 4090:2022年10月に発売され、MSRPは$1,599です。
  • NVIDIA A100:構成や市場要因によって価格は異なります。40GB PCIeモデルは通常$10,000~$12,000、80GB PCIeモデルは$12,000~$15,000の範囲です。

API利用コスト

Novita AIは、シンプルなAPIでAIモデルを簡単にデプロイできる開発者向けAIクラウドプラットフォームであり、構築とスケーリングのための手頃で信頼性の高いGPUクラウドも提供しています。

モデル 価格 解像度 生成時間
Wan 2.1 T2V $0.3/動画 1280*720 5秒
Wan 2.2 T2V $0.4/動画 1080P 5秒

今すぐWan 2.2を試す!

Wan 2.2 T2Vの利用ガイド

ステップ1:ログインしてモデルライブラリにアクセス アカウントにログインし、モデルライブラリボタンをクリックしてください。

Log In and Access the Model Library

ステップ2:モデルを選択 利用可能なオプションを閲覧し、ニーズに合ったモデルを選択してください。

Step 2: Choose Your Model

ステップ3:APIキーを取得 API認証のために、新しいAPIキーを発行します。「設定」ページにアクセスすると、画像の指示に従ってAPIキーをコピーできます。

get api key

ステップ4:APIをインストール 使用しているプログラミング言語に対応したパッケージマネージャーを使ってAPIをインストールしてください。

Step 4: Install the API

今すぐWan 2.2を試す!

インストール後、開発環境に必要なライブラリをインポートしてください。APIキーでAPIを初期化することで、Novita AI LLMとの連携を開始できます。以下はPythonユーザー向けのチャット補完APIの使用例です。

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "size": "<string>",
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Wan 2.2 T2Vのよくある問題と解決策

インストールとGPU互換性

  • 問題:古いGPU(GTX 10シリーズなど)でFlashAttentionが原因のエラーが発生する。
  • 解決策:RTX 30/40シリーズやAシリーズなど、対応したGPUを使用してください。または、FlashAttentionを無効化(--disable_flashattn)するか、xFormersに置き換えてパフォーマンスは低下するものの動作可能にします。

生成速度の低下

  • 問題:特に低性能なGPUで出力が非常に遅い。
  • 解決策
    • ステップ数を最適化する(30~50ステップで十分な場合が多い)。
    • より高速なTI2V-5Bモデルを使用する。
    • 専門家の切り替え設定が正しいことを確認する(デフォルトの設定が推奨されます)。

出力品質の問題(フリッカー/アーティファクト)

  • 問題:生成された動画にフリッカーやアーティファクトが発生する。
  • 解決策
    • CFGスケールを調整して、精度と滑らかさのバランスを改善する。
    • 拡散プロセスを最適化するために専門家の引き継ぎステップを調整する。
    • フレームの一貫性を維持するために時間的アテンションを有効にする。
    • 必要に応じてフレーム補間などの後処理ツールを使用する。

プロンプトまたは出力が期待通りでない

  • 問題:出力が説明された场景と異なる、または不要な要素が含まれる。
  • 解決策
    • プロンプトを言い換え、簡略化する。
    • ネガティブプロンプトを使用して特定の要素を除外する。
    • 正しいモデルウェイトが使用されていることを確認する(テキストのみのプロンプトにI2Vを使用しないなど)。

LoRAとファインチューニングの問題

  • 問題:Wan 2.1の古いLoRAモデルはWan 2.2と互換性がない。
  • 解決策:Wan 2.2専用のLoRAやファインチューンがリリースされるのを待つ。ファインチューニングを行う場合は、新しい2専門家アーキテクチャに合わせたものを使用してください。

小規模事業者向けWan 2.2 T2Vのメリットとデメリット

項目 メリット デメリット
ライセンスとコスト Apache 2.0の下で無料で利用可能で、ライセンス料がかからず、参入コストを大幅に削減できます。 大規模利用時の高い計算コスト(クラウド利用料や電気代)。
コンテンツ品質 映画品質の動画を生成可能で、デザイナーや映像制作者を雇用せずに社内で制作できる。 出力品質が予測しにくく、手動でのレビューや編集が必要になる場合がある。
クリエイティブの柔軟性 テキストプロンプトで迅速なプロトタイピングが可能で、コンセプト動画の短納期化に貢献する。 リアルタイムやオンデマンド生成には速度が不足しており、事前計画されたコンテンツ向け。
カスタマイズ性 プロンプトやファインチューニングでブランドの美学に合わせられ、オープンソースの柔軟性で深い統合が可能。 効果的にプロンプトを作成したりモデルをファインチューニングしたりするための専門知識が必要。
スケーラビリティ 数百本の動画を簡単に生成でき、ローカライズ広告やA/Bテストに最適。 大容量利用には高価なハードウェア(RTX 4090やA100など)が必要。
コミュニティサポート オープンソースコミュニティによるサポートがあり、チュートリアルやアップデート、ComfyUIワークフローなどのツールにアクセスできる。 正式なサポートや保証がなく、トラブルシューティングはコミュニティの善意に依存する。
使いやすさ 小規模チームの動画制作を簡素化し、「ミニクリエイティブスタジオ」として機能する。 セットアップにMLの知識(Python、CUDA、モデルパラメータ)が必要で、学習曲線が急。
倫理と法規制 AIを活用したマーケティングのイノベーションを促進する。 意図しないまたは不適切なコンテンツが生成されるリスクや、法的責任の可能性がある。

最適な対象:コンテンツ制作コストを削減し、動画制作をスケールしたい、技術的専門知識があるかコンサルタントにアクセスできる小規模事業者。課題:慎重な計画、技術的なセットアップ、ハードウェアとコストのモニタリングが必要です。

Wan 2.2 T2V技術の今後のトレンド

Future Trends in Wan 2.2 T2V Technology

  1. 高解像度化と長時間化
    • 1080p、4K、10~20秒の長いクリップへの移行。
    • 階層的生成による長時間動画の一貫性向上。
  2. モーションと一貫性の向上
    • モーションの安定性と自然な相互作用の改善。
    • 異なるモーションタイプ(低速・高速など)向けの専門家の特化。
  3. 動画編集とマルチモーダル化
    • 既存動画の編集用テキストコマンド(场景変更やオブジェクト削除など)。
    • 完全な動画プロジェクト向けの音声生成機能の統合。
  4. 効率性とスケーラビリティの向上
    • より小型で高速なモデル(270億品質に近い蒸留50億モデルなど)。
    • ハードウェアの進化によりリアルタイム動画生成が実現可能に。
  5. コミュニティとエコシステムの成長
    • ニッチなファインチューニング(漫画スタイル、医療動画など)。
    • プラグインやモバイルアプリによる普及の拡大。
  6. 倫理と規制
    • AI生成コンテンツの透かしやメタデータの導入。
    • 広告などのユースケースでの透明性を確保する基準の整備。

Wan 2.2 APIのリリースは、テキストto動画技術における大きな進歩を意味します。高解像度化、モーション一貫性の向上、効率性の改善により、Wan 2.2は開発者とクリエイターに新たな可能性を開きます。柔軟なAPIインターフェースにより、あなたのアイデアを形にすることができ、動画生成の新たな基準を設定します。

よくある質問

Wan 2.2とは何ですか? Wan 2.2はオープンソースのテキストto動画モデルで、広告、映画制作など様々な用途に適した高品質で時間的一貫性のある動画を生成できます。

以前のバージョンと比較してWan 2.2の新機能は何ですか?

  • 最大1080pまでの高解像度対応。
  • 時間的一貫性が向上し、フリッカーが低減。
  • 複雑な场景をより適切に処理するためのMixture-of-Experts(MoE)アーキテクチャの導入。

Wan 2.2のパフォーマンスはどうですか? Wan 2.2は速度、メモリ最適化、出力品質に優れています。高性能なGPUと組み合わせることで、高解像度の動画を迅速に生成できます。

Novita AIはあなたのAIの野望を実現するオールインワンクラウドプラットフォームです。統合API、サーバーレス、GPUインスタンス——必要なコスト効率の良いツールを提供します。インフラの管理を不要にし、無料で始めて、あなたのAIビジョンを現実にしましょう。

おすすめの記事