Novita AI 上的 Wan 2.2 T2V:有哪些新功能與為何重要

Novita AI 上的 Wan 2.2 T2V:有哪些新功能與為何重要

Novita AI 已正式推出最新的Wan 2.2 API,這是一款先進的文字生成影片工具。本文將介紹 Wan 2.2 是什麼、重點說明其新功能與更新內容,並討論其效能。此外,我們也會解答常見問題,幫助你快速上手這款強大的技術。

什麼是 Wan 2.2 T2V?

Wan 2.2 T2V 是阿里巴巴最新開源的文字生成影片生成式 AI 模型,相較於先前的 Wan 2.1 系統實現了重大升級。它是阿里巴巴「Wan」系列影片生成模型的一部分(中文常稱為Tongyi Wanxiang),也是業界首款採用**混合專家(Mixture-of-Experts, MoE)**架構的開源影片模型。Wan 2.2 實際上是一系列模型的集合,包含專用的文字生成影片模型與相關工具,而「Wan 2.2 T2V」特指這個系列中的文字生成影片組件。

Wan 2.2 T2V 規格參數

類別 說明
模型架構 採用混合專家架構,包含兩個專家子模型。
參數量 模型總參數達270億,但推理時僅有140億參數處於活躍狀態。
設計優勢 透過使用專用「專家」(每個約 140 億參數),模型規模較前代**Wan 2.1(140 億參數)**翻倍,但執行成本維持相近。
已發布模型版本 1. T2V-A14B:用於從文字生成影片的文字生成影片模型。
2. TI2V-5B:適用於兩種任務的混合模型,針對消費級硬體優化(50 億參數)。
硬體優化 TI2V-5B 針對消費級 GPU 優化,例如可在單張NVIDIA RTX 4090上運行。
解析度與幀率 標準版 Wan 2.2 T2V 模型可生成時長5 秒、解析度720p(1280×720)、幀率24 幀/秒的影片。

Wan 2.2 T2V 核心功能

電影級品質與控制能力

  • 經過精心篩選、帶有美學標註的數據集訓練,可生成具有電影質感的影片。
  • 支援細粒度文字控制,使用者可指定以下參數:
    • 光照條件
    • 時段
    • 色調
    • 攝影機角度
    • 焦距
    • 其他電影相關參數。
  • 能理解「黃金時刻光照」「廣角鏡頭」等電影術語,確保對影片輸出的精準控制。

多模態生成套件

  • 包含風格遷移功能:
    • 支援一鍵套用藝術風格,例如將照片或影片轉換為卡通、素描等格式(veo-video.org)。
  • 提供統一的模型系列,支援多種生成任務,是全面的創意 AI 平台。

開源與社群生態系

採用 Apache 2.0 授權,允許商業使用(hackernoon.com)。由活躍的社群支援,社群貢獻包括:

  • 使用指南
  • 整合工具(例如適用於 ComfyUI 的工具)
  • 微調優化方案
  • 一般技術支援。

Wan 2.2 有哪些工作流程優化?

What Work Process Optimizations are in Wan 2.2?

Wan 2.2 T2V 與 Wan 2.1 T2V 對比

架構對比

面向 Wan 2.1 Wan 2.2
架構 單階段擴散 Transformer(UNet)。 雙階段混合專家(MoE)架構,包含高噪聲與低噪聲專家。
參數量 140 億(基礎版)與 13 億(小型版)。 總參數 270 億(活躍參數 140 億);包含 140 億 T2V、140 億 I2V 與 50 億混合模型。
訓練數據 數據集規模大,但 curation 程度較低。 圖像數量增加 65%、影片數量增加 83%,且經過美學與電影屬性的標註。
輸出品質 品質不錯但容易出現閃爍;適合簡單、風格化的影片。 細節更豐富、時間一致性更好、真實感更強、電影質感更優異。
功能 支援 T2V、I2V、編輯(VACE 框架)、LoRA 微調。 支援 T2V、I2V,風格遷移效果更好;尚未支援 VACE,LoRA 相容性有限。

效能對比

Wan 2.2 T2V vs Wan 2.1 T2V

資料來源:Artificial Analysis

生成效果對比

Wan 2.2 T2V

Wan 2.1 T2V

Wan 2.2 T2V 的成本與取得方式

硬體成本

模型 最低顯存需求(GB) 最低 GPU 型號 最低 GPU 數量 單卡 480P 生成速度(秒) 單卡 720P 生成速度(秒) GPU 參考價格(美元)
T2V-5B 22.6 NVIDIA RTX 4090 1 534.7 524.8 $1,599
T2V-A14B 41.3 NVIDIA A100 1 1133.9 4048.7 $10,000 - $15,000

備註:

  • NVIDIA RTX 4090:2022 年 10 月發布,建議售價為 $1,599。
  • NVIDIA A100:價格依配置與市場因素浮動,40GB PCIe 型號通常價位在 $10,000 至 $12,000 之間,80GB PCIe 型號則為 $12,000 至 $15,000。

API 成本

Novita AI 是 AI 雲端平台,為開發者提供簡單的 API 介面,方便部署 AI 模型,同時也提供高性價比、可靠的 GPU 雲端服務,用於建構與擴展 AI 應用。

模型 價格 解析度 生成時間
Wan 2.1 T2V $0.3/部影片 1280*720 5 秒
Wan 2.2 T2V $0.4/部影片 1080P 5 秒

立即體驗 Wan 2.2!

Wan 2.2 T2V 存取指南

步驟 1:登入並進入模型庫

登入你的帳號,點擊模型庫按鈕。

Log In and Access the Model Library

步驟 2:選擇模型

瀏覽可用的選項,選擇符合你需求的模型。

Step 2: Choose Your Model

步驟 3:取得 API 金鑰

若要透過 API 進行驗證,我們會提供新的 API 金鑰。進入「設定」頁面,即可按照圖片指示複製 API 金鑰。

get api key

步驟 4:安裝 API

使用對應程式語言的套件管理器安裝 API。

Step 4: Install the API

立即體驗 Wan 2.2!

安裝完成後,將必要的函式庫匯入你的開發環境,使用 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下為 Python 使用者提供的聊天完成 API 呼叫範例:

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "size": "<string>",
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Wan 2.2 T2V 常見問題與解決方案

安裝與 GPU 相容性問題

  • 問題:舊款 GPU(例如 GTX 10 系列)因 FlashAttention 導致報錯。
  • 解決方案:使用相容的 GPU,例如 RTX 30/40 系列或 A 系列。也可以選擇停用 FlashAttention(--disable_flashattn),或替換為 xFormers,速度較慢但可正常運行。

生成速度過慢

  • 問題:輸出速度極慢,在入門級 GPU 上尤其明顯。
  • 解決方案
    • 優化生成步數(通常 30-50 步即可滿足需求)。
    • 使用較小的 TI2V-5B 模型以提升生成速度。
    • 確保專家切換設定正確(建議使用預設配置)。

輸出品質問題(閃爍/異常 artifacts)

  • 問題:生成的影片出現閃爍幀或異常 artifacts。
  • 解決方案
    • 調整 CFG 數值,在精準度與流暢度之間取得更好的平衡。
    • 調整專家交接步驟,達到最佳擴散效果。
    • 啟用時間注意力機制,維持幀與幀之間的一致性。
    • 必要時可使用幀插值等後處理工具。

提示詞或輸出不符合預期

  • 問題:輸出內容與描述的場景不符,或包含不需要的元素。
  • 解決方案
    • 重新表述並簡化提示詞。
    • 使用負向提示詞排除特定元素。
    • 確保使用正確的模型權重(例如,純文字提示詞不要使用 I2V 模型)。

LoRA 與微調問題

  • 問題:Wan 2.1 的舊版 LoRA 模型與 Wan 2.2 不相容。
  • 解決方案:等待適用於 Wan 2.2 的專用 LoRA 或微調模型。確保所有微調都是針對新的雙專家架構設計的。

Wan 2.2 T2V 對小型企業的優缺點

面向 優點 缺點
授權與成本 採用 Apache 2.0 授權,免費使用,無授權費用,大幅降低入門成本。 大規模使用時運算成本高(雲端費用或電費)。
內容品質 可生成電影級品質的影片;無需聘請設計師或攝影師,即可內部製作。 輸出品質不穩定,可能需要人工審核與編輯。
創意靈活性 透過文字提示詞快速進行原型設計;概念影片製作週期短。 即時或隨需生成的效率較低,更適合預先規劃的內容。
客製化能力 可透過提示詞或微調符合品牌美學;開源特性支援更深度的整合。 需要專業知識才能有效撰寫提示詞或微調模型。
擴展性 可輕鬆生成數百部影片;非常適合在地化廣告或 A/B 測試。 高產能使用需要昂貴的硬體(例如 RTX 4090 或 A100)。
社群支援 有開源社群後盾;可取得教學、更新與ComfyUI 工作流程等工具。 無正式支援或保證;故障排除需依賴社群的熱心協助。
易用性 簡化小型團隊的影片製作流程;相當於「迷你創意工作室」。 需要機器學習知識進行設定(Python、CUDA、模型參數);學習曲線陡峭。
倫理與法律 推動 AI 行銷創新。 可能產生非預期或不恰當的內容,存在法律責任風險。

最適合對象:具備技術專業知識或可聘請顧問的小型企業,目標是降低內容製作成本、擴大影片產能。挑戰:需要仔細規劃、技術設定,以及監控硬體與成本。

Wan 2.2 T2V 技術的未來趨勢

Future Trends in Wan 2.2 T2V Technology

  1. 更高解析度與更長時長
    • 朝向1080p、4K解析度,以及更長的片段(10-20 秒)發展。
    • 透過階層式生成技術,提升長影片的連貫性。
  2. 更優異的動態與一致性
    • 動態穩定性更好,互動更自然。
    • 針對不同動態類型(例如慢動作與快速動作)設計專用專家模型。
  3. 影片編輯與多模態整合
    • 支援透過文字指令編輯現有影片(例如場景切換、物件移除)。
    • 整合音訊生成功能,打造完整的影片專案。
  4. 效率與擴展性提升
    • 更小、更快的模型(例如經蒸餾的 50 億參數模型,品質接近 270 億參數模型)。
    • 隨著硬體技術進步,即時影片生成將成為可能。
  5. 社群與生態系成長
    • 出現垂直領域的微調模型(例如卡通風格、醫療相關影片)。
    • 透過外掛與行動應用程式擴大採用率。
  6. 倫理與法規規範
    • 為 AI 生成內容加入浮水印與後設資料,標註來源。
    • 建立標準,確保廣告等使用場景的透明度。

Wan 2.2 API 的發布標誌著文字生成影片技術的重大突破。更高的解析度、更優異的動態一致性與更高的效率,讓 Wan 2.2 為開發者與創作者開啟了全新的可能性。其靈活的 API 介面能幫助你實現創意,樹立影片生成的新標竿。

常見問題

Wan 2.2 是什麼?

Wan 2.2 是一款開源的文字生成影片模型,可生成高品質、動態一致的影片,適用於廣告、影視製作等多種場景。

Wan 2.2 相較於先前版本有哪些新功能?

  • 支援更高解析度(最高 1080p)。
  • 時間一致性提升,減少閃爍問題。
  • 引入混合專家(MoE)架構,能更好地處理複雜場景。

Wan 2.2 的效能如何?

Wan 2.2 在速度、記憶體優化與輸出品質方面表現優異。搭配高階 GPU 時,可快速生成高解析度影片。

Novita AI 是全方位雲端平台,助力你實現 AI 目標。整合 API、無伺服器服務、GPU 實例——都是你需要的工具。免除基礎設施煩惱,免費開始使用,讓你的 AI 願景成為現實。

推薦閱讀