Novita AI 已正式推出最新的Wan 2.2 API,這是一款先進的文字生成影片工具。本文將介紹 Wan 2.2 是什麼、重點說明其新功能與更新內容,並討論其效能。此外,我們也會解答常見問題,幫助你快速上手這款強大的技術。
什麼是 Wan 2.2 T2V?
Wan 2.2 T2V 是阿里巴巴最新開源的文字生成影片生成式 AI 模型,相較於先前的 Wan 2.1 系統實現了重大升級。它是阿里巴巴「Wan」系列影片生成模型的一部分(中文常稱為Tongyi Wanxiang),也是業界首款採用**混合專家(Mixture-of-Experts, MoE)**架構的開源影片模型。Wan 2.2 實際上是一系列模型的集合,包含專用的文字生成影片模型與相關工具,而「Wan 2.2 T2V」特指這個系列中的文字生成影片組件。
Wan 2.2 T2V 規格參數
| 類別 | 說明 |
|---|---|
| 模型架構 | 採用混合專家架構,包含兩個專家子模型。 |
| 參數量 | 模型總參數達270億,但推理時僅有140億參數處於活躍狀態。 |
| 設計優勢 | 透過使用專用「專家」(每個約 140 億參數),模型規模較前代**Wan 2.1(140 億參數)**翻倍,但執行成本維持相近。 |
| 已發布模型版本 | 1. T2V-A14B:用於從文字生成影片的文字生成影片模型。 2. TI2V-5B:適用於兩種任務的混合模型,針對消費級硬體優化(50 億參數)。 |
| 硬體優化 | TI2V-5B 針對消費級 GPU 優化,例如可在單張NVIDIA RTX 4090上運行。 |
| 解析度與幀率 | 標準版 Wan 2.2 T2V 模型可生成時長5 秒、解析度720p(1280×720)、幀率24 幀/秒的影片。 |
Wan 2.2 T2V 核心功能
電影級品質與控制能力
- 經過精心篩選、帶有美學標註的數據集訓練,可生成具有電影質感的影片。
- 支援細粒度文字控制,使用者可指定以下參數:
- 光照條件
- 時段
- 色調
- 攝影機角度
- 焦距
- 其他電影相關參數。
- 能理解「黃金時刻光照」「廣角鏡頭」等電影術語,確保對影片輸出的精準控制。
多模態生成套件
- 包含風格遷移功能:
- 支援一鍵套用藝術風格,例如將照片或影片轉換為卡通、素描等格式(veo-video.org)。
- 提供統一的模型系列,支援多種生成任務,是全面的創意 AI 平台。
開源與社群生態系
採用 Apache 2.0 授權,允許商業使用(hackernoon.com)。由活躍的社群支援,社群貢獻包括:
- 使用指南
- 整合工具(例如適用於 ComfyUI 的工具)
- 微調優化方案
- 一般技術支援。
Wan 2.2 有哪些工作流程優化?

Wan 2.2 T2V 與 Wan 2.1 T2V 對比
架構對比
| 面向 | Wan 2.1 | Wan 2.2 |
|---|---|---|
| 架構 | 單階段擴散 Transformer(UNet)。 | 雙階段混合專家(MoE)架構,包含高噪聲與低噪聲專家。 |
| 參數量 | 140 億(基礎版)與 13 億(小型版)。 | 總參數 270 億(活躍參數 140 億);包含 140 億 T2V、140 億 I2V 與 50 億混合模型。 |
| 訓練數據 | 數據集規模大,但 curation 程度較低。 | 圖像數量增加 65%、影片數量增加 83%,且經過美學與電影屬性的標註。 |
| 輸出品質 | 品質不錯但容易出現閃爍;適合簡單、風格化的影片。 | 細節更豐富、時間一致性更好、真實感更強、電影質感更優異。 |
| 功能 | 支援 T2V、I2V、編輯(VACE 框架)、LoRA 微調。 | 支援 T2V、I2V,風格遷移效果更好;尚未支援 VACE,LoRA 相容性有限。 |
效能對比

資料來源:Artificial Analysis
生成效果對比
Wan 2.2 T2V
Wan 2.1 T2V
Wan 2.2 T2V 的成本與取得方式
硬體成本
| 模型 | 最低顯存需求(GB) | 最低 GPU 型號 | 最低 GPU 數量 | 單卡 480P 生成速度(秒) | 單卡 720P 生成速度(秒) | GPU 參考價格(美元) |
|---|---|---|---|---|---|---|
| T2V-5B | 22.6 | NVIDIA RTX 4090 | 1 | 534.7 | 524.8 | $1,599 |
| T2V-A14B | 41.3 | NVIDIA A100 | 1 | 1133.9 | 4048.7 | $10,000 - $15,000 |
備註:
- NVIDIA RTX 4090:2022 年 10 月發布,建議售價為 $1,599。
- NVIDIA A100:價格依配置與市場因素浮動,40GB PCIe 型號通常價位在 $10,000 至 $12,000 之間,80GB PCIe 型號則為 $12,000 至 $15,000。
API 成本
Novita AI 是 AI 雲端平台,為開發者提供簡單的 API 介面,方便部署 AI 模型,同時也提供高性價比、可靠的 GPU 雲端服務,用於建構與擴展 AI 應用。
| 模型 | 價格 | 解析度 | 生成時間 |
| Wan 2.1 T2V | $0.3/部影片 | 1280*720 | 5 秒 |
| Wan 2.2 T2V | $0.4/部影片 | 1080P | 5 秒 |
Wan 2.2 T2V 存取指南
步驟 1:登入並進入模型庫
登入你的帳號,點擊模型庫按鈕。

步驟 2:選擇模型
瀏覽可用的選項,選擇符合你需求的模型。

步驟 3:取得 API 金鑰
若要透過 API 進行驗證,我們會提供新的 API 金鑰。進入「設定」頁面,即可按照圖片指示複製 API 金鑰。

步驟 4:安裝 API
使用對應程式語言的套件管理器安裝 API。

安裝完成後,將必要的函式庫匯入你的開發環境,使用 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下為 Python 使用者提供的聊天完成 API 呼叫範例:
import requests
url = "https://api.novita.ai/v3/async/wan-2.2-t2v"
payload = {
"input": {
"prompt": "<string>",
"negative_prompt": "<string>"
},
"parameters": {
"size": "<string>",
"prompt_extend": True,
"seed": 123
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Wan 2.2 T2V 常見問題與解決方案
安裝與 GPU 相容性問題
- 問題:舊款 GPU(例如 GTX 10 系列)因 FlashAttention 導致報錯。
- 解決方案:使用相容的 GPU,例如 RTX 30/40 系列或 A 系列。也可以選擇停用 FlashAttention(
--disable_flashattn),或替換為 xFormers,速度較慢但可正常運行。
生成速度過慢
- 問題:輸出速度極慢,在入門級 GPU 上尤其明顯。
- 解決方案:
- 優化生成步數(通常 30-50 步即可滿足需求)。
- 使用較小的 TI2V-5B 模型以提升生成速度。
- 確保專家切換設定正確(建議使用預設配置)。
輸出品質問題(閃爍/異常 artifacts)
- 問題:生成的影片出現閃爍幀或異常 artifacts。
- 解決方案:
- 調整 CFG 數值,在精準度與流暢度之間取得更好的平衡。
- 調整專家交接步驟,達到最佳擴散效果。
- 啟用時間注意力機制,維持幀與幀之間的一致性。
- 必要時可使用幀插值等後處理工具。
提示詞或輸出不符合預期
- 問題:輸出內容與描述的場景不符,或包含不需要的元素。
- 解決方案:
- 重新表述並簡化提示詞。
- 使用負向提示詞排除特定元素。
- 確保使用正確的模型權重(例如,純文字提示詞不要使用 I2V 模型)。
LoRA 與微調問題
- 問題:Wan 2.1 的舊版 LoRA 模型與 Wan 2.2 不相容。
- 解決方案:等待適用於 Wan 2.2 的專用 LoRA 或微調模型。確保所有微調都是針對新的雙專家架構設計的。
Wan 2.2 T2V 對小型企業的優缺點
| 面向 | 優點 | 缺點 |
|---|---|---|
| 授權與成本 | 採用 Apache 2.0 授權,免費使用,無授權費用,大幅降低入門成本。 | 大規模使用時運算成本高(雲端費用或電費)。 |
| 內容品質 | 可生成電影級品質的影片;無需聘請設計師或攝影師,即可內部製作。 | 輸出品質不穩定,可能需要人工審核與編輯。 |
| 創意靈活性 | 透過文字提示詞快速進行原型設計;概念影片製作週期短。 | 即時或隨需生成的效率較低,更適合預先規劃的內容。 |
| 客製化能力 | 可透過提示詞或微調符合品牌美學;開源特性支援更深度的整合。 | 需要專業知識才能有效撰寫提示詞或微調模型。 |
| 擴展性 | 可輕鬆生成數百部影片;非常適合在地化廣告或 A/B 測試。 | 高產能使用需要昂貴的硬體(例如 RTX 4090 或 A100)。 |
| 社群支援 | 有開源社群後盾;可取得教學、更新與ComfyUI 工作流程等工具。 | 無正式支援或保證;故障排除需依賴社群的熱心協助。 |
| 易用性 | 簡化小型團隊的影片製作流程;相當於「迷你創意工作室」。 | 需要機器學習知識進行設定(Python、CUDA、模型參數);學習曲線陡峭。 |
| 倫理與法律 | 推動 AI 行銷創新。 | 可能產生非預期或不恰當的內容,存在法律責任風險。 |
最適合對象:具備技術專業知識或可聘請顧問的小型企業,目標是降低內容製作成本、擴大影片產能。挑戰:需要仔細規劃、技術設定,以及監控硬體與成本。
Wan 2.2 T2V 技術的未來趨勢

- 更高解析度與更長時長
- 朝向1080p、4K解析度,以及更長的片段(10-20 秒)發展。
- 透過階層式生成技術,提升長影片的連貫性。
- 更優異的動態與一致性
- 動態穩定性更好,互動更自然。
- 針對不同動態類型(例如慢動作與快速動作)設計專用專家模型。
- 影片編輯與多模態整合
- 支援透過文字指令編輯現有影片(例如場景切換、物件移除)。
- 整合音訊生成功能,打造完整的影片專案。
- 效率與擴展性提升
- 更小、更快的模型(例如經蒸餾的 50 億參數模型,品質接近 270 億參數模型)。
- 隨著硬體技術進步,即時影片生成將成為可能。
- 社群與生態系成長
- 出現垂直領域的微調模型(例如卡通風格、醫療相關影片)。
- 透過外掛與行動應用程式擴大採用率。
- 倫理與法規規範
- 為 AI 生成內容加入浮水印與後設資料,標註來源。
- 建立標準,確保廣告等使用場景的透明度。
Wan 2.2 API 的發布標誌著文字生成影片技術的重大突破。更高的解析度、更優異的動態一致性與更高的效率,讓 Wan 2.2 為開發者與創作者開啟了全新的可能性。其靈活的 API 介面能幫助你實現創意,樹立影片生成的新標竿。
常見問題
Wan 2.2 是什麼?
Wan 2.2 是一款開源的文字生成影片模型,可生成高品質、動態一致的影片,適用於廣告、影視製作等多種場景。
Wan 2.2 相較於先前版本有哪些新功能?
- 支援更高解析度(最高 1080p)。
- 時間一致性提升,減少閃爍問題。
- 引入混合專家(MoE)架構,能更好地處理複雜場景。
Wan 2.2 的效能如何?
Wan 2.2 在速度、記憶體優化與輸出品質方面表現優異。搭配高階 GPU 時,可快速生成高解析度影片。
Novita AI 是全方位雲端平台,助力你實現 AI 目標。整合 API、無伺服器服務、GPU 實例——都是你需要的工具。免除基礎設施煩惱,免費開始使用,讓你的 AI 願景成為現實。
