Novita AI 隆重推出 Wan 2.2 I2V API,這是一款尖端的圖生影片(I2V)生成工具,將徹底改變影片內容創作的方式。作為阿里巴巴 Wan 2.2 T2V 的延伸版本,此 API 採用專家混合(MoE)架構與先進的壓縮技術,可輸出720P 24fps 的影片,並針對消費級 GPU 進行優化。本文將深入介紹 Wan 2.2 I2V 的定義、功能,以及它如何改變影片創作流程。
什麼是 Wan 2.2 I2V?
Wan 2.2 I2V 是一款先進的 AI 驅動影片生成器,可將文字或圖片輸入轉換為短影片片段。「I2V」是「圖生影片」的縮寫,代表其其中一種生成模式(同時也支援文生影片)。Wan 2.2 是 Wan 模型系列的第二個重大版本,相比 2.1 版本有大幅升級。它採用尖端的專家混合(MoE)擴散架構,可根據提示詞輸出高品質 720p 解析度的影片。該模型為開源(Apache 2.0 授權),專為在標準消費級硬體上輸出專業級效果而設計。
緊湊且多功能的 TI2V 解決方案:Wan2.2 推出了搭載先進 Wan2.2-VAE 的開源 5B 模型,實現了驚人的 16×16×4 壓縮比。這款輕量模型無縫支援 720P 解析度、24fps 的文生影片(T2V)與圖生影片(I2V)生成。針對消費級 GPU(如 NVIDIA 4090)優化,它是目前速度最快的 720P@24fps 模型之一,非常適合工業應用與學術研究場景。
Wan 2.2 I2V 架構與圖像理解
兩類 MoE 專家網絡
Wan 2.2 中的**專家混合(MoE)**擴散模型同時使用高噪聲與低噪聲專家網絡,以更好地處理不同複雜度的圖像輸入。例如,高噪聲網絡擅長處理細膩的圖像細節,而低噪聲網絡則專注於整體場景構圖。這種分工方式大幅提升了模型分析與解讀圖像內容的能力。
壓縮與時空一致性
該模型採用 Wan-VAE(變分自編碼器) 進行時空壓縮,實現 64 倍壓縮(時間維度 4 倍,空間維度 16×16)。這使得影片幀的編碼與解碼更高效,同時保留關鍵細節與時間連貫性。這項壓縮技術不僅提升了生成效率,還確保了從靜態圖片到動態影片的過渡流暢自然。
在根據圖片生成影片時,維持時間一致性至關重要,尤其是光照變化與物體運動等細節。Wan-VAE 的 3D 壓縮架構能保證視覺流暢度,並正確延伸圖像內容隨時間的變化,確保輸出高品質影片。
Wan 2.2 I2V 核心功能
| 功能 | 描述 |
|---|---|
| 🎥 電影級美學控制 | 提供電影級的美學控制功能,支援專業電影風格的參數設定。提示詞可指定光照、色調、攝影機角度與構圖細節,影響生成影片的視覺風格。 |
| 🤖 複雜運動與穩定性 | 能流暢再現大規模、複雜的運動效果。可處理快速攝影機運動(平移、俯仰、縮放)與多個移動主體,穩定性大幅提升。得益於 MoE 專家網絡,運動效果更流暢,減少抖動與連貫性問題。 |
| 🎯 精確語義符合度 | 對複雜場景與多物體互動的理解能力更強,生成結果能更貼近用戶提示詞的意圖。擴充的訓練數據與優化的擴散策略提升了結果的一致性和可靠性。 |
Wan 2.2 有哪些工作流程優化?

Wan 2.2 I2V 與 Wan 2.1 I2V 對比
架構對比
| 類別 | Wan 2.1 | Wan 2.2 |
|---|---|---|
| 擴散模型 | 密集擴散架構:單一模型處理所有去噪時間步。 | 專家混合(MoE)擴散:兩個專用子模型處理不同噪聲水平,一個處理高噪聲的早期時間步,另一個處理低噪聲的後期時間步,提升細節與連貫性。 |
| 模型大小與參數量 | 文生影片與圖生影片任務約 140 億參數,提供更小的變體(如 1.3B)用於快速原型開發。 | 約 270 億參數(2 個 140 億專家),但同一時間僅激活一個專家。新增了適用於 TI2V(文字與圖像條件生成)的 5B 混合模型,可輸出 720p 解析度影片,填補了 2.1 小型模型的位置,但 fidelity 更高。 |
| 訓練數據與美學標籤 | 數據集有限,僅提供基礎描述符用於提示詞控制。 | 訓練數據集多出 65% 的圖像與 83% 的影片片段。新增電影級標籤(如光照、色彩、構圖),相比 2.1 的基礎描述符,可實現更精細的風格控制。 |
| 底層組件 | 使用 Wan-VAE 處理 1080p 編碼,專注於維持時間一致性。 | 優化了 Wan-VAE 與 MoE 擴散的整合,在品質與資源使用之間取得更好的平衡。新增 FlashAttention 加速 Transformer 運算,性能優於 2.1。 |
| 功能 | 支援 T2V、I2V,以及透過 VACE 框架進行編輯,完整支援 LoRA 微調。 | 支援 T2V、I2V,以及改進的風格遷移。尚未支援 VACE 框架,LoRA 相容性也有限。 |
性能對比

From Artificial Analysis
生成效果對比
Wan 2.2 I2V
Wan 2.1 I2V
Wan 2.2 I2V 的成本與獲取方式
硬體成本
- I2V 5B 模型:
- 最低顯存需求: 24GB。
- 最低 GPU 型號: NVIDIA RTX 4090。
- 最低 GPU 數量: 1 張。
- 單卡速度: 720P 解析度下約 524.8 秒。
- ** approximate GPU 價格:** NVIDIA RTX 4090 於 2022 年 10 月 12 日發佈,起售價為 1,599 美元。
- I2V A14B 模型:
- 480P 解析度:
- 最低顯存需求: 40GB。
- 最低 GPU 型號: NVIDIA A100 40GB。
- 最低 GPU 數量: 1 張。
- 單卡速度: 約 810.0 秒。
- ** approximate GPU 價格:** NVIDIA A100 40GB 標價 13,135 美元。
- 720P 解析度:
- 最低顯存需求: 80GB。
- 最低 GPU 型號: NVIDIA H100 80GB。
- 最低 GPU 數量: 1 張。
- 單卡速度: 約 1,055.9 秒。
- ** approximate GPU 價格:** 目前未找到 NVIDIA H100 80GB 的公開定價資訊。
- 480P 解析度:
API 使用成本
Novita AI 是一個 AI 雲端平台,為開發者提供簡單的 API 部署 AI 模型的方式,同時也提供平價、可靠的 GPU 雲端服務,用於構建與擴展 AI 應用。
| 模型 | 價格 | 解析度 | 生成時間 |
| Wan 2.1 I2V | $0.3/部影片 | 1280*720 | 5s |
| Wan 2.2 I2V | $0.4/部影片 | 1080P | 5s |
Wan 2.2 I2V 接入指南
步驟 1:登入並進入模型庫
登入您的帳號後,點擊 模型庫 按鈕。

步驟 2:選擇所需模型
瀏覽可選模型,選擇符合您需求的版本。

步驟 3:獲取 API 金鑰
要使用 API 進行身份驗證,我們會為您提供新的 API 金鑰。進入「設定」頁面,即可按照圖中指示複製 API 金鑰。

步驟 4:安裝 API
根據您使用的程式語言,透過對應的套件管理器安裝 API。

安裝完成後,將必要的庫導入您的開發環境,使用 API 金鑰初始化 API,即可開始與 Novita AI LLM 互動。以下為 Python 使用者提供的聊天補全 API 調用範例:
import requests
url = "https://api.novita.ai/v3/async/wan-2.2-i2v"
payload = {
"input": {
"prompt": "<string>",
"negative_prompt": "<string>",
"img_url": "<string>"
},
"parameters": {
"resolution": "<string>",
"duration": 123,
"prompt_extend": True,
"seed": 123
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Wan 2.2 I2V 常見問題與解決方案
| 問題 | 解決方案 |
|---|---|
| 幀閃爍 | 增加擴散步數或幀率;使用 I2V 模式;後期處理時進行穩定。 |
| 速度慢/顯存不足 | 使用 5B 模型或降低解析度;啟用記憶體優化;考慮使用雲端 GPU。 |
| 提示詞不符合預期 | 簡化提示詞;使用負面提示詞;反覆迭代優化提示詞以獲得更好結果。 |
| 輸出模糊 | 使用「DetailZ」LoRA;在提示詞中要求更清晰的細節;後期處理時進行銳化或放大。 |
| 物體不一致 | 使用 I2V 模式中的參考圖片;生成較短的片段並串聯;保持提示詞穩定。 |
| 無音訊 | 在後期製作中添加音訊;使用 AI 工具生成音樂或旁白,並與畫面對齊。 |
Wan 2.2 I2V 對小型企業的優缺點
優點:
- 降低內容製作成本:無需拍攝或製作團隊,節省預算,非常適合資源有限的新創公司。
- 更快的創意產出速度:影片可在數分鐘內生成,能快速回應熱點趨勢,加速原型驗證。
- 消費級硬體即可運行:可在配備 decent GPU 的普通電腦上運行,無需購買昂貴的專業硬體。
- 創意靈活性高:支援多種風格與場景,只需調整提示詞即可滿足多樣化需求。
- 開源且持續迭代:社群支援確保模型持續更新,降低技術過時的風險。
缺點:
- 學習曲線與專業門檻:需要具備 AI 知識或花時間學習提示詞撰寫,對非技術背景的使用者較不友好。
- 運算成本:大規模影片生成會產生持續的 GPU 與能源成本,需要納入預算規劃。
- 品質限制:輸出解析度最高為 720p,若需要高品質需求可能需進行後期編輯。
- 一致性與品牌調性:生成的內容可能在多部影片間缺乏一致性,需要額外篩選以符合品牌定位。
- 倫理與法律風險:需要謹慎處理版權、透明度與觀眾信任等問題。
Wan 2.2 I2V 技術的未來趨勢
| 趨勢 | 描述 |
|---|---|
| 更高解析度 | 支援 1080p 以上解析度與更長的影片時長(10-15 秒或完整短篇影片)。 |
| 音訊與互動功能 | 整合音訊生成與互動式編輯功能(例如影片到影片的增強處理)。 |
| 更強的控制能力 | 提供分鏡腳本、幀控制工具,以及跨場景的角色/品牌一致性維持功能。 |
| 更快且更易取得 | 透過優化模型與硬體進步(如 GPU、雲端服務),實現接近即時影片生成。 |
| 更廣泛的應用場景 | 應用於娛樂、教育、廣告等領域,搭配外掛程式與社群風格的生態系。 |
| 競爭與協作 | 開源的 Wan 模型 leveraging 研究技術進步,推動創新與混合模型發展,提升生成品質。 |
Wan 2.2 I2V API 為影片生成樹立了新標準,提供電影級美學控制、精準運動處理與無與倫比的效率。無論您是創作者、行銷人員還是研究人員,Wan 2.2 的功能都能簡化工作流程、降低成本,並開啟全新的創意可能性。憑藉開源基礎與強大的 API,Wan 2.2 I2V 將是可及且強大的影片創作的未來。
常見問題
什麼是 Wan 2.2 I2V?
Wan 2.2 I2V 是一款先進的 API,可根據圖片生成高品質影片,採用阿里巴巴的 MoE 架構與 Wan-VAE 壓縮技術,確保視覺效果流暢一致。
Wan 2.2 支援什麼解析度?
此 API 支援 720P 解析度、24fps 幀率,針對消費級 GPU(如 NVIDIA RTX 4090)進行了優化。
Wan 2.2 如何確保時間一致性?
Wan 2.2 透過 Wan-VAE 使用3D 時空壓縮技術,確保過渡流暢,光照與運動效果連貫一致。
Novita AI 是全能型雲端平台,助力您實現 AI 抱負。整合式 API、無伺服器服務、GPU 實例——都是您需要的高性價比工具。免除基礎設施負擔,免費開始使用,讓您的 AI 願景成為現實。
