Wan 2.7 在 Novita AI:文字轉影片 vs 圖片轉影片 vs 參考轉影片

Wan 2.7 在 Novita AI:文字轉影片 vs 圖片轉影片 vs 參考轉影片

Wan 2.7 在 Novita AI 提供了三種截然不同的生成模式 —— 文字轉影片(Text-to-Video)、圖片轉影片(Image-to-Video)以及參考轉影片(Reference-to-Video),每種模式分別解決不同的問題。T2V 能根據提示直接生成影片,並可選擇是否加入音訊;I2V 則能為起始圖片製作動畫,並支援影片續接;R2V 可將參考角色帶入新場景,並提供多鏡頭控制。選錯模式只會徒增麻煩;本指南將每種模式對應到它們真正適用的工作流程中。

從 Wan 2.6 到 2.7 的變革

Wan 2.6 透過參考影片實現了角色扮演、多鏡頭敘事以及視聽同步 —— 一套功能強大但分布於三個端點且略有重疊的功能集。Wan 2.7 則明顯地簡化了這個模型。

最顯著的升級在於 I2V。Wan 2.7 的 I2V 不再侷限於單幀動畫,而是在單一端點支援三種不同的輸入模式:僅首幀、首幀加末幀,以及影片續接。Wan 2.6 的 I2V 僅處理單幀動畫;續接功能則由 R2V 負責。這項整合對於建構延伸或重混現有素材的開發者來說至關重要。

2.7 版的 R2V 也改變了角色模型。Wan 2.6 最多接受兩部參考影片進行角色扮演,而 2.7 版則可接受最多五個參考媒體項目(圖片或影片),並將每個項目對應到提示中的一個命名角色欄位(character1character2……)。大規模的多角色互動如今已成為一級功能,而非變通做法。

T2V 的核心能力 —— 從文字提示生成附音訊的影片 —— 保持不變,但端點更為簡潔:音訊生成預設開啟(你可以將其關閉),而 prompt_extend 標記會在生成前智慧地重寫較短的提示。Wan 2.6 的 T2V 參數體系得以保留並最佳化,而非完全取代。

此外,2.7 版的各模式持續時間範圍也有所不同:T2V 與 I2V 均支援 2–15 秒,而 R2V 的上限為 10 秒。2 秒的最短時間取代了 2.6 版標準持續時間的 5 秒下限。

模式總覽與快速選擇表

T2V I2V R2V
輸入 文字提示 圖片 + 選擇性文字 參考媒體(圖片/影片)+ 文字
輸出長度 2–15 秒 2–15 秒 2–10 秒
解析度 720P、1080P 720P、1080P 720P、1080P
音訊 自動生成或音訊驅動 自動生成或音訊驅動 可透過 audio 標記及 reference_voice 控制
鏡頭控制 單一鏡頭 單一鏡頭 單一或多鏡頭
角色 提示定義 提示定義 最多 5 個命名參考角色
模型 ID wan2.7-t2v wan2.7-i2v wan2.7-r2v
端點 /v3/async/wan2.7-t2v /v3/async/wan2.7-i2v /v3/async/wan2.7-r2v
最適合 從零開始創作原創內容 為現有素材製作動畫 角色一致的角色扮演場景

Wan 2.7 T2V 在 Novita AI 上如何運作?

當你有一個創意概念,但沒有現成的視覺素材時,T2V 就是正確的起點。該模型能直接根據文字描述生成流暢的影片,並自動附加音訊 —— 可以是根據場景生成的背景音樂或音效,也可以是你提供的音訊,作為唇形同步和節奏匹配的驅動來源。

主要參數:

  • prompt —— 場景描述;支援中文與英文
  • size —— 解析度等級:1920*10801280*720720*1280960*9601088*832832*1088(1080P 或 720P)
  • duration —— 整數秒數,範圍 2–15
  • audio_url —— 可選;提供時,模型會使用此音訊驅動生成(唇形同步、節奏匹配)。省略則讓模型自動生成
  • prompt_extend —— 預設 true;在生成前使用 LLM 重寫較短的提示,以獲得更好的品質
  • seed —— 設定以獲得可重現的輸出

T2V 適合誰: 從文案生成產品宣傳短片的行銷人員、大規模製作影片內容原型的開發者,或任何需要原創素材但沒有原始材料的人。

其不足之處: 若無參考圖片或先前的影片幀,要在多次生成中保持複雜的角色一致性相當困難。如果你要針對特定場景或角色進行迭代,I2V 或 R2V 能提供更好的控制。

Wan 2.7 I2V 在 Novita AI 上如何運作?

2.7 版 I2V 的決定性特色在於,它能透過單一端點處理三種不同的動畫模式,區別在於你填入哪些參數:

首幀轉影片: 提供 image_url。模型會將圖片向前製作動畫。這是經典的「讓照片動起來」的應用場景。

首幀加末幀轉影片: 同時提供 image_urllast_frame_url。模型會生成兩個關鍵影格之間的橋接內容,這對於控制轉場或變形序列非常有用。

影片續接: 提供 first_clip_url(現有的影片片段,mp4 或 mov 格式,2–10 秒)。模型會根據其內容和你的提示,將影片向前延伸。

driving_audio_url 參數的運作方式與 T2V 相同 —— 提供時,它會以唇形同步或節奏匹配驅動生成;省略時,音訊會自動生成。

主要參數:

  • image_url —— 首幀模式及首幀加末幀模式必填;首幀圖片(JPEG、JPG、PNG、BMP、WEBP;最大 20 MB;寬/高 240–8000 px)。續接模式不使用此參數。
  • last_frame_url —— 可選;關鍵影格到關鍵影格模式中的末幀圖片
  • first_clip_url —— 可選;續接模式中的現有影片片段(mp4/mov,2–10 秒)
  • resolution —— 720P1080P(預設 1080P);影片寬高比與輸入媒體一致
  • duration —— 2–15 秒(整數)
  • driving_audio_url —— 可選的驅動音訊
  • prompt —— 可選;引導動畫方向和風格

I2V 適合誰: 為產品照片製作動畫的電商團隊、為插圖添加動態的概念藝術家,或是建構延伸現有素材管線的開發者。

注意事項: 續接輸入的片段長度必須為 2–10 秒。輸出影片的解析度寬高比與輸入媒體一致 —— 你無法獨立設定解析度和寬高比。

Wan 2.7 R2V 在 Novita AI 上如何運作?

R2V 是專為角色一致且具敘事性的影片而設計的模式。你提供一個或多個參考媒體項目 —— 圖片或短影片片段 —— 模型會從中提取每個角色的外觀、動作和聲音。接著,你可以在提示中使用 character1character2 等來引導這些角色。

這是 Wan 2.7 相較於 2.6 版取得重大進展的地方。不再僅限於 1–2 部參考影片,2.7 版最多接受總共五個媒體項目(圖片:0–5 張,影片:0–3 部,總數 ≤ 5),讓你能夠擁有一個角色陣容,而無需將不同生成結果拼湊在一起。

shot_type 參數控制敘事結構:single 保持輸出為一個連續鏡頭;multi 則生成帶有轉場的序列。multi 值優先於提示中任何逐鏡頭的指令,因此這是一個刻意的模式切換,而非提示中的提示。

R2V 中的音訊行為也更為明確:audio 布林值(預設 true)控制是否生成音訊,而 reference_voice 則允許你為角色對白指定聲音參考。

主要參數:

  • media —— 必填;參考媒體項目陣列;順序對應至 character1character2……
  • prompt —— 必填;使用 character1character2 來引用角色
  • size —— 解析度;與 T2V 相同的 720P/1080P 選項
  • duration —— 2–10 秒(上限比 T2V/I2V 短)
  • shot_type —— single(預設)或 multi
  • audio —— 布林值,預設 true
  • reference_voice —— 可選;角色說話的聲音參考
  • negative_prompt —— 可選;最多 500 個字元;中文或英文

R2V 適合誰: 建構影片虛擬角色的開發者、需要一致角色陣容的短影音創作者,或任何從事角色扮演或角色表演場景的人。

注意事項: R2V 每次生成的上限為 10 秒。對於較長的序列,請計劃拼接多次 R2V 呼叫。multi 鏡頭類型可在該時間範圍內處理轉場,但不會延長 10 秒的上限。

各模式定價比較

所有三種 Wan 2.7 模式均按生成的影片秒數計費,而非按請求次數計費。解析度也會影響成本 —— 1080P 輸出比 720P 昂貴。R2V 端點有一個額外的 audio 布林值,啟用時會影響定價。

定價列於 Novita AI 的 Wan 2.7 T2VWan 2.7 I2VWan 2.7 R2V 模型頁面上。請直接查看這些頁面以了解當前的每秒費率,因為影片模型定價會頻繁更新。

若要估算某個工作流程的成本:將目標長度乘以所選解析度的每秒費率。例如,一個 10 秒的 1080P T2V 片段成本為 10 乘以標示的 1080P/秒費率。由於 T2V 和 I2V 具有相同的持續時間上限(15 秒)和解析度選項,它們的成本曲線相當;R2V 的 10 秒上限意味著其每次生成的最大成本較低。

成本控制槓桿:

  • 開發與測試階段使用 720P;僅最終輸出時切換至 1080P
  • 保持 prompt_extend 啟用(T2V 預設)—— 它能提升品質且不影響成本
  • 對於 R2V,當你在後製中自行提供音訊時,請設定 audio: false

你應該使用哪種模式?

從 T2V 開始的情況: 你要根據腳本或提示生成原創內容,且沒有來源視覺素材。這是最低摩擦的路徑 —— 一個提示、一次呼叫,就能輸出影片加音訊。適合大量內容生成、行銷活動素材建立,以及快速概念探索。

切換至 I2V 的情況: 你擁有現成的圖片或素材需要讓它們動起來。首幀模式可為產品照片或插圖製作動畫;首幀加末幀模式可讓你在兩個關鍵影格之間進行控制轉場;續接模式則可延伸你已有的素材。當你的來源素材驅動視覺輸出時,I2V 就是正確的選擇。

使用 R2V 的情況: 角色身分和一致性至關重要。如果你的應用場景需要同一個人(或多人)在多個影片中出現,或者你正在建構基於表演的內容,如影片虛擬角色或腳本化場景,那麼 R2V 的參考角色系統就是為此目的而設計的解決方案。multi 鏡頭類型無需額外的分鏡步驟,即可增添電影結構。

實用的決策樹:

  1. 你是否有必須出現在影片中的參考角色或人物? → R2V
  2. 你是否有現成的圖片或影片片段想要製作動畫或延伸? → I2V
  3. 你是否僅從文字描述生成原創素材? → T2V

開始使用 Novita AI API

所有三個端點都遵循相同的非同步模式:POST 提交任務,取得 task_id,然後輪詢 Task Result API。

前置需求: 從你的 Novita AI 控制台取得 API 金鑰。新帳戶可獲得 1 美元免費額度。

T2V 快速入門

import requests, time

API_KEY = "your_api_key"
BASE = "https://api.novita.ai"

# 提交生成任務
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "一隻金毛獵犬在公園的秋葉中奔跑,午後溫暖的光線",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# 輪詢結果
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V —— 影片續接

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://example.com/existing-clip.mp4",
            "prompt": "繼續此場景,鏡頭平順向右平移"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V —— 多角色場景

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://example.com/person-a.jpg"},
                {"type": "image", "url": "https://example.com/person-b.jpg"}
            ],
            "prompt": "character1 和 character2 正在咖啡廳聊天,自然光線"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

每種模式的完整參數參考,請參閱 Wan 2.7 T2V API 文件Wan 2.7 I2V API 文件 以及 Wan 2.7 R2V API 文件

如果你想將 Wan 2.7 與前一代進行比較,Wan 2.6 on Novita AI 指南 涵蓋了完整的 2.6 功能集與參數體系。

結論

Wan 2.7 將其生成能力組織為三種專用模式,而非一個龐大的端點。T2V 是在沒有來源素材時,從想法到影片的最快路徑 —— 你只需要一個提示和一組 API 金鑰。當你從現有圖片或素材開始工作時,I2V 能讓你控制動態和連續性,並在單一端點中提供三種不同的輸入模式。R2V 則處理最困難的問題:跨場景的角色一致影片,內建最多五個參考角色和多鏡頭結構。

從 2.6 升級到 2.7 最明顯的地方在於 I2V(續接現在是原生功能,而非變通做法)和 R2V(五個角色 vs. 兩個,命名欄位 vs. 位置欄位)。T2V 則延續了 2.6 的優勢,並擁有更簡潔的參數體系。

對於大多數工作流程,決策樹很簡單:從 T2V 開始生成原創內容,當你有來源圖片或片段時切換至 I2V,當角色身分需要在多次生成中保持一致時,請使用 R2V。

常見問題

Wan 2.7 T2V、I2V 和 R2V 之間有什麼區別? T2V 僅從文字提示生成影片。I2V 為現有圖片製作動畫或延伸現有影片片段。R2V 使用參考圖片或片段作為角色模板,生成角色一致的影片。每種模式都是一個針對其輸入類型最佳化的獨立端點。

Wan 2.7 能否自動生成音訊? 可以。所有三種模式預設都支援自動生成音訊。T2V 和 I2V 會生成與場景匹配的背景音樂和音效;R2V 則新增了 reference_voice 參數用於角色對白。你可以透過 audio_url(T2V)或 driving_audio_url(I2V)自行提供音訊,或透過 audio: false(R2V)停用音訊。

Wan 2.7 支援哪些影片長度? T2V 和 I2V 均支援 2–15 秒。R2V 每次生成上限為 10 秒。所有模式均使用 2 秒的最短時間。

I2V 影片續接如何運作? 傳送 first_clip_url 指向一個現有的 mp4 或 mov 檔案(2–10 秒)。模型會分析該片段的內容和動態,然後生成一個從最後一幀自然延續的新段落。請勿同時傳送 image_urlfirst_clip_url —— 它們分別用於不同模式。

Wan 2.7 R2V 支援多少個參考角色? 最多總共五個媒體項目(圖片:0–5 張,影片:0–3 部,合計 ≤ 5)。每個項目對應到提示中使用的命名角色欄位(character1character2……)。

解析度會影響定價嗎? 會的。所有三種模式均按生成的影片秒數計費,而 1080P 每秒的費用高於 720P。開發階段使用 720P,最終輸出再切換至 1080P,以有效管理成本。

我可以透過 REST API 使用 Wan 2.7 嗎? 可以。所有端點皆基於 REST,並遵循非同步模式:POST 提交任務以取得 task_id,然後輪詢 Task Result API。請參閱上方「開始使用」章節中的 API 範例,以及 Novita AI API 文件 中的完整參數參考。

推薦文章