Wan2.6 在 Novita AI:支援角色扮演與多鏡頭控制的電影級創作模型

Wan2.6 在 Novita AI:支援角色扮演與多鏡頭控制的電影級創作模型

Wan2.6 是 AI 影片生成的突破性成果,具備全球最完整的影片創作功能。該模型包含角色扮演、多鏡頭控制、音視訊同步等特色,在競爭對手中脫穎而出。

現在已上線 Novita AI 模型 API 平台,開發者與企業只需透過簡單的 API 整合,即可使用這款前沿模型,無需管理複雜的基礎設施。

本指南將介紹如何在 Novita AI 上使用 Wan2.6 實現文字轉影片、圖片轉影片、參考影片生成等功能。

在 Novita AI 測試平台試用 Wan2.6

什麼是 Wan2.6?

此影片由 Wan2.6 生成

Wan2.6 是 Alibaba Cloud 影片生成模型系列的最新世代,專為專業電影製作與創意內容場景設計。

作為全球功能最完整的影片生成模型,Wan2.6 帶來了革命性的功能,縮短了業餘內容創作與專業電影攝影之間的差距。

核心技術

Wan2.6 採用先進的多模態聯合建模技術處理參考影片,系統會從多個角度提取主體情緒、姿態與完整視覺特徵的時序資訊。

模型同時捕捉聲學特徵,包含語音音色與語速。這些元素會在生成過程中作為控制條件,確保視覺到音訊的完整感官一致性。

技術創新

該模型整合了多項突破性技術:

  • 多模態學習:同時處理視覺、音訊與時序資料,輸出連貫的結果
  • 高階語意理解:將簡單提示詞轉換為具備完整情節的專業多鏡頭敘事內容
  • 統一建模:在鏡頭切換間維持核心主體、場景布局與環境氛圍的一致性
  • 音視訊同步:確保唇形與音訊和視覺內容完美對齊

Wan2.6 核心特色

1. 角色扮演功能

Wan2.6 的招牌功能允許使用者上傳個人影片,將自己轉換為專業級場景中的角色。

該模型支援以下功能:

  • 單人與多角色演出:支援獨角戲或群體互動場景
  • 情緒與動作傳遞:捕捉並重現細膩的表情與肢體動作
  • 跨風格轉換:可將不同類型(科幻、懸疑、愛情)套用至原始素材
  • 專業演技模擬:從一般使用者上傳的影片生成電影級演出效果

2. 多鏡頭控制與轉場

該模型在專業級鏡頭構圖與轉場方面表現優異:

  • 自動鏡頭規劃:將簡單提示詞轉換為多鏡頭腳本
  • 無縫轉場:在不同攝影角度與視角間實現流暢切換
  • 敘事連貫性:在多個鏡頭間維持故事連續性
  • 一致性保留:全程維持角色、場景與氛圍的統一

3. 延長影片時長

Wan2.6 單次生成最長支援 15 秒,是中國 AI 影片市場中單次生成時長最長的模型。

延長的時長能實現更複雜的敘事與完整的場景發展,無需多次生成後再拼接。

4. 音視訊同步

音訊與視覺元素的完美對齊:

  • 唇形同步準確度:對話時的口型動作精準匹配
  • 音訊驅動動畫:音訊提示驅動角色動作與表情變化
  • 環境音效:符合情境的的背景音與特效

5. 強化品質指標

近期升級大幅改善了模型的多項表現:

  • 提升視覺保真度:更高的解析度與細節品質
  • 優化音訊效果:專業級的音訊設計
  • 更強的提示詞遵循能力:更精準解讀複雜指令
  • 電影級攝影手法:自動套用專業電影攝影技術

Novita AI 上的 Wan2.6 模型版本

Novita AI 為 Wan2.6 提供三個獨立的 API 端點,各自針對特定使用場景最佳化,可透過模型 API 平台存取。

文字轉影片(T2V)

直接從文字提示詞生成影片,無需輸入圖片或影片素材。

適合從創意描述生成原創內容,支援多鏡頭控制與敘事排序功能。

核心功能:

  • 從連續提示詞生成多鏡頭敘事內容
  • 自動選擇鏡頭類型與攝影機運動路徑
  • 場景間實現電影級轉場效果
  • 支援 5、10、15 秒的影片時長

技術規格:

參數 支援值 備註
時長 5秒、10秒、15秒 根據內容複雜度選擇
解析度 1280×720、720×1280、960×960、1088×832、832×1088、1920×1080、1080×1920、1440×1440、1632×1248、1248×1632 不支援 480P
模型 ID wan2.6-t2v 在 API 呼叫中使用此識別符

了解更多Wan2.6 文字轉影片 API 文件

圖片轉影片(I2V)

將靜態圖片轉換為動態影片序列。

適合為產品照片、插圖或概念藝術添加可控動作與敘事情境,讓內容活靈活現。

核心功能:

  • 可控制動作強度,調整動畫力度
  • 提供多種解析度選項,適合不同使用場景
  • 透過提示詞指引動畫方向
  • 支援角色與物件的動畫生成

技術規格:

參數 支援值 備註
時長 5秒、10秒、15秒 延長時長適合複雜動畫製作
解析度 1080P、720P 不支援 480P
模型 ID wan2.6-i2v 在 API 呼叫中使用此識別符

了解更多Wan2.6 圖片轉影片 API 文件

參考影片(R2V)

透過參考影片輸入,實現風格轉換、角色扮演或場景修改,轉換現有影片內容。

核心功能:

  • 角色扮演與角色替換
  • 跨視覺類型的風格轉換
  • 保留音視訊同步效果
  • 支援多個參考影片(建議 1-2 支)

技術規格:

參數 支援值
時長 5秒、10秒(不支援 15 秒)
解析度 1280×720、720×1280、960×960、1088×832、832×1088、1920×1080、1080×1920、1440×1440、1632×1248、1248×1632(不支援 480P)
影片格式 MP4、MOV
檔案大小 單個檔案小於 30MB
單參考影片 最長 5 秒
雙參考影片 單支最長 2.5 秒(不建議使用 3 支)
模型 ID wan2.6-v2v

重要注意事項:參考影片無法與音訊檔案同時上傳,reference_video_urls 參數接受影片 URL 陣列。

了解更多Wan2.6 參考影片 API 文件

開始在 Novita AI 上使用 Wan2.6

前置條件

開始前請確保你已準備好以下項目:

  1. Novita AI 帳號:前往 novita.ai 註冊,註冊完成自動獲得 1 美元免費額度
  2. API 金鑰:從你的控制台取得
  3. 開發環境:Python、Node.js 或任何 HTTP 客戶端

非同步請求流程

Novita AI 上的 Wan2.6 採用非同步處理模型,高效處理生成請求:

  1. 提交請求:帶入你的參數,向對應端點發送 POST 請求
  2. 接收任務 ID:API 會立即回傳 task_id
  3. 輪詢結果:使用任務 ID 查詢生成狀態
  4. 取得輸出:生成完成後下載生成的影片

文字轉影片生成範例

以下為使用 Wan2.6 T2V API 從文字生成影片的完整範例:

步驟 1:提交生成請求

import requests

url = "https://api.novita.ai/v3/async/wan2.6-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "audio_url": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "seed": 123,
        "size": "<string>",
        "audio": True,
        "duration": 123,
        "shot_type": "<string>",
        "watermark": True,
        "prompt_extend": True
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

步驟 2:取得影片生成結果

import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

關鍵參數說明

參數 說明 選項
prompt 描述期望影片內容的文字 詳細的場景描述
audio_url 用於同步的可選音訊檔案 音訊檔案的 HTTPS 網址
negative_prompt 要避免出現的元素 品質問題、不相關物件
seed 用於重現結果的隨機種子 任意整數
size 影片解析度 “1280x720”、“1920x1080”、“720x1280” 等
duration 影片長度(單位:秒) 5、10 或 15
shot_type 攝影機角度 “wide_shot”、“medium_shot”、“close_up”
prompt_extend 自動增強提示詞 true/false
watermark 為影片新增浮水印 true/false
audio 啟用音訊生成 true/false

完整的 API 規格與更多參數說明,請參考 Wan2.6 API 文件

多鏡頭提示詞結構

Wan2.6 的多鏡頭功能讓你能建立包含多個攝影角度與場景的連貫敘事序列。要最大化多鏡頭影片的品質,請遵循以下結構化提示詞格式。

提示詞結構公式

Prompt = Overall Description + Shot Number + Timestamp + Shot Content

組成部分說明

1. 整體描述

提供整個影片內容的簡要概述,此部分需描述:

  • 故事主題與敘事風格
  • 主要情緒或核心事件
  • 整體基調與氛圍

這能幫助 AI 理解整體敘事方向,並在跨鏡頭時維持一致性。

2. 鏡頭編號

為每個鏡頭指派連續編號,目的如下:

  • 區分不同場景或片段
  • 清晰組織影片結構
  • 維持轉場間的邏輯流暢度

3. 時間戳記

指定每個鏡頭在影片時間線中的確切時間範圍:

  • 確保內容與影片時長對齊
  • 提升生成準確度
  • 協助精確控制單一鏡頭時長

4. 鏡頭內容

提供每個鏡頭的詳細描述,包含以下項目:

  • 主要角色或物件及其具體行為
  • 動作、對話、表情與手勢
  • 攝影機角度與運動路徑
  • 燈光與氛圍細節

此部分請遵循標準單鏡頭提示詞撰寫規範。

多鏡頭提示詞範例

以下為展示完整結構的實用範例:

This story is told from a third-person perspective, depicting a short drama about abandonment and the rekindling of hope.

Shot 1 [0-3 seconds]: A boy sits alone in the corner of a playground, head down, looking at a letter in his hands. He lets out a soft sigh, his eyes revealing confusion and uncertainty.

Shot 2 [3-5 seconds]: Hard cut transition, fixed camera position, focusing on the boy's eyes. Tears glisten, conveying a sense of loss and helplessness.

Shot 3 [5-10 seconds]: Hard cut transition, scene shifts to a simple classroom. A girl with gentle yet determined eyes, wearing modest clothing, approaches the boy with a warm and reassuring smile to comfort him.

結論

Novita AI 上的 Wan2.6 降低了專業影片製作的門檻,透過角色扮演、多鏡頭敘事與音視訊同步功能,提供前所未有的創作控制權。

無論你是開發影片生成功能的開發者、製作 Campaign 內容的行銷人員,還是探索預先可視化的電影工作者,Novita AI 的模型 API 平台都能免除基礎設施管理的複雜度,同時交付電影級品質的成果。

立即開始生成專業影片,在幾分鐘內將你的創意願景化為現實。

準備好開始了嗎? 建立你的 Novita AI 帳號,使用免費額度存取 Wan2.6,體驗 AI 影片生成的未來。

Novita AI 是領先的 AI 雲端平台,為開發者提供易於使用的 API 與實惠、可靠的 GPU 基礎設施,用於構建與擴展 AI 應用程式。