Novita AI 上的 VIDU Q2:圖像轉影片 API 指南(Turbo、Pro、Pro Fast)

Novita AI 上的 VIDU Q2:圖像轉影片 API 指南(Turbo、Pro、Pro Fast)

Novita AI 上的 VIDU Q2 透過開發者友好的 API 提供生產級圖像轉影片生成功能,10 秒內即可生成 540p-1080p 的短片,並支援電影級鏡頭控制與多參考圖像融合。 基於 U-ViT 架構打造,它在動作一致性、微表情處理,以及最多 7 張參考圖的融合上表現優異,並採用隨用隨付的計費模式。

什麼是 Novita AI 上的 VIDU Q2?

VIDU Q2 是可在 Novita AI 上使用的進階圖像轉影片 AI 模型,提供多種變體:

  • 起止幀: 你精確定義影片的開頭與結尾,AI 會自動生成中間的過渡內容。
  • 多幀: 你提供一系列圖片(例如分鏡腳本),AI 會為這些圖片之間的移動製作動畫。
  • Turbo: 專注於速度與效率(執行速度更快、成本更低)。
  • Pro: 專注於視覺品質、提示詞遵循度與細節(執行速度較慢、成本較高)。
  • 參考圖: 這張圖片不一定是影片的「第一幀」,而是作為「事物應該呈現什麼樣貌」的參考(例如角色設計)。
  • 模板: VIDU Q2 模板轉影片 API,支援多種特效場景模板,可根據模板與輸入的圖片生成特效影片內容。
類別 / 端點名稱 輸入類型(你需要上傳的內容)
VIDU Q2 文字轉影片 文字提示詞
VIDU Q2 模板轉影片 模板 + 素材
VIDU Q2 參考圖轉影片 參考圖 + 文字
VIDU Q2 Turbo 圖像轉影片 單張圖片
VIDU Q2 Turbo 起止幀 起始圖片 & 結束圖片
VIDU Q2 Turbo 多幀 多個關鍵幀
VIDU Q2 Pro 圖像轉影片 單張圖片
VIDU Q2 Pro 起止幀 起始圖片 & 結束圖片
VIDU Q2 Pro 多幀 多個關鍵幀
VIDU Q2 Pro Fast 圖像轉影片 單張圖片
VIDU Q2 Pro Fast 起止幀 起始圖片 & 結束圖片

Novita AI 上 VIDU Q2 的核心架構特性

特性 規格 開發者優勢
多參考融合 圖片 跨主體的一致性身份保留
解析度選項 540p、720p、1080p 平衡畫質與生成速度
時長範圍 1-10 秒 優化短影音內容生成
動作控制 自動/小/中/大振幅 微調動畫強度
鏡頭操作 推鏡、拉鏡、環繞、平移、縮放 透過文字提示詞實現電影級鏡頭控制

立即體驗 VIDU Q2!

Novita AI 上 VIDU Q2 的開發者核心功能

1. 多參考圖像融合

VIDU Q2 的標誌性功能是能同時處理多張輸入圖片。 不同於單圖模型,Q2 的多參考融合功能可實現複雜場景:將一張圖片中的角色臉部與另一張圖片中的道具融合,或是在單支影片中維持多個不同主體的一致性。該模型支援起止幀鎖定,可在整個影片中保留特定姿勢或商標位置。

使用場景: 生成產品展示影片時,結合(1)品牌商標圖片、(2)產品照片、(3)手勢參考圖,Q2 會將三者融合為流暢的 5 秒短片,呈現自然的手部動作展示品牌產品。

2. 電影級鏡頭控制

Q2 能理解文字提示詞中的電影語言:「推拉變焦」、「追蹤鏡頭」、「逆時針環繞」。這讓你可以不需要手動動畫,就能實現精準的鏡頭移動——只要提示「對臉部執行慢速推拉變焦,同時緩慢向右平移」,Q2 就會以流暢的過渡完成這個鏡頭。

3. 物理感知動作

Q2 在真實物理模擬方面表現優異。 用戶測試顯示,它能準確模擬賽道上的汽車加速、自然的面料移動,以及逼真的水流動態。對於需要物理真實感的動作場景或產品展示,Q2 的動作引擎優於缺乏物理感知的模型。

4. 微表情與情緒控制

該模型能捕捉細微的面部動作:猶豫的微笑、眼神的轉移、嘴唇的微幅移動。這對於角色驅動的內容至關重要,例如帶有動畫主持人的解說影片、使用真實感虛擬人物的培訓影片,或需要豐富表情反應的社群媒體短片。

立即體驗 VIDU Q2!

Novita AI 上 VIDU Q2 的 API 整合

設定需求

Novita AI 提供無伺服器、隨用隨付的 API,無需任何 GPU 基礎設施。 設定時間不到 5 分鐘:

  1. 前往 novita.ai 註冊帳號
  2. 進入儀表板的「API 金鑰」頁面
  3. 生成新的 API 金鑰(提供免費額度供測試使用)
  4. 使用與 OpenAI 相容的端點格式

vidu q2 on novita ai

立即體驗 VIDU Q2!

音訊與背景音樂生成: Q2 Pro 支援透過 bgmvoice_id 參數生成背景音樂與語音合成——單次 API 呼叫即可生成包含同步音訊的完整影片片段。

離峰處理: 啟用 off_peak 模式可降低 30-40% 的成本,僅需稍長的排隊時間——非常適合沒有即時需求的批次作業。

Novita AI 上 VIDU Q2 的效能基準

  • Q2 Turbo 的生成速度比 Q1 提升 3 倍
  • 與 Q1 相比,臉部/動作一致性有所提升
  • 鏡頭移動之間的過渡更流暢(減少跳躍感)
  • 重建的動作引擎 能實現自然的平移、縮放與追蹤鏡頭
  • 跨幀的物件保留效果優於 Sora 級別的模型

立即體驗 VIDU Q2!

Novita AI 上 VIDU Q2 的計費方案

Novita AI 採用按生成次數計費的模式——無需訂閱或租用 GPU。 成本會根據解析度、時長與變體選擇浮動:

模型 模式 時長 解析度 單支影片價格
VIDU Q2 文字轉影片 5s 540P $0.0802
VIDU Q2 文字轉影片 5s 720P $0.1562
VIDU Q2 文字轉影片 5s 1080P $0.2677
VIDU Q2 參考圖轉影片 5s 540P $0.1562
VIDU Q2 參考圖轉影片 5s 720P $0.2008
VIDU Q2 參考圖轉影片 5s 1080P $0.5132
VIDU Q2 Pro 圖像轉影片 5s 540P $0.1472
VIDU Q2 Pro 圖像轉影片 5s 720P $0.2454
VIDU Q2 Pro 圖像轉影片 5s 1080P $0.5135
VIDU Q2 Pro Fast 圖像轉影片 5s 720P $0.0713
VIDU Q2 Pro Fast 圖像轉影片 5s 1080P $0.1430
VIDU Q2 Turbo 圖像轉影片 5s 540P $0.0624
VIDU Q2 Turbo 圖像轉影片 5s 720P $0.2141
VIDU Q2 Turbo 圖像轉影片 5s 1080P $0.3347

立即體驗 VIDU Q2!

Novita AI 上 VIDU Q2 的最佳實踐

Q2 的提示詞工程

提示詞請控制在 100 字以內,優先描述動作與鏡頭,而非冗長的敘事。 良好的提示詞結構:

[Camera movement] + [Subject action] + [Emotion/expression] + [Technical specs]

Example: "Slow dolly zoom on woman's face, hesitant smile forming, eyes looking down then up, natural lighting, 24fps"

避免使用: 「一個美麗的女人在公園的陽光下想著過去,看著樹木感到懷舊,同時鳥兒飛過……」(過於冗長,會稀釋模型對提示詞的遵循度)

多參考圖提示

  • 明確提示要保留哪些元素: 「使用圖 1 的臉部、圖 2 的服裝、圖 3 的背景」
  • 沒有指導的情況下,無關的圖片融合效果會很差——如果要結合臉部與物件,請說明兩者的關係
  • 為獲得最佳效果,請限制在 3-4 張參考圖——7 張圖的容量適用於複雜的多主體場景,並非所有情況都適用

反覆運算工作流程

  1. 從 720p、4 秒、自動動作開始——最快的迭代循環
  2. 使用固定隨機種子測試 3-5 個提示詞變體——找出最佳的鏡頭/情緒組合
  3. 將勝出的變體提升至 1080p、6-8 秒作為最終輸出
  4. 批次作業使用離峰模式(節省 30% 成本)

使用佇列進行批次處理

針對大量生成需求:

  1. 提交 50-100 個任務並啟用離峰模式
  2. 使用 Webhook 回調非同步獲取結果
  3. 將任務 ID 存入資料庫以追蹤狀態
  4. 為失敗的任務實現重試邏輯(處理速率限制、逾時等問題)

長影音內容的影片延伸

Q2 可生成 1-10 秒的短片。若要生成更長的影片:

  • 方法 1: 使用 VIDU 的延伸 API 為現有片段增加 6 秒以上的內容,無需跳剪
  • 方法 2: 生成重疊的片段(片段 1 的最後一幀成為片段 2 的第一幀),並使用 FFmpeg 拼接
  • 方法 3: 將 Q2 作為場景生成器——生成 5-10 個不同的場景,再透過轉場效果剪輯成敘事內容

立即體驗 VIDU Q2!

Novita AI 上的 VIDU Q2 透過開發者友好的 API 提供生產級圖像轉影片生成功能,無需負擔 GPU 基礎設施成本,同時提供電影級鏡頭控制、多參考圖像融合,以及 15 秒以內的生成時間。

相較於 Q1 生成速度快 3 倍且一致性更佳,Q2 Turbo 針對大量社群媒體內容、快速原型設計與反覆運算工作流程進行了優化。

Q2 Pro 則透過微表情控制與音訊生成功能,提供最高的保真度,適合用於最終的商業素材製作。

高性價比讓 Novita 的 API 極具吸引力——Pro Fast 1080p 片段的起價僅為 $0.143,啟用離峰模式還可再降低 30-40% 的成本。

常見問題

Novita AI 上的 VIDU Q2 Turbo 與 Q2 Pro 有什麼差別?

Q2 Turbo 優先考慮速度(比 Q1 快 3 倍,每支片段約 10 秒),適合反覆運算的工作流程。Q2 Pro 則透過增強的微表情、唇形同步與音訊生成功能,提供最高的保真度——適合對品質要求高於速度的最終素材製作。

在 Novita AI 上生成一支 VIDU Q2 影片需要多少費用?

計費會根據變體、解析度與時長浮動(5 秒為基礎時長):
Turbo:$0.0624(540p)– $0.3347(1080p)
Pro Fast:$0.0713(720p)– $0.1430(1080p)
Pro:$0.1472(540p)– $0.5135(1080p)
文字轉影片:$0.0802(540p)– $0.2677(1080p)

Novita AI 上的 VIDU Q2 有哪些解析度與時長限制?

解析度選項包含 540p、720p 與 1080p。單支片段的時長範圍為 1-10 秒。若要生成更長的影片,可使用 VIDU 的延伸功能或 FFmpeg 拼接。

Novita AI 是一個 AI 與智能體雲端平台,協助開發者與新創公司以高效能、高可靠性與高性價比建構、部署與擴展模型與智能體應用程式。