Novita AI 上的 VIDU Q2：圖像轉影片 API 指南（Turbo、Pro、Pro Fast）

什麼是 Novita AI 上的 VIDU Q2？
Novita AI 上 VIDU Q2 的開發者核心功能
Novita AI 上 VIDU Q2 的 API 整合
Novita AI 上 VIDU Q2 的效能基準
Novita AI 上 VIDU Q2 的計費方案
Novita AI 上 VIDU Q2 的最佳實踐

Novita AI 上的 VIDU Q2 透過開發者友好的 API 提供生產級圖像轉影片生成功能，10 秒內即可生成 540p-1080p 的短片，並支援電影級鏡頭控制與多參考圖像融合。基於 U-ViT 架構打造，它在動作一致性、微表情處理，以及最多 7 張參考圖的融合上表現優異，並採用隨用隨付的計費模式。

什麼是 Novita AI 上的 VIDU Q2？

VIDU Q2 是可在 Novita AI 上使用的進階圖像轉影片 AI 模型，提供多種變體：

起止幀： 你精確定義影片的開頭與結尾，AI 會自動生成中間的過渡內容。
多幀： 你提供一系列圖片（例如分鏡腳本），AI 會為這些圖片之間的移動製作動畫。
Turbo： 專注於速度與效率（執行速度更快、成本更低）。
Pro： 專注於視覺品質、提示詞遵循度與細節（執行速度較慢、成本較高）。
參考圖： 這張圖片不一定是影片的「第一幀」，而是作為「事物應該呈現什麼樣貌」的參考（例如角色設計）。
模板： VIDU Q2 模板轉影片 API，支援多種特效場景模板，可根據模板與輸入的圖片生成特效影片內容。

類別 / 端點名稱	輸入類型（你需要上傳的內容）
VIDU Q2 文字轉影片	文字提示詞
VIDU Q2 模板轉影片	模板 + 素材
VIDU Q2 參考圖轉影片	參考圖 + 文字
*VIDU Q2 Turbo* 圖像轉影片**	單張圖片
*VIDU Q2 Turbo* 起止幀**	起始圖片 & 結束圖片
*VIDU Q2 Turbo* 多幀**	多個關鍵幀
*VIDU Q2 Pro* 圖像轉影片**	單張圖片
*VIDU Q2 Pro* 起止幀**	起始圖片 & 結束圖片
*VIDU Q2 Pro* 多幀**	多個關鍵幀
*VIDU Q2 Pro Fast* 圖像轉影片**	單張圖片
*VIDU Q2 Pro Fast* 起止幀**	起始圖片 & 結束圖片

Novita AI 上 VIDU Q2 的核心架構特性

特性	規格	開發者優勢
多參考融合	圖片	跨主體的一致性身份保留
解析度選項	540p、720p、1080p	平衡畫質與生成速度
時長範圍	1-10 秒	優化短影音內容生成
動作控制	自動/小/中/大振幅	微調動畫強度
鏡頭操作	推鏡、拉鏡、環繞、平移、縮放	透過文字提示詞實現電影級鏡頭控制

立即體驗 VIDU Q2！

Novita AI 上 VIDU Q2 的開發者核心功能

1. 多參考圖像融合

VIDU Q2 的標誌性功能是能同時處理多張輸入圖片。 不同於單圖模型，Q2 的多參考融合功能可實現複雜場景：將一張圖片中的角色臉部與另一張圖片中的道具融合，或是在單支影片中維持多個不同主體的一致性。該模型支援起止幀鎖定，可在整個影片中保留特定姿勢或商標位置。

使用場景： 生成產品展示影片時，結合（1）品牌商標圖片、（2）產品照片、（3）手勢參考圖，Q2 會將三者融合為流暢的 5 秒短片，呈現自然的手部動作展示品牌產品。

2. 電影級鏡頭控制

Q2 能理解文字提示詞中的電影語言：「推拉變焦」、「追蹤鏡頭」、「逆時針環繞」。這讓你可以不需要手動動畫，就能實現精準的鏡頭移動——只要提示「對臉部執行慢速推拉變焦，同時緩慢向右平移」，Q2 就會以流暢的過渡完成這個鏡頭。

3. 物理感知動作

Q2 在真實物理模擬方面表現優異。 用戶測試顯示，它能準確模擬賽道上的汽車加速、自然的面料移動，以及逼真的水流動態。對於需要物理真實感的動作場景或產品展示，Q2 的動作引擎優於缺乏物理感知的模型。

4. 微表情與情緒控制

該模型能捕捉細微的面部動作：猶豫的微笑、眼神的轉移、嘴唇的微幅移動。這對於角色驅動的內容至關重要，例如帶有動畫主持人的解說影片、使用真實感虛擬人物的培訓影片，或需要豐富表情反應的社群媒體短片。

立即體驗 VIDU Q2！

Novita AI 上 VIDU Q2 的 API 整合

設定需求

Novita AI 提供無伺服器、隨用隨付的 API，無需任何 GPU 基礎設施。 設定時間不到 5 分鐘：

前往 novita.ai 註冊帳號
進入儀表板的「API 金鑰」頁面
生成新的 API 金鑰（提供免費額度供測試使用）
使用與 OpenAI 相容的端點格式

立即體驗 VIDU Q2！

音訊與背景音樂生成： Q2 Pro 支援透過 bgm 與 voice_id 參數生成背景音樂與語音合成——單次 API 呼叫即可生成包含同步音訊的完整影片片段。

離峰處理： 啟用 off_peak 模式可降低 30-40% 的成本，僅需稍長的排隊時間——非常適合沒有即時需求的批次作業。

Novita AI 上 VIDU Q2 的效能基準

Q2 Turbo 的生成速度比 Q1 提升 3 倍
與 Q1 相比，臉部/動作一致性有所提升
鏡頭移動之間的過渡更流暢（減少跳躍感）
重建的動作引擎 能實現自然的平移、縮放與追蹤鏡頭
跨幀的物件保留效果優於 Sora 級別的模型

立即體驗 VIDU Q2！

Novita AI 上 VIDU Q2 的計費方案

Novita AI 採用按生成次數計費的模式——無需訂閱或租用 GPU。 成本會根據解析度、時長與變體選擇浮動：

模型	模式	時長	解析度	單支影片價格
VIDU Q2	文字轉影片	5s	540P	$0.0802
VIDU Q2	文字轉影片	5s	720P	$0.1562
VIDU Q2	文字轉影片	5s	1080P	$0.2677
VIDU Q2	參考圖轉影片	5s	540P	$0.1562
VIDU Q2	參考圖轉影片	5s	720P	$0.2008
VIDU Q2	參考圖轉影片	5s	1080P	$0.5132
VIDU Q2 Pro	圖像轉影片	5s	540P	$0.1472
VIDU Q2 Pro	圖像轉影片	5s	720P	$0.2454
VIDU Q2 Pro	圖像轉影片	5s	1080P	$0.5135
VIDU Q2 Pro Fast	圖像轉影片	5s	720P	$0.0713
VIDU Q2 Pro Fast	圖像轉影片	5s	1080P	$0.1430
VIDU Q2 Turbo	圖像轉影片	5s	540P	$0.0624
VIDU Q2 Turbo	圖像轉影片	5s	720P	$0.2141
VIDU Q2 Turbo	圖像轉影片	5s	1080P	$0.3347

立即體驗 VIDU Q2！

Novita AI 上 VIDU Q2 的最佳實踐

Q2 的提示詞工程

提示詞請控制在 100 字以內，優先描述動作與鏡頭，而非冗長的敘事。 良好的提示詞結構：

[Camera movement] + [Subject action] + [Emotion/expression] + [Technical specs]

Example: "Slow dolly zoom on woman's face, hesitant smile forming, eyes looking down then up, natural lighting, 24fps"

避免使用： 「一個美麗的女人在公園的陽光下想著過去，看著樹木感到懷舊，同時鳥兒飛過……」（過於冗長，會稀釋模型對提示詞的遵循度）

多參考圖提示

明確提示要保留哪些元素： 「使用圖 1 的臉部、圖 2 的服裝、圖 3 的背景」
沒有指導的情況下，無關的圖片融合效果會很差——如果要結合臉部與物件，請說明兩者的關係
為獲得最佳效果，請限制在 3-4 張參考圖——7 張圖的容量適用於複雜的多主體場景，並非所有情況都適用

反覆運算工作流程

從 720p、4 秒、自動動作開始——最快的迭代循環
使用固定隨機種子測試 3-5 個提示詞變體——找出最佳的鏡頭/情緒組合
將勝出的變體提升至 1080p、6-8 秒作為最終輸出
批次作業使用離峰模式（節省 30% 成本）

使用佇列進行批次處理

針對大量生成需求：

提交 50-100 個任務並啟用離峰模式
使用 Webhook 回調非同步獲取結果
將任務 ID 存入資料庫以追蹤狀態
為失敗的任務實現重試邏輯（處理速率限制、逾時等問題）

長影音內容的影片延伸

Q2 可生成 1-10 秒的短片。若要生成更長的影片：

方法 1： 使用 VIDU 的延伸 API 為現有片段增加 6 秒以上的內容，無需跳剪
方法 2： 生成重疊的片段（片段 1 的最後一幀成為片段 2 的第一幀），並使用 FFmpeg 拼接
方法 3： 將 Q2 作為場景生成器——生成 5-10 個不同的場景，再透過轉場效果剪輯成敘事內容

立即體驗 VIDU Q2！

Novita AI 上的 VIDU Q2 透過開發者友好的 API 提供生產級圖像轉影片生成功能，無需負擔 GPU 基礎設施成本，同時提供電影級鏡頭控制、多參考圖像融合，以及 15 秒以內的生成時間。

相較於 Q1 生成速度快 3 倍且一致性更佳，Q2 Turbo 針對大量社群媒體內容、快速原型設計與反覆運算工作流程進行了優化。

Q2 Pro 則透過微表情控制與音訊生成功能，提供最高的保真度，適合用於最終的商業素材製作。

高性價比讓 Novita 的 API 極具吸引力——Pro Fast 1080p 片段的起價僅為 $0.143，啟用離峰模式還可再降低 30-40% 的成本。

常見問題

Novita AI 上的 VIDU Q2 Turbo 與 Q2 Pro 有什麼差別？

Q2 Turbo 優先考慮速度（比 Q1 快 3 倍，每支片段約 10 秒），適合反覆運算的工作流程。Q2 Pro 則透過增強的微表情、唇形同步與音訊生成功能，提供最高的保真度——適合對品質要求高於速度的最終素材製作。

在 Novita AI 上生成一支 VIDU Q2 影片需要多少費用？

計費會根據變體、解析度與時長浮動（5 秒為基礎時長）：
Turbo：$0.0624（540p）– $0.3347（1080p）
Pro Fast：$0.0713（720p）– $0.1430（1080p）
Pro：$0.1472（540p）– $0.5135（1080p）
文字轉影片：$0.0802（540p）– $0.2677（1080p）

Novita AI 上的 VIDU Q2 有哪些解析度與時長限制？

解析度選項包含 540p、720p 與 1080p。單支片段的時長範圍為 1-10 秒。若要生成更長的影片，可使用 VIDU 的延伸功能或 FFmpeg 拼接。

Novita AI 是一個 AI 與智能體雲端平台，協助開發者與新創公司以高效能、高可靠性與高性價比建構、部署與擴展模型與智能體應用程式。

Novita AI 上的 VIDU Q2：圖像轉影片 API 指南（Turbo、Pro、Pro Fast）

什麼是 Novita AI 上的 VIDU Q2？

Novita AI 上 VIDU Q2 的核心架構特性

Novita AI 上 VIDU Q2 的開發者核心功能

1. 多參考圖像融合

2. 電影級鏡頭控制

3. 物理感知動作

4. 微表情與情緒控制

Novita AI 上 VIDU Q2 的 API 整合

設定需求

Novita AI 上 VIDU Q2 的效能基準

Novita AI 上 VIDU Q2 的計費方案

Novita AI 上 VIDU Q2 的最佳實踐

Q2 的提示詞工程

多參考圖提示

反覆運算工作流程

使用佇列進行批次處理

長影音內容的影片延伸

常見問題

Product

RESOURCES

Partners

Company

什麼是 Novita AI 上的 VIDU Q2？

Novita AI 上 VIDU Q2 的核心架構特性

Novita AI 上 VIDU Q2 的開發者核心功能

1. 多參考圖像融合

2. 電影級鏡頭控制

3. 物理感知動作

4. 微表情與情緒控制

Novita AI 上 VIDU Q2 的 API 整合

設定需求

Novita AI 上 VIDU Q2 的效能基準

Novita AI 上 VIDU Q2 的計費方案

Novita AI 上 VIDU Q2 的最佳實踐

Q2 的提示詞工程

多參考圖提示

反覆運算工作流程

使用佇列進行批次處理

長影音內容的影片延伸

常見問題

相關文章

Product

RESOURCES

Partners

Company