Novita AI 上的 VIDU Q2 透過開發者友好的 API 提供生產級圖像轉影片生成功能,10 秒內即可生成 540p-1080p 的短片,並支援電影級鏡頭控制與多參考圖像融合。 基於 U-ViT 架構打造,它在動作一致性、微表情處理,以及最多 7 張參考圖的融合上表現優異,並採用隨用隨付的計費模式。
什麼是 Novita AI 上的 VIDU Q2?
VIDU Q2 是可在 Novita AI 上使用的進階圖像轉影片 AI 模型,提供多種變體:
- 起止幀: 你精確定義影片的開頭與結尾,AI 會自動生成中間的過渡內容。
- 多幀: 你提供一系列圖片(例如分鏡腳本),AI 會為這些圖片之間的移動製作動畫。
- Turbo: 專注於速度與效率(執行速度更快、成本更低)。
- Pro: 專注於視覺品質、提示詞遵循度與細節(執行速度較慢、成本較高)。
- 參考圖: 這張圖片不一定是影片的「第一幀」,而是作為「事物應該呈現什麼樣貌」的參考(例如角色設計)。
- 模板: VIDU Q2 模板轉影片 API,支援多種特效場景模板,可根據模板與輸入的圖片生成特效影片內容。
| 類別 / 端點名稱 | 輸入類型(你需要上傳的內容) |
|---|---|
| VIDU Q2 文字轉影片 | 文字提示詞 |
| VIDU Q2 模板轉影片 | 模板 + 素材 |
| VIDU Q2 參考圖轉影片 | 參考圖 + 文字 |
| VIDU Q2 Turbo 圖像轉影片 | 單張圖片 |
| VIDU Q2 Turbo 起止幀 | 起始圖片 & 結束圖片 |
| VIDU Q2 Turbo 多幀 | 多個關鍵幀 |
| VIDU Q2 Pro 圖像轉影片 | 單張圖片 |
| VIDU Q2 Pro 起止幀 | 起始圖片 & 結束圖片 |
| VIDU Q2 Pro 多幀 | 多個關鍵幀 |
| VIDU Q2 Pro Fast 圖像轉影片 | 單張圖片 |
| VIDU Q2 Pro Fast 起止幀 | 起始圖片 & 結束圖片 |
Novita AI 上 VIDU Q2 的核心架構特性
| 特性 | 規格 | 開發者優勢 |
|---|---|---|
| 多參考融合 | 圖片 | 跨主體的一致性身份保留 |
| 解析度選項 | 540p、720p、1080p | 平衡畫質與生成速度 |
| 時長範圍 | 1-10 秒 | 優化短影音內容生成 |
| 動作控制 | 自動/小/中/大振幅 | 微調動畫強度 |
| 鏡頭操作 | 推鏡、拉鏡、環繞、平移、縮放 | 透過文字提示詞實現電影級鏡頭控制 |
Novita AI 上 VIDU Q2 的開發者核心功能
1. 多參考圖像融合
VIDU Q2 的標誌性功能是能同時處理多張輸入圖片。 不同於單圖模型,Q2 的多參考融合功能可實現複雜場景:將一張圖片中的角色臉部與另一張圖片中的道具融合,或是在單支影片中維持多個不同主體的一致性。該模型支援起止幀鎖定,可在整個影片中保留特定姿勢或商標位置。
使用場景: 生成產品展示影片時,結合(1)品牌商標圖片、(2)產品照片、(3)手勢參考圖,Q2 會將三者融合為流暢的 5 秒短片,呈現自然的手部動作展示品牌產品。
2. 電影級鏡頭控制
Q2 能理解文字提示詞中的電影語言:「推拉變焦」、「追蹤鏡頭」、「逆時針環繞」。這讓你可以不需要手動動畫,就能實現精準的鏡頭移動——只要提示「對臉部執行慢速推拉變焦,同時緩慢向右平移」,Q2 就會以流暢的過渡完成這個鏡頭。
3. 物理感知動作
Q2 在真實物理模擬方面表現優異。 用戶測試顯示,它能準確模擬賽道上的汽車加速、自然的面料移動,以及逼真的水流動態。對於需要物理真實感的動作場景或產品展示,Q2 的動作引擎優於缺乏物理感知的模型。
4. 微表情與情緒控制
該模型能捕捉細微的面部動作:猶豫的微笑、眼神的轉移、嘴唇的微幅移動。這對於角色驅動的內容至關重要,例如帶有動畫主持人的解說影片、使用真實感虛擬人物的培訓影片,或需要豐富表情反應的社群媒體短片。
Novita AI 上 VIDU Q2 的 API 整合
設定需求
Novita AI 提供無伺服器、隨用隨付的 API,無需任何 GPU 基礎設施。 設定時間不到 5 分鐘:
- 前往 novita.ai 註冊帳號
- 進入儀表板的「API 金鑰」頁面
- 生成新的 API 金鑰(提供免費額度供測試使用)
- 使用與 OpenAI 相容的端點格式

音訊與背景音樂生成: Q2 Pro 支援透過
bgm與voice_id參數生成背景音樂與語音合成——單次 API 呼叫即可生成包含同步音訊的完整影片片段。離峰處理: 啟用
off_peak模式可降低 30-40% 的成本,僅需稍長的排隊時間——非常適合沒有即時需求的批次作業。
Novita AI 上 VIDU Q2 的效能基準
- Q2 Turbo 的生成速度比 Q1 提升 3 倍
- 與 Q1 相比,臉部/動作一致性有所提升
- 鏡頭移動之間的過渡更流暢(減少跳躍感)
- 重建的動作引擎 能實現自然的平移、縮放與追蹤鏡頭
- 跨幀的物件保留效果優於 Sora 級別的模型
Novita AI 上 VIDU Q2 的計費方案
Novita AI 採用按生成次數計費的模式——無需訂閱或租用 GPU。 成本會根據解析度、時長與變體選擇浮動:
| 模型 | 模式 | 時長 | 解析度 | 單支影片價格 |
|---|---|---|---|---|
| VIDU Q2 | 文字轉影片 | 5s | 540P | $0.0802 |
| VIDU Q2 | 文字轉影片 | 5s | 720P | $0.1562 |
| VIDU Q2 | 文字轉影片 | 5s | 1080P | $0.2677 |
| VIDU Q2 | 參考圖轉影片 | 5s | 540P | $0.1562 |
| VIDU Q2 | 參考圖轉影片 | 5s | 720P | $0.2008 |
| VIDU Q2 | 參考圖轉影片 | 5s | 1080P | $0.5132 |
| VIDU Q2 Pro | 圖像轉影片 | 5s | 540P | $0.1472 |
| VIDU Q2 Pro | 圖像轉影片 | 5s | 720P | $0.2454 |
| VIDU Q2 Pro | 圖像轉影片 | 5s | 1080P | $0.5135 |
| VIDU Q2 Pro Fast | 圖像轉影片 | 5s | 720P | $0.0713 |
| VIDU Q2 Pro Fast | 圖像轉影片 | 5s | 1080P | $0.1430 |
| VIDU Q2 Turbo | 圖像轉影片 | 5s | 540P | $0.0624 |
| VIDU Q2 Turbo | 圖像轉影片 | 5s | 720P | $0.2141 |
| VIDU Q2 Turbo | 圖像轉影片 | 5s | 1080P | $0.3347 |
Novita AI 上 VIDU Q2 的最佳實踐
Q2 的提示詞工程
提示詞請控制在 100 字以內,優先描述動作與鏡頭,而非冗長的敘事。 良好的提示詞結構:
[Camera movement] + [Subject action] + [Emotion/expression] + [Technical specs]
Example: "Slow dolly zoom on woman's face, hesitant smile forming, eyes looking down then up, natural lighting, 24fps"
避免使用: 「一個美麗的女人在公園的陽光下想著過去,看著樹木感到懷舊,同時鳥兒飛過……」(過於冗長,會稀釋模型對提示詞的遵循度)
多參考圖提示
- 明確提示要保留哪些元素: 「使用圖 1 的臉部、圖 2 的服裝、圖 3 的背景」
- 沒有指導的情況下,無關的圖片融合效果會很差——如果要結合臉部與物件,請說明兩者的關係
- 為獲得最佳效果,請限制在 3-4 張參考圖——7 張圖的容量適用於複雜的多主體場景,並非所有情況都適用
反覆運算工作流程
- 從 720p、4 秒、自動動作開始——最快的迭代循環
- 使用固定隨機種子測試 3-5 個提示詞變體——找出最佳的鏡頭/情緒組合
- 將勝出的變體提升至 1080p、6-8 秒作為最終輸出
- 批次作業使用離峰模式(節省 30% 成本)
使用佇列進行批次處理
針對大量生成需求:
- 提交 50-100 個任務並啟用離峰模式
- 使用 Webhook 回調非同步獲取結果
- 將任務 ID 存入資料庫以追蹤狀態
- 為失敗的任務實現重試邏輯(處理速率限制、逾時等問題)
長影音內容的影片延伸
Q2 可生成 1-10 秒的短片。若要生成更長的影片:
- 方法 1: 使用 VIDU 的延伸 API 為現有片段增加 6 秒以上的內容,無需跳剪
- 方法 2: 生成重疊的片段(片段 1 的最後一幀成為片段 2 的第一幀),並使用 FFmpeg 拼接
- 方法 3: 將 Q2 作為場景生成器——生成 5-10 個不同的場景,再透過轉場效果剪輯成敘事內容
Novita AI 上的 VIDU Q2 透過開發者友好的 API 提供生產級圖像轉影片生成功能,無需負擔 GPU 基礎設施成本,同時提供電影級鏡頭控制、多參考圖像融合,以及 15 秒以內的生成時間。
相較於 Q1 生成速度快 3 倍且一致性更佳,Q2 Turbo 針對大量社群媒體內容、快速原型設計與反覆運算工作流程進行了優化。
Q2 Pro 則透過微表情控制與音訊生成功能,提供最高的保真度,適合用於最終的商業素材製作。
高性價比讓 Novita 的 API 極具吸引力——Pro Fast 1080p 片段的起價僅為 $0.143,啟用離峰模式還可再降低 30-40% 的成本。
常見問題
Novita AI 上的 VIDU Q2 Turbo 與 Q2 Pro 有什麼差別?
Q2 Turbo 優先考慮速度(比 Q1 快 3 倍,每支片段約 10 秒),適合反覆運算的工作流程。Q2 Pro 則透過增強的微表情、唇形同步與音訊生成功能,提供最高的保真度——適合對品質要求高於速度的最終素材製作。
在 Novita AI 上生成一支 VIDU Q2 影片需要多少費用?
計費會根據變體、解析度與時長浮動(5 秒為基礎時長):
Turbo:$0.0624(540p)– $0.3347(1080p)
Pro Fast:$0.0713(720p)– $0.1430(1080p)
Pro:$0.1472(540p)– $0.5135(1080p)
文字轉影片:$0.0802(540p)– $0.2677(1080p)
Novita AI 上的 VIDU Q2 有哪些解析度與時長限制?
解析度選項包含 540p、720p 與 1080p。單支片段的時長範圍為 1-10 秒。若要生成更長的影片,可使用 VIDU 的延伸功能或 FFmpeg 拼接。
Novita AI 是一個 AI 與智能體雲端平台,協助開發者與新創公司以高效能、高可靠性與高性價比建構、部署與擴展模型與智能體應用程式。
