Novita AI 上的 VIDU Q2:图生视频 API 指南(Turbo、Pro、Pro Fast)

Novita AI 上的 VIDU Q2:图生视频 API 指南(Turbo、Pro、Pro Fast)

Novita AI 上的 VIDU Q2 提供面向生产环境的图生视频生成能力,通过开发者友好的 API 即可在 10 秒内生成 540p-1080p 的视频片段,支持电影级镜头控制与多参考图融合功能。 该模型基于 U-ViT 架构打造,在运动一致性、微表情捕捉、7 张参考图处理方面表现优异,支持按需付费的计费模式。

什么是 Novita AI 上的 VIDU Q2?

VIDU Q2 是 Novita AI 上提供的高级图生视频 AI 模型,包含多种变体:

  • 首尾帧模式: 你可以精准定义视频的起始帧和结束帧,AI 会自动生成中间的过渡内容。
  • 多帧模式: 你提供一系列图片(类似分镜脚本),AI 会自动生成帧与帧之间的动画运动。
  • Turbo 版本: 主打速度与效率,生成速度更快、成本更低。
  • Pro 版本: 主打视觉质量、提示词遵循度与细节表现,生成速度稍慢、成本更高。
  • 参考图模式: 输入图片不一定是视频的首帧,而是作为“内容应该呈现什么样子”的参考(例如角色设计)。
  • 模板模式: VIDU Q2 模板生视频 API,支持多种特效场景模板,可基于模板和输入图片生成特效视频内容。
分类 / 接口名称 输入类型(你需要上传的内容)
VIDU Q2 文生视频 文本提示词
VIDU Q2 模板生视频 模板 + 素材
VIDU Q2 参考图生视频 参考图 + 文本
VIDU Q2 Turbo 图生视频 单张图片
VIDU Q2 Turbo 首尾帧生视频 起始帧图片 + 结束帧图片
VIDU Q2 Turbo 多帧生视频 多个关键帧
VIDU Q2 Pro 图生视频 单张图片
VIDU Q2 Pro 首尾帧生视频 起始帧图片 + 结束帧图片
VIDU Q2 Pro 多帧生视频 多个关键帧
VIDU Q2 Pro Fast 图生视频 单张图片
VIDU Q2 Pro Fast 首尾帧生视频 起始帧图片 + 结束帧图片

VIDU Q2 在 Novita AI 上的核心架构特性

特性 规格参数 开发者收益
多参考图融合 支持多张图片输入 跨主体保持身份一致性
分辨率选项 540p、720p、1080p 可平衡生成质量与速度
时长范围 1-10 秒 针对短视频内容优化
运动控制 自动/小/中/大幅运动幅度 可精细调整动画强度
镜头操作 推镜、拉镜、环绕、平移、缩放 通过文本提示词实现电影级镜头控制

立即试用 VIDU Q2!

Novita AI 上 VIDU Q2 的核心开发者能力

1. 多参考图融合

VIDU Q2 的标志性特性是支持同时处理多张输入图片。 与单图模型不同,Q2 的多参考图融合支持复杂场景生成:你可以将一张图片中的人脸与另一张图片中的道具融合,或在单个视频中保持多个不同主体的身份一致性。该模型支持首尾帧锁定功能,可确保整个片段中特定姿势或 logo 位置保持不变。

使用场景: 生成产品演示视频时,可以结合(1)品牌 logo 图、(2)产品照片、(3)手势参考图——Q2 会将三者融合为一个连贯的 5 秒视频,呈现自然的手部动作展示品牌产品。

2. 电影级镜头控制

Q2 可以理解文本提示词中的电影镜头术语,例如“推拉变焦”“追踪镜头”“逆时针环绕”。你无需手动制作动画,只需在提示词中指定“面部特写推拉变焦,同时缓慢向右平移”,Q2 就能执行带有平滑过渡的镜头运动。

3. 物理感知运动

Q2 在真实物理模拟方面表现优异。 用户测试显示,该模型可以实现精准的赛道车辆加速、自然的织物运动、逼真的水流动态。对于需要物理真实感的动作场景或产品演示,Q2 的运动引擎表现优于缺乏物理感知的模型。

4. 微表情与情绪控制

该模型可以捕捉细腻的面部动作:犹豫的微笑、眼神接触的变化、嘴唇的微动。对于注重情感真实性的角色驱动类内容而言,这一特性至关重要,例如带有动画主持人的讲解视频、使用真实感虚拟人的培训视频,或需要 expressive 反应的社交媒体短片。

立即试用 VIDU Q2!

Novita AI 上 VIDU Q2 的 API 集成

前置要求

Novita AI 提供无服务器、按需付费的 API,无需自备 GPU 基础设施。 整个配置流程不超过 5 分钟:

  1. 访问 novita.ai 注册账号
  2. 进入控制台的 API 密钥页面
  3. 生成新的 API 密钥(提供免费额度供测试使用)
  4. 使用兼容 OpenAI 的端点格式

Novita AI 上的 VIDU Q2

立即试用 VIDU Q2!

音频与背景音乐生成: Q2 Pro 支持通过 bgmvoice_id 参数生成背景音乐和语音合成,单次 API 调用即可生成带同步音频的完整视频片段。

非高峰时段处理: 开启 off_peak 模式可降低 30%-40% 的成本,仅需稍长的排队时间,非常适合无实时要求的批量任务。

Novita AI 上 VIDU Q2 的性能基准

  • Q2 Turbo 相比 Q1 速度提升 3 倍
  • 相比 Q1,面部与运动一致性显著提升
  • 镜头运动之间的过渡更流畅(减少了跳帧问题)
  • 重建了运动引擎,平移、缩放、追踪镜头更自然
  • 跨帧物体保持效果优于 Sora 类模型

立即试用 VIDU Q2!

Novita AI 上 VIDU Q2 的定价

Novita AI 采用按次生成计费,无需订阅或租赁 GPU。 成本随分辨率、时长和版本选择浮动:

模型 模式 时长 分辨率 单条视频价格
VIDU Q2 文生视频 5 秒 540P $0.0802
VIDU Q2 文生视频 5 秒 720P $0.1562
VIDU Q2 文生视频 5 秒 1080P $0.2677
VIDU Q2 参考图生视频 5 秒 540P $0.1562
VIDU Q2 参考图生视频 5 秒 720P $0.2008
VIDU Q2 参考图生视频 5 秒 1080P $0.5132
VIDU Q2 Pro 图生视频 5 秒 540P $0.1472
VIDU Q2 Pro 图生视频 5 秒 720P $0.2454
VIDU Q2 Pro 图生视频 5 秒 1080P $0.5135
VIDU Q2 Pro Fast 图生视频 5 秒 720P $0.0713
VIDU Q2 Pro Fast 图生视频 5 秒 1080P $0.1430
VIDU Q2 Turbo 图生视频 5 秒 540P $0.0624
VIDU Q2 Turbo 图生视频 5 秒 720P $0.2141
VIDU Q2 Turbo 图生视频 5 秒 1080P $0.3347

立即试用 VIDU Q2!

Novita AI 上 VIDU Q2 的最佳实践

Q2 提示词工程

提示词控制在 100 词以内,优先描述运动和镜头,避免冗长的叙事。 优质提示词结构:

[镜头运动] + [主体动作] + [情绪/表情] + [技术参数]

示例:"Slow dolly zoom on woman's face, hesitant smile forming, eyes looking down then up, natural lighting, 24fps"

避免示例: “一个阳光明媚的公园里,一位美丽的女士看着树木,回忆过去,感到怀旧,鸟儿飞过……”(内容过于冗长,会降低提示词遵循度)

多参考图使用技巧

  • 明确提示需要保留的元素: 例如“使用图 1 的人脸、图 2 的服装、图 3 的背景”
  • 无指导的情况下,不相关的图片融合效果很差——如果要结合人脸和物体,需要明确二者的关系
  • 建议最多使用 3-4 张参考图以获得最佳效果——7 张参考图的能力适用于复杂的多主体场景,并非所有情况都适用

迭代工作流

  1. 优先使用 720p、4 秒、自动运动参数——迭代速度最快
  2. 固定随机种子,测试 3-5 种提示词变体——找到最佳的镜头/情绪组合
  3. 将最优方案升级为 1080p、6-8 秒作为最终输出
  4. 批量任务使用非高峰模式(可节省 30% 成本)

队列批量处理

针对大规模生成需求:

  1. 开启非高峰模式,提交 50-100 个任务
  2. 使用 webhook 回调异步获取生成结果
  3. 将任务 ID 存入数据库,用于状态追踪
  4. 为失败任务实现重试逻辑(应对速率限制、超时等问题)

长视频内容扩展

Q2 单次生成 1-10 秒的片段。如需更长视频:

  • 方法 1: 使用 VIDU 的扩展 API,为现有片段增加 6 秒以上时长,无跳帧问题
  • 方法 2: 生成重叠片段(片段 1 的最后一帧作为片段 2 的首帧),再用 FFmpeg 拼接
  • 方法 3: 将 Q2 作为场景生成器,生成 5-10 个独立场景,再通过转场效果剪辑为叙事内容

立即试用 VIDU Q2!

Novita AI 上的 VIDU Q2 提供面向生产环境的图生视频生成能力,通过开发者友好的 API 即可使用,无需承担 GPU 基础设施成本,同时支持电影级镜头控制、多参考图融合,以及 15 秒以内的生成耗时。

Q2 Turbo 相比 Q1 生成速度快 3 倍,且一致性更强,针对高产量社交媒体内容、快速原型制作和迭代工作流进行了优化。

Q2 Pro 具备最高的保真度,支持微表情控制和音频生成,适合用于最终商业素材制作。

Novita API 的成本优势极具吸引力——Pro Fast 版本的 1080p 片段起价仅 $0.143,开启非高峰模式还可再降低 30%-40% 的成本。

常见问题

Novita AI 上的 VIDU Q2 Turbo 和 Q2 Pro 有什么区别?

Q2 Turbo 主打速度(相比 Q1 快 3 倍,单条片段生成耗时约 10 秒),适合迭代工作流。Q2 Pro 则追求最高保真度,具备增强的微表情、唇形同步和音频生成能力,适合对质量要求高于速度的最终素材制作场景。

在 Novita AI 上生成一条 VIDU Q2 视频需要多少钱?

定价随版本、分辨率和时长(5 秒为基准)浮动:
Turbo 版本:$0.0624(540p)– $0.3347(1080p)
Pro Fast 版本:$0.0713(720p)– $0.1430(1080p)
Pro 版本:$0.1472(540p)– $0.5135(1080p)
文生视频:$0.0802(540p)– $0.2677(1080p)

Novita AI 上的 VIDU Q2 支持哪些分辨率和时长限制?

支持 540p、720p、1080p 三种分辨率,单条片段时长范围为 1-10 秒。如需更长视频,可使用 VIDU 的扩展功能或 FFmpeg 拼接实现。

Novita AI 是 AI 与智能体云平台,帮助开发者和初创公司以高性能、高可靠性和高成本效益构建、部署和扩展模型及智能体应用。