当你需要更低成本、快速迭代或大批量视频测试时,优先选择 Vidu Q3 Turbo;当你愿意为 Pro 变体支付更高的每秒价格并希望将其与 Turbo 对比以进行最终创意调整时,选择 Vidu Q3 Pro。在 Novita AI 上,两种变体都提供了文生视频、图生视频和首尾帧生成视频的端点,支持异步生成,并且在三种模式下使用相同的公共每秒定价模式。
Vidu Q3 Pro vs Turbo 选择摘要
Vidu Q3 Pro 和 Vidu Q3 Turbo 在 Novita AI 上最清晰的源确认差异是定价。公开的 Novita AI 定价数据显示,对于 540p、720p 和 1080p,Turbo 的每秒价格均低于 Pro。API 文档还显示,两种变体都通过独立的异步端点提供文生视频、图生视频和首尾帧视频。
| 决策点 | 从 Vidu Q3 Turbo 开始 | 从 Vidu Q3 Pro 开始 |
|---|---|---|
| 主要目标 | 探索提示、运行更多变体、降低每秒花费 | 比较 Pro 变体用于最终候选片段 |
| 预算特征 | 每个列出分辨率下更低的高峰和非高峰价格 | 每个列出分辨率下更高的每秒价格 |
| Novita AI 上的 API 模式 | 文生视频、图生视频、首尾帧生成视频 | 文生视频、图生视频、首尾帧生成视频 |
| 文档中的输出选项 | 最高 1080p;1-16 秒 | 最高 1080p;1-16 秒 |
| 文档中的音频支持 | 提供 Q3 音视频生成控制 | 提供 Q3 音视频生成控制 |
| 最佳首次测试 | 大批量迭代、提示搜索、粗剪、社交媒体变体 | 在 Turbo 缩小提示和模式范围后的最终比较轮次 |
Turbo 和 Pro 更应视为两种定价和工作流程选项,而非简单的好坏排名。公开文档和定价页面支持成本和端点比较,但它们没有发布适用于所有提示的通用基准、延迟分数或场景质量排名。如果输出确实重要,更可靠的决策方式是通过两种变体运行相同的提示或图像集,并排比较结果。
Vidu Q3 文生视频、图生视频和首尾帧模式
Vidu Q3 并非单一设置。在 Novita AI 上,有意义的决策是二维的:选择 Pro 或 Turbo,然后选择与你的源材料匹配的生成模式。
| 模式 | 你提供的输入 | 在什么情况下使用 | Pro 端点 | Turbo 端点 |
|---|---|---|---|---|
| 文生视频 | 文本提示 | 你从头开始探索一个新场景、角色、镜头运动、广告概念或分镜想法 | /v3/async/vidu-q3-pro-t2v |
/v3/async/vidu-q3-turbo-t2v |
| 图生视频 | 一张参考图像加上可选的动作提示 | 你已经有一张产品图片、角色画面、风格参考或静止构图需要生成动画 | /v3/async/vidu-q3-pro-i2v |
/v3/async/vidu-q3-turbo-i2v |
| 首尾帧生成视频 | 两张图像,一张起始帧和一张结束帧 | 你需要模型在已知的第一帧和最后一帧之间进行插值 | /v3/async/vidu-q3-pro-f2v |
/v3/async/vidu-q3-turbo-f2v |
对于文生视频,文档列出了必填的 prompt、audio 布尔值、duration、resolution、aspect_ratio、off_peak 和水印控制。Pro 文生视频接受的提示最多 2,000 个字符;Turbo 文生视频接受的提示最多 5,000 个字符。
对于图生视频,文档要求一个 images 数组。Pro 图生视频目前支持单张图像输入,接受 JPG、JPEG、PNG 和 WebP 格式,每张图像最大 50 MB,宽高比介于 1:4 和 4:1 之间。Pro 图生视频文档将 audio 列为用于背景音乐的自定义音频 URL 字段。Turbo 图生视频也使用参考图像数组,支持相同的列出的图像格式和 50 MB 限制,并列出 audio 布尔值以及 audio_type 选项:all、speech_only 或 sound_effect_only。
对于首尾帧生成视频,Pro 和 Turbo 的文档都要求恰好两张图像:第一张是起始帧,第二张是结束帧。文档列出了 1-16 秒时长和 540p、720p、1080p 分辨率选项。当你更关心过渡的起始和结束点,而不是从一个空白提示发现场景时,使用此模式。
Vidu Q3 Pro 和 Turbo 定价
Novita AI 对 Vidu Q3 Pro 和 Vidu Q3 Turbo 的定价按每秒列出。截至 2026 年 6 月 23 日检查的当前公开定价显示,对于每种变体和分辨率,文生视频、图生视频和首尾帧生成视频的费率相同。
| 分辨率 | Vidu Q3 Pro 高峰 | Vidu Q3 Pro 非高峰 | Vidu Q3 Turbo 高峰 | Vidu Q3 Turbo 非高峰 |
|---|---|---|---|---|
| 540p | $0.0625/s | $0.0313/s | $0.0357/s | $0.0179/s |
| 720p | $0.1339/s | $0.0670/s | $0.0536/s | $0.0268/s |
| 1080p | $0.1429/s | $0.0714/s | $0.0714/s | $0.0357/s |
以下是对常见测试片段的影响:
| 测试片段 | Pro 高峰 | Pro 非高峰 | Turbo 高峰 | Turbo 非高峰 |
|---|---|---|---|---|
| 5 秒,540p | $0.3125 | $0.1565 | $0.1785 | $0.0895 |
| 10 秒,720p | $1.3390 | $0.6700 | $0.5360 | $0.2680 |
| 16 秒,1080p | $2.2864 | $1.1424 | $1.1424 | $0.5712 |
当周转时间灵活时,非高峰模式最为合适。Vidu Q3 API 文档将非高峰任务描述为在 48 小时内处理的低成本任务,当你正在探索提示并希望以更低成本进行更广泛的测试批次时,这可能效果很好。如果你正在构建面向用户的流程,高峰模式仍然是更安全的默认选择,除非延迟交付已经是产品体验的一部分。
你应该首先测试哪个 Vidu Q3 模式?
选择模式最简单的方法是从你已有的输入开始。许多令人失望的测试源于首先选择最令人兴奋的选项,而不是选择最匹配手头材料的那个。
| 情况 | 首先测试的模式 | 推荐变体 | 原因 |
|---|---|---|---|
| 你只有一个书面想法 | 文生视频 | Turbo | 它让你以更低的每秒成本探索更多提示方向。 |
| 你有一张产品渲染图或角色静态图 | 图生视频 | 先 Turbo,再 Pro 用于最终候选 | 参考图像约束了视觉目标,Turbo 保持了更低的迭代成本。 |
| 你有一个已知第一帧和最后一帧的分镜 | 首尾帧生成视频 | 先 Turbo,如果需要再 Pro | 两张图像为模型提供了明确的端点,这对于受控过渡很有用。 |
| 你需要一个静音片段以便后续编辑 | 文生视频或图生视频,禁用音频 | Turbo | 文档暴露了 audio 控制,因此你可以避免生成你将要替换的音频。 |
| 你正在决定最终候选片段 | 两种变体使用相同模式 | Pro 和 Turbo 并排 | 使用相同的输入并为你的场景比较输出,而不是依赖通用的假设。 |
如果你是 Novita AI 上 Vidu Q3 的新手,以下通常是最顺畅的入门方式:
- 以 540p 或 720p 运行 Turbo 文生视频,找到提示方向。
- 如果你需要从静态图像中获得身份、产品或视觉风格控制,则转向图生视频。
- 仅在你拥有真实的第一帧和最后一帧时使用首尾帧生成视频。
- 在决定该场景是否值得更高价格之前,以目标分辨率在 Pro 上重新运行你的最强候选。
Vidu Q3 API 端点和请求流程
本次比较中的所有六个 Vidu Q3 端点都使用 Novita AI 的 v3 异步任务模式。你提交一个生成请求,收到一个 task_id,然后使用该 task_id 调用任务结果 API,以在任务成功时检索生成的视频。
| 端点 | 方法 | 结果模式 |
|---|---|---|
/v3/async/vidu-q3-pro-t2v |
POST |
返回 task_id |
/v3/async/vidu-q3-pro-i2v |
POST |
返回 task_id |
/v3/async/vidu-q3-pro-f2v |
POST |
返回 task_id |
/v3/async/vidu-q3-turbo-t2v |
POST |
返回 task_id |
/v3/async/vidu-q3-turbo-i2v |
POST |
返回 task_id |
/v3/async/vidu-q3-turbo-f2v |
POST |
返回 task_id |
/v3/async/task-result |
GET |
返回任务状态和生成的媒体(如果可用) |
一个最小的 Turbo 文生视频请求如下:
curl --request POST \
--url https://api.novita.ai/v3/async/vidu-q3-turbo-t2v \
--header "Authorization: Bearer $NOVITA_API_KEY" \
--header "Content-Type: application/json" \
--data '{
"prompt": "A close-up product launch video on a clean studio table, soft camera push-in, subtle lighting movement",
"duration": 5,
"resolution": "720p",
"aspect_ratio": "16:9",
"audio": true,
"off_peak": false
}'
然后轮询任务结果端点:
curl --request GET \
--url "https://api.novita.ai/v3/async/task-result?task_id=$NOVITA_TASK_ID" \
--header "Authorization: Bearer $NOVITA_API_KEY"
对于图生视频,将端点替换为 I2V 端点并提供 images 数组。对于首尾帧生成视频,使用 F2V 端点并按顺序提供两张图像:先是起始帧,然后是结束帧。
实际 Vidu Q3 测试计划
使用小型测试矩阵而非一次性的印象。目标不是证明一个通用的优胜者;而是为你的用例选择正确的变体和模式。
| 测试轮次 | 变体 | 模式 | 分辨率 | 评估内容 |
|---|---|---|---|---|
| 提示搜索 | Turbo | 文生视频 | 540p 或 720p | 哪种提示结构能产生正确的场景、运动和构图? |
| 参考控制 | Turbo | 图生视频 | 720p | 模型是否足够保留主体或产品以满足你的用例? |
| 过渡控制 | Turbo | 首尾帧生成视频 | 720p | 第一帧和最后一帧之间的运动是否可用? |
| 最终比较 | Turbo 和 Pro | 相同的优胜模式 | 目标分辨率 | Pro 的结果是否值得为该场景支付更高的每秒成本? |
| 成本分析 | 优胜变体 | 相同的优胜模式 | 目标分辨率 | 此项应运行高峰模式,还是可以转为非高峰? |
当你比较 Pro 和 Turbo 时,保持这些变量相同:
- 相同的提示、图像输入、时长、分辨率和宽高比。
- 相同的音频设置。
- 比较输出结果时使用相同的非高峰设置。
- 相同的评估标准:身份一致性、运动清晰度、镜头运动、音频有用性和可编辑性。
如果你同时更改提示和模型变体,比较就会变得模糊,因为你无法再判断哪个更改实际改善了结果。
常见问题
Vidu Q3 Turbo 在 Novita AI 上比 Vidu Q3 Pro 更便宜吗?
是的。截至 2026 年 6 月 23 日检查的当前 Novita AI 定价显示,在文生视频、图生视频和首尾帧生成视频中,Turbo 在 540p、720p 和 1080p 上的价格均低于 Pro。
Vidu Q3 Pro 和 Turbo 支持相同的模式吗?
Novita AI 文档列出了文生视频、图生视频和首尾帧生成视频的独立 Pro 和 Turbo 端点。每个端点返回一个 task_id,并使用 v3 异步任务结果流程。
我应该先使用文生视频还是图生视频?
当你只有一个想法或文字场景时,先使用文生视频。当参考图像很重要时,例如产品照片、角色画面或固定的视觉风格,先使用图生视频。
我应该在什么时候使用首尾帧生成视频?
当你拥有两个帧并需要模型创建它们之间的运动时,使用首尾帧生成视频。它是三种模式中结构最清晰的,因为首帧和末帧都已指定。
Vidu Q3 支持音频控制吗?
是的。Vidu Q3 文档包含音频控制。文生视频和首尾帧生成视频暴露了一个 audio 布尔值。Pro 图生视频将 audio 列为用于背景音乐的自定义音频 URL 字段,而 Turbo 图生视频列出了一个 audio 布尔值以及 audio_type 选项:all、speech_only 和 sound_effect_only。
我应该为同一个提示同时运行 Vidu Q3 Turbo 和 Pro 吗?
当你探索提示、参考、时长和宽高比时,先运行 Turbo。如果某个结果接近你的需求,则在 Pro 上重新运行相同的设置,这样比较能隔离模型变体,而不是混合提示和输入的变化。
