Vidu Q3 Pro vs Turbo on Novita AI：你应该使用哪种视频模式？

Vidu Q3 Pro vs Turbo 选择摘要
Vidu Q3 文本生成视频、图像生成视频和始末帧模式
Vidu Q3 Pro 和 Turbo 定价
你应该首先测试哪个 Vidu Q3 模式？
Vidu Q3 API 端点和请求流程
实用的 Vidu Q3 测试计划
常见问题解答
推荐文章

当你需要更低的成本、快速迭代或大规模视频测试时，请优先选择 Vidu Q3 Turbo；当你愿意为 Pro 版本支付更高的每秒价格，并希望将其与 Turbo 进行比较以完成最终创意输出时，请选择 Vidu Q3 Pro。在 Novita AI 上，这两个变体都提供文本生成视频、图像生成视频和始末帧到视频的端点，支持异步生成，并且在这三种模式下使用相同的公共每秒定价模式。

Vidu Q3 Pro vs Turbo 选择摘要

Vidu Q3 Pro 和 Vidu Q3 Turbo 在 Novita AI 上最明确的、有依据的区别是定价。公开的 Novita AI 定价列表显示，Turbo 在 540p、720p 和 1080p 分辨率下的每秒费率均低于 Pro。API 文档还显示，这两个变体都可通过独立的文本生成视频、图像生成视频和始末帧到视频异步端点使用。

决策点	从 Vidu Q3 Turbo 开始	从 Vidu Q3 Pro 开始
主要目标	探索提示词、运行更多变体、降低每秒花费	比较 Pro 变体以获取最终候选片段
预算情况	列出的每个分辨率下均有更低的峰值和低谷价格	列出的每个分辨率下均有更高的每秒价格
Novita AI 上的 API 模式	文本生成视频、图像生成视频、始末帧到视频	文本生成视频、图像生成视频、始末帧到视频
文档中的输出选项	最高 1080p；1-16 秒	最高 1080p；1-16 秒
文档中的音频支持	Q3 音视频生成控制可用	Q3 音视频生成控制可用
最佳首测	大规模迭代、提示词搜索、粗剪、社交媒体变体	Turbo 缩小提示词和模式范围后，进行最终比较

Turbo 和 Pro 更适合被视为两种定价和工作流程选项，而非简单的优劣排名。公开文档和定价页面支持成本和端点比较，但并未发布针对每个提示词都能解决问题的通用基准、延迟评分或场景质量排名。如果输出结果至关重要，更可靠的决定方法是在两个变体上运行相同的提示词或图像集，进行直接的 vidu q3 pro vs turbo 对比，并并排评估结果。

Vidu Q3 文本生成视频、图像生成视频和始末帧模式

Vidu Q3 并非单一设置。在 Novita AI 上，有用的选择是二维的：选择 Pro 或 Turbo，然后选择与你的源素材相匹配的生成模式。

模式	你需要提供的内容	何时使用	Pro 端点	Turbo 端点
文本生成视频	文本提示词	你正在从头探索新场景、角色、镜头运动、广告概念或故事板创意	`/v3/async/vidu-q3-pro-t2v`	`/v3/async/vidu-q3-turbo-t2v`
图像生成视频	一张参考图像以及可选的运动提示词	你已经拥有产品图、角色帧、风格参考或静态构图需要制作动画	`/v3/async/vidu-q3-pro-i2v`	`/v3/async/vidu-q3-turbo-i2v`
始末帧到视频	两张图像，一张起始帧和一张结束帧	你需要模型在已知的第一帧和最后一帧之间进行插值	`/v3/async/vidu-q3-pro-f2v`	`/v3/async/vidu-q3-turbo-f2v`

对于文本生成视频，文档列出了必需的 prompt、一个 audio 布尔值、duration、resolution、aspect_ratio、off_peak 和水印控制。Pro 文本生成视频接受的提示词最多 2,000 个字符；Turbo 文本生成视频接受的提示词最多 5,000 个字符。

对于图像生成视频，文档要求一个 images 数组。Pro 图像生成视频目前支持一张图像输入，接受 JPG、JPEG、PNG 和 WebP 格式，每张图像最大 50 MB，宽高比在 1:4 到 4:1 之间。Pro 图像生成视频文档将 audio 列为用于背景音乐的自定义音频 URL 字段。Turbo 图像生成视频也使用参考图像数组，支持相同的列出的图像格式和 50 MB 限制，并列举了一个 audio 布尔值加上一个 audio_type 选项：all、speech_only 或 sound_effect_only。

对于始末帧到视频，Pro 和 Turbo 文档都要求正好两张图像：第一张图像是起始帧，第二张图像是结束帧。文档列出了 1-16 秒的时长和 540p、720p、1080p 分辨率选项。当你更关心转场的起始和结束位置，而非从空白提示词发现场景时，请使用此模式。

Vidu Q3 Pro 和 Turbo 定价

Novita AI 定价按秒列出 Vidu Q3 Pro 和 Vidu Q3 Turbo。截至 2026 年 6 月 23 日检查的当前公开定价显示，每个变体和分辨率下，文本生成视频、图像生成视频和始末帧到视频的费率相同。

分辨率	Vidu Q3 Pro 峰值	Vidu Q3 Pro 低谷	Vidu Q3 Turbo 峰值	Vidu Q3 Turbo 低谷
540p	$0.0625/秒	$0.0313/秒	$0.0357/秒	$0.0179/秒
720p	$0.1339/秒	$0.0670/秒	$0.0536/秒	$0.0268/秒
1080p	$0.1429/秒	$0.0714/秒	$0.0714/秒	$0.0357/秒

以下是对常见测试片段的影响：

测试片段	Pro 峰值	Pro 低谷	Turbo 峰值	Turbo 低谷
5 秒 540p	$0.3125	$0.1565	$0.1785	$0.0895
10 秒 720p	$1.3390	$0.6700	$0.5360	$0.2680
16 秒 1080p	$2.2864	$1.1424	$1.1424	$0.5712

当周转时间灵活时，低谷模式最为合理。如果 vidu q3 pro vs turbo 速度对你的工作流程很重要，峰值模式会更快地交付结果，而低谷模式则用周转时间换取更低的每秒费率。Vidu Q3 API 文档将低谷任务描述为较低成本、在 48 小时内处理的任务，这在探索提示词并希望以更低成本进行更广泛批次测试时效果很好。如果你正在构建面向用户的流程，峰值模式仍然是更安全的默认选项，除非延迟交付已成为产品体验的一部分。

你应该首先测试哪个 Vidu Q3 模式？

选择模式最简单的方法是从你已有的输入开始。很多令人失望的测试源于首先选择了最令人兴奋的选项，而不是最适合手头素材的选项。

情况	首选测试模式	推荐变体	原因
你只有一个文字创意	文本生成视频	Turbo	它可以让你以更低的每秒成本探索更多提示词方向。
你有一个产品渲染图或角色静止帧	图像生成视频	先 Turbo，最终候选再用 Pro	参考图像限制了视觉目标，Turbo 使迭代成本更低。
你有一个带有已知起始帧和结束帧的故事板	始末帧到视频	先 Turbo，必要时再用 Pro	两张图像为模型提供了明确的端点，这对于受控转场非常有用。
你需要一个静音片段用于后期编辑	文本生成视频或图像生成视频（禁用音频）	Turbo	文档暴露了 `audio` 控制，因此你可以避免生成将要替换的音频。
你需要在最终候选片段之间做决定	两个变体使用相同模式	Pro 和 Turbo 并排比较	使用相同的输入并针对你的场景比较输出，而不是依赖通用假设。

如果你在 Novita AI 上初识 Vidu Q3，这通常是最顺畅的入门方式：

运行 Turbo 文本生成视频（540p 或 720p）来寻找提示词方向。
如果需要从静止图像中获得身份、产品或视觉风格控制，则转向图像生成视频。
仅当你拥有真实的起始帧和结束帧时，才使用始末帧到视频。
在目标分辨率下，用 Pro 重新运行你最看好的候选方案，评估 vidu q3 pro 质量，然后再决定该场景的更高价格是否合理。

这个顺序将更昂贵的比较步骤保留在接近最终决策时，此时你已经有了一个有希望的方向。它还能帮助你避免将 Pro 预算花在早期提示词探索上，而这些探索最终可能会被丢弃。

Vidu Q3 API 端点和请求流程

本次比较中的所有六个 Vidu Q3 端点均使用 Novita AI 的 v3 异步任务模式。你提交一个生成请求，收到一个 task_id，然后使用该 task_id 调用任务结果 API，以在任务成功时检索生成的视频。

端点	方法	结果模式
`/v3/async/vidu-q3-pro-t2v`	`POST`	返回 `task_id`
`/v3/async/vidu-q3-pro-i2v`	`POST`	返回 `task_id`
`/v3/async/vidu-q3-pro-f2v`	`POST`	返回 `task_id`
`/v3/async/vidu-q3-turbo-t2v`	`POST`	返回 `task_id`
`/v3/async/vidu-q3-turbo-i2v`	`POST`	返回 `task_id`
`/v3/async/vidu-q3-turbo-f2v`	`POST`	返回 `task_id`
`/v3/async/task-result`	`GET`	返回任务状态和生成的媒体（如有）

一个最小的 Turbo 文本生成视频请求如下所示：

curl --request POST \
  --url https://api.novita.ai/v3/async/vidu-q3-turbo-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{
    "prompt": "A close-up product launch video on a clean studio table, soft camera push-in, subtle lighting movement",
    "duration": 5,
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "audio": true,
    "off_peak": false
  }'

然后轮询任务结果端点：

curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$NOVITA_TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

对于图像生成视频，将端点替换为 I2V 端点并提供 images 数组。对于始末帧到视频，使用 F2V 端点并按顺序提供两张图像：起始帧在前，结束帧在后。

实用的 Vidu Q3 测试计划

使用小型测试矩阵，而非一次性印象。目标不是证明一个通用的赢家，而是为你的用例选择正确的变体和模式。

测试轮次	变体	模式	分辨率	评估内容
提示词搜索	Turbo	文本生成视频	540p 或 720p	哪种提示词结构能带来正确的场景、运动和构图？
参考控制	Turbo	图像生成视频	720p	模型是否足以满足你的用例保留主体或产品？
转场控制	Turbo	始末帧到视频	720p	起始帧和结束帧之间的运动感觉可用吗？
最终比较	Turbo 和 Pro	相同的获胜模式	目标分辨率	Pro 结果是否值得为了这个场景支付更高的每秒成本？
成本核算	获胜变体	相同的获胜模式	目标分辨率	应运行峰值模式，还是可以转向低谷模式？

当你比较 Pro 和 Turbo 时，保持以下变量相同：

相同的提示词、图像输入、时长、分辨率和宽高比。
相同的音频设置。
比较输出结果时相同的低谷设置。
相同的评估标准：身份一致性、运动清晰度、镜头运动、音频有用性和可编辑性。

如果你同时更改提示词和模型变体，比较就会变得模糊，因为你无法再判断是哪个更改改进了结果。

常见问题解答

Vidu Q3 Turbo 在 Novita AI 上比 Vidu Q3 Pro 便宜吗？

是的。截至 2026 年 6 月 23 日检查的当前 Novita AI 定价显示，Turbo 在 540p、720p 和 1080p 分辨率下，文本生成视频、图像生成视频和始末帧到视频模式的价格均低于 Pro。

Vidu Q3 Pro 和 Turbo 支持相同的模式吗？

Novita AI 文档列出了 Pro 和 Turbo 分别用于文本生成视频、图像生成视频和始末帧到视频的端点。每个端点返回一个 task_id 并使用 v3 异步任务结果流程。

我应该先使用文本生成视频还是图像生成视频？

当你只有一个想法或文字场景时，请先使用文本生成视频。当参考图像很重要时（例如产品照片、角色帧或固定视觉风格），请先使用图像生成视频。

什么时候应该使用始末帧到视频？

当你拥有两帧并需要模型创建它们之间的运动时，请使用始末帧到视频。它是三种模式中最结构化的，因为起始帧和结束帧都已指定。

Vidu Q3 支持音频控制吗？

是的。Vidu Q3 文档包含音频控制。文本生成视频和始末帧到视频暴露了一个 audio 布尔值。Pro 图像生成视频将 audio 列为用于背景音乐的自定义音频 URL 字段，而 Turbo 图像生成视频则列出了一个 audio 布尔值加上 audio_type 选项：all、speech_only 和 sound_effect_only。

我应该为同一个提示词同时运行 Vidu Q3 Turbo 和 Pro 吗？

在你探索提示词、参考图像、时长和宽高比时，请先运行 Turbo。如果某个结果接近你所需，那么在 Pro 上重新运行相同的设置，这样比较就能隔离模型变体，而不是混合提示词和输入的变化。