Novita AI 上的 Wan 2.7 提供了三种不同的生成模式:文本转视频、图像转视频和参考转视频,每种模式解决不同的问题。T2V 直接从提示词生成视频,可选配音频;I2V 让起始图像动起来,并支持视频续写;R2V 将参考角色带入新场景,并支持多镜头控制。选择错误的模式会增加摩擦;本指南将每种模式映射到其实际适用的工作流程。
从 Wan 2.6 到 2.7 的变化
Wan 2.6 引入了通过参考视频实现的角色扮演、多镜头叙事以及音视频同步——这些分布在三个端点上的功能集虽功能强大但略显庞杂,且存在一些重叠。Wan 2.7 对该模型进行了显著的精炼。
最明显的升级在于 I2V。Wan 2.7 的 I2V 超越了单帧动画,在同一个端点中支持三种不同的输入模式:仅首帧、首帧+末帧以及视频续写。Wan 2.6 的 I2V 只处理单帧动画;续写则由 R2V 处理。这种整合对于构建扩展或混剪现有素材管道的开发者来说意义重大。
2.7 中的 R2V 也改变了其角色模型。2.6 最多接受两个参考视频进行角色扮演,而 2.7 最多接受五个参考媒体项(图像或视频),每个项映射到提示词中的一个命名角色槽(character1、character2 等)。大规模的多角色交互现在成为一级特性,而非变通方案。
T2V 的核心能力——从文本提示词到视频(含音频)——保持相似,但端点更简洁:音频生成默认开启(可以关闭),prompt_extend 标志会在生成前智能地重写短提示词。Wan 2.6 的 T2V 参数面经过优化后继承到 2.7,而非替换。
各模式的持续时间范围也在 2.7 中有所不同:T2V 和 I2V 均支持 2–15 秒,而 R2V 上限为 10 秒。2 秒的最短时长取代了 2.6 标准时长中 5 秒的下限。
模式概览与快速选择表
| T2V | I2V | R2V | |
|---|---|---|---|
| 输入 | 文本提示词 | 图像 + 可选文本 | 参考媒体(图像/视频)+ 文本 |
| 输出时长 | 2–15 秒 | 2–15 秒 | 2–10 秒 |
| 分辨率 | 720P, 1080P | 720P, 1080P | 720P, 1080P |
| 音频 | 自动生成或音频驱动 | 自动生成或音频驱动 | 通过 audio 标志 + reference_voice 控制 |
| 镜头控制 | 单镜头 | 单镜头 | 单镜头或多镜头 |
| 角色 | 提示词定义 | 提示词定义 | 最多 5 个命名参考角色 |
| 模型 ID | wan2.7-t2v |
wan2.7-i2v |
wan2.7-r2v |
| 端点 | /v3/async/wan2.7-t2v |
/v3/async/wan2.7-i2v |
/v3/async/wan2.7-r2v |
| 最佳适用场景 | 从零开始创作原创内容 | 动画化现有资产 | 角色一致的角色扮演场景 |
Wan 2.7 T2V 在 Novita AI 上如何工作?
当您有一个创意概念但没有现有视觉资产时,T2V 是正确的起点。该模型直接从文本描述生成流畅的视频,并自动附加音频——可以是匹配场景生成的背景音乐/音效,也可以是您提供的用于驱动唇形同步和节拍匹配的音频。
关键参数:
prompt— 场景描述;支持中文和英文size— 分辨率层级:1920*1080、1280*720、720*1280、960*960、1088*832、832*1088(1080P 或 720P)duration— 整数秒,范围 2–15audio_url— 可选;提供后,模型使用此音频驱动生成(唇形同步、节拍匹配)。省略则让模型自动生成prompt_extend— 默认true;在生成前使用 LLM 重写短提示词以获得更好质量seed— 设置后可获得可复现的输出
T2F 适合谁: 营销人员从文案生成产品推广片段、开发人员大规模原型化视频内容,或任何需要原始素材但无源材料的人。
不足之处: 没有参考图像或先前视频帧,跨多个生成维持复杂角色一致性很困难。如果您要迭代特定场景或角色,I2V 或 R2V 能提供更多控制。
Wan 2.7 I2V 在 Novita AI 上如何工作?
I2V 在 2.7 中的定义性特征是它通过一个端点处理三种不同的动画模式,区别在于您填充哪些参数:
首帧到视频: 提供 image_url。模型将图像向前动画化。这是经典的“让照片动起来”用例。
首帧+末帧到视频: 同时提供 image_url 和 last_frame_url。模型生成两个关键帧之间的桥接,适用于受控的过渡或变形序列。
视频续写: 提供 first_clip_url(现有视频片段,mp4 或 mov,2–10 秒)。模型根据片段内容和您的提示词向前扩展视频。
driving_audio_url 参数与 T2V 中的工作方式相同——提供时驱动生成(唇形同步或节拍匹配);省略时音频自动生成。
关键参数:
image_url— 必需(首帧模式和首帧+末帧模式);首帧图像(JPEG、JPG、PNG、BMP、WEBP,最大 20 MB;宽度/高度 240–8000 像素)。续写模式中不使用。last_frame_url— 可选;关键帧到关键帧模式的末帧图像first_clip_url— 可选;续写模式的现有视频片段(mp4/mov, 2–10 秒)resolution—720P或1080P(默认1080P);视频宽高比与输入媒体匹配duration— 2–15 秒(整数)driving_audio_url— 可选的驱动音频prompt— 可选;指导动画方向和风格
I2V 适合谁: 电商团队动画化产品照片、概念设计师为插图添加动感,或构建扩展现有素材管道的开发者。
注意事项: 续写输入片段必须为 2–10 秒。输出视频分辨率宽高比遵循输入媒体——不能独立设置分辨率和宽高比。
Wan 2.7 R2V 在 Novita AI 上如何工作?
R2V 是用于角色一致、叙事性视频的模式。您提供一个或多个参考媒体项——图像或短视频片段——模型提取每个角色的外观、动作和声音。然后您可以在提示词中使用 character1、character2 等来指导这些角色。
这是 Wan 2.7 相较于 2.6 有重大进步的地方。不再局限于 1–2 个参考视频,2.7 最多接受五个媒体项(图像:0–5,视频:0–3,总数 ≤ 5),无需拼接不同生成即可获得一个角色阵容。
shot_type 参数控制叙事结构:single 保持输出为一个连续镜头;multi 生成带有过渡的序列。multi 值会优先于提示词中任何逐镜头指令,因此这是一个有意的模式切换,而非提示词提示。
R2V 中的音频行为也更明确:audio 布尔值(默认 true)控制是否生成音频,reference_voice 允许您指定角色对话的声音参考。
关键参数:
media— 必需;参考媒体项数组;顺序映射到character1、character2等prompt— 必需;使用character1、character2引用角色size— 分辨率;与 T2V 相同的 720P/1080P 选项duration— 2–10 秒(上限比 T2V/I2V 短)shot_type—single(默认)或multiaudio— 布尔值,默认truereference_voice— 可选的角色语音参考negative_prompt— 可选;最多 500 字符;中文或英文
R2V 适合谁: 开发视频头像的开发者、需要一致演员阵容的短视频内容创作者,或任何从事角色扮演/角色表演场景的人。
注意事项: R2V 每次生成上限为 10 秒。对于更长的序列,需计划拼接多个 R2V 调用。multi 镜头类型在该窗口内处理过渡,但不会延长 10 秒上限。
各模式定价比较
所有三种 Wan 2.7 模式均按生成视频的秒数计费,而非按请求数。分辨率也影响成本——1080P 输出比 720P 更贵。R2V 端点有一个额外的 audio 布尔值,启用时会影响定价。
定价列于 Novita AI 的 Wan 2.7 T2V、Wan 2.7 I2V 和 Wan 2.7 R2V 模型页面。请直接查看这些页面以获取当前的每秒费率,因为视频模型定价会频繁更新。
要估算工作流程成本:将目标时长乘以所选分辨率的每秒费率。例如,一个 10 秒的 1080P T2V 片段成本为 10× 声明的 1080P/s 费率。由于 T2V 和 I2V 共享相同的时长上限(15 秒)和分辨率选项,它们的成本曲线相当;R2V 的 10 秒上限意味着其每次生成的最大成本更低。
成本控制杠杆:
- 开发和测试使用 720P,仅最终输出切换为 1080P
- 保持
prompt_extend启用(T2V 默认)——它提高质量且不影响成本 - 对于 R2V,当您在后期制作中自己提供音频时,设置
audio: false
应该使用哪种模式?
当以下情况时从 T2V 开始: 您从脚本或提示词生成原创内容,并且没有源视觉效果。这是摩擦最小的路径——一个提示词、一次调用,输出视频加音频。适用于批量内容生成、活动资产创建和快速概念探索。
当以下情况时切换到 I2V: 您有现有的图像或素材需要动起来。首帧模式动画化产品照片或插图;首帧+末帧模式在两个关键帧之间提供受控过渡;续写模式扩展您已有的素材。只要您的源材料驱动视觉输出,I2V 就是正确的选择。
当以下情况时使用 R2V: 角色身份和一致性至关重要。如果您的用例要求同一个人(或多个人)出现在多个视频中,或者您正在构建基于表演的内容(如视频头像或脚本场景),R2V 的参考角色系统是专用解决方案。multi 镜头类型无需单独的分镜步骤即可添加电影感结构。
一个实用的决策树:
- 您有参考角色或必须出现在视频中的人物吗? → R2V
- 您有现有的图像或视频片段要动画化或扩展吗? → I2V
- 您仅从文本描述生成原创素材吗? → T2V
Novita AI API 入门
所有三个端点遵循相同的异步模式:POST 提交作业,返回 task_id,然后轮询任务结果 API。
前提条件: 来自 Novita AI 控制台的 API 密钥。新帐户可获得 1 美元免费积分。
T2V 快速入门
import requests, time
API_KEY = "your_api_key"
BASE = "https://api.novita.ai"
# 提交生成
resp = requests.post(
f"{BASE}/v3/async/wan2.7-t2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
},
"parameters": {
"size": "1920*1080",
"duration": 5,
"prompt_extend": True
}
}
)
task_id = resp.json()["task_id"]
# 轮询结果
while True:
result = requests.get(
f"{BASE}/v3/async/task-result",
headers={"Authorization": f"Bearer {API_KEY}"},
params={"task_id": task_id}
).json()
if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
print(result["videos"][0]["video_url"])
break
time.sleep(5)
I2V — 视频续写
resp = requests.post(
f"{BASE}/v3/async/wan2.7-i2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"first_clip_url": "https://example.com/existing-clip.mp4",
"prompt": "Continue the scene with smooth camera pan to the right"
},
"parameters": {
"resolution": "1080P",
"duration": 8
}
}
)
task_id = resp.json()["task_id"]
R2V — 多角色场景
resp = requests.post(
f"{BASE}/v3/async/wan2.7-r2v",
headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
json={
"input": {
"media": [
{"type": "image", "url": "https://example.com/person-a.jpg"},
{"type": "image", "url": "https://example.com/person-b.jpg"}
],
"prompt": "character1 and character2 are having a conversation at a café, natural daylight"
},
"parameters": {
"size": "1920*1080",
"duration": 8,
"shot_type": "multi",
"audio": True
}
}
)
task_id = resp.json()["task_id"]
每种模式的完整参数参考请查看 Wan 2.7 T2V API 文档、Wan 2.7 I2V API 文档 和 Wan 2.7 R2V API 文档。
如果您想将 Wan 2.7 与前代版本进行比较,Wan 2.6 on Novita AI 指南 涵盖了完整的 2.6 功能集和参数面。
结论
Wan 2.7 将其生成能力组织为三种专用模式,而非一个庞大的端点。当您没有源材料时,T2V 是从想法到视频的最快路径——一个提示词和一个 API 密钥就足够了。当您基于现有图像或素材工作时,I2V 为您提供对运动和连续性的控制,一个端点内包含三种不同的输入模式。R2V 处理最困难的问题:跨场景的角色一致视频,最多支持五个参考角色,并内置多镜头结构。
从 2.6 到 2.7 的升级在 I2V(续写现在原生支持,而非变通方案)和 R2V(五个角色 vs. 两个,命名槽 vs. 位置槽)中最为明显。T2V 继承了 2.6 的优势,参数界面更加简洁。
对于大多数工作流程,决策树很简单:原创内容从 T2V 开始;有源图像或片段时切换到 I2V;当角色身份需要在多个生成中保持一致时选择 R2V。
常见问题
Wan 2.7 T2V、I2V 和 R2V 之间有什么区别? T2V 仅从文本提示词生成视频。I2V 动画化现有图像或扩展现有视频片段。R2V 使用参考图像或片段作为角色模板生成角色一致的视频。每种模式都是针对其输入类型优化的独立端点。
Wan 2.7 能自动生成音频吗?
可以。所有三种模式默认支持自动生成音频。T2V 和 I2V 生成与场景匹配的背景音乐和音效;R2V 添加了用于角色对话的 reference_voice 参数。您可以通过 audio_url(T2V)或 driving_audio_url(I2V)提供自己的音频,或使用 audio: false(R2V)禁用音频。
Wan 2.7 支持哪些视频长度? T2V 和 I2V 均支持 2–15 秒。R2V 每次生成上限为 10 秒。所有模式使用 2 秒最短时长。
I2V 视频续写如何工作?
发送指向现有 mp4 或 mov 文件(2–10 秒)的 first_clip_url。模型分析片段的内容和运动,然后从最后一帧自然延续生成新片段。不要同时发送 image_url 和 first_clip_url——它们用于不同的模式。
Wan 2.7 R2V 支持多少个参考角色?
最多五个媒体项(图像:0–5,视频:0–3,总数 ≤ 5)。每个项映射到一个命名角色槽(character1、character2 等),您在提示词中使用这些槽。
分辨率会影响定价吗? 是的。所有三种模式按生成视频的秒数计费,1080P 每秒的费用高于 720P。开发时使用 720P,最终输出切换到 1080P 以控制成本。
我可以通过 REST API 使用 Wan 2.7 吗?
可以。所有端点都是基于 REST 的,遵循异步模式:POST 一个作业以接收 task_id,然后轮询任务结果 API。请参阅以上“入门”部分中的 API 示例,以及 Novita AI API 文档 中的完整参数参考。
