Novita AI 上的 Wan 2.7:文本转视频 vs 图像转视频 vs 参考转视频

Novita AI 上的 Wan 2.7:文本转视频 vs 图像转视频 vs 参考转视频

Novita AI 上的 Wan 2.7 提供了三种不同的生成模式:文本转视频、图像转视频和参考转视频,每种模式解决不同的问题。T2V 直接从提示词生成视频,可选配音频;I2V 让起始图像动起来,并支持视频续写;R2V 将参考角色带入新场景,并支持多镜头控制。选择错误的模式会增加摩擦;本指南将每种模式映射到其实际适用的工作流程。

从 Wan 2.6 到 2.7 的变化

Wan 2.6 引入了通过参考视频实现的角色扮演、多镜头叙事以及音视频同步——这些分布在三个端点上的功能集虽功能强大但略显庞杂,且存在一些重叠。Wan 2.7 对该模型进行了显著的精炼。

最明显的升级在于 I2V。Wan 2.7 的 I2V 超越了单帧动画,在同一个端点中支持三种不同的输入模式:仅首帧、首帧+末帧以及视频续写。Wan 2.6 的 I2V 只处理单帧动画;续写则由 R2V 处理。这种整合对于构建扩展或混剪现有素材管道的开发者来说意义重大。

2.7 中的 R2V 也改变了其角色模型。2.6 最多接受两个参考视频进行角色扮演,而 2.7 最多接受五个参考媒体项(图像或视频),每个项映射到提示词中的一个命名角色槽(character1character2 等)。大规模的多角色交互现在成为一级特性,而非变通方案。

T2V 的核心能力——从文本提示词到视频(含音频)——保持相似,但端点更简洁:音频生成默认开启(可以关闭),prompt_extend 标志会在生成前智能地重写短提示词。Wan 2.6 的 T2V 参数面经过优化后继承到 2.7,而非替换。

各模式的持续时间范围也在 2.7 中有所不同:T2V 和 I2V 均支持 2–15 秒,而 R2V 上限为 10 秒。2 秒的最短时长取代了 2.6 标准时长中 5 秒的下限。

模式概览与快速选择表

T2V I2V R2V
输入 文本提示词 图像 + 可选文本 参考媒体(图像/视频)+ 文本
输出时长 2–15 秒 2–15 秒 2–10 秒
分辨率 720P, 1080P 720P, 1080P 720P, 1080P
音频 自动生成或音频驱动 自动生成或音频驱动 通过 audio 标志 + reference_voice 控制
镜头控制 单镜头 单镜头 单镜头或多镜头
角色 提示词定义 提示词定义 最多 5 个命名参考角色
模型 ID wan2.7-t2v wan2.7-i2v wan2.7-r2v
端点 /v3/async/wan2.7-t2v /v3/async/wan2.7-i2v /v3/async/wan2.7-r2v
最佳适用场景 从零开始创作原创内容 动画化现有资产 角色一致的角色扮演场景

Wan 2.7 T2V 在 Novita AI 上如何工作?

当您有一个创意概念但没有现有视觉资产时,T2V 是正确的起点。该模型直接从文本描述生成流畅的视频,并自动附加音频——可以是匹配场景生成的背景音乐/音效,也可以是您提供的用于驱动唇形同步和节拍匹配的音频。

关键参数:

  • prompt — 场景描述;支持中文和英文
  • size — 分辨率层级:1920*10801280*720720*1280960*9601088*832832*1088(1080P 或 720P)
  • duration — 整数秒,范围 2–15
  • audio_url — 可选;提供后,模型使用此音频驱动生成(唇形同步、节拍匹配)。省略则让模型自动生成
  • prompt_extend — 默认 true;在生成前使用 LLM 重写短提示词以获得更好质量
  • seed — 设置后可获得可复现的输出

T2F 适合谁: 营销人员从文案生成产品推广片段、开发人员大规模原型化视频内容,或任何需要原始素材但无源材料的人。

不足之处: 没有参考图像或先前视频帧,跨多个生成维持复杂角色一致性很困难。如果您要迭代特定场景或角色,I2V 或 R2V 能提供更多控制。

Wan 2.7 I2V 在 Novita AI 上如何工作?

I2V 在 2.7 中的定义性特征是它通过一个端点处理三种不同的动画模式,区别在于您填充哪些参数:

首帧到视频: 提供 image_url。模型将图像向前动画化。这是经典的“让照片动起来”用例。

首帧+末帧到视频: 同时提供 image_urllast_frame_url。模型生成两个关键帧之间的桥接,适用于受控的过渡或变形序列。

视频续写: 提供 first_clip_url(现有视频片段,mp4 或 mov,2–10 秒)。模型根据片段内容和您的提示词向前扩展视频。

driving_audio_url 参数与 T2V 中的工作方式相同——提供时驱动生成(唇形同步或节拍匹配);省略时音频自动生成。

关键参数:

  • image_url — 必需(首帧模式和首帧+末帧模式);首帧图像(JPEG、JPG、PNG、BMP、WEBP,最大 20 MB;宽度/高度 240–8000 像素)。续写模式中不使用。
  • last_frame_url — 可选;关键帧到关键帧模式的末帧图像
  • first_clip_url — 可选;续写模式的现有视频片段(mp4/mov, 2–10 秒)
  • resolution720P1080P(默认 1080P);视频宽高比与输入媒体匹配
  • duration — 2–15 秒(整数)
  • driving_audio_url — 可选的驱动音频
  • prompt — 可选;指导动画方向和风格

I2V 适合谁: 电商团队动画化产品照片、概念设计师为插图添加动感,或构建扩展现有素材管道的开发者。

注意事项: 续写输入片段必须为 2–10 秒。输出视频分辨率宽高比遵循输入媒体——不能独立设置分辨率和宽高比。

Wan 2.7 R2V 在 Novita AI 上如何工作?

R2V 是用于角色一致、叙事性视频的模式。您提供一个或多个参考媒体项——图像或短视频片段——模型提取每个角色的外观、动作和声音。然后您可以在提示词中使用 character1character2 等来指导这些角色。

这是 Wan 2.7 相较于 2.6 有重大进步的地方。不再局限于 1–2 个参考视频,2.7 最多接受五个媒体项(图像:0–5,视频:0–3,总数 ≤ 5),无需拼接不同生成即可获得一个角色阵容。

shot_type 参数控制叙事结构:single 保持输出为一个连续镜头;multi 生成带有过渡的序列。multi 值会优先于提示词中任何逐镜头指令,因此这是一个有意的模式切换,而非提示词提示。

R2V 中的音频行为也更明确:audio 布尔值(默认 true)控制是否生成音频,reference_voice 允许您指定角色对话的声音参考。

关键参数:

  • media — 必需;参考媒体项数组;顺序映射到 character1character2
  • prompt — 必需;使用 character1character2 引用角色
  • size — 分辨率;与 T2V 相同的 720P/1080P 选项
  • duration — 2–10 秒(上限比 T2V/I2V 短)
  • shot_typesingle(默认)或 multi
  • audio — 布尔值,默认 true
  • reference_voice — 可选的角色语音参考
  • negative_prompt — 可选;最多 500 字符;中文或英文

R2V 适合谁: 开发视频头像的开发者、需要一致演员阵容的短视频内容创作者,或任何从事角色扮演/角色表演场景的人。

注意事项: R2V 每次生成上限为 10 秒。对于更长的序列,需计划拼接多个 R2V 调用。multi 镜头类型在该窗口内处理过渡,但不会延长 10 秒上限。

各模式定价比较

所有三种 Wan 2.7 模式均按生成视频的秒数计费,而非按请求数。分辨率也影响成本——1080P 输出比 720P 更贵。R2V 端点有一个额外的 audio 布尔值,启用时会影响定价。

定价列于 Novita AI 的 Wan 2.7 T2VWan 2.7 I2VWan 2.7 R2V 模型页面。请直接查看这些页面以获取当前的每秒费率,因为视频模型定价会频繁更新。

要估算工作流程成本:将目标时长乘以所选分辨率的每秒费率。例如,一个 10 秒的 1080P T2V 片段成本为 10× 声明的 1080P/s 费率。由于 T2V 和 I2V 共享相同的时长上限(15 秒)和分辨率选项,它们的成本曲线相当;R2V 的 10 秒上限意味着其每次生成的最大成本更低。

成本控制杠杆:

  • 开发和测试使用 720P,仅最终输出切换为 1080P
  • 保持 prompt_extend 启用(T2V 默认)——它提高质量且不影响成本
  • 对于 R2V,当您在后期制作中自己提供音频时,设置 audio: false

应该使用哪种模式?

当以下情况时从 T2V 开始: 您从脚本或提示词生成原创内容,并且没有源视觉效果。这是摩擦最小的路径——一个提示词、一次调用,输出视频加音频。适用于批量内容生成、活动资产创建和快速概念探索。

当以下情况时切换到 I2V: 您有现有的图像或素材需要动起来。首帧模式动画化产品照片或插图;首帧+末帧模式在两个关键帧之间提供受控过渡;续写模式扩展您已有的素材。只要您的源材料驱动视觉输出,I2V 就是正确的选择。

当以下情况时使用 R2V: 角色身份和一致性至关重要。如果您的用例要求同一个人(或多个人)出现在多个视频中,或者您正在构建基于表演的内容(如视频头像或脚本场景),R2V 的参考角色系统是专用解决方案。multi 镜头类型无需单独的分镜步骤即可添加电影感结构。

一个实用的决策树:

  1. 您有参考角色或必须出现在视频中的人物吗? → R2V
  2. 您有现有的图像或视频片段要动画化或扩展吗? → I2V
  3. 您仅从文本描述生成原创素材吗? → T2V

Novita AI API 入门

所有三个端点遵循相同的异步模式:POST 提交作业,返回 task_id,然后轮询任务结果 API。

前提条件: 来自 Novita AI 控制台的 API 密钥。新帐户可获得 1 美元免费积分。

T2V 快速入门

import requests, time

API_KEY = "your_api_key"
BASE = "https://api.novita.ai"

# 提交生成
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# 轮询结果
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V — 视频续写

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://example.com/existing-clip.mp4",
            "prompt": "Continue the scene with smooth camera pan to the right"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V — 多角色场景

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://example.com/person-a.jpg"},
                {"type": "image", "url": "https://example.com/person-b.jpg"}
            ],
            "prompt": "character1 and character2 are having a conversation at a café, natural daylight"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

每种模式的完整参数参考请查看 Wan 2.7 T2V API 文档Wan 2.7 I2V API 文档Wan 2.7 R2V API 文档

如果您想将 Wan 2.7 与前代版本进行比较,Wan 2.6 on Novita AI 指南 涵盖了完整的 2.6 功能集和参数面。

结论

Wan 2.7 将其生成能力组织为三种专用模式,而非一个庞大的端点。当您没有源材料时,T2V 是从想法到视频的最快路径——一个提示词和一个 API 密钥就足够了。当您基于现有图像或素材工作时,I2V 为您提供对运动和连续性的控制,一个端点内包含三种不同的输入模式。R2V 处理最困难的问题:跨场景的角色一致视频,最多支持五个参考角色,并内置多镜头结构。

从 2.6 到 2.7 的升级在 I2V(续写现在原生支持,而非变通方案)和 R2V(五个角色 vs. 两个,命名槽 vs. 位置槽)中最为明显。T2V 继承了 2.6 的优势,参数界面更加简洁。

对于大多数工作流程,决策树很简单:原创内容从 T2V 开始;有源图像或片段时切换到 I2V;当角色身份需要在多个生成中保持一致时选择 R2V。

常见问题

Wan 2.7 T2V、I2V 和 R2V 之间有什么区别? T2V 仅从文本提示词生成视频。I2V 动画化现有图像或扩展现有视频片段。R2V 使用参考图像或片段作为角色模板生成角色一致的视频。每种模式都是针对其输入类型优化的独立端点。

Wan 2.7 能自动生成音频吗? 可以。所有三种模式默认支持自动生成音频。T2V 和 I2V 生成与场景匹配的背景音乐和音效;R2V 添加了用于角色对话的 reference_voice 参数。您可以通过 audio_url(T2V)或 driving_audio_url(I2V)提供自己的音频,或使用 audio: false(R2V)禁用音频。

Wan 2.7 支持哪些视频长度? T2V 和 I2V 均支持 2–15 秒。R2V 每次生成上限为 10 秒。所有模式使用 2 秒最短时长。

I2V 视频续写如何工作? 发送指向现有 mp4 或 mov 文件(2–10 秒)的 first_clip_url。模型分析片段的内容和运动,然后从最后一帧自然延续生成新片段。不要同时发送 image_urlfirst_clip_url——它们用于不同的模式。

Wan 2.7 R2V 支持多少个参考角色? 最多五个媒体项(图像:0–5,视频:0–3,总数 ≤ 5)。每个项映射到一个命名角色槽(character1character2 等),您在提示词中使用这些槽。

分辨率会影响定价吗? 是的。所有三种模式按生成视频的秒数计费,1080P 每秒的费用高于 720P。开发时使用 720P,最终输出切换到 1080P 以控制成本。

我可以通过 REST API 使用 Wan 2.7 吗? 可以。所有端点都是基于 REST 的,遵循异步模式:POST 一个作业以接收 task_id,然后轮询任务结果 API。请参阅以上“入门”部分中的 API 示例,以及 Novita AI API 文档 中的完整参数参考。

推荐文章