Wan2.6 on Novita AI：具有角色扮演与多镜头控制的电影级创作模型

什么是 Wan2.6？
Wan2.6 的核心功能
Novita AI 上的 Wan2.6 模型变体
在 Novita AI 上开始使用 Wan2.6
文生视频示例
多镜头提示结构
结语

Wan2.6 代表了 AI 视频生成的重大突破，提供了全球最全面的视频创作能力。该模型包含角色扮演、多镜头控制以及音视频同步功能，使其在众多竞品中脱颖而出。

现已在 Novita AI 的 Model API 平台上可用，开发者与企业无需管理复杂的基础设施，即可通过简单的 API 集成接入这一前沿模型。

本指南将介绍如何利用 Novita AI 上的 Wan2.6 进行文生视频、图生视频以及参考视频生成。

在 Novita AI Playground 中试用 Wan2.6

什么是 Wan2.6？

以下视频由 Wan2.6 生成

Wan2.6 是阿里云视频生成模型系列的最新一代产品，专为专业影视制作和创意内容场景设计。

作为全球功能最全的视频生成模型，Wan2.6 引入了革命性的能力，弥合了业余内容创作与专业电影制作之间的差距。

核心技术

Wan2.6 采用先进的多模态联合建模技术处理参考视频。系统能够从多个角度提取主体情绪、姿态以及全面的视觉特征等时间信息。

同时，模型会捕捉声学特征，包括音色和语速。这些元素在生成过程中作为控制条件，确保从视觉到音频的完整感官一致性。

技术创新

该模型融合了多项突破性技术：

多模态学习：同时处理视觉、音频和时间数据，生成连贯输出
高层语义理解：将简单提示转化为包含完整故事线的专业多镜头叙事
统一建模：在镜头切换间保持核心主体、场景布局和环境氛围的一致性
音视频同步：确保完美的口型同步和音频与视觉内容的对齐

Wan2.6 的核心功能

1. 角色扮演能力

Wan2.6 的招牌功能允许用户上传个人视频，将自己转化为专业品质场景中的角色。

模型可处理：

单角色与多角色表演：支持单人表演或群体互动
情感与姿态迁移：捕捉并复现细腻的表情与动作
跨风格转换：对源视频应用不同风格（科幻、悬疑、浪漫等）
专业表演模拟：从普通用户视频生成电影级质量的表演

2. 多镜头控制与转场

该模型擅长专业级的镜头构图与转场：

自动镜头规划：将简单提示转化为多镜头脚本
无缝转场：在不同机位和视角之间平滑切换
叙事连贯性：在多个镜头间保持故事连续性
一致性保持：全程确保角色、场景和氛围统一

3. 延长视频时长

Wan2.6 每次生成最长支持 15 秒——这是中国 AI 视频市场中单次生成时长最长的。

更长的时长支持更复杂的叙事和完整的场景展开，无需多次生成再拼接。

4. 音视频同步

音频与视觉元素的完美对齐：

口型同步精准度：对话时精确的嘴部运动匹配
声音驱动动画：音频线索驱动角色动作和表情
环境音频：与环境匹配的背景音和效果音

5. 增强质量指标

近期升级显著提升了模型的多个方面：

视觉保真度提升：更高的分辨率和细节质量
音效增强：专业级声音设计
更好的提示遵循能力：更准确地解读复杂指令
电影级运镜：自动应用专业摄影技巧

Novita AI 上的 Wan2.6 模型变体

Novita AI 为 Wan2.6 提供了三个不同的 API 端点，每个针对特定用例进行了优化，可通过 Model API 平台访问。

文生视频 (T2V)

直接从文本提示生成视频，无需输入图像或视频。

适用于从创意描述中创建原创内容，支持多镜头控制和叙事排序。

核心能力：

根据序列提示生成多镜头叙事
自动选择镜头类型和摄像机运动
场景间的电影级转场
支持 5 秒、10 秒和 15 秒的视频时长

技术规格：

参数	支持值	备注
时长	5s, 10s, 15s	根据内容复杂度选择
分辨率	1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632	不支持 480P
模型 ID	`wan2.6-t2v`	在 API 调用中使用此标识符

了解更多：Wan2.6 文生视频 API 文档

图生视频 (I2V)

将静态图像动画化为动态视频序列。

非常适合将产品照片、插画或概念草图转化为带有受控运动和叙事背景的生动内容。

核心能力：

运动强度控制，调节动画激烈程度
多种分辨率选项，适用于不同场景
提示引导动画方向
角色与物体动画

技术规格：

参数	支持值	备注
时长	5s, 10s, 15s	针对复杂动画的延长时长
分辨率	1080P, 720P	不支持 480P
模型 ID	`wan2.6-i2v`	在 API 调用中使用此标识符

了解更多：Wan2.6 图生视频 API 文档

参考视频 (R2V)

通过参考视频输入，对现有视频进行风格迁移、角色扮演或场景修改。

核心能力：

角色扮演与角色替换
跨视觉风格的风格迁移
保持音视频同步
支持多参考视频（建议 1-2 个）

技术规格：

参数	支持值
时长	5s, 10s（不支持 15s）
分辨率	1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632（无 480P）
视频格式	MP4, MOV
文件大小	每个文件 < 30MB
单参考	最长 5s
双参考	每个最长 2.5s（不推荐 3 个视频）
模型 ID	`wan2.6-v2v`

重要提示： 参考视频不能与音频文件同时上传。reference_video_urls 参数接受视频 URL 数组。

了解更多：Wan2.6 参考视频 API 文档

在 Novita AI 上开始使用 Wan2.6

前置条件

开始之前，请确保你拥有：

Novita AI 账户：在 novita.ai 注册。注册后自动获得 $1 免费额度
API 密钥：从你的控制台获取
开发环境：Python、Node.js 或任意 HTTP 客户端

异步请求流程

Novita AI 上的 Wan2.6 采用异步处理模型高效处理生成请求：

提交请求：向相应端点 POST 你的参数
接收任务 ID：API 立即返回一个 task_id
轮询结果：使用任务 ID 检查生成状态
获取输出：生成完成后下载视频

文生视频示例

以下是使用 Wan2.6 T2V API 从文本生成视频的完整示例：

步骤 1：提交生成请求

import requests

url = "https://api.novita.ai/v3/async/wan2.6-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "audio_url": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "seed": 123,
        "size": "<string>",
        "audio": True,
        "duration": 123,
        "shot_type": "<string>",
        "watermark": True,
        "prompt_extend": True
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

步骤 2：获取视频生成结果

import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

关键参数说明

参数	描述	选项
`prompt`	所需视频的文本描述	详细的场景描述
`audio_url`	可选的同步音频文件	音频文件的 HTTPS URL
`negative_prompt`	要避免的元素	质量问题、不需要的对象等
`seed`	用于可重现性的随机种子	任意整数
`size`	视频分辨率	“1280x720”, “1920x1080”, “720x1280” 等
`duration`	视频长度（秒）	5, 10 或 15
`shot_type`	摄像机角度	“wide_shot”, “medium_shot”, “close_up”
`prompt_extend`	自动优化提示	true/false
`watermark`	添加水印到视频	true/false
`audio`	启用音频生成	true/false

如需完整的 API 规范和其他参数，请访问 Wan2.6 API 文档。

多镜头提示结构

Wan2.6 的多镜头功能使你能够创建具有多个机位和场景的连贯叙事序列。为最大限度提高多镜头视频的质量，请遵循以下结构化提示格式。

提示结构公式

提示 = 整体描述 + 镜头编号 + 时间戳 + 镜头内容

组成部分详解

1. 整体描述

简要概述整个视频内容。此部分应描述：

故事主题和叙事风格
主要情感或核心事件
整体基调和氛围

这有助于 AI 理解全局叙事方向，并在各镜头间保持一致性。

2. 镜头编号

为每个镜头分配一个顺序编号，以：

区分不同场景或段落
清晰组织视频结构
维持转场之间的逻辑流畅

3. 时间戳

指定每个镜头在视频时间轴中的确切时间范围：

确保内容与视频时长对齐
提高生成准确性
有助于精确控制镜头时长

4. 镜头内容

提供每个镜头的详细描述，包括：

主要角色或物体及其具体行为
动作、对话、表情和手势
摄像机角度和运动
光线和氛围细节

此部分遵循标准的单镜头提示编写惯例。

多镜头提示示例

以下是一个实际示例，展示了完整结构：

这个故事以第三人称视角讲述，是一部关于被抛弃与重燃希望的短剧。

镜头1 [0-3秒]：一个男孩独坐在操场角落，低头看着手中一封信。他轻轻叹了口气，眼神中透露出迷茫和不确定。

镜头2 [3-5秒]：硬切转场，固定机位，聚焦男孩的双眼。泪光闪烁，传达出失落和无助。

镜头3 [5-10秒]：硬切转场，场景切换到一间简朴的教室。一位女孩眼神温柔而坚定，衣着朴素，走向男孩，带着温暖而令人安心的微笑安慰他。

结语

Novita AI 上的 Wan2.6 实现了专业视频制作的普及，通过角色扮演、多镜头叙事和音视频同步，提供了前所未有的创意控制。

无论你是开发视频生成功能的开发者、制作活动内容的营销人员，还是探索预可视化技术的电影制作人，Novita AI 的 Model API 平台都能在消除基础设施复杂性的同时，交付电影级质量的效果。

立即开始生成专业视频，将你的创意愿景在几分钟内变为现实。

准备好开始了吗？ 创建你的 Novita AI 账户，使用免费额度体验 Wan2.6，感受 AI 视频生成的未来。

Novita AI 是一个领先的 AI 云平台，为开发者提供易用的 API 以及经济、可靠的 GPU 基础设施，用于构建和扩展 AI 应用。

Wan2.6 on Novita AI：具有角色扮演与多镜头控制的电影级创作模型

什么是 Wan2.6？

核心技术

技术创新

Wan2.6 的核心功能

1. 角色扮演能力

2. 多镜头控制与转场

3. 延长视频时长

4. 音视频同步

5. 增强质量指标

Novita AI 上的 Wan2.6 模型变体

文生视频 (T2V)

图生视频 (I2V)

参考视频 (R2V)

在 Novita AI 上开始使用 Wan2.6

前置条件

异步请求流程

文生视频示例

步骤 1：提交生成请求

步骤 2：获取视频生成结果

关键参数说明

多镜头提示结构

提示结构公式

组成部分详解

多镜头提示示例

结语

Product

RESOURCES

Partners

Company

什么是 Wan2.6？

核心技术

技术创新

Wan2.6 的核心功能

1. 角色扮演能力

2. 多镜头控制与转场

3. 延长视频时长

4. 音视频同步

5. 增强质量指标

Novita AI 上的 Wan2.6 模型变体

文生视频 (T2V)

图生视频 (I2V)

参考视频 (R2V)

在 Novita AI 上开始使用 Wan2.6

前置条件

异步请求流程

文生视频示例

步骤 1：提交生成请求

步骤 2：获取视频生成结果

关键参数说明

多镜头提示结构

提示结构公式

组成部分详解

多镜头提示示例

结语

相关文章

Product

RESOURCES

Partners

Company