Wan2.6 代表了 AI 视频生成的重大突破,提供了全球最全面的视频创作能力。该模型包含角色扮演、多镜头控制以及音视频同步功能,使其在众多竞品中脱颖而出。
现已在 Novita AI 的 Model API 平台上可用,开发者与企业无需管理复杂的基础设施,即可通过简单的 API 集成接入这一前沿模型。
本指南将介绍如何利用 Novita AI 上的 Wan2.6 进行文生视频、图生视频以及参考视频生成。
在 Novita AI Playground 中试用 Wan2.6
什么是 Wan2.6?
以下视频由 Wan2.6 生成
Wan2.6 是阿里云视频生成模型系列的最新一代产品,专为专业影视制作和创意内容场景设计。
作为全球功能最全的视频生成模型,Wan2.6 引入了革命性的能力,弥合了业余内容创作与专业电影制作之间的差距。
核心技术
Wan2.6 采用先进的多模态联合建模技术处理参考视频。系统能够从多个角度提取主体情绪、姿态以及全面的视觉特征等时间信息。
同时,模型会捕捉声学特征,包括音色和语速。这些元素在生成过程中作为控制条件,确保从视觉到音频的完整感官一致性。
技术创新
该模型融合了多项突破性技术:
- 多模态学习:同时处理视觉、音频和时间数据,生成连贯输出
- 高层语义理解:将简单提示转化为包含完整故事线的专业多镜头叙事
- 统一建模:在镜头切换间保持核心主体、场景布局和环境氛围的一致性
- 音视频同步:确保完美的口型同步和音频与视觉内容的对齐
Wan2.6 的核心功能
1. 角色扮演能力
Wan2.6 的招牌功能允许用户上传个人视频,将自己转化为专业品质场景中的角色。
模型可处理:
- 单角色与多角色表演:支持单人表演或群体互动
- 情感与姿态迁移:捕捉并复现细腻的表情与动作
- 跨风格转换:对源视频应用不同风格(科幻、悬疑、浪漫等)
- 专业表演模拟:从普通用户视频生成电影级质量的表演
2. 多镜头控制与转场
该模型擅长专业级的镜头构图与转场:
- 自动镜头规划:将简单提示转化为多镜头脚本
- 无缝转场:在不同机位和视角之间平滑切换
- 叙事连贯性:在多个镜头间保持故事连续性
- 一致性保持:全程确保角色、场景和氛围统一
3. 延长视频时长
Wan2.6 每次生成最长支持 15 秒——这是中国 AI 视频市场中单次生成时长最长的。
更长的时长支持更复杂的叙事和完整的场景展开,无需多次生成再拼接。
4. 音视频同步
音频与视觉元素的完美对齐:
- 口型同步精准度:对话时精确的嘴部运动匹配
- 声音驱动动画:音频线索驱动角色动作和表情
- 环境音频:与环境匹配的背景音和效果音
5. 增强质量指标
近期升级显著提升了模型的多个方面:
- 视觉保真度提升:更高的分辨率和细节质量
- 音效增强:专业级声音设计
- 更好的提示遵循能力:更准确地解读复杂指令
- 电影级运镜:自动应用专业摄影技巧
Novita AI 上的 Wan2.6 模型变体
Novita AI 为 Wan2.6 提供了三个不同的 API 端点,每个针对特定用例进行了优化,可通过 Model API 平台访问。
文生视频 (T2V)
直接从文本提示生成视频,无需输入图像或视频。
适用于从创意描述中创建原创内容,支持多镜头控制和叙事排序。
核心能力:
- 根据序列提示生成多镜头叙事
- 自动选择镜头类型和摄像机运动
- 场景间的电影级转场
- 支持 5 秒、10 秒和 15 秒的视频时长
技术规格:
| 参数 | 支持值 | 备注 |
|---|---|---|
| 时长 | 5s, 10s, 15s | 根据内容复杂度选择 |
| 分辨率 | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 | 不支持 480P |
| 模型 ID | wan2.6-t2v |
在 API 调用中使用此标识符 |
了解更多:Wan2.6 文生视频 API 文档
图生视频 (I2V)
将静态图像动画化为动态视频序列。
非常适合将产品照片、插画或概念草图转化为带有受控运动和叙事背景的生动内容。
核心能力:
- 运动强度控制,调节动画激烈程度
- 多种分辨率选项,适用于不同场景
- 提示引导动画方向
- 角色与物体动画
技术规格:
| 参数 | 支持值 | 备注 |
|---|---|---|
| 时长 | 5s, 10s, 15s | 针对复杂动画的延长时长 |
| 分辨率 | 1080P, 720P | 不支持 480P |
| 模型 ID | wan2.6-i2v |
在 API 调用中使用此标识符 |
了解更多:Wan2.6 图生视频 API 文档
参考视频 (R2V)
通过参考视频输入,对现有视频进行风格迁移、角色扮演或场景修改。
核心能力:
- 角色扮演与角色替换
- 跨视觉风格的风格迁移
- 保持音视频同步
- 支持多参考视频(建议 1-2 个)
技术规格:
| 参数 | 支持值 |
|---|---|
| 时长 | 5s, 10s(不支持 15s) |
| 分辨率 | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632(无 480P) |
| 视频格式 | MP4, MOV |
| 文件大小 | 每个文件 < 30MB |
| 单参考 | 最长 5s |
| 双参考 | 每个最长 2.5s(不推荐 3 个视频) |
| 模型 ID | wan2.6-v2v |
重要提示: 参考视频不能与音频文件同时上传。reference_video_urls 参数接受视频 URL 数组。
了解更多:Wan2.6 参考视频 API 文档
在 Novita AI 上开始使用 Wan2.6
前置条件
开始之前,请确保你拥有:
异步请求流程
Novita AI 上的 Wan2.6 采用异步处理模型高效处理生成请求:
- 提交请求:向相应端点 POST 你的参数
- 接收任务 ID:API 立即返回一个
task_id - 轮询结果:使用任务 ID 检查生成状态
- 获取输出:生成完成后下载视频
文生视频示例
以下是使用 Wan2.6 T2V API 从文本生成视频的完整示例:
步骤 1:提交生成请求
import requests
url = "https://api.novita.ai/v3/async/wan2.6-t2v"
payload = {
"input": {
"prompt": "<string>",
"audio_url": "<string>",
"negative_prompt": "<string>"
},
"parameters": {
"seed": 123,
"size": "<string>",
"audio": True,
"duration": 123,
"shot_type": "<string>",
"watermark": True,
"prompt_extend": True
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
步骤 2:获取视频生成结果
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
关键参数说明
| 参数 | 描述 | 选项 |
|---|---|---|
prompt |
所需视频的文本描述 | 详细的场景描述 |
audio_url |
可选的同步音频文件 | 音频文件的 HTTPS URL |
negative_prompt |
要避免的元素 | 质量问题、不需要的对象等 |
seed |
用于可重现性的随机种子 | 任意整数 |
size |
视频分辨率 | “1280x720”, “1920x1080”, “720x1280” 等 |
duration |
视频长度(秒) | 5, 10 或 15 |
shot_type |
摄像机角度 | “wide_shot”, “medium_shot”, “close_up” |
prompt_extend |
自动优化提示 | true/false |
watermark |
添加水印到视频 | true/false |
audio |
启用音频生成 | true/false |
如需完整的 API 规范和其他参数,请访问 Wan2.6 API 文档。
多镜头提示结构
Wan2.6 的多镜头功能使你能够创建具有多个机位和场景的连贯叙事序列。为最大限度提高多镜头视频的质量,请遵循以下结构化提示格式。
提示结构公式
提示 = 整体描述 + 镜头编号 + 时间戳 + 镜头内容
组成部分详解
1. 整体描述
简要概述整个视频内容。此部分应描述:
- 故事主题和叙事风格
- 主要情感或核心事件
- 整体基调和氛围
这有助于 AI 理解全局叙事方向,并在各镜头间保持一致性。
2. 镜头编号
为每个镜头分配一个顺序编号,以:
- 区分不同场景或段落
- 清晰组织视频结构
- 维持转场之间的逻辑流畅
3. 时间戳
指定每个镜头在视频时间轴中的确切时间范围:
- 确保内容与视频时长对齐
- 提高生成准确性
- 有助于精确控制镜头时长
4. 镜头内容
提供每个镜头的详细描述,包括:
- 主要角色或物体及其具体行为
- 动作、对话、表情和手势
- 摄像机角度和运动
- 光线和氛围细节
此部分遵循标准的单镜头提示编写惯例。
多镜头提示示例
以下是一个实际示例,展示了完整结构:
这个故事以第三人称视角讲述,是一部关于被抛弃与重燃希望的短剧。
镜头1 [0-3秒]:一个男孩独坐在操场角落,低头看着手中一封信。他轻轻叹了口气,眼神中透露出迷茫和不确定。
镜头2 [3-5秒]:硬切转场,固定机位,聚焦男孩的双眼。泪光闪烁,传达出失落和无助。
镜头3 [5-10秒]:硬切转场,场景切换到一间简朴的教室。一位女孩眼神温柔而坚定,衣着朴素,走向男孩,带着温暖而令人安心的微笑安慰他。
结语
Novita AI 上的 Wan2.6 实现了专业视频制作的普及,通过角色扮演、多镜头叙事和音视频同步,提供了前所未有的创意控制。
无论你是开发视频生成功能的开发者、制作活动内容的营销人员,还是探索预可视化技术的电影制作人,Novita AI 的 Model API 平台都能在消除基础设施复杂性的同时,交付电影级质量的效果。
立即开始生成专业视频,将你的创意愿景在几分钟内变为现实。
准备好开始了吗? 创建你的 Novita AI 账户,使用免费额度体验 Wan2.6,感受 AI 视频生成的未来。
Novita AI 是一个领先的 AI 云平台,为开发者提供易用的 API 以及经济、可靠的 GPU 基础设施,用于构建和扩展 AI 应用。
