Wan2.1：开源 AI 模型性能超越 Sora

开源可用
Wan2.1 的多功能能力
硬件要求
模型架构与关键创新
VBench 评估
Wan 2.1 与 Sora 对比
应用场景

核心亮点

开源可用：Wan2.1 是开源 AI 模型，为学术研究者、科研人员及企业提供高性价比、高质量的视频生成能力。

多功能能力：支持 T2V、I2V、视频编辑、T2I，并可生成中英文多语言字幕文本。

硬件要求：T2V-1.3B 仅有 1.3B 参数，大幅降低硬件门槛。

模型架构与创新：采用 Wan-VAE 进行 3D 编码、Video Diffusion DiT，以及用于高质量训练数据集的稳健流程。

VBench 与性能评估：在 VBench 上以 86.22% 的得分超越 Sora 等竞品，在 ID 一致性、空间准确性、动作指令执行方面表现出色。

Novita AI 提供 Wan 2.1 的 API。只需注册免费试用，通过简单请求即可使用 API。

Wan2.1 是由阿里云 ** 开发的开源 AI 模型，专为高级视频生成设计。它兼具高性能、高效率与多功能性，适用于广泛的创意和专业应用。该模型已在 ** 阿里云 AI 模型社区 ModelScope 和 Hugging Face 上开源提供。

来源：wan

立即在 Novita AI 上开始免费试用。要集成 Hunyuan Video API，请访问我们的开发者文档了解更多详情。

Novita 在市场上提供极具竞争力的价格。

例如，一个 Wan 2.1 720P 5 秒视频仅需 $0.3

而 Replicate 上同类视频需 $2.39

开源可用

阿里云已将其 Wan2.1 系列视频生成 AI 模型开源。此举旨在降低使用门槛，使企业能够以高性价比的方式创建高质量视觉内容。通过将这些模型以开源形式发布，学术研究者、科研人员及商业实体 无需重大前期投入即可借助 AI 的力量推进项目。

Wan2.1 的多功能能力

Wan2.1 在多种任务中表现出色，使其成为视频生成的通用工具：

文生视频 (T2V)
图生视频 (I2V)
视频编辑
文生图 (T2I)

值得注意的是，Wan2.1 是首个能够同时生成中文和英文字幕的视频模型，其强大的文本生成能力增强了实际应用价值。

硬件要求

下表详细总结了四种 Wan2.1 模型的硬件要求。表格列出了各模型的功能、支持分辨率、模型大小、硬件需求以及推荐 GPU，以获得最佳性能。

模型名称	功能	支持分辨率	模型大小	硬件需求	推荐 GPU
T2V-14B	文生视频 (T2V)	480P / 720P	14B	⭐⭐⭐⭐	A100 / RTX 3090 / RTX 4090
I2V-14B-720P	图生视频 (I2V)	720P	14B	⭐⭐⭐⭐	A100 / RTX 3090 / RTX 4090
I2V-14B-480P	图生视频 (I2V)	480P	14B	⭐⭐⭐	RTX 3090 / RTX 4070 Ti
T2V-1.3B	文生视频 (T2V)	低分辨率	1.3B	⭐⭐	RTX 3060 / RTX 4060 或更高

模型架构与关键创新

Wan2.1 基于 **扩散 Transformer 范式 **，并采用 Flow Matching 框架 进行增强。其关键创新包括：

Wan-VAE：一种 3D 变分自编码器，专为高效压缩和高保真运动再现而设计。它能够编解码 1080P 视频，同时保持时间一致性。该模型集成了多种策略以优化 ** 时空压缩 、减少内存使用并确保 ** 时间因果性。

Video Diffusion DiT：Wan2.1 在 Diffusion Transformer 中利用 Flow Matching 框架，使用 T5 编码器处理多语言文本输入，并通过交叉注意力将文本嵌入模型。一个共享的 MLP（含 SiLU 和线性层）为时间嵌入预测六个调制参数，使每个 transformer 块学习不同的偏置。该架构在不增加参数规模的情况下显著提升了性能。

候选数据集：Wan 2.1 整理并去重了一个包含海量图像和视频数据的候选数据集。在数据整理过程中，我们设计了一个四步数据清洗流程，重点关注基础维度、视觉质量和运动质量。通过稳健的数据处理流程，我们可以轻松获得高质量、多样化且大规模的图像和视频训练集。

VBench 评估

VBench 是一个稳健且全面的基准测试套件，专门用于评估视频生成模型。它将“视频生成质量”分解为层次化、解耦且具体的维度，每个维度都配有专门的提示词和评估方法。主要评估指标包括：

大幅运动生成
人造痕迹
像素级稳定性
ID 一致性
物理合理性
平滑度
综合图像质量
场景生成质量
风格化能力
单一物体准确性
多物体准确性
空间位置准确性
摄像机控制
动作指令遵循

VBench 旨在提供对单个模型优缺点的深入洞察，实现细粒度、客观的评估。这些洞察不仅指导视频生成的未来发展，还有助于改进模型性能。为了确保与人类感知一致，VBench 融入了人工偏好标注，验证了其作为基准的相关性和可靠性。Wan2.1 的性能如下表所示：

来源：Alizila

此外，Wan-Bench 用于评估 T2V-1.3B 模型，该模型在关键指标上超越了更大的开源同类模型。这些评估突显了该模型在以下方面的进步：

Wan 2.1 与 Sora 对比

综合性能优势：

Wan2.1 在 VBench 上获得 86.22% 的更高总分，超过 Sora 的 84.28%，并在多个子维度上表现更强。

支持中英文字幕生成：

Wan2.1 是首个同时支持中英文双语字幕生成的视频生成模型，在多语言场景中具有独特优势。Sora 不具备此功能。

子维度表现：

ID 一致性： Wan2.1 在视频中保持主体一致性方面表现出色。
单一物体准确性： Wan2.1 在单个物体场景中生成结果更精确。
空间位置准确性： Wan2.1 在处理空间逻辑关系方面显著优于 Sora。
动作指令执行： Wan2.1 能更好地理解和执行复杂动作指令。

开源与可访问性：

Wan2.1 提供开源代码，易于开发者使用和集成。
Sora 虽然提供 API，但并非开源，灵活性受限。

有待改进之处：

Wan2.1 在 运动平滑度 ** 和 ** 大幅运动生成 方面略逊于 Sora，但差距不大。

应用场景

内容创作

支持为社交媒体、营销和娱乐自动生成高质量视频。
支持风格化视频生成，以匹配特定艺术或品牌需求。

教育与在线学习

生成包含自定义视觉和中英文字幕的教育视频。
有助于创建吸引人且个性化的学习内容。

电影与动画

根据文本或图像输入协助创建故事板、视频原型或完整场景。
支持多语言字幕，适合全球受众。

广告与营销

为特定受众制作定制化视频广告。
通过视觉引人、情境相关的内容提升营销活动效果。

游戏

根据文字描述或角色图像生成游戏内过场动画或动画。
为游戏开发和叙事创建动态视频资源。

多语言交流

支持中英文字幕生成，非常适合多语言演示和媒体。

原型设计与可视化

帮助通过视频可视化概念、想法或建筑设计。
为演示或提案生成项目的动态展示。

无障碍与包容性

生成带字幕的视频，改善听障人士的可访问性。
多语言支持有助于为多元用户群体创作内容。

立即探索 Wan 2.1 视频演示

Wan2.1 代表了 AI 驱动视频生成的重大进步。其开源特性、多语言能力以及在 VBench 等基准测试中的卓越表现，使其成为创意和专业应用中通用且易用的工具。尽管在运动平滑度和大幅运动生成方面略逊于 Sora，但其整体能力、创新架构和广泛的应用场景使其成为教育、媒体、游戏等行业变革性的工具。

Novita AI 是集 API、无服务器、GPU 实例于一体的全能云平台，提供高性价比的工具，助力您的 AI 愿景。无需基础设施，免费开始，让您的 AI 梦想成真。

Wan2.1：开源 AI 模型性能超越 Sora

核心亮点

开源可用

Wan2.1 的多功能能力

硬件要求

模型架构与关键创新

VBench 评估

Wan 2.1 与 Sora 对比

应用场景

推荐阅读

Product

RESOURCES

Partners

Company

核心亮点

开源可用

Wan2.1 的多功能能力

硬件要求

模型架构与关键创新

VBench 评估

Wan 2.1 与 Sora 对比

应用场景

推荐阅读

相关文章

Product

RESOURCES

Partners

Company