关键亮点
Wan 2.1 在文本生成视频(T2V)、图像生成视频(I2V)和视频编辑等任务中表现出色,同时还支持多语言视觉文字生成。它对消费级 GPU 进行了优化,T2V-1.3B 模型仅需 8.19 GB 显存。
Mochi 1 是一款开源 AI 模型,在高保真视频生成方面表现卓越,拥有令人印象深刻的运动质量和强大的提示遵循能力。虽然它可以在单个 GPU 上运行,但最佳性能需要约 60 GB 显存。
视频生成模型正在快速发展,使用户能够通过文本提示或图像创作高质量视频。这些模型在架构、功能和硬件要求上各不相同,因此了解它们的优势和局限性至关重要。该领域两个突出的模型是 Wan 2.1 和 Mochi 1。
立即在 Novita AI 上免费试用。要集成 Wan 2.1 API,请访问我们的开发者文档了解更多详情。此外,我们还提供功能完整的 14B 版本。
Novita 在市场上提供极具竞争力的价格。
例如,一个 Wan 2.1 720P 5秒视频仅需 $0.4
而 Replicate 上类似的视频需要 $2.39
简单对比
现在我们通过输入相同的文本提示来测试两个模型,评估它们对文本的理解以及最终视频的输出。
提示: 一个花园变得生机勃勃,万花筒般的蝴蝶在花丛中翩翩起舞,它们精致的翅膀在下面的花瓣上投下阴影。背景中,一座宏伟的喷泉轻柔地倾泻着水花,其有节奏的水声提供了舒缓的背景音。在一棵大树凉爽的树荫下,一把孤零零的木椅邀请人们独处和沉思,光滑的表面被无数寻求宁静时刻的游客触摸得光滑。
Wan 2.1
Mochi
提示: 一只金毛猎犬,戴着时髦的黑色太阳镜,长长的毛发在微风中飘动,欢快地在屋顶露台上奔跑,露台刚下过小雨。场景从远处展现,狗狗充满活力的跳跃随着它靠近镜头而变大,尾巴摇摆着抑制不住的喜悦,身后的混凝土上水珠闪烁。阴沉的天空提供了戏剧性的背景,突出了犬类活力的金色毛皮,它正向观众飞奔而来。
Wan 2.1
Mochi
基本介绍
| **特性 ** | Wan 2.1 | Mochi 1 |
|---|---|---|
| 开源 | 是,由阿里云开源 | 是,基于 Apache 2.0 许可证开源。 |
| 分辨率 | 针对 480P 和 720P 视频生成优化。 | 生成 480P 分辨率视频,未来更新计划支持 720P。 |
| 功能 | 在文本生成视频(T2V)和图像生成视频(I2V)任务中表现出色。 | 主要为文本生成视频(T2V)模型;社区已请求实现 I2V 功能。 |
| 视频长度 | 在 RTX 4090 上,生成 5 秒 480P 视频约需 4 分钟。 | 生成视频时长最长可达 5.4 秒。实际测试中生成时间可能不到 1 分钟。 |
架构
Wan 2.1
- Wan 2.1 基于扩散变换器范式构建,并通过 Flow Matching 框架增强。
- 采用 Wan-VAE,一种先进的 3D 变分自编码器,确保高效压缩和高保真运动再现。
- T5 编码器能够无缝处理多语言文本输入。
- 架构集成了先进的参数调制系统,用于优化文本信息的预测,并将其融入生成的视频中。
- 每个变换器块内的交叉注意力机制将文本输入直接嵌入模型结构,增强对齐和上下文集成。
Mochi 1
- Mochi 1 由 100 亿参数的扩散模型驱动,基于非对称扩散变换器(AsymmDiT)架构。
- 采用非对称编码器-解码器结构,实现高效且高质量的压缩。
- AsymmVAE 将视频压缩 128 倍,在 12 通道潜在空间中实现 8x8 空间和 6 倍时间压缩。
- 使用单个 T5-XXL 语言模型对提示进行编码,确保强大的语言理解和集成。
- 架构设计用于简化文本处理,使模型能够将更多神经容量分配给视觉推理和视频生成。
硬件要求
Wan 2.1
- T2V-1.3B 模型仅需 8.19 GB 显存,兼容消费级 GPU。
- 例如,在 RTX 4090 上生成 5 秒 480P 视频约需 4 分钟。
Mochi 1
- 单 GPU 运行需要约 60 GB 显存。
- 支持多 GPU 和单 GPU 运行。
- 最初报告称需要 4 张 H100 GPU,但优化显著降低了要求,例如仅需 1 张 GPU。
应用
Wan2.1
适用于利用 AI 以经济高效的方式开发高质量视觉内容的各类企业。
由于能够在视频中直接生成文本内容,适用于创意和专业场景。
Mochi 1
旨在帮助创作者快速将书面内容转化为视频,无需广泛的编辑技能或设备。
在研究、产品开发和创意表达方面具有广泛的应用。
总结
选择 Wan 2.1 如果您需要一个支持多种任务(文本生成视频、图像生成视频、视频编辑)、多语言能力以及在消费级 GPU 上高效运行的通用模型。它特别适合需要高性能动态运动、空间关系、色彩准确性和多对象交互的应用。
选择 Mochi 1 如果您注重视频生成中的高保真运动和强大的提示遵循能力。虽然对显存要求较高,但其开源特性以及与 ComfyUI 等工具的兼容性使其成为创意实验和研究的绝佳选择。
Novita AI 是全能云端平台,助力您的 AI 梦想。集成 API、无服务器、GPU 实例——您所需的经济高效工具。无需基础设施,免费开始,让您的 AI 愿景成为现实。

