Novita 提供极具市场竞争力的定价方案。
例如,一段 Wan 2.1 I2V 720P 5 秒视频仅需 0.3 美元,一段 Wan 2.1 I2V 480P 5 秒视频仅需 0.2 美元!
目前支持最多 3 个 LoRA!
Wan 2.1 I2V(图生视频)是一款尖端的视频生成模型,融合了 Wan-VAE 和 Video Diffusion DiT 等最先进技术。它在高保真视频重建、高效压缩以及无缝文本到视频生成方面表现出色,这一切都得益于一个稳健且干净的高质量训练数据集。
Wan2.1 I2V 能力展示

Wan 2.1 的核心创新
1. Wan-VAE
概述
- 一种用于高效压缩和高保真运动再现的 3D 变分自编码器(VAE)。
- 能够编解码 1080P 视频,同时保持时间一致性。
- 集成了多种策略以优化时空压缩、减少内存占用并确保时间因果性。
解决的问题
- 高效压缩: 降低视频数据的存储和计算需求。
- 高保真重建: 确保生成的视频质量高且运动连贯。
- 时间一致性: 避免生成视频中出现常见的帧间断或抖动问题。
2. Video Diffusion DiT
概述
- 基于 Diffusion Transformers 构建,并通过 Flow Matching 框架增强。
- 支持多语言文本输入(通过 T5 编码器)和文本嵌入(交叉注意力)。
- 使用共享 MLP 预测时间嵌入的调制参数,使每个 Transformer 块学习不同的偏置,从而提升性能。
解决的问题
- 文本与视频生成的深度融合: 使模型能够更好地理解并根据文本描述生成视频。
- 提升生成性能: 在不增加参数数量的情况下,显著提高生成视频的质量和表现力。
- 多模态支持: 处理多种语言和输入类型,拓宽应用场景。
3. 候选数据集
概述
- 一个大规模、经过精心筛选和去重的图像与视频数据集。
- 采用四步数据清洗流程,重点关注数据维度、视觉质量和运动质量。
- 构建了一个多样化且高质量的训练集。
解决的问题
- 数据噪声和冗余: 有效去除低质量或重复数据,提升训练数据有效性。
- 多样性与质量: 为模型提供丰富且干净的样本,增强泛化能力和生成能力。
- 大规模训练: 支持在大规模高质量数据集上进行高效训练。
Wan 2.1 的 Vbench 表现
Wan 2.1(Wan-14B)在 ID 一致性、物理合理性和平滑度等核心任务上表现优异。其加权总分处于业界领先水平,是目前最出色的视频生成模型之一。不过,在风格化能力和摄像机控制方面仍有提升空间。

Wan 2.1 的硬件需求
Wan 2.1 对硬件要求较高,尤其是在高分辨率和大模型任务中。Wan 2.1 I2V 的内存需求接近 80GB。建议使用多张高端数据中心级 GPU(如 A100、H100 或 H20)来满足内存和速度要求。消费级显卡仅适用于小模型和低分辨率场景。
| 模型 | 单卡兼容 | 多卡推荐 | 推荐等级 |
|---|---|---|---|
| RTX 4090 | 不支持 | 不支持 | 仅适用于 T2V-1.3B 480P |
| H20 | 不支持 | 4 卡或 8 卡 | ★★★ |
| A800/A100 | 支持 | 4 卡或 8 卡 | ★★★★ |
| H800/H100 | 支持 | 4 卡或 8 卡 | ★★★★★ |
如何通过 Novita AI 使用 Wan 2.1?
Novita AI 是一个 AI 云平台,为开发者提供易于使用的 API 来部署 AI 模型,同时也提供价格实惠且可靠的 GPU 云服务,用于构建和扩展应用。
第一步:登录并访问模型库
登录您的账户,点击 模型库 按钮。

第二步:选择您的模型
浏览可用选项,选择适合您需求的模型。

第三步:开始免费试用

第四步:获取您的 API 密钥
为了进行 API 认证,我们将为您提供一个新的 API 密钥。进入页面后,您可以按照图示复制 API 密钥。

第五步:安装 API
使用与您的编程语言对应的包管理器安装 API。

安装后,在开发环境中导入必要的库。使用您的 API 密钥初始化客户端,即可开始与 Novita AI 大语言模型进行交互。以下是为 Python 用户提供的聊天补全 API 示例。
import requests
url = "https://api.novita.ai/v3/async/wan-i2v"
payload = {
"extra": {"webhook": {
"url": "<string>",
"test_mode": {
"enabled": True,
"return_task_status": "<string>"
}
}},
"model_name": "<string>",
"image_url": "<string>",
"width": 123,
"height": 123,
"loras": [
{
"path": "<string>",
"scale": {}
}
],
"seed": 123,
"prompt": "<string>",
"negative_prompt": "<string>",
"steps": 123,
"guidance_scale": 123,
"flow_shift": 123,
"enable_safety_checker": True
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.request("POST", url, json=payload, headers=headers)
print(response.text)
Wan 2.1 I2V(图生视频)是一款尖端的视频生成模型,融合了 Wan-VAE 和 Video Diffusion DiT 等最先进技术。它在高保真视频重建、高效压缩以及无缝文本到视频生成方面表现出色,这一切都得益于一个稳健且干净的高质量训练数据集。
常见问题
Wan 2.1 I2V 对硬件有什么要求?
Wan 2.1 I2V 是一款先进的模型,用于从文本或图像输入生成高质量视频。其独特之处在于高保真的运动再现、时间一致性以及多语言文本到视频生成支持。
什么是 Wan 2.1 I2V?它有何独特之处?
具有竞争力的定价:每段 5 秒 720P 视频仅需 0.40 美元,而类似平台需 2.39 美元。
易于使用的 API,附有详细的开发者文档。
如何访问 Wan 2.1 I2V?
您可以通过 Novita AI 平台使用 Wan 2.1 I2V。只需登录、选择模型、获取 API 密钥,然后将 API 集成到您的开发环境中。
Novita AI 是一个一体化云平台,助力您实现 AI 愿景。集成 API、无服务器模式、GPU 实例——您需要的经济高效工具。无需操心基础设施,从免费开始,让您的 AI 愿景成为现实。
