Novita предлагает высококонкурентные цены на рынке.
Например, 5-секундное видео Wan 2.1 I2V 720P стоит всего $0.3, а 5-секундное видео Wan 2.1 I2V 480P — всего $0.2!
Сейчас поддерживается до 3 Lora!
Начните бесплатную пробную версию на Novita AI уже сегодня. Чтобы интегрировать API Wan 2.1, посетите нашу документацию для разработчиков для получения подробностей.
Wan 2.1 I2V (Image-to-Video) — это передовая модель генерации видео, которая объединяет современные технологии, такие как Wan-VAE и Video Diffusion DiT. Она отлично справляется с высокоточной реконструкцией видео, эффективным сжатием и бесшовной генерацией видео из текста, опираясь на чистый и качественный набор обучающих данных.
Возможности Wan2.1 I2V

Ключевые инновации Wan 2.1
1. Wan-VAE
Обзор
- 3D-вариационный автоэнкодер (VAE), предназначенный для эффективного сжатия и высокоточной передачи движения.
- Способен кодировать и декодировать видео 1080P, сохраняя временную согласованность.
- Интегрирует несколько стратегий для оптимизации пространственно-временного сжатия, снижения потребления памяти и обеспечения временной причинности.
Решаемые проблемы
- Эффективное сжатие: Снижает требования к хранению и вычислительным ресурсам для видеоданных.
- Высокоточная реконструкция: Обеспечивает высокое качество и согласованность движения в создаваемых видео.
- Временная согласованность: Избегает распространённых проблем, таких как прерывистость кадров или дрожание в созданных видео.
2. Video Diffusion DiT
Обзор
- Основан на Diffusion Transformers, усиленных фреймворком Flow Matching.
- Поддерживает многоязычный текстовый ввод (через T5 Encoder) и встраивание текста (cross-attention).
- Использует общий MLP для предсказания параметров модуляции для временных эмбеддингов, позволяя каждому блоку трансформера изучать свои смещения, что повышает производительность.
Решаемые проблемы
- Глубокая интеграция текста и генерации видео: Позволяет модели лучше понимать и генерировать видео в соответствии с текстовыми описаниями.
- Улучшение производительности генерации: Значительно повышает качество и выразительность создаваемых видео без увеличения числа параметров.
- Мультимодальная поддержка: Обрабатывает несколько языков и типов ввода, расширяя области применения.
3. Кандидатный набор данных
Обзор
- Масштабный, тщательно отобранный и дедублицированный набор изображений и видео.
- Использует четырёхэтапный процесс очистки данных, ориентированный на размерность, визуальное качество и качество движения.
- Формирует разнообразный и качественный тренировочный набор.
Решаемые проблемы
- Шум и избыточность данных: Эффективно удаляет низкокачественные или дублирующиеся данные, повышая эффективность обучающих выборок.
- Разнообразие и качество: Предоставляет модели богатые и чистые образцы, улучшая обобщение и способности генерации.
- Масштабное обучение: Поддерживает эффективное обучение на больших, качественных наборах данных.
Vbench Wan 2.1
Wan 2.1 (Wan-14B) демонстрирует отличные результаты в ключевых задачах, таких как согласованность ID, физическая правдоподобность и плавность. Его общий взвешенный балл — один из самых высоких в индустрии, что делает его одной из ведущих моделей генерации видео на сегодняшний день. Тем не менее, есть ещё потенциал для улучшения в таких областях, как стилизация и управление камерой.

Требования к оборудованию для Wan 2.1
Wan 2.1 предъявляет высокие требования к оборудованию, особенно для задач с высоким разрешением и большими моделями. Требования к памяти для Wan 2.1 I2V приближаются к 80 ГБ. Рекомендуется использовать несколько высокопроизводительных датацентровых GPU (таких как A100, H100 или H20) для удовлетворения требований к памяти и скорости. Потребительские GPU подходят только для небольших моделей и сценариев с низким разрешением.
| Модель | Поддержка одной карты | Рекомендация по нескольким GPU | Уровень рекомендации |
|---|---|---|---|
| RTX 4090 | Нет | Нет | только для T2V-1.3B при 480P |
| H20 | Не поддерживается | 4 или 8 GPU | ★★★ |
| A800/A100 | Поддерживается | 4 или 8 GPU | ★★★★ |
| H800/H100 | Поддерживается | 4 или 8 GPU | ★★★★★ |
Как получить доступ к Wan 2.1 через Novita AI?
Novita AI — это облачная платформа ИИ, которая предоставляет разработчикам простой способ развёртывания моделей ИИ с помощью нашего простого API, а также доступные и надёжные GPU-облака для создания и масштабирования.
Шаг 1: Войдите в систему и откройте библиотеку моделей
Войдите в свою учётную запись и нажмите кнопку Model Library.

Попробуйте Wan 2.1 I2V прямо сейчас!
Шаг 2: Выберите свою модель
Просмотрите доступные варианты и выберите модель, которая вам подходит.

Шаг 3: Начните бесплатную пробную версию

Шаг 4: Получите свой API-ключ
Для аутентификации в API мы предоставим вам новый API-ключ. Перейдя на страницу, скопируйте API-ключ, как показано на изображении.

Шаг 5: Установите API
Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с помощью вашего API-ключа, чтобы начать взаимодействие с Novita AI LLM. Это пример использования API чат-завершений для пользователей Python.
import requests
url = "https://api.novita.ai/v3/async/wan-i2v"
payload = {
"extra": {"webhook": {
"url": "<string>",
"test_mode": {
"enabled": True,
"return_task_status": "<string>"
}
}},
"model_name": "<string>",
"image_url": "<string>",
"width": 123,
"height": 123,
"loras": [
{
"path": "<string>",
"scale": {}
}
],
"seed": 123,
"prompt": "<string>",
"negative_prompt": "<string>",
"steps": 123,
"guidance_scale": 123,
"flow_shift": 123,
"enable_safety_checker": True
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.request("POST", url, json=payload, headers=headers)
print(response.text)
Wan 2.1 I2V (Image-to-Video) — это передовая модель генерации видео, объединяющая современные технологии, такие как Wan-VAE и Video Diffusion DiT. Она отлично справляется с высокоточной реконструкцией видео, эффективным сжатием и бесшовной генерацией видео из текста, опираясь на чистый и качественный набор обучающих данных.
Часто задаваемые вопросы
Какие требования к оборудованию для Wan 2.1 I2V?
Wan 2.1 I2V — это продвинутая модель для генерации высококачественных видео из текстовых или графических входных данных. Её уникальность заключается в высокоточной передаче движения, временной согласованности и многоязычной поддержке генерации видео из текста.
Что такое Wan 2.1 I2V и что делает его уникальным?
Конкурентные цены: $0.40 за 5-секундное видео 720P по сравнению с $2.39 на аналогичных платформах.
Простой в использовании API с подробной документацией для разработчиков.
Как я могу получить доступ к Wan 2.1 I2V?
Вы можете использовать Wan 2.1 I2V через платформу Novita AI. Просто войдите в систему, выберите модель, получите API-ключ и интегрируйте API в свою среду разработки.
Novita AI — это универсальная облачная платформа, которая даёт возможность реализовать ваши амбиции в области ИИ. Интегрированные API, бессерверные вычисления, GPU-инстансы — экономичные инструменты, которые вам нужны. Устраните инфраструктурные барьеры, начните бесплатно и воплотите своё видение ИИ в реальность.
