Novita AI с гордостью представляет API Wan 2.2 I2V — передовой инструмент для генерации видео из изображений (I2V), который революционизирует создание видеоконтента. Являясь расширением Wan 2.2 T2V от Alibaba, этот API использует архитектуру Mixture-of-Experts (MoE) и передовые методы сжатия для вывода видео в разрешении 720P с частотой 24 кадра в секунду, оптимизированный для потребительских графических процессоров. В этой статье мы разберем, что такое Wan 2.2 I2V, его функции и как он может преобразовать рабочие процессы создания видео.
Что такое Wan 2.2 I2V?
Wan 2.2 I2V — это продвинутый генератор видео на основе ИИ, который преобразует текстовые или графические входные данные в короткие видеоклипы. Термин «I2V» означает image-to-video (генерация видео из изображений), что указывает на один из его режимов генерации (также поддерживается генерация видео из текста). Wan 2.2 представляет собой второй крупный релиз серии моделей Wan, который приносит значительные улучшения по сравнению с версией 2.1. Для получения высококачественного видео в разрешении 720p по запросам он использует передовую диффузионную архитектуру Mixture-of-Experts (MoE). Модель имеет открытый исходный код (лицензия Apache 2.0) и предназначена для получения профессиональных результатов на стандартном потребительском оборудовании.
Компактное и универсальное решение TI2V: Wan2.2 представляет открытую 5B-модель, работающую на основе продвинутого Wan2.2-VAE, с впечатляющим коэффициентом сжатия 16×16×4. Эта легковесная модель бесшовно поддерживает как генерацию видео из текста (T2V), так и генерацию видео из изображений (I2V) в разрешении 720P с частотой 24 кадра в секунду. Оптимизированная для потребительских графических процессоров, таких как NVIDIA 4090, она является одной из самых быстрых доступных моделей для 720P@24fps, что делает ее идеальным решением как для промышленных применений, так и для академических исследований.
Архитектура Wan 2.2 I2V и понимание изображений
Два типа MOE
Диффузионная модель Mixture-of-Experts (MoE) в Wan 2.2 использует как экспертные сети для высокого уровня шума, так и для низкого уровня, чтобы лучше обрабатывать изображения разной сложности. Например, сеть для высокого уровня шума отлично справляется с обработкой сложных деталей изображения, а сеть для низкого уровня шума сосредоточена на общей композиции сцены. Это разделение задач повышает эффективность способности модели анализировать и интерпретировать содержимое изображений.
Сжатие и пространственно-временная согласованность
Для пространственно-временного сжатия модель использует Wan-VAE (вариационный автоэнкодер), достигая коэффициента сжатия 64× (4× по времени, 16×16 по пространству). Это позволяет эффективно кодировать и декодировать видеокадры, сохраняя при этом важные детали и временную согласованность. Данная техника сжатия не только повышает эффективность генерации, но и обеспечивает плавный и естественный переход от статических изображений к динамическим видео.
Поддержание временной согласованности крайне важно при генерации видео из изображений, особенно для таких аспектов, как изменение освещения и движение объектов. 3D-архитектура сжатия Wan-VAE гарантирует визуальную плавность и корректное распространение содержимого изображения во времени, обеспечивая высококачественный вывод видео.
Ключевые функции Wan 2.2 I2V
|🎥 Управление кинематографической эстетикой|Обеспечивает контроль эстетики на уровне профессионального кино с параметрами в стиле фильмов. В запросах можно указывать освещение, цветовые тона, углы камеры и детали композиции, чтобы влиять на внешний вид генерируемого видео.| |🤖 Сложное движение и стабильность|Отлично справляется с плавной генерацией крупномасштабных сложных движений. Обрабатывает быстрое движение камеры (панорамирование, наклон, зум) и несколько движущихся объектов с улучшенной стабильностью. Благодаря экспертам MoE движение получается более плавным, с меньшим количеством дрожания и проблем с непрерывностью.| |🎯 Точное соответствие семантике|Демонстрирует лучшее понимание сложных сцен и взаимодействия нескольких объектов, генерируя результаты, которые точно соответствуют замыслу пользователя, указанному в запросе. Расширенный набор обучающих данных и улучшенные стратегии диффузии повышают согласованность и надежность результатов.|
Какие оптимизации рабочих процессов реализованы в Wan 2.2?

Wan 2.2 I2V в сравнении с Wan 2.1 I2V
Wan 2.2 I2V в сравнении с Wan 2.1 I2V: Архитектура
| Категория | Wan 2.1 | Wan 2.2 |
|---|---|---|
| Диффузионная модель | Плотная диффузионная архитектура: одна модель обрабатывала все временные шаги удаления шума. | Диффузия Mixture-of-Experts (MoE): два специализированных подмодели обрабатывают разные уровни шума, одна обрабатывает ранние временные шаги с высоким уровнем шума, а другая — поздние с низким уровнем. Это улучшает детализацию и согласованность. |
| Размер модели и количество параметров | ~14 млрд параметров для задач генерации видео из текста и изображений. Доступны были меньшие варианты (например, 1,3 млрд) для более быстрого прототипирования. | ~27 млрд параметров (2 эксперта по 14 млрд), но одновременно активен только один эксперт. Представлена новая гибридная 5B-модель для TI2V (обусловливание текстом и изображением), способная выводить видео в разрешении 720p, которая заменяет меньшую модель версии 2.1, но с более высокой точностью. |
| Обучающие данные и эстетические метки | Ограниченный набор данных с базовыми дескрипторами для управления запросами. | Обучена на наборе данных с на 65% больше изображений и на 83% больше видеоклипов. Добавлены кинематографические теги (например, освещение, цвет, композиция) для более тонкого контроля стиля по сравнению с базовыми дескрипторами версии 2.1. |
| Базовые компоненты | Использовался Wan-VAE для кодирования в 1080p, с фокусом на поддержании временной согласованности. | Улучшена интеграция Wan-VAE и диффузии MoE для лучшего баланса между качеством и использованием ресурсов. Добавлен FlashAttention для более быстрых операций трансформера, что повышает производительность по сравнению с версией 2.1. |
| Функции | Поддерживались T2V, I2V и редактирование с помощью фреймворка VACE. Полностью поддерживалась тонкая настройка LoRA. | Поддерживаются T2V, I2V и улучшенный перенос стиля. Фреймворк VACE пока отсутствует, совместимость с LoRA ограничена. |
Wan 2.2 I2V в сравнении с Wan 2.1 I2V: Производительность

Источник: Artificial Analysis
Wan 2.2 I2V в сравнении с Wan 2.1 I2V: Генерация
Wan 2.2 I2V
Wan 2.1 I2V
Стоимость и доступ к Wan 2.2 I2V
Затраты на оборудование
- Модель I2V 5B:
- Минимальное требование к VRAM: 24 ГБ.
- Минимальная модель GPU: NVIDIA RTX 4090.
- Минимальное количество GPU: 1.
- Скорость на одном GPU: Приблизительно 524,8 секунды при разрешении 720P.
- Приблизительная цена GPU: NVIDIA RTX 4090 была выпущена 12 октября 2022 года с начальной ценой $1 599.
- Модель I2V A14B:
- Разрешение 480P:
- Минимальное требование к VRAM: 40 ГБ.
- Минимальная модель GPU: NVIDIA A100 40GB.
- Минимальное количество GPU: 1.
- Скорость на одном GPU: Приблизительно 810,0 секунд.
- Приблизительная цена GPU: NVIDIA A100 40GB указана по цене $13 135.
- Разрешение 720P:
- Минимальное требование к VRAM: 80 ГБ.
- Минимальная модель GPU: NVIDIA H100 80GB.
- Минимальное количество GPU: 1.
- Скорость на одном GPU: Приблизительно 1 055,9 секунд.
- Приблизительная цена GPU: Информация о цене NVIDIA H100 80GB отсутствует в предоставленных источниках.
- Разрешение 480P:
Затраты на использование API
Novita AI — это облачная платформа ИИ, которая предлагает разработчикам простой способ развертывания моделей ИИ с помощью нашего простого API, а также предоставляет доступное и надежное облако GPU для построения и масштабирования решений.
| Модель | Цена | Разрешение | Время генерации |
| Wan 2.1 I2V | $0.3/видео | 1280*720 | 5 с |
| Wan 2.2 I2V | $0.4/видео | 1080P | 5 с |
Руководство по доступу к Wan 2.2 I2V
Шаг 1: Войдите в аккаунт и перейдите в библиотеку моделей

Шаг 2: Выберите нужную модель

Шаг 3: Получите ваш API-ключ
Для аутентификации через API мы предоставим вам новый API-ключ. Перейдя на страницу «Настройки», вы можете скопировать API-ключ, как показано на изображении.

Шаг 4: Установите API
Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с помощью вашего API-ключа, чтобы начать взаимодействие с Novita AI LLM. Ниже приведен пример использования API завершения чата для пользователей Python.
import requests
url = "https://api.novita.ai/v3/async/wan-2.2-i2v"
payload = {
"input": {
"prompt": "<string>",
"negative_prompt": "<string>",
"img_url": "<string>"
},
"parameters": {
"resolution": "<string>",
"duration": 123,
"prompt_extend": True,
"seed": 123
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.json())
Wan 2.2 I2V: Распространенные проблемы и их решения
| Проблема | Решение |
|---|---|
| Мерцание кадров | Увеличьте количество шагов диффузии или частоту кадров; используйте режим I2V; стабилизируйте видео при постобработке. |
| Низкая скорость/нехватка памяти | Используйте 5B-модель или более низкое разрешение; включите оптимизации памяти; рассмотрите использование облачных GPU. |
| Несоответствие результата запросу | Упростите запросы; используйте негативные запросы; итеративно уточняйте их для получения лучших результатов. |
| Размытый вывод | Используйте LoRA «DetailZ»; запрашивайте более четкие детали в запросах; увеличьте резкость или разрешение при постобработке. |
| Несогласованность объектов | Используйте опорные изображения в режиме I2V; генерируйте более короткие клипы и соединяйте их; используйте стабильные запросы. |
| Отсутствие звука | Добавьте звук при постпродакшене; используйте ИИ-инструменты для создания музыки или закадрового голоса и синхронизируйте их с визуальной частью. |
Преимущества и недостатки Wan 2.2 I2V для малого бизнеса
Преимущества:
- Снижение затрат на производство контента: Нет необходимости в съемках или производственной команде, что экономит бюджет. Идеально подходит для стартапов с ограниченными ресурсами.
- Более быстрый творческий цикл: Видео можно генерировать за несколько минут, что позволяет быстро реагировать на тренды и быстро прототипировать проекты.
- Доступность на потребительском оборудовании: Работает на стандартных ПК с достойными графическими процессорами, исключая необходимость в дорогом специализированном оборудовании.
- Творческая гибкость: Поддерживает различные стили и сцены, удовлетворяя разнообразные потребности простой корректировкой запросов.
- Инструмент с открытым исходным кодом и постоянным развитием: Поддержка сообщества обеспечивает регулярные обновления, снижая риск устаревания.
Недостатки:
- Кривая обучения и необходимость экспертных знаний: Требуются знания в области ИИ или время на освоение составления запросов, что создает сложности для пользователей, не разбирающихся в технологиях.
- Вычислительные затраты: Масштабная генерация видео сопряжена с постоянными затратами на GPU и электроэнергию, которые необходимо закладывать в бюджет.
- Ограничения по качеству: Вывод видео ограничен разрешением 720p, и для удовлетворения высоких требований к качеству может потребоваться постобработка.
- Согласованность и брендинг: Сгенерированный контент может не обладать согласованностью между разными видео, что требует дополнительной проверки для соответствия бренду.
- Этические и правовые аспекты: Вопросы, связанные с авторским правом, прозрачностью и доверием аудитории, необходимо тщательно регулировать.
Будущие тенденции в технологии Wan 2.2 I2V
| Тенденция | Описание |
|---|---|
| Более высокое разрешение | Поддержка разрешения 1080p и выше, а также более длинная длительность видео (10-15 секунд или полные короткометражные фильмы). |
| Аудио и взаимодействие | Интеграция генерации аудио и интерактивного редактирования (например, улучшение видео на основе другого видео). |
| Больший контроль | Инструменты для раскадровок, управления кадрами, а также согласованных персонажей и брендинга между сценами. |
| Более высокая скорость и доступность | Почти генерация видео в реальном времени с оптимизированными моделями и прогрессом в области оборудования (например, GPU, облачные технологии). |
| Более широкое внедрение | Использование в развлечениях, образовании и рекламе с экосистемой плагинов и стилей от сообщества. |
| Конкуренция и сотрудничество | Открытый исходный код Wan использует достижения научных исследований, что стимулирует инновации и разработку гибридных моделей для повышения качества. |
API Wan 2.2 I2V задает новый стандарт для генерации видео, предлагая управление кинематографической эстетикой, точную обработку движения и непревзойденную эффективность. Независимо от того, являетесь ли вы создателем контента, маркетологом или исследователем, возможности Wan 2.2 упрощают рабочие процессы, снижают затраты и открывают новые творческие возможности. Благодаря открытому исходному коду и надежному API, Wan 2.2 I2V — это будущее доступного и мощного создания видео.
Часто задаваемые вопросы
Что такое Wan 2.2 I2V?
Wan 2.2 I2V — это продвинутый API для генерации высококачественного видео из изображений, использующий архитектуру MoE от Alibaba и сжатие Wan-VAE для плавной и согласованной визуальной части.
Какое разрешение поддерживает Wan 2.2?
API поддерживает разрешение 720P с частотой 24 кадра в секунду, оптимизировано для потребительских GPU, таких как NVIDIA RTX 4090.
Как Wan 2.2 обеспечивает временную согласованность?
Wan 2.2 использует 3D пространственно-временное сжатие с помощью Wan-VAE, что обеспечивает плавные переходы, согласованное освещение и движение.
Novita AI — это универсальная облачная платформа, которая помогает реализовать ваши амбиции в области ИИ. Интегрированные API, серверless, GPU-инстансы — доступные инструменты, которые вам нужны. Избавьтесь от необходимости управления инфраструктурой, начните бесплатно и воплотите ваше видение ИИ в реальность.
