Wan2.1: открытая AI-модель, превосходящая Sora

Wan2.1: открытая AI-модель, превосходящая Sora

Ключевые моменты

Доступность с открытым исходным кодом: Wan2.1 — это AI-модель с открытым исходным кодом, обеспечивающая экономичную и высококачественную генерацию видео для учёных, исследователей и бизнеса.

Универсальные возможности: Поддерживает T2V, I2V, редактирование видео, T2I, а также генерирует многоязычный текст на китайском и английском для субтитров.

Требования к оборудованию: T2V-1.3B имеет всего 1,3 млрд параметров, что значительно снижает требования к оборудованию.

Архитектура модели и инновации: Включает Wan-VAE для 3D-кодирования, Video Diffusion DiT и надёжный конвейер для создания высококачественных обучающих наборов данных.

Оценка VBench и производительность: Превосходит конкурентов, таких как Sora, с результатом 86,22% на VBench, особенно в согласованности ID, пространственной точности и выполнении инструкций по действиям.

Novita AI предлагает API для Wan 2.1. Просто зарегистрируйтесь для бесплатного пробного периода и используйте API с простыми запросами.

Wan2.1 — это AI-модель с открытым исходным кодом, разработанная Alibaba Cloud для продвинутой генерации видео. Она создана для высокой производительности, эффективности и универсальности, обслуживая широкий спектр творческих и профессиональных приложений. Модели доступны на сообществе AI-моделей Alibaba Cloud, ModelScope и Hugging Face.

источник: wan

Начните бесплатный пробный период на Novita AI уже сегодня. Чтобы интегрировать API Hunyuan Video, посетите нашу документацию для разработчиков для получения дополнительной информации.

Novita предлагает высококонкурентные цены на рынке.

Например, видео Wan 2.1 720P длительностью 5 секунд стоит всего $0,3 за видео,

в то время как аналогичное видео на Replicate стоит $2,39 за видео.

Доступность с открытым исходным кодом

Alibaba Cloud опубликовала серию AI-моделей Wan2.1 для генерации видео в открытом доступе. Эта инициатива направлена на снижение барьеров доступа и позволяет компаниям создавать высококачественный визуальный контент экономически эффективно. Благодаря публикации этих моделей с открытым исходным кодом учёные, исследователи и коммерческие организации могут использовать возможности AI для своих проектов без значительных первоначальных затрат.

Универсальные возможности Wan2.1

Wan2.1 отлично справляется с разнообразными задачами, что делает её универсальным инструментом для генерации видео:

  • Текст-в-видео (T2V)
  • Изображение-в-видео (I2V)
  • Редактирование видео
  • Текст-в-изображение (T2I)

Примечательно, что Wan2.1 — это первая видеомодель, способная генерировать текст как на китайском, так и на английском языке, обладающая надёжной генерацией текста, что расширяет её практическое применение.

Требования к оборудованию

Ниже представлена подробная сводка требований к оборудованию для четырёх моделей Wan2.1. В таблице описаны функциональность каждой модели, поддерживаемое разрешение, размер модели, требования к оборудованию и рекомендуемые GPU для оптимальной производительности.

Название модели Функция Поддерживаемое разрешение Размер модели Требования к оборудованию Рекомендуемый GPU
T2V-14B Текст-в-видео (T2V) 480P / 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-720P Изображение-в-видео (I2V) 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-480P Изображение-в-видео (I2V) 480P 14B ⭐⭐⭐ RTX 3090 / RTX 4070 Ti
T2V-1.3B Текст-в-видео (T2V) Низкое разрешение 1.3B ⭐⭐ RTX 3060 / RTX 4060 или выше

Архитектура модели и ключевые инновации

Wan2.1 построена на парадигме диффузионных трансформеров, расширенной с помощью фреймворка Flow Matching. Её ключевые инновации включают:

  • Wan-VAE: 3D-вариационный автоэнкодер, предназначенный для эффективного сжатия и высокой точности воспроизведения движения. Он кодирует и декодирует видео 1080P, сохраняя временную согласованность. Модель интегрирует несколько стратегий для оптимизации пространственно-временного сжатия, снижения использования памяти и обеспечения временной причинности.

Wan-VAE

  • Video Diffusion DiT: Wan2.1 использует фреймворк Flow Matching в диффузионных трансформерах, применяя T5-энкодер для многоязычного текстового ввода и кросс-внимание для встраивания текста в модель. Общий MLP с SiLU и линейными слоями предсказывает шесть параметров модуляции для временных эмбеддингов, что позволяет каждому блоку трансформера изучать различные смещения. Эта архитектура значительно улучшает производительность без увеличения масштаба параметров.

dIT

  • Кандидатный набор данных: Wan 2.1 собрала и дедуплицировала кандидатный набор данных, включающий огромный объём данных изображений и видео. В процессе курирования данных был разработан четырёхэтапный процесс очистки, ориентированный на фундаментальные характеристики, визуальное качество и качество движения. Благодаря надёжному конвейеру обработки данных можно легко получить высококачественные, разнообразные и масштабные обучающие наборы изображений и видео.

DATA

Оценка VBench

VBench — это надёжный и всеобъемлющий набор эталонов, разработанный для оценки генеративных видеомоделей. Он разбивает «качество генерации видео» на иерархические, разделённые и конкретные измерения, каждое из которых оснащено специальными запросами и методами оценки. Основные метрики оценки включают:

  • Генерация больших движений
  • Артефакты человека
  • Стабильность на уровне пикселей
  • Согласованность ID
  • Физическая правдоподобность
  • Плавность
  • Комплексное качество изображения
  • Качество генерации сцен
  • Способность к стилизации
  • Точность одного объекта
  • Точность нескольких объектов
  • Точность пространственного положения
  • Управление камерой
  • Следование инструкциям по действиям

Цель VBench — предоставить ценную информацию о сильных и слабых сторонах отдельных моделей, обеспечивая детальную и объективную оценку. Эти идеи не только направляют будущие разработки в области генерации видео, но и помогают улучшить производительность моделей. Чтобы обеспечить согласованность с человеческим восприятием, VBench включает аннотации предпочтений человека, подтверждая свою актуальность и надёжность как эталона. Производительность Wan2.1 представлена на диаграмме ниже:

vbench

источник: Alizila

Кроме того, Wan-Bench использовался для оценки модели T2V-1.3B, которая превзошла более крупные аналоги с открытым исходным кодом по ключевым метрикам. Эти оценки подчёркивают достижения модели в следующих областях:

wanbench

Wan 2.1 против Sora

Превосходство в общей производительности:

  • Wan2.1 достигает более высокого общего балла на VBench — 86,22%, превосходя Sora (84,28%), и демонстрирует более сильные результаты по нескольким подкатегориям.

Поддержка генерации субтитров на китайском и английском:

  • Wan2.1 — первая видеомодель, поддерживающая генерацию субтитров как на китайском, так и на английском языке, что даёт ей уникальное преимущество в многоязычных сценариях. Sora не предлагает такой функциональности.

Производительность в подкатегориях:

  • Согласованность ID: Wan2.1 отлично поддерживает согласованность объектов в видео.
  • Точность одного объекта: Wan2.1 генерирует более точные результаты для сценариев с одним объектом.
  • Точность пространственного положения: Wan2.1 значительно превосходит Sora в обработке логических пространственных отношений.
  • Выполнение инструкций по действиям: Wan2.1 демонстрирует лучшее понимание и выполнение сложных инструкций по действиям.

Открытый исходный код и доступность:

  • Wan2.1 предоставляет открытый исходный код, что делает её более доступной и лёгкой для использования и интеграции разработчиками.
  • Sora, хотя и предлагает API, не является открытой, что ограничивает её гибкость.

Области для улучшения:

  • Wan2.1 незначительно уступает Sora по плавности движений и генерации больших движений, но разрыв минимален.

Применение

Создание контента

  • Обеспечивает автоматическую генерацию высококачественных видео для социальных сетей, маркетинга и развлечений.
  • Поддерживает стилизованную генерацию видео для удовлетворения конкретных художественных или брендовых потребностей.

Образование и электронное обучение

  • Генерирует образовательные видео с индивидуальными визуальными элементами и субтитрами на китайском и английском языках.
  • Способствует созданию увлекательного и персонализированного учебного контента.

Кино и анимация

  • Помогает в создании раскадровок, видео-прототипов или целых сцен на основе текстовых или графических входных данных.
  • Поддерживает многоязычные субтитры, что делает её подходящей для глобальной аудитории.

Реклама и маркетинг

  • Создаёт настраиваемые видеорекламы, адаптированные для целевых аудиторий.
  • Улучшает кампании с визуально привлекательным и контекстно-зависимым контентом.

Игры

  • Генерирует внутриигровые кат-сцены или анимации на основе текстовых описаний или изображений персонажей.
  • Создаёт динамические видеоактивы для разработки игр и повествования.

Многоязычная коммуникация

  • Поддерживает генерацию субтитров на китайском и английском, что идеально для многоязычных презентаций и медиа.

Прототипирование и визуализация

  • Помогает визуализировать концепции, идеи или архитектурные проекты через видео.
  • Создаёт динамические представления проектов для презентаций или питчей.

Доступность и инклюзивность

  • Создаёт видео с субтитрами, улучшая доступность для слабослышащей аудитории.
  • Многоязычная поддержка облегчает создание контента для разнообразных групп пользователей.

Посмотреть демо-видео Wan 2.1

Wan2.1 представляет собой значительный прогресс в области AI-генерации видео. Её открытая природа, многоязычные возможности и превосходная производительность в таких эталонах, как VBench, позиционируют её как универсальный и доступный инструмент для творческих и профессиональных приложений. Хотя она незначительно отстаёт от Sora по плавности движений и генерации больших движений, её общие возможности, инновационная архитектура и широкий спектр применения делают её революционной для таких отраслей, как образование, медиа, игры и другие.

Novita AI — это универсальная облачная платформа, которая раскрывает ваши AI-амбиции. Интегрированные API, бессерверные решения, GPU-инстансы — экономически эффективные инструменты, которые вам нужны. Устраните инфраструктуру, начните бесплатно и воплотите своё AI-видение в реальность.

Рекомендуемое чтение