Wan2.1 vs Mochi 1: Война открытых моделей генерации видео

Wan2.1 vs Mochi 1: Война открытых моделей генерации видео

Ключевые моменты

Wan 2.1 отличается в задачах «текст-в-видео» (T2V), «изображение-в-видео» (I2V) и редактировании видео, а также поддерживает многоязычную генерацию визуального текста. Модель оптимизирована для потребительских GPU: для T2V-1.3B требуется всего 8.19 ГБ видеопамяти.

Mochi 1 — открытая модель AI, превосходно справляющаяся с высококачественной генерацией видео, впечатляющим качеством движения и строгим следованием промпту. Хотя её можно запускать на одном GPU, для оптимальной производительности требуется около 60 ГБ VRAM.

Модели генерации видео стремительно развиваются, предоставляя пользователям возможность создавать высококачественные видео из текстовых запросов или изображений. Эти модели различаются по архитектуре, возможностям и требованиям к оборудованию, поэтому важно понимать их сильные и слабые стороны. Две заметные модели в этой области — Wan 2.1 и Mochi 1.

Начните бесплатную пробную версию на Novita AI уже сегодня. Чтобы интегрировать Wan 2.1 API, посетите нашу документацию для разработчиков для получения дополнительной информации. Кроме того, мы предлагаем полнофункциональную версию на 14B параметров.

Novita предлагает высококонкурентные цены на рынке.

Например, 5-секундное видео Wan 2.1 720P стоит всего $0.4 за видео,

в то время как аналогичное видео на Replicate стоит $2.39 за видео.

Краткая версия

Мы тестируем обе модели, подавая одинаковые текстовые промпты, чтобы оценить их понимание текста и итоговый вывод видео.

Промпт: Сад оживает: калейдоскоп бабочек порхает среди цветущих растений, их нежные крылья отбрасывают тени на лепестки внизу. На заднем плане величественный фонтан низвергает воду с мягкой пышностью, его ритмичный звук создаёт успокаивающий фон. Под прохладной тенью взрослого дерева одинокий деревянный стул приглашает к уединению и размышлениям, его гладкая поверхность истёрта прикосновениями бесчисленных посетителей, ищущих мгновение спокойствия в объятиях природы.

https://videopress.com/v/5DuNY0Fj?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Wan 2.1

https://videopress.com/v/OwGkYVNz?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Mochi

Промпт: Золотистый ретривер в стильных чёрных очках, с длинной шерстью, развевающейся на ветру, игриво мчится по террасе на крыше, недавно освежённой лёгким дождём. Сцена разворачивается издалека: энергичные прыжки собаки становятся всё крупнее по мере приближения к камере, хвост виляет от безудержной радости, а капли воды блестят на бетоне позади. Пасмурное небо служит драматическим фоном, подчёркивая яркую золотистую шерсть пса, когда он бежит прямо на зрителя.

https://videopress.com/v/C4WeEICG?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Wan 2.1

https://videopress.com/v/bqBqR8ZN?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Mochi

Изучить демо Wan 2.1 сейчас

Основное введение

Характеристика Wan 2.1 Mochi 1
Открытый исходный код Да, открыт Alibaba Cloud Да, открыт под лицензией Apache 2.0.
Разрешение Оптимизирован для генерации видео 480P и 720P. Генерирует видео с разрешением 480P; поддержка 720P запланирована в будущих обновлениях.
Возможности Отлично справляется с задачами «текст-в-видео» (T2V) и «изображение-в-видео» (I2V). В основном модель «текст-в-видео» (T2V); сообщество запросило реализацию I2V.
Длительность видео Генерирует 5-секундное 480P видео на RTX 4090 примерно за 4 минуты. Генерирует видео длительностью до 5.4 секунд. Фактическое тестирование может занять менее 1 минуты.

Архитектура

Wan 2.1

  • Wan 2.1 построен на парадигме диффузионного трансформера, дополненной фреймворком Flow Matching.
  • Использует Wan-VAE — передовой 3D вариационный автоэнкодер, обеспечивающий эффективное сжатие и высокую точность воспроизведения движения.
  • Кодировщик T5 позволяет легко обрабатывать многоязычные текстовые входные данные.
  • Архитектура включает продвинутую систему модуляции параметров для оптимизации прогнозирования и внедрения текстовой информации в генерируемые видео.
  • Механизмы кросс-внимания в каждом блоке трансформера внедряют текстовый ввод непосредственно в структуру модели, улучшая согласованность и интеграцию контекста.

Mochi 1

  • Mochi 1 работает на диффузионной модели с 10 миллиардами параметров, построенной на архитектуре Asymmetric Diffusion Transformer (AsymmDiT).
  • Имеет асимметричную структуру кодировщика-декодировщика, обеспечивающую высокоэффективное и качественное сжатие.
  • AsymmVAE сжимает видео в 128 раз, достигая пространственного сжатия 8x8 и временного сжатия 6x в 12-канальное латентное пространство.
  • Для кодирования промптов используется одна языковая модель T5-XXL, обеспечивающая надёжное понимание и интеграцию языка.
  • Архитектура спроектирована для оптимизации обработки текста, позволяя модели выделять больше нейронных ресурсов на визуальное мышление и генерацию видео.

Требования к оборудованию

Wan 2.1

  • Модель T2V-1.3B требует всего 8.19 ГБ VRAM, что делает её совместимой с потребительскими GPU.
  • Например, генерация 5-секундного видео 480P на RTX 4090 занимает около 4 минут.

Mochi 1

  • Для работы на одном GPU требуется ~60 ГБ VRAM.
  • Поддерживает как многопроцессорную, так и однопроцессорную работу.
  • Первоначальные отчёты предполагали необходимость 4 GPU H100, но оптимизации значительно снизили требования, например, до 1 GPU.

Применение

Wan 2.1

Подходит для различных бизнесов, использующих AI для экономичного создания высококачественного визуального контента.

Применим в творческих и профессиональных сценариях благодаря способности генерировать текстовое содержимое непосредственно внутри видео.

Mochi 1

Разработан, чтобы помочь создателям быстро превращать письменный контент в видео, без необходимости в продвинутых навыках редактирования или оборудовании.

Универсальное применение в исследованиях, разработке продуктов и творческом самовыражении.

Заключение

Выбирайте Wan 2.1, если вам нужна универсальная модель, поддерживающая множество задач (текст-в-видео, изображение-в-видео, редактирование видео), многоязычные возможности и эффективную работу на потребительских GPU. Она особенно хорошо подходит для приложений, требующих высокой производительности в динамике движения, пространственных отношениях, точности цветопередачи и взаимодействии множества объектов.

Выбирайте Mochi 1, если ваша цель — высококачественное движение и строгое следование промпту при генерации видео. Несмотря на более высокие требования к VRAM, её открытый исходный код и совместимость с инструментами вроде ComfyUI делают её отличным выбором для творческих экспериментов и исследований.

Novita AI — это универсальная облачная платформа, которая расширяет ваши AI-амбиции. Интегрированные API, бессерверные решения, GPU-инстансы — всё необходимое по доступной цене. Откажитесь от инфраструктурных забот, начните бесплатно и воплотите своё AI-видение в реальность.

Рекомендуемое чтение