Wan 2.1 14B Image-to-Video теперь доступен на Novita AI по цене $0.04/сек!

Содержание

Возможности Wan2.1 I2V
Ключевые инновации Wan 2.1
Vbench Wan 2.1
Требования к оборудованию для Wan 2.1
Как получить доступ к Wan 2.1 через Novita AI?
Часто задаваемые вопросы

Novita предлагает высококонкурентные цены на рынке.

Например, 5-секундное видео Wan 2.1 I2V 720P стоит всего $0.3, а 5-секундное видео Wan 2.1 I2V 480P — всего $0.2!

Сейчас поддерживается до 3 Lora!

Начните бесплатную пробную версию на Novita AI уже сегодня. Чтобы интегрировать API Wan 2.1, посетите нашу документацию для разработчиков для получения подробностей.

Wan 2.1 I2V (Image-to-Video) — это передовая модель генерации видео, которая объединяет современные технологии, такие как Wan-VAE и Video Diffusion DiT. Она отлично справляется с высокоточной реконструкцией видео, эффективным сжатием и бесшовной генерацией видео из текста, опираясь на чистый и качественный набор обучающих данных.

Возможности Wan2.1 I2V

Ключевые инновации Wan 2.1

1. Wan-VAE

Обзор

3D-вариационный автоэнкодер (VAE), предназначенный для эффективного сжатия и высокоточной передачи движения.
Способен кодировать и декодировать видео 1080P, сохраняя временную согласованность.
Интегрирует несколько стратегий для оптимизации пространственно-временного сжатия, снижения потребления памяти и обеспечения временной причинности.

Решаемые проблемы

Эффективное сжатие: Снижает требования к хранению и вычислительным ресурсам для видеоданных.
Высокоточная реконструкция: Обеспечивает высокое качество и согласованность движения в создаваемых видео.
Временная согласованность: Избегает распространённых проблем, таких как прерывистость кадров или дрожание в созданных видео.

2. Video Diffusion DiT

Обзор

Основан на Diffusion Transformers, усиленных фреймворком Flow Matching.
Поддерживает многоязычный текстовый ввод (через T5 Encoder) и встраивание текста (cross-attention).
Использует общий MLP для предсказания параметров модуляции для временных эмбеддингов, позволяя каждому блоку трансформера изучать свои смещения, что повышает производительность.

Решаемые проблемы

Глубокая интеграция текста и генерации видео: Позволяет модели лучше понимать и генерировать видео в соответствии с текстовыми описаниями.
Улучшение производительности генерации: Значительно повышает качество и выразительность создаваемых видео без увеличения числа параметров.
Мультимодальная поддержка: Обрабатывает несколько языков и типов ввода, расширяя области применения.

3. Кандидатный набор данных

Обзор

Масштабный, тщательно отобранный и дедублицированный набор изображений и видео.
Использует четырёхэтапный процесс очистки данных, ориентированный на размерность, визуальное качество и качество движения.
Формирует разнообразный и качественный тренировочный набор.

Решаемые проблемы

Шум и избыточность данных: Эффективно удаляет низкокачественные или дублирующиеся данные, повышая эффективность обучающих выборок.
Разнообразие и качество: Предоставляет модели богатые и чистые образцы, улучшая обобщение и способности генерации.
Масштабное обучение: Поддерживает эффективное обучение на больших, качественных наборах данных.

Vbench Wan 2.1

Wan 2.1 (Wan-14B) демонстрирует отличные результаты в ключевых задачах, таких как согласованность ID, физическая правдоподобность и плавность. Его общий взвешенный балл — один из самых высоких в индустрии, что делает его одной из ведущих моделей генерации видео на сегодняшний день. Тем не менее, есть ещё потенциал для улучшения в таких областях, как стилизация и управление камерой.

Требования к оборудованию для Wan 2.1

Wan 2.1 предъявляет высокие требования к оборудованию, особенно для задач с высоким разрешением и большими моделями. Требования к памяти для Wan 2.1 I2V приближаются к 80 ГБ. Рекомендуется использовать несколько высокопроизводительных датацентровых GPU (таких как A100, H100 или H20) для удовлетворения требований к памяти и скорости. Потребительские GPU подходят только для небольших моделей и сценариев с низким разрешением.

Модель	Поддержка одной карты	Рекомендация по нескольким GPU	Уровень рекомендации
RTX 4090	Нет	Нет	только для T2V-1.3B при 480P
H20	Не поддерживается	4 или 8 GPU	★★★
A800/A100	Поддерживается	4 или 8 GPU	★★★★
H800/H100	Поддерживается	4 или 8 GPU	★★★★★

Как получить доступ к Wan 2.1 через Novita AI?

Novita AI — это облачная платформа ИИ, которая предоставляет разработчикам простой способ развёртывания моделей ИИ с помощью нашего простого API, а также доступные и надёжные GPU-облака для создания и масштабирования.

Шаг 1: Войдите в систему и откройте библиотеку моделей

Войдите в свою учётную запись и нажмите кнопку Model Library.

Попробуйте Wan 2.1 I2V прямо сейчас!

Шаг 2: Выберите свою модель

Просмотрите доступные варианты и выберите модель, которая вам подходит.

Шаг 3: Начните бесплатную пробную версию

Шаг 4: Получите свой API-ключ

Для аутентификации в API мы предоставим вам новый API-ключ. Перейдя на страницу, скопируйте API-ключ, как показано на изображении.

Шаг 5: Установите API

Установите API с помощью менеджера пакетов, соответствующего вашему языку программирования.

После установки импортируйте необходимые библиотеки в вашу среду разработки. Инициализируйте API с помощью вашего API-ключа, чтобы начать взаимодействие с Novita AI LLM. Это пример использования API чат-завершений для пользователей Python.

import requests

url = "https://api.novita.ai/v3/async/wan-i2v"

payload = {
    "extra": {"webhook": {
            "url": "<string>",
            "test_mode": {
                "enabled": True,
                "return_task_status": "<string>"
            }
        }},
    "model_name": "<string>",
    "image_url": "<string>",
    "width": 123,
    "height": 123,
    "loras": [
        {
            "path": "<string>",
            "scale": {}
        }
    ],
    "seed": 123,
    "prompt": "<string>",
    "negative_prompt": "<string>",
    "steps": 123,
    "guidance_scale": 123,
    "flow_shift": 123,
    "enable_safety_checker": True
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(response.text)

Wan 2.1 I2V (Image-to-Video) — это передовая модель генерации видео, объединяющая современные технологии, такие как Wan-VAE и Video Diffusion DiT. Она отлично справляется с высокоточной реконструкцией видео, эффективным сжатием и бесшовной генерацией видео из текста, опираясь на чистый и качественный набор обучающих данных.

Часто задаваемые вопросы

Какие требования к оборудованию для Wan 2.1 I2V?

Wan 2.1 I2V — это продвинутая модель для генерации высококачественных видео из текстовых или графических входных данных. Её уникальность заключается в высокоточной передаче движения, временной согласованности и многоязычной поддержке генерации видео из текста.

Что такое Wan 2.1 I2V и что делает его уникальным?

Конкурентные цены: $0.40 за 5-секундное видео 720P по сравнению с $2.39 на аналогичных платформах.
Простой в использовании API с подробной документацией для разработчиков.

Как я могу получить доступ к Wan 2.1 I2V?

Вы можете использовать Wan 2.1 I2V через платформу Novita AI. Просто войдите в систему, выберите модель, получите API-ключ и интегрируйте API в свою среду разработки.

Novita AI — это универсальная облачная платформа, которая даёт возможность реализовать ваши амбиции в области ИИ. Интегрированные API, бессерверные вычисления, GPU-инстансы — экономичные инструменты, которые вам нужны. Устраните инфраструктурные барьеры, начните бесплатно и воплотите своё видение ИИ в реальность.

Wan 2.1 14B Image-to-Video теперь доступен на Novita AI по цене $0.04/сек!

Возможности Wan2.1 I2V