Wan2.6 представляет собой прорыв в области генерации видео с ИИ, предлагая самые полные в мире возможности для создания видеоконтента. Модель включает функции ролевого воплощения, многосценного контроля и синхронизации аудио и видео, которые выделяют её среди конкурентов.
Теперь доступная на платформе Model API Novita AI, эта передовая модель может использоваться разработчиками и компаниями через простую интеграцию API без необходимости управления сложной инфраструктурой.
В этом руководстве мы рассмотрим, как использовать Wan2.6 на Novita AI для генерации видео из текста, из изображений и на основе референсного видео.
Попробуйте Wan2.6 в песочнице Novita AI
Что такое Wan2.6?
Это видео сгенерировано Wan2.6
Wan2.6 — это последнее поколение серии моделей для генерации видео от Alibaba Cloud, разработанное специально для профессионального кинопроизводства и сценариев создания креативного контента.
Как самая функциональная в мире модель для генерации видео, Wan2.6 представляет революционные возможности, которые сокращают разрыв между любительским созданием контента и профессиональной кинематографией.
Основные технологии
Wan2.6 использует продвинутое мультимодальное совместное моделирование для обработки референсных видео. Система извлекает временную информацию об эмоциях субъектов, их позах и комплексных визуальных признаках из нескольких ракурсов.
Модель одновременно захватывает акустические характеристики, включая тембр голоса и скорость речи. Эти элементы служат условиями контроля во время генерации, чтобы сохранить полную сенсорную согласованность от визуальной части до аудио.
Технические инновации
Модель объединяет несколько прорывных технологий:
- Мультимодальное обучение: одновременно обрабатывает визуальные, аудио и временные данные для согласованного результата
- Понимание высокоуровневой семантики: преобразует простые промпты в профессиональные многосценарные нарративы с полным сюжетом
- Единое моделирование: сохраняет согласованность ключевых субъектов, композиции сцен и атмосферы окружения при переходах между кадрами
- Синхронизация аудио и видео: обеспечивает идеальную синхронизацию губ и соответствие аудио визуальному контенту
Ключевые функции Wan2.6
1. Возможность ролевого воплощения
Флагманская функция Wan2.6 позволяет пользователям загружать личные видео и превращаться в персонажей в сценах профессионального качества.
Модель поддерживает:
- Выступления с одним и несколькими персонажами: поддерживает сольные выступления или групповые взаимодействия
- Перенос эмоций и жестов: захватывает и воспроизводит тонкие выражения и движения
- Кросстиль преобразование: применяет разные жанры (научная фантастика, триллер, романтика) к исходному видеоматериалу
- Симуляция профессиональной актёрской игры: генерирует выступления в качестве кино из обычных пользовательских видео
2. Многосценный контроль и переходы
Модель отлично справляется с профессиональной композицией кадров и переходами:
- Автоматическое планирование кадров: преобразует простые промпты в многосценарные сценарии
- Бесшовные переходы: плавные склейки между разными углами камеры и ракурсами
- Согласованность нарратива: сохраняет сюжетную непрерывность между несколькими кадрами
- Сохранение единообразия: сохраняет одинаковость персонажей, локаций и атмосферы на всём протяжении видео
3. Удлинённая длительность видео
Wan2.6 поддерживает до 15 секунд за генерацию — это самая длинная длительность одиночной генерации на рынке ИИ-видео Китая.
Эта увеличенная длительность позволяет создавать более сложные сюжеты и полностью развивать сцены без необходимости нескольких генераций и последующего склеивания.
4. Синхронизация аудио и видео
Идеальное соответствие между аудио и визуальными элементами:
- Точность синхронизации губ: точное соответствие движений рта диалогу
- Анимация под управлением звука: аудио сигналы управляют движениями и выражениями персонажей
- Окружающий аудио: контекстуально соответствующие фоновые звуки и эффекты
5. Улучшенные метрики качества
Недавние обновления значительно улучшили несколько аспектов работы модели:
- Улучшенная визуальная точность: более высокое разрешение и качество детализации
- Лучшие аудио эффекты: профессиональное звуковое оформление
- Более точное следование промптам: более точная интерпретация сложных инструкций
- Кинематографическая работа камеры: профессиональные приёмы кинематографии применяются автоматически
Варианты модели Wan2.6 на Novita AI
Novita AI предоставляет три отдельных конечные точки API для Wan2.6, каждая из которых оптимизирована для определённых сценариев использования и доступна через платформу Model API.
Текст в видео (T2V)
Генерируйте видео напрямую из текстовых промптов без необходимости входных изображений или видео.
Идеально подходит для создания оригинального контента на основе креативных описаний с многосценным контролем и последовательностью нарратива.
Ключевые возможности:
- Генерация многосценарных нарративов из последовательных промптов
- Автоматический выбор типа кадра и движения камеры
- Кинематографические переходы между сценами
- Поддержка длительности видео 5, 10 и 15 секунд
Технические характеристики:
| Параметр | Поддерживаемые значения | Примечания |
|---|---|---|
| Длительность | 5с, 10с, 15с | Выбирайте в зависимости от сложности контента |
| Разрешение | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 | Не поддерживает 480P |
| ID модели | wan2.6-t2v |
Используйте этот идентификатор в вызовах API |
Подробнее: Документация API Wan2.6 для генерации видео из текста
Изображение в видео (I2V)
Анимируйте статические изображения в динамические видеопоследовательности.
Идеально подходит для оживления фотографий продуктов, иллюстраций или концепт-арта с контролируемым движением и контекстом нарратива.
Ключевые возможности:
- Контроль силы движения для интенсивности анимации
- Несколько вариантов разрешения для разных сценариев использования
- Направление анимации под управлением промпта
- Анимация персонажей и объектов
Технические характеристики:
| Параметр | Поддерживаемые значения | Примечания |
|---|---|---|
| Длительность | 5с, 10с, 15с | Удлинённая длительность для сложных анимаций |
| Разрешение | 1080P, 720P | Не поддерживает 480P |
| ID модели | wan2.6-i2v |
Используйте этот идентификатор в вызовах API |
Подробнее: Документация API Wan2.6 для генерации видео из изображения
Референсное видео (R2V)
Преобразуйте существующие видео с переносом стиля, ролевым воплощением или изменением сцен с использованием референсного видео на входе.
Ключевые возможности:
- Ролевое воплощение и замена персонажей
- Перенос стиля между визуальными жанрами
- Сохранение синхронизации аудио и видео
- Поддержка нескольких референсных видео (рекомендуется 1-2 видео)
Технические характеристики:
| Параметр | Поддерживаемые значения |
|---|---|
| Длительность | 5с, 10с (не поддерживает 15с) |
| Разрешение | 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 (без 480P) |
| Формат видео | MP4, MOV |
| Размер файла | < 30 МБ на файл |
| Одиночный референс | Максимальная длительность 5с |
| Двойной референс | Максимум 2,5с каждый (3 видео не рекомендуется) |
| ID модели | wan2.6-v2v |
Важные примечания: Референсные видео нельзя загружать одновременно с аудиофайлами. Параметр reference_video_urls принимает массив URL видео.
Подробнее: Документация API Wan2.6 для работы с референсным видео
Начало работы с Wan2.6 на Novita AI
Предварительные требования
Прежде чем начать, убедитесь, что у вас есть:
- Аккаунт Novita AI: Зарегистрируйтесь на novita.ai. При регистрации вы автоматически получите $1 бесплатных кредитов
- API-ключ: Получите его в вашей консоли
- Среда разработки: Python, Node.js или любой HTTP-клиент
Асинхронный поток запросов
Wan2.6 на Novita AI использует асинхронную модель обработки для эффективной работы с запросами на генерацию:
- Отправка запроса: POST на соответствующую конечную точку с вашими параметрами
- Получение ID задачи: API сразу возвращает
task_id - Опрос результатов: Используйте ID задачи для проверки статуса генерации
- Получение результата: Скачайте сгенерированное видео после завершения
Пример генерации видео из текста
Вот полный пример генерации видео из текста с использованием T2V API Wan2.6:
Шаг 1: Отправка запроса на генерацию
import requests
url = "https://api.novita.ai/v3/async/wan2.6-t2v"
payload = {
"input": {
"prompt": "<string>",
"audio_url": "<string>",
"negative_prompt": "<string>"
},
"parameters": {
"seed": 123,
"size": "<string>",
"audio": True,
"duration": 123,
"shot_type": "<string>",
"watermark": True,
"prompt_extend": True
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Шаг 2: Получение результатов генерации видео
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
Основные параметры
| Параметр | Описание | Варианты |
|---|---|---|
prompt |
Текстовое описание желаемого видео | Подробное описание сцены |
audio_url |
Опциональный аудиофайл для синхронизации | HTTPS-URL к аудиофайлу |
negative_prompt |
Элементы, которые нужно исключить | Проблемы с качеством, нежелательные объекты |
seed |
Случайное зерно для воспроизводимости | Любое целое число |
size |
Разрешение видео | “1280x720”, “1920x1080”, “720x1280” и т.д. |
duration |
Длительность видео в секундах | 5, 10 или 15 |
shot_type |
Угол камеры | “wide_shot”, “medium_shot”, “close_up” |
prompt_extend |
Автоматическое улучшение промпта | true/false |
watermark |
Добавить водяной знак на видео | true/false |
audio |
Включить генерацию аудио | true/false |
Для полных спецификаций API и дополнительных параметров посетите Документацию API Wan2.6.
Структура многосценарного промпта
Многосценарная возможность Wan2.6 позволяет создавать согласованные нарративные последовательности с несколькими углами камеры и сценами. Чтобы максимизировать качество многосценарных видео, следуйте этой структурированной формате промпта.
Формула структуры промпта
Prompt = Overall Description + Shot Number + Timestamp + Shot Content
Разбор компонентов
1. Общее описание
Предоставьте краткий обзор всего содержимого видео. Этот раздел должен описывать:
- Тема сюжета и стиль нарратива
- Основные эмоции или ключевые события
- Общий тон и атмосферу
Это помогает ИИ понять глобальное направление нарратива и сохранять согласованность между кадрами.
2. Номер кадра
Назначьте последовательный номер каждому кадру, чтобы:
- Различать разные сцены или сегменты
- Чётко организовывать структуру видео
- Сохранять логическую последовательность между переходами
3. Временная метка
Укажите точный временной диапазон для каждого кадра в таймлайне видео:
- Обеспечивает соответствие контента таймингу видео
- Повышает точность генерации
- Помогает с точным контролем длительности кадра
4. Содержание кадра
Предоставьте подробные описания каждого кадра, включая:
- Основные персонажи или объекты и их конкретные действия
- Действия, диалоги, выражения и жесты
- Углы камеры и движения
- Детали освещения и атмосферы
Следуйте стандартным правилам написания промптов для одиночных кадров в этом разделе.
Пример многосценарного промпта
Вот практический пример, демонстрирующий полную структуру:
This story is told from a third-person perspective, depicting a short drama about abandonment and the rekindling of hope.
Shot 1 [0-3 seconds]: A boy sits alone in the corner of a playground, head down, looking at a letter in his hands. He lets out a soft sigh, his eyes revealing confusion and uncertainty.
Shot 2 [3-5 seconds]: Hard cut transition, fixed camera position, focusing on the boy's eyes. Tears glisten, conveying a sense of loss and helplessness.
Shot 3 [5-10 seconds]: Hard cut transition, scene shifts to a simple classroom. A girl with gentle yet determined eyes, wearing modest clothing, approaches the boy with a warm and reassuring smile to comfort him.
Заключение
Wan2.6 на Novita AI делает профессиональное видеопроизводство доступным для всех, предлагая беспрецедентный творческий контроль через ролевое воплощение, многосценарные нарративы и синхронизацию аудио и видео.
Независимо от того, являетесь ли вы разработчиком, создающим функции генерации видео, маркетологом, делающим контент для кампаний, или кинорежиссёром, исследующим превизуализацию, платформа Model API Novita AI устраняет сложности инфраструктуры, предоставляя результат в качестве кино.
Начните генерировать профессиональные видео уже сегодня и воплотите ваше творческое видение в реальность за несколько минут.
Готовы начать? Создайте аккаунт Novita AI и получите доступ к Wan2.6 с бесплатными кредитами, чтобы оценить будущее генерации видео с ИИ.
Novita AI — ведущая облачная ИИ-платформа, которая предоставляет разработчикам простые в использовании API и доступную надёжную ГПУ-инфраструктуру для создания и масштабирования ИИ-приложений.
