Wan 2.7 на Novita AI: Text-to-Video vs Image-to-Video vs Reference-to-Video

Wan 2.7 на Novita AI: Text-to-Video vs Image-to-Video vs Reference-to-Video

Wan 2.7 на Novita AI предлагает три различных режима генерации — Text-to-Video, Image-to-Video и Reference-to-Video, каждый из которых решает свою задачу. T2V создает видео непосредственно из текстового описания с возможностью добавления аудио; I2V анимирует начальное изображение и поддерживает продолжение видео; R2V переносит персонажей из референсов в новые сцены с управлением несколькими кадрами. Выбор неподходящего режима усложняет работу; это руководство сопоставляет каждый режим с теми рабочими процессами, где он действительно нужен.

Что изменилось с Wan 2.6 до 2.7

Wan 2.6 представил ролевые игры с использованием референсного видео, многосюжетные повествования и аудиовизуальную синхронизацию — мощный, но разрозненный набор функций, распределенный по трем конечным точкам с некоторым перекрытием. Wan 2.7 значительно улучшает эту модель.

Самое заметное обновление — в I2V. Wan 2.7 I2V выходит за рамки анимации одного кадра и поддерживает три различных режима ввода в одной конечной точке: только первый кадр, первый+последний кадр и продолжение видео. Wan 2.6 I2V обрабатывал только анимацию одного кадра; продолжение выполнялось через R2V. Такая консолидация важна для разработчиков, создающих пайплайны по расширению или ремиксу существующих видео.

R2V в версии 2.7 также меняет свою модель персонажей. В то время как версия 2.6 принимала до двух референсных видео для ролевых игр, версия 2.7 принимает до пяти референсных медиа-элементов (изображений или видео), сопоставляя каждый с именованным слотом персонажа (character1, character2 и т. д.) в вашем текстовом описании. Многоперсонажное взаимодействие в масштабе теперь стало первоклассной функцией, а не обходным решением.

Основная возможность T2V — создание видео из текстового описания с аудио — осталась похожей, но конечная точка стала чище: генерация аудио включена по умолчанию (вы можете её отключить), а флаг prompt_extend интеллектуально переписывает короткие описания перед генерацией. Параметры T2V из Wan 2.6 перенесены с доработками, а не заменены.

Диапазон длительности также различается в зависимости от режима в версии 2.7: T2V и I2V поддерживают от 2 до 15 секунд, а R2V ограничен 10 секундами. Минимальная длительность в 2 секунды заменила прежний минимум в 5 секунд, характерный для стандартных длительностей версии 2.6.

Обзор режимов и таблица быстрого выбора

T2V I2V R2V
Входные данные Текстовое описание Изображение + необязательный текст Референсные медиа (изображения/видео) + текст
Длительность вывода 2–15 с 2–15 с 2–10 с
Разрешения 720P, 1080P 720P, 1080P 720P, 1080P
Аудио Автосгенерированное или управляемое аудио Автосгенерированное или управляемое аудио Управляемое через флаг audio + reference_voice
Управление кадром Один кадр Один кадр Один или несколько кадров
Персонажи Определяются в описании Определяются в описании До 5 именованных референсных персонажей
ID модели wan2.7-t2v wan2.7-i2v wan2.7-r2v
Конечная точка /v3/async/wan2.7-t2v /v3/async/wan2.7-i2v /v3/async/wan2.7-r2v
Лучше всего подходит для Создание оригинального контента с нуля Анимация существующих материалов Сцены с постоянными персонажами и ролевые игры

Как работает Wan 2.7 T2V на Novita AI?

T2V — правильная отправная точка, когда у вас есть творческая концепция, но нет готовых визуальных материалов. Модель создает плавное видео непосредственно из текстового описания и автоматически добавляет аудио — либо фоновую музыку/звуковые эффекты, сгенерированные в соответствии со сценой, либо аудио, которое вы предоставляете в качестве источника для синхронизации губ и соответствия ритму.

Ключевые параметры:

  • prompt — описание сцены; поддерживает китайский и английский языки
  • size — уровень разрешения: 1920*1080, 1280*720, 720*1280, 960*960, 1088*832, 832*1088 (1080P или 720P)
  • duration — целое число секунд, диапазон 2–15
  • audio_url — необязательный; если указан, модель использует это аудио для управления генерацией (синхронизация губ, соответствие ритму). Если опущен, модель генерирует аудио автоматически
  • prompt_extend — по умолчанию true; переписывает короткие описания с помощью LLM перед генерацией для улучшения качества
  • seed — задается для воспроизводимых результатов

Кому подходит T2V: Маркетологам, создающим рекламные ролики продуктов по тексту, разработчикам, прототипирующим видеоконтент в масштабе, или всем, кому нужны оригинальные видео без исходных материалов.

Где он показывает недостатки: Без референсного изображения или предыдущего кадра сложно поддерживать согласованность сложных персонажей в нескольких генерациях. Если вы работаете над конкретной сценой или персонажем, I2V или R2V дадут вам больше контроля.

Как работает Wan 2.7 I2V на Novita AI?

Отличительная особенность I2V в версии 2.7 заключается в том, что он обрабатывает три различных паттерна анимации через одну конечную точку, которые различаются тем, какие параметры вы заполняете:

Из первого кадра в видео: Укажите image_url. Модель анимирует изображение вперед. Это классический вариант использования «оживление фотографии».

Из первого и последнего кадра в видео: Укажите как image_url, так и last_frame_url. Модель создает переход между двумя ключевыми кадрами, что полезно для контролируемых переходов или морфинга.

Продолжение видео: Укажите first_clip_url (существующий видеоклип, mp4 или mov, длительностью 2–10 секунд). Модель продлевает видео вперед на основе его содержимого и вашего текстового описания.

Параметр driving_audio_url работает так же, как и в T2V — если он указан, он управляет генерацией с синхронизацией губ или соответствием ритму; если опущен, аудио генерируется автоматически.

Ключевые параметры:

  • image_url — обязателен для режимов «первый кадр» и «первый+последний кадр»; изображение первого кадра (JPEG, JPG, PNG, BMP, WEBP; до 20 МБ; ширина/высота 240–8000 пикселей). Не используется в режиме продолжения.
  • last_frame_url — необязательный; изображение последнего кадра для режима «ключевой кадр — ключевой кадр»
  • first_clip_url — необязательный; существующий видеоклип для режима продолжения (mp4/mov, 2–10 с)
  • resolution720P или 1080P (по умолчанию 1080P); соотношение сторон видео соответствует входному медиа
  • duration — 2–15 секунд (целое число)
  • driving_audio_url — необязательное управляющее аудио
  • prompt — необязательный; направляет направление и стиль анимации

Кому подходит I2V: Командам электронной коммерции, анимирующим фотографии продуктов, концепт-художникам, добавляющим движение к иллюстрациям, или разработчикам, создающим пайплайны для расширения существующих видео.

Важный момент: Входной клип для продолжения должен быть длительностью 2–10 секунд. Соотношение сторон разрешения выходного видео соответствует входному медиа — вы не можете независимо задать разрешение и соотношение сторон.

Как работает Wan 2.7 R2V на Novita AI?

R2V — это режим для повествовательного видео с согласованными персонажами. Вы предоставляете один или несколько референсных медиа-элементов — изображений или коротких видеоклипов — и модель извлекает внешность, движения и голос каждого персонажа. Затем вы управляете этими персонажами в текстовом описании, используя character1, character2 и т. д.

Здесь Wan 2.7 делает значительный шаг вперед по сравнению с версией 2.6. Вместо ограничения 1–2 референсных видео, версия 2.7 принимает до пяти медиа-элементов (изображения: 0–5, видео: 0–3, всего ≤ 5), что дает вам набор персонажей без необходимости склеивать отдельные генерации.

Параметр shot_type управляет структурой повествования: single оставляет вывод в виде одного непрерывного кадра; multi генерирует последовательность с переходами. Значение multi имеет приоритет над любыми покадровыми инструкциями в вашем текстовом описании, так что это осознанное переключение режима, а не подсказка в описании.

Поведение аудио в R2V также более явное: логический параметр audio (по умолчанию true) управляет тем, генерируется ли аудио вообще, а reference_voice позволяет указать референс голоса для диалогов персонажа.

Ключевые параметры:

  • media — обязательный; массив референсных медиа-элементов; порядок соответствует character1, character2 и т. д.
  • prompt — обязательный; используйте character1, character2 для ссылки на персонажей
  • size — разрешение; те же опции 720P/1080P, что и в T2V
  • duration — 2–10 секунд (более низкий лимит, чем в T2V/I2V)
  • shot_typesingle (по умолчанию) или multi
  • audio — логический, по умолчанию true
  • reference_voice — необязательный референс голоса для речи персонажа
  • negative_prompt — необязательный; максимум 500 символов; китайский или английский

Кому подходит R2V: Разработчикам, создающим видеоаватары, создателям короткого контента, нуждающимся в согласованном составе персонажей, или всем, кто работает с ролевыми сценариями/персонажными представлениями.

Важный момент: R2V ограничен 10 секундами на одну генерацию. Для более длинных последовательностей планируйте склеивать несколько вызовов R2V. Тип кадра multi обрабатывает переходы в пределах этого окна, но не расширяет 10-секундный лимит.

Сравнение цен между режимами

Все три режима Wan 2.7 тарифицируются за секунду сгенерированного видео, а не за запрос. Разрешение также влияет на стоимость — вывод в 1080P стоит дороже, чем в 720P. Конечная точка R2V имеет дополнительный логический параметр audio, который влияет на ценообразование, когда он включен.

Цены указаны на страницах моделей Wan 2.7 T2V, Wan 2.7 I2V и Wan 2.7 R2V на Novita AI. Проверяйте эти страницы напрямую для получения актуальных ставок за секунду, так как цены на видеомодели часто обновляются.

Чтобы оценить стоимость для рабочего процесса: умножьте желаемую длительность на ставку за секунду для выбранного разрешения. Например, 10-секундный клип T2V в 1080P стоит 10 × указанную ставку 1080P/с. Поскольку T2V и I2V имеют одинаковые ограничения по длительности (15 с) и возможности разрешения, их кривые затрат сопоставимы; 10-секундный лимит R2V означает, что его максимальная стоимость за одну генерацию ниже.

Рычаги контроля затрат:

  • Используйте 720P для разработки и тестирования; переключайтесь на 1080P только для финальных результатов
  • Оставляйте prompt_extend включенным (по умолчанию для T2V) — он улучшает качество без влияния на стоимость
  • Для R2V установите audio: false, если вы добавляете собственное аудио на пост-продакшне

Какой режим следует использовать?

Начинайте с T2V, когда: Вы создаете оригинальный контент из сценария или текстового описания и у вас нет исходных визуалов. Это путь с наименьшим сопротивлением — одно описание, один вызов, на выходе видео и аудио. Подходит для массовой генерации контента, создания рекламных материалов и быстрого исследования концепций.

Переходите на I2V, когда: У вас есть существующие изображения или видео, которым нужно движение. Режим первого кадра анимирует фотографии продуктов или иллюстрации; режим первого+последнего кадра дает контролируемые переходы между двумя ключевыми кадрами; режим продолжения расширяет уже имеющееся у вас видео. I2V — правильный выбор, когда ваш исходный материал определяет визуальный вывод.

Используйте R2V, когда: Важны идентичность и согласованность персонажей. Если ваш вариант использования требует, чтобы один и тот же человек (или несколько человек) появлялись в нескольких видео, или если вы создаете контент на основе производительности, такой как видеоаватары или сценарные сцены, система референсных персонажей R2V является специально разработанным решением. Тип кадра multi добавляет кинематографическую структуру без отдельного этапа раскадровки.

Практическое дерево решений:

  1. Есть ли у вас референсные персонажи или люди, которые должны появиться в видео? → R2V
  2. Есть ли у вас существующее изображение или видеоклип, которые вы хотите анимировать или расширить? → I2V
  3. Вы генерируете оригинальное видео только из текстового описания? → T2V

Начало работы с API Novita AI

Все три конечные точки следуют одному асинхронному шаблону: POST для отправки задачи, получение task_id, затем опрос Task Result API.

Предварительные требования: Ключ API из консоли Novita AI. Новые аккаунты получают 1 доллар бесплатных кредитов.

Быстрый старт T2V

import requests, time

API_KEY = "your_api_key"
BASE = "https://api.novita.ai"

# Submit generation
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# Poll for result
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V — Продолжение видео

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://example.com/existing-clip.mp4",
            "prompt": "Continue the scene with smooth camera pan to the right"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V — Сцена с несколькими персонажами

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://example.com/person-a.jpg"},
                {"type": "image", "url": "https://example.com/person-b.jpg"}
            ],
            "prompt": "character1 and character2 are having a conversation at a café, natural daylight"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

Полная информация о параметрах для каждого режима доступна в документации API: Wan 2.7 T2V API docs, Wan 2.7 I2V API docs и Wan 2.7 R2V API docs.

Если вы хотите сравнить Wan 2.7 с предыдущим поколением, руководство Wan 2.6 на Novita AI охватывает полный набор функций и параметров версии 2.6.

Заключение

Wan 2.7 организует свои возможности генерации в три целенаправленных режима, а не в одну разросшуюся конечную точку. T2V — это самый быстрый путь от идеи к видео, когда у вас нет исходных материалов — достаточно текстового описания и ключа API. I2V дает вам контроль над движением и непрерывностью, когда вы работаете с существующими изображениями или видео, с тремя различными шаблонами ввода в одной конечной точке. R2V решает самую сложную задачу: создание видео с согласованными персонажами в разных сценах, с поддержкой до пяти референсных персонажей и встроенной структурой нескольких кадров.

Обновление с версии 2.6 до 2.7 наиболее заметно в I2V (продолжение теперь является родным, а не обходным решением) и R2V (пять персонажей вместо двух, именованные слоты вместо позиционных). T2V сохраняет сильные стороны версии 2.6 с более чистой поверхностью параметров.

Для большинства рабочих процессов дерево решений простое: начните с T2V для оригинального контента, переключайтесь на I2V, когда у вас есть исходное изображение или клип, и используйте R2V, когда идентичность персонажа должна оставаться согласованной в нескольких генерациях.

Часто задаваемые вопросы

В чем разница между Wan 2.7 T2V, I2V и R2V? T2V создает видео только из текстового описания. I2V анимирует существующее изображение или расширяет существующий видеоклип. R2V создает видео с согласованными персонажами, используя референсные изображения или клипы в качестве шаблонов персонажей. Каждый режим представляет собой отдельную конечную точку, оптимизированную для своего типа входных данных.

Может ли Wan 2.7 генерировать аудио автоматически? Да. Все три режима по умолчанию поддерживают автоматическую генерацию аудио. T2V и I2V генерируют фоновую музыку и звуковые эффекты, соответствующие сцене; R2V добавляет параметр reference_voice для диалогов персонажей. Вы можете предоставить собственное аудио через audio_url (T2V) или driving_audio_url (I2V) или отключить аудио с помощью audio: false (R2V).

Какую длительность видео поддерживает Wan 2.7? T2V и I2V поддерживают от 2 до 15 секунд. R2V ограничен 10 секундами на одну генерацию. Все режимы используют минимальную длительность 2 секунды.

Как работает продолжение видео в I2V? Отправьте first_clip_url с указанием существующего файла mp4 или mov (длительностью 2–10 секунд). Модель анализирует содержимое и движение клипа, а затем генерирует новый сегмент, который естественным образом продолжается из последнего кадра. Не отправляйте image_url вместе с first_clip_url — они предназначены для разных режимов.

Сколько референсных персонажей поддерживает Wan 2.7 R2V? До пяти медиа-элементов (изображения: 0–5, видео: 0–3, общее количество ≤ 5). Каждый элемент сопоставляется с именованным слотом персонажа (character1, character2 и т. д.), который вы используете в своем текстовом описании.

Влияет ли разрешение на ценообразование? Да. Все три режима тарифицируются за секунду сгенерированного видео, и 1080P стоит дороже за секунду, чем 720P. Используйте 720P во время разработки и переключайтесь на 1080P для финальных результатов, чтобы управлять затратами.

Можно ли использовать Wan 2.7 через REST API? Да. Все конечные точки основаны на REST и следуют асинхронному шаблону: POST задачу для получения task_id, затем опрос Task Result API. Смотрите примеры API в разделе «Начало работы» выше и полную информацию о параметрах в документации API Novita AI.

Рекомендуемые статьи