Novita AI의 Wan 2.7: 텍스트-투-비디오, 이미지-투-비디오, 레퍼런스-투-비디오 비교

Novita AI의 Wan 2.7: 텍스트-투-비디오, 이미지-투-비디오, 레퍼런스-투-비디오 비교

Wan 2.7 on Novita AI는 각각 다른 문제를 해결하는 세 가지 독특한 생성 모드(텍스트-투-비디오, 이미지-투-비디오, 레퍼런스-투-비디오)를 제공합니다. T2V는 프롬프트에서 바로 비디오를 생성하며 선택적으로 오디오를 포함합니다. I2V는 시작 이미지를 애니메이션화하고 비디오 연속 생성을 지원합니다. R2V는 레퍼런스 캐릭터를 새로운 장면에 불러와 멀티 샷 제어를 가능하게 합니다. 잘못된 모드를 선택하면 작업이 번거로워집니다. 이 가이드는 각 모드를 실제로 적합한 워크플로에 매핑합니다.

Wan 2.6에서 2.7로 변경된 점

Wan 2.6은 레퍼런스 비디오를 통한 롤플레잉, 멀티 샷 내러티브, 시청각 동기화를 도입했습니다. 세 가지 엔드포인트에 걸쳐 분산된 기능이 풍부하지만 다소 겹치는 부분이 있었습니다. Wan 2.7은 이 모델을 크게 개선했습니다.

가장 뚜렷한 업그레이드는 I2V입니다. Wan 2.7 I2V는 단일 프레임 애니메이션을 넘어 하나의 엔드포인트에서 세 가지 입력 모드(첫 프레임만, 첫+마지막 프레임, 비디오 연속)를 지원합니다. Wan 2.6 I2V는 단일 프레임 애니메이션만 처리했으며 연속 생성은 R2V가 담당했습니다. 기존 영상을 확장하거나 리믹스하는 파이프라인을 구축하는 개발자에게 이 통합은 중요합니다.

2.7의 R2V는 캐릭터 모델도 변경되었습니다. 2.6이 롤플레잉을 위해 최대 2개의 레퍼런스 비디오를 허용한 반면, 2.7은 최대 5개의 레퍼런스 미디어 항목(이미지 또는 비디오)을 허용하며, 각각을 프롬프트에서 명명된 캐릭터 슬롯(character1, character2 등)에 매핑합니다. 여러 캐릭터 간의 상호 작용을 대규모로 처리하는 것이 이제 해결 방법이 아닌 일급 기능입니다.

T2V의 핵심 기능(텍스트 프롬프트에서 오디오가 포함된 비디오 생성)은 유사하지만 엔드포인트가 더 깔끔해졌습니다. 오디오 생성이 기본적으로 켜져 있고(비활성화 가능), prompt_extend 플래그가 생성 전에 짧은 프롬프트를 지능적으로 재작성합니다. Wan 2.6 T2V의 매개변수 표면은 개선되어 유지되었습니다.

또한 2.7에서는 모드별로 지속 시간 범위가 달라집니다. T2V와 I2V는 모두 2~15초를 지원하는 반면, R2V는 최대 10초입니다. 2초 최소값은 2.6의 표준 지속 시간인 5초 하한선을 대체합니다.

모드 개요 및 빠른 선택 표

T2V I2V R2V
입력 텍스트 프롬프트 이미지 + 선택적 텍스트 레퍼런스 미디어(이미지/비디오) + 텍스트
출력 지속 시간 2~15초 2~15초 2~10초
해상도 720P, 1080P 720P, 1080P 720P, 1080P
오디오 자동 생성 또는 오디오 기반 자동 생성 또는 오디오 기반 audio 플래그 + reference_voice로 제어 가능
샷 제어 단일 샷 단일 샷 단일 또는 멀티 샷
캐릭터 프롬프트 정의 프롬프트 정의 최대 5개의 명명된 레퍼런스 캐릭터
모델 ID wan2.7-t2v wan2.7-i2v wan2.7-r2v
엔드포인트 /v3/async/wan2.7-t2v /v3/async/wan2.7-i2v /v3/async/wan2.7-r2v
최적 사용 처음부터 독창적인 콘텐츠 생성 기존 자산 애니메이션 캐릭터 일관성, 롤플레잉 장면

Novita AI에서 Wan 2.7 T2V는 어떻게 작동하나요?

T2V는 기존 시각적 자산 없이 창의적인 개념이 있을 때 적합한 시작점입니다. 모델은 텍스트 설명에서 바로 부드러운 비디오를 생성하고 자동으로 오디오를 첨부합니다. 장면에 맞게 생성된 배경 음악/효과음이거나, 립싱크 및 비트 매칭을 위해 소스로 제공하는 오디오일 수 있습니다.

주요 매개변수:

  • prompt — 장면 설명, 중국어 및 영어 지원
  • size — 해상도 티어: 1920*1080, 1280*720, 720*1280, 960*960, 1088*832, 832*1088 (1080P 또는 720P)
  • duration — 정수 초, 범위 2~15
  • audio_url — 선택 사항, 제공 시 모델이 이 오디오를 사용하여 생성(립싱크, 비트 매칭)합니다. 생략하면 모델이 자동 생성합니다.
  • prompt_extend — 기본값 true, 생성 전 LLM을 사용하여 짧은 프롬프트를 재작성하여 품질 향상
  • seed — 재현 가능한 출력을 위해 설정

T2V가 적합한 대상: 카피에서 제품 캠페인 클립을 생성하는 마케터, 대규모 비디오 콘텐츠를 프로토타이핑하는 개발자, 또는 소스 자료 없이 독창적인 영상이 필요한 모든 사람.

한계점: 레퍼런스 이미지나 이전 비디오 프레임이 없으면 여러 세대에 걸쳐 복잡한 캐릭터 일관성을 유지하기 어렵습니다. 특정 장면이나 캐릭터를 반복 작업하는 경우 I2V 또는 R2V가 더 나은 제어를 제공합니다.

Novita AI에서 Wan 2.7 I2V는 어떻게 작동하나요?

2.7에서 I2V의 정의적 특징은 채우는 매개변수에 따라 하나의 엔드포인트에서 세 가지 다른 애니메이션 패턴을 처리한다는 것입니다.

첫 프레임-투-비디오: image_url을 제공합니다. 모델이 이미지를 앞으로 애니메이션화합니다. 이것은 전형적인 “사진에 생명을 불어넣기” 사용 사례입니다.

첫+마지막 프레임-투-비디오: image_urllast_frame_url을 모두 제공합니다. 모델이 두 키프레임 사이의 브릿지를 생성합니다. 이는 제어된 전환 또는 모핑 시퀀스에 유용합니다.

비디오 연속: first_clip_url(기존 비디오 클립, mp4 또는 mov, 2~10초)을 제공합니다. 모델이 클립의 내용과 프롬프트를 기반으로 비디오를 앞으로 확장합니다.

driving_audio_url 매개변수는 T2V와 동일하게 작동합니다. 제공 시 립싱크 또는 비트 매칭으로 생성을 주도하고, 생략 시 오디오가 자동 생성됩니다.

주요 매개변수:

  • image_url — 첫 프레임 및 첫+마지막 프레임 모드에 필요, 첫 프레임 이미지 (JPEG, JPG, PNG, BMP, WEBP; 최대 20 MB; 가로/세로 240~8000 px). 연속 모드에서는 사용되지 않습니다.
  • last_frame_url — 선택 사항, 키프레임-대-키프레임 모드를 위한 마지막 프레임 이미지
  • first_clip_url — 선택 사항, 연속 모드를 위한 기존 비디오 클립 (mp4/mov, 2~10초)
  • resolution720P 또는 1080P (기본값 1080P), 비디오 종횡비는 입력 미디어를 따릅니다.
  • duration — 2~15초 (정수)
  • driving_audio_url — 선택 사항, 구동 오디오
  • prompt — 선택 사항, 애니메이션 방향 및 스타일을 안내합니다.

I2V가 적합한 대상: 제품 사진을 애니메이션화하는 이커머스 팀, 일러스트레이션에 움직임을 추가하는 컨셉 아티스트, 기존 영상을 확장하는 파이프라인을 구축하는 개발자.

주의사항: 연속 입력 클립은 2~10초여야 합니다. 출력 비디오 해상도 종횡비는 입력 미디어를 따르므로 해상도와 종횡비를 독립적으로 설정할 수 없습니다.

Novita AI에서 Wan 2.7 R2V는 어떻게 작동하나요?

R2V는 캐릭터 일관성이 있는 내러티브 비디오를 위한 모드입니다. 하나 이상의 레퍼런스 미디어 항목(이미지 또는 짧은 비디오 클립)을 제공하면 모델이 각 캐릭터의 외형, 움직임 및 음성을 추출합니다. 그런 다음 프롬프트에서 character1, character2 등을 사용하여 해당 캐릭터를 지시합니다.

이 부분이 Wan 2.7이 2.6에 비해 의미 있게 발전한 부분입니다. 2.6이 1~2개의 레퍼런스 비디오로 제한되었던 반면, 2.7은 총 5개의 미디어 항목(이미지: 0~5개, 비디오: 0~3개, 총합 ≤ 5)을 허용하여 별도 생성을 연결하지 않고도 캐릭터를 확보할 수 있습니다.

shot_type 매개변수는 내러티브 구조를 제어합니다. single은 하나의 연속 샷으로 출력을 유지하고, multi는 전환이 있는 시퀀스를 생성합니다. multi 값은 프롬프트의 샷별 지침보다 우선하므로 프롬프트 힌트가 아닌 의도적인 모드 전환입니다.

R2V의 오디오 동작도 더 명시적입니다. audio 불리언(기본값 true)은 오디오 생성 여부를 제어하고, reference_voice는 캐릭터 대화를 위한 음성 레퍼런스를 지정할 수 있습니다.

주요 매개변수:

  • media — 필수, 레퍼런스 미디어 항목 배열, 순서는 character1, character2 등에 매핑됩니다.
  • prompt — 필수, character1, character2를 사용하여 캐릭터를 참조합니다.
  • size — 해상도, T2V와 동일한 720P/1080P 옵션
  • duration — 2~10초 (T2V/I2V보다 짧은 상한)
  • shot_typesingle (기본값) 또는 multi
  • audio — 불리언, 기본값 true
  • reference_voice — 선택 사항, 캐릭터 음성을 위한 음성 레퍼런스
  • negative_prompt — 선택 사항, 최대 500자, 중국어 또는 영어

R2V가 적합한 대상: 비디오 아바타를 구축하는 개발자, 일관된 출연진이 필요한 숏폼 콘텐츠 제작자, 또는 롤플레잉/캐릭터 퍼포먼스 시나리오를 다루는 모든 사람.

주의사항: R2V는 생성당 최대 10초로 제한됩니다. 더 긴 시퀀스의 경우 여러 R2V 호출을 연결할 계획을 세우세요. multi 샷 유형은 해당 창 내에서 전환을 처리하지만 10초 상한을 연장하지는 않습니다.

모드 간 가격 비교

세 가지 Wan 2.7 모드는 모두 요청당이 아닌 생성된 비디오 초당으로 청구됩니다. 해상도도 비용에 영향을 미칩니다. 1080P 출력이 720P보다 비쌉니다. R2V 엔드포인트에는 활성화 시 가격에 영향을 미치는 추가 audio 불리언이 있습니다.

가격은 Novita AI의 Wan 2.7 T2V, Wan 2.7 I2V, Wan 2.7 R2V 모델 페이지에 나와 있습니다. 비디오 모델 가격은 자주 업데이트되므로 해당 페이지에서 직접 현재 초당 요금을 확인하세요.

워크플로 비용을 추정하려면 선택한 해상도의 초당 요금에 목표 지속 시간을 곱합니다. 예를 들어, 10초 1080P T2V 클립의 비용은 명시된 1080P/s 요금의 10배입니다. T2V와 I2V는 동일한 지속 시간 상한(15초)과 해상도 옵션을 공유하므로 비용 곡선이 비슷합니다. R2V는 10초 제한이 있어 생성당 최대 비용이 더 낮습니다.

비용 관리 수단:

  • 개발 및 테스트에는 720P를 사용하고 최종 출력에만 1080P로 전환하세요.
  • prompt_extend를 활성화 상태로 유지하세요(T2V 기본값). 비용에 영향을 주지 않고 품질을 향상시킵니다.
  • R2V의 경우 사후 제작에서 자체 오디오를 제공하는 경우 audio: false로 설정하세요.

어떤 모드를 사용해야 할까요?

T2V로 시작하세요: 스크립트나 프롬프트에서 독창적인 콘텐츠를 생성하고 소스 비주얼이 없는 경우입니다. 하나의 프롬프트, 하나의 호출, 비디오와 오디오 출력으로 가장 진입 장벽이 낮은 경로입니다. 대량 콘텐츠 생성, 캠페인 자산 제작, 빠른 개념 탐색에 좋습니다.

I2V로 전환하세요: 움직임이 필요한 기존 이미지나 영상이 있는 경우입니다. 첫 프레임 모드는 제품 사진이나 일러스트레이션을 애니메이션화합니다. 첫+마지막 프레임 모드는 두 키프레임 사이의 제어된 전환을 제공합니다. 연속 모드는 이미 보유한 영상을 확장합니다. I2V는 소스 자료가 시각적 출력을 주도할 때 적합한 선택입니다.

R2V를 사용하세요: 캐릭터 정체성과 일관성이 중요한 경우입니다. 사용 사례에 동일한 사람(또는 여러 사람)이 여러 비디오에 등장해야 하거나 비디오 아바타 또는 대본 장면과 같은 퍼포먼스 기반 콘텐츠를 구축하는 경우 R2V의 레퍼런스 캐릭터 시스템이 목적에 맞는 솔루션입니다. multi 샷 유형은 별도의 스토리보딩 단계 없이 영화적 구조를 추가합니다.

실용적인 결정 트리:

  1. 비디오에 등장해야 하는 레퍼런스 캐릭터나 사람이 있습니까? → R2V
  2. 애니메이션화하거나 확장하려는 기존 이미지나 비디오 클립이 있습니까? → I2V
  3. 텍스트 설명만으로 독창적인 영상을 생성하고 있습니까? → T2V

Novita AI API 시작하기

세 엔드포인트 모두 동일한 비동기 패턴을 따릅니다. POST로 작업을 제출하고 task_id를 받은 다음 Task Result API를 폴링합니다.

사전 요구 사항: Novita AI 콘솔의 API 키. 신규 계정은 $1의 무료 크레딧을 받습니다.

T2V 빠른 시작

import requests, time

API_KEY = "your_api_key"
BASE = "https://api.novita.ai"

# 생성 제출
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# 결과 폴링
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V — 비디오 연속

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://example.com/existing-clip.mp4",
            "prompt": "Continue the scene with smooth camera pan to the right"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V — 다중 캐릭터 장면

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://example.com/person-a.jpg"},
                {"type": "image", "url": "https://example.com/person-b.jpg"}
            ],
            "prompt": "character1 and character2 are having a conversation at a café, natural daylight"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

각 모드의 전체 매개변수 참조는 Wan 2.7 T2V API 문서, Wan 2.7 I2V API 문서, Wan 2.7 R2V API 문서에서 확인할 수 있습니다.

Wan 2.7을 이전 세대와 비교하려는 경우 Novita AI의 Wan 2.6 가이드에서 전체 2.6 기능 세트와 매개변수 표면을 다룹니다.

결론

Wan 2.7은 생성 기능을 하나의 방대한 엔드포인트가 아닌 세 가지 목적별 모드로 구성합니다. T2V는 소스 자료가 없을 때 아이디어에서 비디오로 가는 가장 빠른 경로입니다. 프롬프트와 API 키만 있으면 됩니다. I2V는 기존 이미지나 영상을 작업할 때 움직임과 연속성을 제어하며, 단일 엔드포인트에서 세 가지 입력 패턴을 제공합니다. R2V는 가장 어려운 문제, 즉 장면 간 캐릭터 일관성을 유지하는 비디오를 처리하며, 최대 5개의 레퍼런스 캐릭터와 내장된 멀티 샷 구조를 제공합니다.

2.6에서 2.7로의 업그레이드는 I2V(연속 생성이 이제 해결 방법이 아닌 기본 기능)와 R2V(캐릭터 5개 vs 2개, 명명된 슬롯 vs 위치 기반)에서 가장 두드러집니다. T2V는 더 깔끔한 매개변수 표면과 함께 2.6의 강점을 이어갑니다.

대부분의 워크플로에서 결정 트리는 간단합니다. 독창적인 콘텐츠는 T2V로 시작하고, 소스 이미지나 클립이 있으면 I2V로 전환하며, 여러 세대에 걸쳐 캐릭터 정체성을 일관되게 유지해야 할 때 R2V를 사용하세요.

FAQ

Wan 2.7 T2V, I2V, R2V의 차이점은 무엇인가요? T2V는 텍스트 프롬프트만으로 비디오를 생성합니다. I2V는 기존 이미지를 애니메이션화하거나 기존 비디오 클립을 확장합니다. R2V는 레퍼런스 이미지 또는 클립을 캐릭터 템플릿으로 사용하여 캐릭터 일관성이 있는 비디오를 생성합니다. 각 모드는 입력 유형에 최적화된 별도의 엔드포인트입니다.

Wan 2.7이 오디오를 자동으로 생성할 수 있나요? 예. 세 모드 모두 기본적으로 자동 생성 오디오를 지원합니다. T2V와 I2V는 장면에 맞는 배경 음악과 효과음을 생성합니다. R2V는 캐릭터 대화를 위한 reference_voice 매개변수를 추가합니다. T2V의 audio_url 또는 I2V의 driving_audio_url을 통해 자체 오디오를 제공하거나, R2V에서 audio: false로 오디오를 비활성화할 수 있습니다.

Wan 2.7이 지원하는 비디오 길이는 얼마인가요? T2V와 I2V는 모두 2~15초를 지원합니다. R2V는 생성당 최대 10초로 제한됩니다. 모든 모드는 2초 최소값을 사용합니다.

I2V 비디오 연속 생성은 어떻게 작동하나요? 기존 mp4 또는 mov 파일(2~10초)을 가리키는 first_clip_url을 보냅니다. 모델이 클립의 내용과 움직임을 분석한 후 마지막 프레임에서 자연스럽게 이어지는 새 세그먼트를 생성합니다. image_urlfirst_clip_url과 함께 보내지 마세요. 서로 다른 모드용입니다.

Wan 2.7 R2V는 몇 개의 레퍼런스 캐릭터를 지원하나요? 총 5개의 미디어 항목(이미지: 0~5개, 비디오: 0~3개, 총합 ≤ 5)까지 지원합니다. 각 항목은 프롬프트에서 사용하는 명명된 캐릭터 슬롯(character1, character2 등)에 매핑됩니다.

해상도가 가격에 영향을 미치나요? 예. 세 모드 모두 생성된 비디오 초당 청구되며, 1080P가 초당 720P보다 비쌉니다. 개발 중에는 720P를 사용하고 최종 출력에만 1080P로 전환하여 비용을 관리하세요.

REST API를 통해 Wan 2.7을 사용할 수 있나요? 예. 모든 엔드포인트는 REST 기반이며 비동기 패턴을 따릅니다. POST로 작업을 제출하여 task_id를 받은 다음 Task Result API를 폴링합니다. 위의 “시작하기” 섹션에 있는 API 예제와 Novita AI API 문서의 전체 매개변수 참조를 확인하세요.

추천 문서