Novita AI에서 Wan2.6: 롤플레잉 및 멀티 샷 컨트롤을 갖춘 시네마틱 제작 모델

Novita AI에서 Wan2.6: 롤플레잉 및 멀티 샷 컨트롤을 갖춘 시네마틱 제작 모델

Wan2.6은 AI 비디오 생성의 획기적인 발전으로, 세계에서 가장 포괄적인 비디오 제작 기능을 제공합니다. 이 모델은 경쟁사와 차별화되는 롤플레잉, 멀티 샷 제어, 시청각 동기화 기능을 포함합니다.

이제 Novita AI의 Model API 플랫폼에서 제공되므로, 개발자와 기업은 복잡한 인프라를 관리할 필요 없이 간단한 API 통합으로 이 최첨단 모델에 접근할 수 있습니다.

이 가이드에서는 Novita AI에서 Wan2.6을 활용하여 텍스트-투-비디오, 이미지-투-비디오, 참조 비디오 생성을 수행하는 방법을 살펴봅니다.

Novita AI Playground에서 Wan2.6 사용해보기

Wan2.6이란?

이 비디오는 Wan2.6으로 생성되었습니다.

Wan2.6은 알리바바 클라우드의 비디오 생성 모델 시리즈의 최신 세대로, 전문 영화 제작 및 창의적인 콘텐츠 시나리오를 위해 특별히 설계되었습니다.

세계에서 가장 기능이 완벽한 비디오 생성 모델로서, Wan2.6은 아마추어 콘텐츠 제작과 전문 영화 촬영 사이의 격차를 해소하는 혁신적인 기능을 도입합니다.

핵심 기술

Wan2.6은 고급 멀티모달 공동 모델링을 사용하여 참조 비디오를 처리합니다. 시스템은 여러 각도에서 주제의 감정, 포즈 및 포괄적인 시각적 특징에 대한 시간 정보를 추출합니다.

모델은 동시에 음성 음색 및 말하기 속도를 포함한 음향 특성을 캡처합니다. 이러한 요소는 생성 중 제어 조건으로 사용되어 시각에서 오디오까지 완전한 감각적 일관성을 유지합니다.

기술 혁신

이 모델은 여러 획기적인 기술을 통합합니다:

  • 멀티모달 학습: 시각, 오디오 및 시간 데이터를 동시에 처리하여 일관된 출력 생성
  • 고수준 의미 이해: 간단한 프롬프트를 완전한 스토리라인을 갖춘 전문적인 멀티 샷 내러티브로 변환
  • 통합 모델링: 샷 전환 전반에서 핵심 주제, 장면 레이아웃, 환경 분위기의 일관성 유지
  • 시청각 동기화: 완벽한 립싱크 및 시각 콘텐츠와의 오디오 정렬 보장

Wan2.6의 주요 기능

1. 롤플레잉 기능

Wan2.6의 대표 기능으로, 사용자가 개인 비디오를 업로드하여 전문적인 품질의 장면에서 캐릭터로 변신할 수 있습니다.

모델이 처리하는 항목:

  • 단일 및 다중 캐릭터 연기: 솔로 공연 또는 그룹 상호작용 지원
  • 감정 및 제스처 전송: 미묘한 표정과 움직임을 캡처하여 재현
  • 크로스 스타일 변환: 소스 영상에 다양한 장르(공상과학, 스릴러, 로맨스) 적용
  • 전문 연기 시뮬레이션: 일반 사용자 비디오에서 영화 수준의 연기 생성

2. 멀티 샷 제어 및 전환

이 모델은 전문가 수준의 샷 구성과 전환에서 뛰어납니다:

  • 자동 샷 계획: 간단한 프롬프트를 멀티 샷 스크립트로 변환
  • 원활한 전환: 다양한 카메라 각도와 시점 사이의 부드러운 컷
  • 내러티브 일관성: 여러 샷에 걸쳐 스토리 연속성 유지
  • 일관성 유지: 캐릭터, 설정, 분위기를 전체적으로 통일

3. 확장된 비디오 길이

Wan2.6은 생성당 최대 15초를 지원합니다. 이는 중국 AI 비디오 시장에서 가장 긴 단일 생성 길이입니다.

이 확장된 길이는 여러 번 생성하고 이어붙일 필요 없이 더 복잡한 스토리텔링과 완전한 장면 전개를 가능하게 합니다.

4. 시청각 동기화

오디오와 시각 요소 간의 완벽한 정렬:

  • 립싱크 정확도: 대화에 맞는 정밀한 입 움직임
  • 소리 기반 애니메이션: 오디오 큐가 캐릭터 움직임과 표정을 유도
  • 환경 오디오: 상황에 맞는 배경 음향 및 효과

5. 향상된 품질 지표

최근 업데이트로 모델의 여러 측면이 크게 개선되었습니다:

  • 향상된 시각 충실도: 더 높은 해상도와 세부 품질
  • 더 나은 오디오 효과: 전문가 수준의 사운드 디자인
  • 뛰어난 프롬프트 준수: 복잡한 지침의 더 정확한 해석
  • 영화적 카메라 워크: 자동으로 적용되는 전문 영화 촬영 기법

Novita AI의 Wan2.6 모델 변종

Novita AI는 Wan2.6용으로 세 가지 별도의 API 엔드포인트를 제공하며, 각각 특정 사용 사례에 최적화되어 Model API 플랫폼을 통해 액세스할 수 있습니다.

텍스트-투-비디오 (T2V)

입력 이미지나 비디오 없이 텍스트 프롬프트에서 직접 비디오를 생성합니다.

멀티 샷 제어 및 내러티브 시퀀싱을 통해 창의적인 설명에서 독창적인 콘텐츠를 만드는 데 이상적입니다.

주요 기능:

  • 순차적 프롬프트에서 멀티 샷 내러티브 생성
  • 자동 샷 유형 선택 및 카메라 움직임
  • 장면 간 영화적 전환
  • 5초, 10초, 15초 비디오 길이 지원

기술 사양:

파라미터 지원 값 참고
길이 5s, 10s, 15s 콘텐츠 복잡성에 따라 선택
해상도 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 480P는 지원하지 않음
모델 ID wan2.6-t2v API 호출 시 이 식별자 사용

자세히 알아보기: Wan2.6 텍스트-투-비디오 API 문서

이미지-투-비디오 (I2V)

정적 이미지를 동적 비디오 시퀀스로 애니메이션화합니다.

제어된 움직임과 내러티브 컨텍스트로 제품 사진, 일러스트레이션 또는 컨셉 아트에 생명을 불어넣는 데 완벽합니다.

주요 기능:

  • 애니메이션 강도를 위한 움직임 강도 제어
  • 다양한 사용 사례를 위한 여러 해상도 옵션
  • 프롬프트 기반 애니메이션 방향
  • 캐릭터 및 객체 애니메이션

기술 사양:

파라미터 지원 값 참고
길이 5s, 10s, 15s 복잡한 애니메이션을 위한 확장 길이
해상도 1080P, 720P 480P는 지원하지 않음
모델 ID wan2.6-i2v API 호출 시 이 식별자 사용

자세히 알아보기: Wan2.6 이미지-투-비디오 API 문서

참조 비디오 (R2V)

참조 비디오 입력을 사용하여 스타일 전송, 롤플레잉 또는 장면 수정으로 기존 비디오를 변환합니다.

주요 기능:

  • 롤플레잉 및 캐릭터 교체
  • 시각적 장르 간 스타일 전송
  • 시청각 동기화 유지
  • 다중 참조 비디오 지원 (1-2개 비디오 권장)

기술 사양:

파라미터 지원 값
길이 5s, 10s (15s는 지원하지 않음)
해상도 1280×720, 720×1280, 960×960, 1088×832, 832×1088, 1920×1080, 1080×1920, 1440×1440, 1632×1248, 1248×1632 (480P 없음)
비디오 형식 MP4, MOV
파일 크기 < 30MB per file
단일 참조 최대 5초 길이
이중 참조 각 최대 2.5초 (3개 비디오는 권장하지 않음)
모델 ID wan2.6-v2v

중요 참고: 참조 비디오는 오디오 파일과 동시에 업로드할 수 없습니다. reference_video_urls 파라미터는 비디오 URL 배열을 허용합니다.

자세히 알아보기: Wan2.6 참조 비디오 API 문서

Novita AI에서 Wan2.6 시작하기

사전 요구 사항

시작하기 전에 다음이 있는지 확인하세요:

  1. Novita AI 계정: novita.ai에서 가입하세요. 가입 시 자동으로 $1 무료 크레딧을 받습니다.
  2. API 키: 콘솔에서 가져오세요.
  3. 개발 환경: Python, Node.js 또는 모든 HTTP 클라이언트

비동기 요청 흐름

Novita AI의 Wan2.6은 비동기 처리 모델을 사용하여 생성 요청을 효율적으로 처리합니다:

  1. 요청 제출: 적절한 엔드포인트에 POST 요청을 보내 파라미터를 전달합니다.
  2. 작업 ID 수신: API가 즉시 task_id를 반환합니다.
  3. 결과 폴링: 작업 ID를 사용하여 생성 상태를 확인합니다.
  4. 출력 검색: 완료되면 생성된 비디오를 다운로드합니다.

텍스트-투-비디오 생성 예제

다음은 Wan2.6의 T2V API를 사용하여 텍스트에서 비디오를 생성하는 완전한 예제입니다:

1단계: 생성 요청 제출

import requests

url = "https://api.novita.ai/v3/async/wan2.6-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "audio_url": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "seed": 123,
        "size": "<string>",
        "audio": True,
        "duration": 123,
        "shot_type": "<string>",
        "watermark": True,
        "prompt_extend": True
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

2단계: 비디오 생성 결과 가져오기

import requests

url = "https://api.novita.ai/v3/async/task-result"

headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.get(url, headers=headers)

print(response.text)

주요 파라미터 설명

파라미터 설명 옵션
prompt 원하는 비디오의 텍스트 설명 자세한 장면 설명
audio_url 동기화를 위한 선택적 오디오 파일 오디오 파일의 HTTPS URL
negative_prompt 피하려는 요소 품질 문제, 원하지 않는 객체
seed 재현성을 위한 랜덤 시드 모든 정수
size 비디오 해상도 “1280x720”, “1920x1080”, “720x1280” 등
duration 비디오 길이(초) 5, 10 또는 15
shot_type 카메라 각도 “wide_shot”, “medium_shot”, “close_up”
prompt_extend 프롬프트 자동 향상 true/false
watermark 비디오에 워터마크 추가 true/false
audio 오디오 생성 활성화 true/false

전체 API 사양 및 추가 파라미터는 Wan2.6 API 문서를 참조하세요.

멀티 샷 프롬프트 구조

Wan2.6의 멀티 샷 기능을 사용하면 여러 카메라 각도와 장면으로 일관된 내러티브 시퀀스를 만들 수 있습니다. 멀티 샷 비디오의 품질을 최대화하려면 이 구조화된 프롬프트 형식을 따르세요.

프롬프트 구조 공식

프롬프트 = 전체 설명 + 샷 번호 + 타임스탬프 + 샷 내용

구성 요소 설명

1. 전체 설명

전체 비디오 콘텐츠에 대한 간략한 개요를 제공합니다. 이 부분은 다음을 설명해야 합니다:

  • 스토리 테마 및 내러티브 스타일
  • 주요 감정 또는 핵심 사건
  • 전체적인 어조와 분위기

이는 AI가 전체적인 내러티브 방향을 이해하고 샷 간 일관성을 유지하는 데 도움이 됩니다.

2. 샷 번호

각 샷에 순차적 번호를 할당하여:

  • 다른 장면 또는 세그먼트 구분
  • 비디오 구조를 명확하게 구성
  • 전환 간 논리적 흐름 유지

3. 타임스탬프

비디오 타임라인 내 각 샷의 정확한 시간 범위를 지정합니다:

  • 콘텐츠가 비디오 타이밍과 일치하도록 보장
  • 생성 정확도 향상
  • 정확한 샷 길이 제어에 도움

4. 샷 내용

각 샷에 대한 자세한 설명을 제공합니다:

  • 주요 캐릭터 또는 객체 및 특정 행동
  • 동작, 대화, 표정 및 제스처
  • 카메라 각도 및 움직임
  • 조명 및 분위기 세부사항

이 부분에서는 표준 단일 샷 프롬프트 작성 규칙을 따르세요.

멀티 샷 프롬프트 예제

전체 구조를 보여주는 실제 예제입니다:

이 이야기는 3인칭 관점으로, 버림받음과 희망의 재점화에 관한 짧은 드라마를 묘사합니다.

샷 1 [0-3초]: 소년이 놀이터 구석에 혼자 앉아 고개를 숙이고 손에 든 편지를 바라봅니다. 그는 조용히 한숨을 내쉬며 눈에 혼란과 불확실성을 드러냅니다.

샷 2 [3-5초]: 하드 컷 전환, 고정 카메라 위치, 소년의 눈에 초점. 눈물이 반짝이며 상실감과 무력감을 전달합니다.

샷 3 [5-10초]: 하드 컷 전환, 장면이 단순한 교실로 이동합니다. 부드럽지만 단호한 눈빛의 소녀가 검소한 옷차림으로 다가와 따뜻하고 안심시키는 미소로 소년을 위로합니다.

결론

Novita AI의 Wan2.6은 전문 비디오 제작을 대중화하여 롤플레잉, 멀티 샷 내러티브, 시청각 동기화를 통해 전례 없는 창의적 제어를 제공합니다.

비디오 생성 기능을 구축하는 개발자, 캠페인 콘텐츠를 만드는 마케터, 사전 시각화를 탐구하는 영화 제작자이든, Novita AI의 Model API 플랫폼은 인프라 복잡성을 제거하면서 영화 수준의 결과를 제공합니다.

지금 바로 전문 비디오 생성을 시작하고 몇 분 안에 창의적인 비전을 현실로 변환하세요.

시작할 준비가 되셨나요? Novita AI 계정을 생성하고 Wan2.6에 무료 크레딧으로 접근하여 AI 비디오 생성의 미래를 경험하세요.

Novita AI 는 개발자에게 사용하기 쉬운 API와 저렴하고 안정적인 GPU 인프라를 제공하여 AI 애플리케이션을 구축하고 확장할 수 있도록 지원하는 선도적인 AI 클라우드 플랫폼입니다.