Novita AI의 Wan 2.2 I2V API로 생산성 극대화하기

Novita AI의 Wan 2.2 I2V API로 생산성 극대화하기

Novita AI는 이미지-비디오(I2V) 생성을 위한 최첨단 도구인 **Wan 2.2 I2V API**를 자랑스럽게 소개합니다. 이 API는 영상 콘텐츠 제작 방식을 혁신하며, Alibaba의 Wan 2.2 T2V의 확장 버전으로, Mixture-of-Experts(MoE) 아키텍처와 고도화된 압축 기술을 활용해 소비자급 GPU에 최적화된 720P 24fps 영상을 제공합니다. 이 글에서는 Wan 2.2 I2V의 정의, 주요 기능, 그리고 영상 제작 워크플로우를 어떻게 변화시킬 수 있는지 살펴봅니다.

Wan 2.2 I2V란 무엇인가요?

**Wan 2.2 I2V**는 텍스트나 이미지 입력을 짧은 영상 클립으로 변환하는 고도화된 AI 기반 영상 생성기입니다. **"I2V"는 이미지-비디오(Image-to-Video)**를 의미하며, 이는 지원하는 생성 모드 중 하나입니다(텍스트-비디오 생성도 지원합니다). Wan 2.2는 Wan 모델 시리즈의 두 번째 주요 릴리즈로, 2.1 버전 대비 상당한 업그레이드를 제공합니다. 이 모델은 최첨단 Mixture-of-Experts(MoE) 디퓨전 아키텍처를 사용해 프롬프트로부터 고품질 720p 해상도의 영상을 생성할 수 있습니다. 해당 모델은 **오픈소스(Apache 2.0 라이선스)**로, 일반 소비자용 하드웨어에서 전문가 수준의 결과물을 제공하도록 설계되었습니다.

컴팩트하고 다용도인 TI2V 솔루션: Wan2.2는 고도화된 Wan2.2-VAE 기반의 오픈소스 5B 모델을 도입해 16×16×4의 압축 비율을 달성했습니다. 이 경량 모델은 720P 해상도 24fps의 텍스트-비디오(T2V) 및 이미지-비디오(I2V) 생성을 모두 자연스럽게 지원합니다. NVIDIA 4090과 같은 소비자급 GPU에 최적화되어 있어, 현재 출시된 720P@24fps 모델 중 가장 빠른 모델 중 하나로 산업용 애플리케이션과 학술 연구 모두에 이상적인 솔루션입니다.

Wan 2.2 I2V 아키텍처와 이미지 이해

두 가지 유형의 MoE

Wan 2.2의 Mixture-of-Experts(MoE) 디퓨전 모델은 이미지 입력의 다양한 복잡도를 효과적으로 처리하기 위해 고노이즈 및 저노이즈 전문가 네트워크를 모두 활용합니다. 예를 들어, 고노이즈 네트워크는 정교한 이미지 디테일 처리에 탁월한 반면, 저노이즈 네트워크는 전체 장면 구성에 집중합니다. 이러한 분업 구조는 모델이 이미지 콘텐츠를 분석하고 해석하는 능력을 향상시킵니다.

압축과 시공간 일관성

이 모델은 시공간 압축을 위해 **Wan-VAE(변분 오토인코더)**를 사용해 64배 압축(시간상 4배, 공간상 16×16)을 달성합니다. 이를 통해 영상 프레임의 효율적인 인코딩 및 디코딩이 가능하면서도 필수 디테일과 시간적 일관성을 유지할 수 있습니다. 이 압축 기술은 생성 효율성을 높일 뿐만 아니라, 정적 이미지에서 동적 영상으로의 부드럽고 자연스러운 전환을 보장합니다.

이미지로부터 영상을 생성할 때 시간적 일관성 유지는 조명 변화나 객체 움직임과 같은 측면에서 매우 중요합니다. Wan-VAE의 3D 압축 아키텍처는 시각적 유동성을 보장하고 이미지 콘텐츠를 시간에 맞춰 정확하게 확장해 고품질 영상 출력을 보장합니다.

Wan 2.2 I2V 주요 기능

기능 설명
🎥 영화적 미적 제어 전문 영화 스타일 파라미터로 영화 수준의 미적 제어를 제공합니다. 프롬프트로 조명, 색조, 카메라 앵글, 구성 디테일을 지정해 생성된 영상의 외관을 조정할 수 있습니다.
🤖 복잡한 모션과 안정성 대규모 복잡한 모션을 부드럽게 재현하는 데 탁월합니다. 빠른 카메라 움직임(패닝, 틸팅, 줌)과 다중 이동 객체를 개선된 안정성으로 처리합니다. MoE 전문가 네트워크 덕분에 지터나 연속성 문제가 적은 더 부드러운 모션을 제공합니다.
🎯 정확한 시맨틱 준수 복잡한 장면과 다중 객체 상호작용을 더 잘 이해해, 사용자의 프롬프트 의도에 가까운 출력을 생성합니다. 확장된 학습 데이터와 정제된 디퓨전 전략으로 일관성과 신뢰성이 향상되었습니다.

Wan 2.2의 워크프로세스 최적화는 무엇인가요?

Wan 2.2의 워크프로세스 최적화 내용은 무엇인가요?

Wan 2.2 I2V vs Wan 2.1 I2V

Wan 2.2 I2V vs Wan 2.1 I2V: 아키텍처

카테고리 Wan 2.1 Wan 2.2
디퓨전 모델 Dense 디퓨전 아키텍처: 단일 모델이 모든 디노이징 타임스텝을 처리했습니다. Mixture-of-Experts(MoE) 디퓨전: 두 가지 전문 서브모델이 서로 다른 노이즈 레벨을 처리하며, 하나는 초기 고노이즈 타임스텝을, 다른 하나는 후기 저노이즈 타임스텝을 처리합니다. 이를 통해 디테일과 일관성이 향상되었습니다.
모델 크기 및 파라미터 텍스트-비디오 및 이미지-비디오 작업에 ~14B 파라미터를 사용했습니다. 더 빠른 프로토타이핑을 위해 더 작은 변형 모델(예: 1.3B)도 제공되었습니다. ~27B 파라미터(2×14B 전문가)이지만 한 번에 하나의 전문가만 활성화됩니다. 720p 출력이 가능한 TI2V(텍스트 및 이미지 컨디셔닝)용 새로운 5B 하이브리드 모델을 도입해, 2.1의 소형 모델의 역할을 더 높은 충실도로 대체했습니다.
학습 데이터 및 미적 라벨 프롬프트 제어를 위한 기본 디스크립터가 포함된 제한된 데이터셋을 사용했습니다. 이미지가 65% 더 많고 영상 클립이 83% 더 많은 데이터셋으로 학습되었습니다. 2.1의 기본 디스크립터와 비교해 더 세밀한 스타일 제어를 가능하게 하는 영화 태그(예: 조명, 색상, 구성)를 도입했습니다.
기본 구성 요소 1080p 인코딩에 Wan-VAE를 사용해 시간적 일관성 유지에 집중했습니다. 품질과 리소스 사용의 균형을 더 개선하기 위해 Wan-VAE와 MoE 디퓨전의 통합을 향상했습니다. 더 빠른 트랜스포머 연산을 위한 FlashAttention을 추가해 2.1 대비 성능을 높였습니다.
기능 VACE 프레임워크를 활용한 T2V, I2V, 편집을 지원했습니다. LoRA 파인튜닝을 완전히 지원했습니다. T2V, I2V, 개선된 스타일 전송을 지원합니다. 아직 VACE 프레임워크를 지원하지 않으며 LoRA 호환성도 제한적입니다.

Wan 2.2 I2V vs Wan 2.1 I2V: 성능

Wan 2.2 T2V vs Wan 2.1 T2V: 성능

출처: Artificial Analysis

Wan 2.2 I2V vs Wan 2.1 I2V: 생성

Wan 2.2 I2V

Wan 2.1 I2V

Wan 2.2 I2V의 비용과 접근 방법

하드웨어 비용

  • I2V 5B 모델:
    • 최소 VRAM 요구 사항: 24GB.
    • 최소 GPU 모델: NVIDIA RTX 4090.
    • 최소 GPU 수량: 1대
    • 단일 GPU 처리 속도: 720P 해상도 기준 약 524.8초
    • 대략적인 GPU 가격: NVIDIA RTX 4090은 2022년 10월 12일 출시되었으며, 시작 가격은 $1,599입니다.
  • I2V A14B 모델:
    • 480P 해상도:
      • 최소 VRAM 요구 사항: 40GB.
      • 최소 GPU 모델: NVIDIA A100 40GB.
      • 최소 GPU 수량: 1대
      • 단일 GPU 처리 속도: 약 810.0초
      • 대략적인 GPU 가격: NVIDIA A100 40GB의 가격은 $13,135에 판매되고 있습니다.
    • 720P 해상도:
      • 최소 VRAM 요구 사항: 80GB.
      • 최소 GPU 모델: NVIDIA H100 80GB.
      • 최소 GPU 수량: 1대
      • 단일 GPU 처리 속도: 약 1,055.9초
      • 대략적인 GPU 가격: NVIDIA H100 80GB의 가격 정보는 제공된 출처에서 확인할 수 없습니다.

API 비용

Novita AI는 개발자가 간단한 API로 AI 모델을 쉽게 배포할 수 있도록 지원하는 한편, 구축 및 확장을 위한 저렴하고 신뢰할 수 있는 GPU 클라우드를 제공하는 AI 클라우드 플랫폼입니다.

모델 가격 해상도 생성 시간
Wan 2.1 I2V $0.3/영상 1280*720 5초
Wan 2.2 I2V $0.4/영상 1080P 5초

지금 Wan 2.2를 사용해보세요!

Wan 2.2 I2V 접근 가이드

1단계: 로그인 후 모델 라이브러리 접근하기 로그인 후 모델 라이브러리 버튼을 클릭하세요. 로그인 후 모델 라이브러리 접근하기

2단계: 원하는 모델 선택하기 사용 가능한 옵션을 둘러본 후 필요에 맞는 모델을 선택하세요. 2단계: 원하는 모델 선택하기

3단계: API 키 발급받기 API 인증을 위해 새로운 API 키를 발급해드립니다. “Settings” 페이지에 접속하면 이미지에 표시된 대로 API 키를 복사할 수 있습니다. API 키 복사하기

4단계: API 설치하기 사용하시는 프로그래밍 언어에 맞는 패키지 매니저를 사용해 API를 설치하세요. 4단계: API 설치하기

지금 Wan 2.2를 사용해보세요!

설치 후 개발 환경에 필요한 라이브러리를 임포트하세요. API 키로 API를 초기화하면 Novita AI LLM과 상호작용을 시작할 수 있습니다. 아래는 Python 사용자를 위한 채팅 완성 API 사용 예시입니다.

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-i2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>",
        "img_url": "<string>"
    },
    "parameters": {
        "resolution": "<string>",
        "duration": 123,
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Wan 2.2 I2V: 일반적인 문제와 해결 방법

문제 해결 방법
프레임 깜빡임 디퓨전 스텝이나 프레임 레이트를 높이세요; I2V 모드를 사용하세요; 후반 작업에서 안정화를 진행하세요.
느린 속도/메모리 부족 5B 모델을 사용하거나 해상도를 낮추세요; 메모리 최적화를 활성화하세요; 클라우드 GPU 사용을 고려하세요.
프롬프트 불일치 프롬프트를 단순화하세요; 네거티브 프롬프트를 사용하세요; 더 나은 결과를 위해 반복적으로 개선하세요.
흐릿한 출력 “DetailZ” LoRA를 사용하세요; 프롬프트에 더 선명한 디테일을 요청하세요; 후반 작업에서 샤프닝이나 업스케일을 진행하세요.
객체 일관성 부족 I2V 모드에서 참조 이미지를 사용하세요; 더 짧은 클립을 생성해 연결하세요; 프롬프트를 일정하게 유지하세요.
오디오 없음 후반 제작에서 오디오를 추가하세요; AI 도구를 사용해 음악이나 내레이션을 생성해 영상과 싱크하세요.

소기업을 위한 Wan 2.2 I2V의 장단점

장점:

  1. 콘텐츠 제작 비용 절감: 촬영이나 제작 팀이 필요 없어 예산을 절약할 수 있습니다. 자원이 제한된 스타트업에 이상적입니다.
  2. 더 빠른 창작 회전율: 영상이 몇 분 만에 생성되어 트렌드에 빠르게 대응하고 빠른 프로토타이핑이 가능합니다.
  3. 소비자용 하드웨어로 접근 가능: 적절한 GPU가 장착된 일반 PC에서 실행되어 고가의 전문 하드웨어가 필요 없습니다.
  4. 창의적 유연성: 다양한 스타일과 장면을 지원해 프롬프트만 조정해 다양한 요구사항을 충족할 수 있습니다.
  5. 오픈소스 및 지속 발전하는 도구: 커뮤니티 지원으로 지속적인 업데이트가 이루어져 구식화될 위험이 적습니다.

단점:

  1. 학습 곡선과 전문성 요구: AI 관련 지식이나 프롬프트 작성 학습 시간이 필요해 비기술 사용자에게는 어려울 수 있습니다.
  2. 계산 비용: 대규모 영상 생성 시 지속적인 GPU 및 에너지 비용이 발생해 예산 계획이 필요합니다.
  3. 품질 제한: 출력이 720p로 제한되어 고품질이 필요한 경우 후반 편집이 필요할 수 있습니다.
  4. 일관성과 브랜딩: 생성된 콘텐츠가 영상 간 일관성이 부족할 수 있어 브랜드 정합성을 위해 추가 큐레이션이 필요합니다.
  5. 윤리적 및 법적 고려사항: 저작권, 투명성, 시청자 신뢰와 같은 문제를 신중하게 관리해야 합니다.

Wan 2.2 I2V 기술의 미래 트렌드

트렌드 설명
더 높은 해상도 1080p 이상 해상도 지원 및 더 긴 영상 재생 시간(10~15초 또는 전체 숏폼 영상) 지원
오디오와 상호작용 오디오 생성인터랙티브 편집(예: 비디오-비디오 향상) 기능 통합
더 높은 제어력 스토리보드, 프레임 제어 도구 및 장면 간 일관된 캐릭터/브랜딩 지원
더 빠르고 접근성 높은 서비스 최적화된 모델과 하드웨어 발전(GPU, 클라우드 등)을 통한 실시간 영상 생성 수준의 서비스
더 넓은 채택 엔터테인먼트, 교육, 광고 분야에서 플러그인 및 커뮤니티 스타일 생태계와 함께 활용
경쟁과 협력 오픈소스 Wan이 연구 발전을 활용해 품질 향상을 위한 혁신과 하이브리드 모델을 주도

Wan 2.2 I2V API는 영화적 미적 제어, 정확한 모션 처리, 뛰어난 효율성을 제공해 영상 생성의 새로운 기준을 제시합니다. 크리에이터, 마케터, 연구자 누구나 Wan 2.2의 기능을 활용해 워크플로우를 단순화하고 비용을 절감하며 새로운 창의적 가능성을 열 수 있습니다. 오픈소스 기반과 강력한 API를 갖춘 Wan 2.2 I2V는 접근성 높고 강력한 영상 제작의 미래입니다.

자주 묻는 질문

Wan 2.2 I2V란 무엇인가요? Wan 2.2 I2V는 Alibaba의 MoE 아키텍처와 Wan-VAE 압축 기술을 활용해 이미지로부터 고품질 영상을 생성하는 고도화된 API로, 부드럽고 일관된 시각 효과를 제공합니다.

Wan 2.2가 지원하는 해상도는 무엇인가요? 이 API는 NVIDIA RTX 4090과 같은 소비자용 GPU에 최적화된 720P 24fps 해상도를 지원합니다.

Wan 2.2는 어떻게 시간적 일관성을 보장하나요? Wan 2.2는 Wan-VAE를 통한 3D 시공간 압축 기술을 사용해 부드러운 전환과 일관된 조명, 모션을 보장합니다.

Novita AI는 당신의 AI 야망을 실현할 수 있도록 지원하는 올인원 클라우드 플랫폼입니다. 통합 API, 서버리스, GPU 인스턴스 — 필요한 모든 비용 효율적인 도구를 제공합니다. 인프라 부담을 없애고 무료로 시작해 당신의 AI 비전을 현실로 만드세요.

추천 읽을거리