Wan2.1: Sora를 능가하는 오픈소스 AI 모델

Wan2.1: Sora를 능가하는 오픈소스 AI 모델

주요 하이라이트

오픈소스 제공: Wan2.1은 오픈소스 AI 모델로, 학계, 연구자, 기업이 비용 효율적으로 고품질 비디오를 생성할 수 있게 합니다.

다양한 기능: T2V, I2V, 비디오 편집, T2I를 지원하며 중국어와 영어로 된 멀티링구얼 텍스트(자막)를 생성합니다.

하드웨어 요구 사항: T2V-1.3B는 매개변수가 1.3B에 불과하여 하드웨어 요구 사항을 크게 낮췄습니다.

모델 아키텍처 및 혁신: 3D 인코딩을 위한 Wan-VAE, Video Diffusion DiT, 고품질 학습 데이터셋을 위한 강력한 파이프라인을 특징으로 합니다.

VBench 성능 평가: VBench에서 86.22%의 점수로 Sora를 포함한 경쟁 제품을 능가하며, ID 일관성, 공간 정확도, 동작 명령 실행에서 탁월합니다.

Novita AI는 Wan 2.1용 API를 제공합니다. 무료 체험판에 가입하고 간단한 요청으로 API를 사용해 보세요.

Wan2.1은 **알리바바 클라우드 ** 가 개발한 고급 비디오 생성용 오픈소스 AI 모델입니다. 고성능, 효율성, 다양성을 목표로 설계되어 다양한 창의적 및 전문적 응용 분야에 적합합니다. 이 모델은 알리바바 클라우드의 AI 모델 커뮤니티인 ModelScopeHugging Face 에서 이용할 수 있습니다.

출처: wan

오늘 Novita AI에서 무료 체험을 시작하세요. Hunyuan Video API를 통합하려면 개발자 문서를 방문하여 자세한 내용을 확인하세요.

Novita는 시장에서 매우 경쟁력 있는 가격을 제공합니다.

예를 들어, Wan 2.1 720P 5초 비디오는 비디오당 $0.3에 불과합니다.

반면 Replicate의 유사한 비디오는 비디오당 $2.39입니다.

오픈소스 제공

알리바바 클라우드는 비디오 생성을 위한 Wan2.1 시리즈 AI 모델을 오픈소스로 공개했습니다. 이 이니셔티브는 접근성 장벽을 낮추고 기업이 비용 효율적으로 고품질 시각 콘텐츠를 만들 수 있도록 하는 것을 목표로 합니다. 이러한 모델을 오픈소스로 공개함으로써 학계, 연구자, 상업 기관 은 상당한 초기 비용 없이 AI의 힘을 프로젝트에 활용할 수 있습니다.

Wan2.1의 다양한 기능

Wan2.1은 다양한 작업에서 탁월한 성능을 보여주며 비디오 생성을 위한 다재다능한 도구로 자리 잡았습니다:

  • 텍스트-비디오 (T2V)
  • 이미지-비디오 (I2V)
  • 비디오 편집
  • 텍스트-이미지 (T2I)

특히, Wan2.1은 중국어와 영어로 텍스트를 생성할 수 있는 최초의 비디오 모델 로, 강력한 텍스트 생성 기능을 갖추어 실용성을 높입니다.

하드웨어 요구 사항

아래는 네 가지 Wan2.1 모델의 하드웨어 요구 사항에 대한 자세한 요약입니다. 표에는 각 모델의 기능, 지원 해상도, 모델 크기, 하드웨어 요구 수준, 최적 성능을 위한 권장 GPU가 나와 있습니다.

**모델 이름 ** ** 기능 ** ** 지원 해상도 ** ** 모델 크기 ** ** 하드웨어 요구 수준 ** ** 권장 GPU**
T2V-14B 텍스트-비디오 (T2V) 480P / 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-720P 이미지-비디오 (I2V) 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-480P 이미지-비디오 (I2V) 480P 14B ⭐⭐⭐ RTX 3090 / RTX 4070 Ti
T2V-1.3B 텍스트-비디오 (T2V) 저해상도 1.3B ⭐⭐ RTX 3060 / RTX 4060 이상

모델 아키텍처 및 주요 혁신

Wan2.1은 **Flow Matching 프레임워크 ** 로 강화된 확산 트랜스포머 패러다임 을 기반으로 구축되었습니다. 주요 혁신은 다음과 같습니다:

  • Wan-VAE: 효율적인 압축과 모션 재현의 높은 충실도를 위해 설계된 3D 변분 오토인코더입니다. 1080P 비디오를 인코딩 및 디코딩하면서 시간적 일관성을 유지합니다. 이 모델은 ** 시공간 압축 을 최적화하고 메모리 사용량을 줄이며 ** 시간적 인과관계를 보장하기 위해 여러 전략을 통합합니다.

Wan-VAE

  • Video Diffusion DiT: Wan2.1은 Diffusion Transformers 내에서 Flow Matching 프레임워크를 활용하며, 다국어 텍스트 입력을 위한 T5 Encoder와 텍스트를 모델에 임베딩하기 위한 cross-attention을 사용합니다. SiLU와 Linear 레이어가 있는 공유 MLP는 시간 임베딩을 위한 6개의 변조 매개변수를 예측하여 각 트랜스포머 블록이 고유한 편향을 학습할 수 있도록 합니다. 이 아키텍처는 매개변수 규모를 늘리지 않으면서 성능을 크게 향상시킵니다.

dIT

  • 후보 데이터셋: Wan 2.1은 방대한 양의 이미지 및 비디오 데이터로 구성된 후보 데이터셋을 선별하고 중복을 제거했습니다. 데이터 선별 과정에서 기본 차원, 시각적 품질, 모션 품질에 초점을 맞춘 4단계 데이터 정제 프로세스를 설계했습니다. 강력한 데이터 처리 파이프라인을 통해 고품질, 다양성, 대규모 이미지 및 비디오 학습 세트를 쉽게 얻을 수 있습니다.

DATA

VBench 평가

VBench는 비디오 생성 모델을 평가하기 위해 설계된 강력하고 포괄적인 벤치마크 제품군입니다. "비디오 생성 품질"을 계층적, 분리적, 특정 차원으로 세분화하며, 각 차원에는 맞춤형 프롬프트와 평가 방법이 제공됩니다. 주요 평가 지표는 다음과 같습니다:

  • 대규모 모션 생성
  • 인공물(Human Artifacts)
  • 픽셀 수준 안정성
  • ID 일관성
  • 물리적 타당성
  • 부드러움
  • 종합 이미지 품질
  • 장면 생성 품질
  • 스타일화 능력
  • 단일 객체 정확도
  • 다중 객체 정확도
  • 공간 위치 정확도
  • 카메라 제어
  • 동작 명령 수행

VBench의 목적은 개별 모델의 강점과 약점에 대한 귀중한 통찰력을 제공하여 세분화되고 객관적인 평가를 가능하게 하는 것입니다. 이러한 통찰력은 비디오 생성의 향후 발전을 안내할 뿐만 아니라 모델 성능 향상에도 도움이 됩니다. 인간의 인식과 일치하도록 VBench는 인간 선호도 주석을 통합하여 벤치마크로서의 관련성과 신뢰성을 검증합니다. Wan2.1의 성능은 아래 차트에 나와 있습니다.

vbench

출처: Alizila

또한 Wan-BenchT2V-1.3B 모델 을 평가하는 데 사용되었으며, 주요 지표에서 더 큰 오픈소스 모델을 능가했습니다. 이러한 평가는 모델이 다음 분야에서 발전했음을 강조합니다:

wanbench

Wan 2.1 VS Sora

종합 성능 우위:

  • Wan2.1은 VBench에서 86.22%의 더 높은 전체 점수를 기록하여 Sora의 84.28%를 능가하며, 여러 하위 차원에서 더 강력한 성능을 보여줍니다.

중국어 및 영어 자막 생성 지원:

  • Wan2.1은 중국어와 영어 자막 생성을 모두 지원하는 최초의 비디오 생성 모델로, 다국어 시나리오에서 독특한 이점을 제공합니다. Sora는 이 기능을 제공하지 않습니다.

하위 차원 성능:

  • ID 일관성: Wan2.1은 비디오 내에서 객체의 일관성을 유지하는 데 탁월합니다.
  • 단일 객체 정확도: Wan2.1은 단일 객체 시나리오에서 더 정확한 결과를 생성합니다.
  • 공간 위치 정확도: Wan2.1은 공간 논리 관계를 처리하는 데 있어 Sora를 크게 능가합니다.
  • 동작 명령 수행: Wan2.1은 복잡한 동작 명령을 더 잘 이해하고 실행합니다.

오픈소스 및 접근성:

  • Wan2.1은 오픈소스 코드를 제공하므로 개발자가 더 쉽게 사용하고 통합할 수 있습니다.
  • Sora는 API를 제공하지만 오픈소스가 아니므로 유연성이 제한적입니다.

개선 영역:

  • Wan2.1은 **모션 부드러움 ** 과 대규모 모션 생성 측면에서 Sora보다 약간 떨어지지만, 그 격차는 미미합니다.

응용 분야

콘텐츠 제작

  • 소셜 미디어, 마케팅, 엔터테인먼트를 위한 고품질 비디오 자동 생성 지원
  • 특정 예술적 또는 브랜드 요구에 맞는 스타일화된 비디오 생성 지원

교육 및 이러닝

  • 중국어와 영어로 된 맞춤형 시각 자료와 자막이 포함된 교육 비디오 생성
  • 매력적이고 개인화된 학습 콘텐츠 제작 지원

영화 및 애니메이션

  • 텍스트 또는 이미지 입력을 기반으로 스토리보드, 비디오 프로토타입 또는 전체 장면 제작 지원
  • 다국어 자막을 지원하여 글로벌 대상에 적합

광고 및 마케팅

  • 대상 고객에 맞춘 맞춤형 비디오 광고 제작
  • 시각적으로 매력적이고 맥락에 맞는 콘텐츠로 캠페인 강화

게임

  • 텍스트 설명 또는 캐릭터 이미지를 기반으로 게임 내 컷씬 또는 애니메이션 생성
  • 게임 개발 및 스토리텔링을 위한 동적 비디오 에셋 생성

다국어 커뮤니케이션

  • 중국어와 영어 자막 생성을 지원하여 다국어 프레젠테이션 및 미디어에 이상적

프로토타이핑 및 시각화

  • 비디오를 통해 개념, 아이디어 또는 건축 설계 시각화 지원
  • 프레젠테이션이나 피치를 위한 프로젝트의 동적 표현 생성

접근성 및 포용성

  • 자막이 있는 비디오를 생성하여 청각 장애 대상자의 접근성 향상
  • 다국어 지원으로 다양한 사용자 그룹을 위한 콘텐츠 제작 지원

지금 Wan 2.1 비디오 데모 살펴보기

Wan2.1은 AI 기반 비디오 생성 분야에서 중요한 발전을 나타냅니다. 오픈소스 특성, 다국어 기능, VBench와 같은 벤치마크에서의 우수한 성능은 창의적 및 전문적 응용 분야를 위한 다재다능하고 접근 가능한 도구로 자리매김하게 합니다. 모션 부드러움과 대규모 모션 생성에서 Sora보다 약간 뒤쳐지지만, 전반적인 기능, 혁신적인 아키텍처, 광범위한 응용 분야는 교육, 미디어, 게임 등 산업에 게임 체인저가 될 것입니다.

Novita AI는 AI 야망을 실현하는 올인원 클라우드 플랫폼입니다. 통합 API, 서버리스, GPU 인스턴스 — 비용 효율적인 도구를 제공합니다. 인프라를 걱정하지 말고 무료로 시작하여 AI 비전을 현실로 만드세요.

추천 자료