주요 하이라이트
Wan 2.1은 텍스트-비디오(T2V), 이미지-비디오(I2V), 비디오 편집과 같은 작업에서 두각을 나타내며 다국어 시각적 텍스트 생성도 지원합니다. 소비자용 GPU에 최적화되어 있으며, T2V-1.3B 모델은 8.19GB의 VRAM만 필요로 합니다.
Mochi 1은 오픈소스 AI 모델로, 인상적인 모션 품질과 강력한 프롬프트 준수 능력으로 고충실도 비디오 생성에서 뛰어납니다. 단일 GPU에서 실행할 수 있지만 최적의 성능을 위해 약 60GB의 VRAM이 필요합니다.
비디오 생성 모델은 빠르게 진화하고 있으며, 사용자는 텍스트 프롬프트나 이미지로 고품질 비디오를 만들 수 있습니다. 이러한 모델은 아키텍처, 기능, 하드웨어 요구 사항이 다양하므로 각각의 강점과 한계를 이해하는 것이 중요합니다. 이 분야의 대표적인 두 모델은 Wan 2.1과 Mochi 1입니다.
지금 Novita AI에서 무료 평가판을 시작하세요. Wan 2.1 API를 통합하려면 개발자 문서에서 자세한 내용을 확인하세요. 또한, 완전한 성능의 14B 버전도 제공합니다.
Novita는 시장에서 매우 경쟁력 있는 가격을 제공합니다.
예를 들어, Wan 2.1 720P 5초 비디오는 비디오당 $0.4에 불과합니다.
반면 Replicate의 유사한 비디오는 비디오당 $2.39입니다.
간단 버전
이제 두 모델에 동일한 텍스트 프롬프트를 입력하여 텍스트 이해도와 최종 비디오 출력을 평가하고 있습니다.
프롬프트: 정원에 생명이 깃들며, 오색 나비들이 꽃들 사이를 날아다니고, 섬세한 날개가 아래 꽃잎에 그림자를 드리웁니다. 배경에는 웅장한 분수가 부드러운 장관을 이루며 물을 쏟아내고, 그 리드미컬한 소리가 편안한 배경음을 제공합니다. 성숙한 나무의 시원한 그늘 아래, 나무로 된 의자 하나가 고독과 명상을 유혹하며, 자연의 포옹 속에서 평온을 찾는 수많은 방문객의 손길에 닳아 매끄러운 표면을 자랑합니다.
Wan 2.1
Mochi
프롬프트: 반짝이는 검은 선글라스를 착용한 골든 리트리버가 길고 휘날리는 털을 바람에 날리며, 가벼운 비로 갓 적셔진 옥상 테라스를 장난스럽게 달려갑니다. 먼 곳에서 시작된 장면은 개가 힘차게 뛰어오르며 카메라에 점점 가까워지고, 꼬리는 억제할 수 없는 기쁨으로 흔들리며, 뒤편 콘크리트 위에 물방울이 반짝입니다. 흐린 하늘은 극적인 배경을 제공하며, 개가 시청자를 향해 돌진할 때 생생한 황금색 털을 강조합니다.
Wan 2.1
Mochi
기본 소개
| **기능 ** | Wan 2.1 | Mochi 1 |
|---|---|---|
| 오픈소스 | 예, Alibaba Cloud에서 오픈소스로 공개됨 | 예, Apache 2.0 라이선스로 오픈소스 공개됨 |
| 해상도 | 480P 및 720P 비디오 생성에 최적화됨 | 480P 해상도로 비디오 생성, 720P 지원은 향후 업데이트 예정 |
| 기능 | 텍스트-비디오(T2V) 및 이미지-비디오(I2V) 작업에서 탁월함 | 주로 텍스트-비디오(T2V) 모델; I2V 구현은 커뮤니티에서 요청됨 |
| 비디오 길이 | RTX 4090에서 약 4분 안에 5초 480P 비디오 생성 | 최대 5.4초 길이의 비디오 생성. 실제 테스트에서는 생성에 1분 미만 소요될 수 있음 |
아키텍처
Wan 2.1
- Wan 2.1은 Flow Matching 프레임워크로 강화된 diffusion transformer 패러다임을 기반으로 구축되었습니다.
- 효율적인 압축과 모션 재현의 높은 충실도를 보장하는 최첨단 3D 변이형 오토인코더인 Wan-VAE를 사용합니다.
- T5 인코더를 통해 다국어 텍스트 입력을 원활하게 처리할 수 있습니다.
- 아키텍처는 생성된 비디오에 텍스트 정보를 예측하고 통합하기 위한 고급 매개변수 변조 시스템을 통합합니다.
- 각 transformer 블록 내의 교차 주의 메커니즘은 텍스트 입력을 모델 구조에 직접 임베딩하여 정렬 및 컨텍스트 통합을 향상시킵니다.
Mochi 1
- Mochi 1은 비대칭 확산 트랜스포머(AsymmDiT) 아키텍처를 기반으로 구축된 100억 개의 매개변수를 가진 확산 모델로 구동됩니다.
- 비대칭 인코더-디코더 구조를 특징으로 하여 매우 효율적이고 고품질의 압축을 가능하게 합니다.
- AsymmVAE는 비디오를 128배 압축하여 8x8 공간 및 6x 시간 압축을 12채널 잠재 공간으로 달성합니다.
- 단일 T5-XXL 언어 모델을 사용하여 프롬프트를 인코딩하여 강력한 언어 이해 및 통합을 보장합니다.
- 아키텍처는 텍스트 처리를 간소화하여 모델이 시각적 추론 및 비디오 생성에 더 많은 신경 용량을 할당할 수 있도록 설계되었습니다.
하드웨어 요구 사항
Wan 2.1
- T2V-1.3B 모델은 8.19GB VRAM만 필요로 하므로 소비자용 GPU와 호환됩니다.
- 예를 들어, RTX 4090에서 5초 480P 비디오 생성은 약 4분이 소요됩니다.
Mochi 1
- 단일 GPU 작동에 ~60GB VRAM 필요.
- 다중 GPU 및 단일 GPU 작동을 모두 지원합니다.
- 초기 보고서에서는 4개의 H100 GPU가 필요하다고 했지만, 최적화 덕분에 1개 GPU로 크게 줄였습니다.
응용
Wan2.1
고품질 시각적 콘텐츠를 비용 효율적으로 개발하기 위해 AI를 활용하는 다양한 비즈니스에 적합합니다.
비디오 내에서 직접 텍스트 콘텐츠를 생성할 수 있는 능력 덕분에 창의적 및 전문적 맥락에서 적용 가능합니다.
Mochi 1
제작자가 광범위한 편집 기술이나 장비 없이도 글쓰기 콘텐츠를 비디오로 빠르게 전환할 수 있도록 설계되었습니다.
연구, 제품 개발 및 창의적 표현에서 다용도로 응용 가능합니다.
결론
Wan 2.1을 선택하세요: 여러 작업(텍스트-비디오, 이미지-비디오, 비디오 편집), 다국어 기능 및 소비자용 GPU에서의 효율적인 성능이 필요한 경우. 특히 동적 모션, 공간 관계, 색상 정확도 및 다중 객체 상호작용에서 고성능이 요구되는 애플리케이션에 매우 적합합니다.
Mochi 1을 선택하세요: 비디오 생성에서 고충실도 모션과 강력한 프롬프트 준수에 초점을 맞춘 경우. 더 높은 VRAM 요구 사항이 있지만 오픈소스 특성과 ComfyUI 같은 도구와의 호환성 덕분에 창의적 실험 및 연구에 탁월한 선택입니다.
Novita AI는 AI 야망을 실현하는 올인원 클라우드 플랫폼입니다. 통합 API, 서버리스, GPU 인스턴스 — 비용 효율적인 도구를 제공합니다. 인프라를 없애고, 무료로 시작하여 AI 비전을 현실로 만드세요.

