Wan2.1 مقابل Mochi 1: حرب نماذج توليد الفيديو مفتوحة المصدر

Wan2.1 مقابل Mochi 1: حرب نماذج توليد الفيديو مفتوحة المصدر

النقاط البارزة

يتميز Wan 2.1 في مهام مثل تحويل النص إلى فيديو (T2V) وتحويل الصورة إلى فيديو (I2V) وتحرير الفيديو، كما يدعم توليد النصوص المرئية متعددة اللغات. وهو محسّن لوحدات معالجة الرسوميات الاستهلاكية، حيث يتطلب نموذج T2V-1.3B 8.19 جيجابايت فقط من ذاكرة VRAM.

أما Mochi 1، فهو نموذج مفتوح المصدر، يتفوق في توليد الفيديو عالي الدقة مع جودة حركة مذهلة والالتزام القوي بالتعليمات النصية. على الرغم من أنه يمكن تشغيله على وحدة معالجة رسوميات واحدة، إلا أنه يتطلب حوالي 60 جيجابايت من ذاكرة VRAM للحصول على أداء مثالي.

تتطور نماذج توليد الفيديو بسرعة، مما يمنح المستخدمين القدرة على إنشاء فيديوهات عالية الجودة من التعليمات النصية أو الصور. تختلف هذه النماذج في البنية والقدرات ومتطلبات الأجهزة، مما يجعل فهم نقاط قوتها وقيودها أمرًا ضروريًا. من أبرز النماذج في هذا المجال Wan 2.1 و Mochi 1.

ابدأ تجربة مجانية على Novita AI اليوم. لدمج واجهة برمجة تطبيقات Wan 2.1، تفضل بزيارة وثائق المطور لمزيد من التفاصيل. علاوة على ذلك، نقدم الإصدار الكامل بقوة 14B.

تقدم Novita أسعارًا تنافسية للغاية في السوق.

على سبيل المثال، فيديو Wan 2.1 بدقة 720P لمدة 5 ثوانٍ يكلف فقط 0.4 دولار لكل فيديو

بينما فيديو مماثل على Replicate يكلف 2.39 دولار لكل فيديو

نسخة مبسطة

نحن الآن نختبر النموذجين بإدخال نفس التعليمات النصية لتقييم فهمهما للنص والمخرجات النهائية للفيديوهات.

التعليمة النصية: حديقة تنبض بالحياة مع فراشات متعددة الألوان ترفرف بين الأزهار، وأجنحتها الرقيقة تلقي بظلالها على البتلات أدناه. في الخلفية، نافورة كبيرة تتدفق بالمياه بروعة هادئة، وصوتها الإيقاعي يوفر خلفية مهدئة. تحت ظل شجرة ناضجة، كرسي خشبي منفرد يدعو إلى العزلة والتأمل، سطحه الأملس قد تآكل بلمسة عدد لا يحصى من الزوار الباحثين عن لحظة هدوء في أحضان الطبيعة.

https://videopress.com/v/5DuNY0Fj?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Wan 2.1

https://videopress.com/v/OwGkYVNz?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Mochi

التعليمة النصية: كلب غولدن ريتريفر، يرتدي نظارات شمسية سوداء أنيقة، مع فروه الطويل يتطاير في النسيم، يركض بمرح عبر سطح terrace، الذي جُدّد مؤخرًا بمطر خفيف. المشهد يظهر من بعيد، وخطوات الكلب النشيطة تكبر كلما اقترب من الكاميرا، وذيله يهز بفرح لا يقيد، بينما تتلألأ قطرات الماء على الخرسانة خلفه. السماء الملبدة بالغيوم توفر خلفية درامية، تبرز المعطف الذهبي النابض بالحياة للكلب وهو يندفع نحو المشاهد.

https://videopress.com/v/C4WeEICG?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Wan 2.1

https://videopress.com/v/bqBqR8ZN?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

Mochi

استكشف عرض Wan 2.1 الآن

مقدمة أساسية

الميزة Wan 2.1 Mochi 1
مفتوح المصدر نعم، مفتوح المصدر من Alibaba Cloud نعم، مفتوح المصدر تحت رخصة Apache 2.0.
الدقة محسّن لتوليد فيديو بدقة 480P و 720P. يولد فيديوهات بدقة 480P، مع دعم 720P مخطط له في التحديثات المستقبلية.
القدرات يتفوق في مهام تحويل النص إلى فيديو (T2V) وتحويل الصورة إلى فيديو (I2V). نموذج تحويل نص إلى فيديو (T2V) أساسي؛ تم طلب تنفيذ I2V من قبل المجتمع.
طول الفيديو يولد فيديو بدقة 480P لمدة 5 ثوانٍ على RTX 4090 في حوالي 4 دقائق. يولد فيديوهات تصل مدتها إلى 5.4 ثوانٍ. قد يستغرق الاختبار الفعلي أقل من دقيقة لتوليده.

البنية

Wan 2.1

  • تم بناء Wan 2.1 على نموذج diffusion transformer، معزز بإطار Flow Matching.
  • يستخدم Wan-VAE، وهو مشفر تلقائي ثلاثي الأبعاد متطور يضمن ضغطًا فعالًا ودقة عالية في إعادة إنتاج الحركة.
  • يتيح مشفر T5 معالجة النصوص متعددة اللغات بسلاسة.
  • تدمج البنية نظام تعديل معلمات متقدم لتحسين التنبؤ ودمج المعلومات النصية في الفيديوهات المولدة.
  • تقوم آليات الانتباه المتقاطع داخل كل كتلة transformer بتضمين المدخلات النصية مباشرة في هيكل النموذج، مما يعزز التوافق وتكامل السياق.

Mochi 1

  • يعمل Mochi 1 بنموذج انتشار بـ 10 مليارات معلمة مبني على بنية Asymmetric Diffusion Transformer (AsymmDiT).
  • يتميز بهيكل مشفر-مفكك غير متماثل، مما يتيح ضغطًا عالي الكفاءة والجودة.
  • يقوم AsymmVAE بضغط الفيديوهات بعامل 128، محققًا ضغطًا مكانيًا 8×8 وزمنيًا 6× في مساحة كامنة ذات 12 قناة.
  • يتم استخدام نموذج لغة واحد T5-XXL لتشفير التعليمات النصية، مما يضمن فهمًا قويًا للغة وتكاملها.
  • تم تصميم البنية لتبسيط معالجة النص، مما يسمح للنموذج بتخصيص قدرة عصبية أكبر للاستدلال البصري وتوليد الفيديو.

متطلبات الأجهزة

Wan 2.1

  • يتطلب نموذج T2V-1.3B 8.19 جيجابايت فقط من VRAM، مما يجعله متوافقًا مع وحدات معالجة الرسوميات الاستهلاكية.
  • على سبيل المثال، يستغرق توليد فيديو بدقة 480P لمدة 5 ثوانٍ حوالي 4 دقائق على RTX 4090.

Mochi 1

  • يتطلب حوالي 60 جيجابايت من VRAM للتشغيل على وحدة معالجة رسوميات واحدة.
  • يدعم التشغيل على وحدات معالجة رسوميات متعددة ووحدة واحدة.
  • أشارت التقارير الأولية إلى الحاجة إلى 4 وحدات H100 GPU، لكن التحسينات قللت هذا بشكل كبير إلى وحدة واحدة.

التطبيقات

Wan2.1

مناسب للشركات المتنوعة التي تستخدم الذكاء الاصطناعي لتطوير محتوى بصري عالي الجودة بطريقة فعالة من حيث التكلفة.

قابل للتطبيق في السياقات الإبداعية والمهنية نظرًا لقدرته على إنتاج محتوى نصي مباشر داخل الفيديوهات.

Mochi 1

مصمم لمساعدة المبدعين على تحويل المحتوى المكتوب بسرعة إلى فيديو، دون الحاجة إلى مهارات تحرير واسعة أو معدات.

تطبيقات متعددة في البحث، تطوير المنتجات، والتعبير الإبداعي.

الاستنتاج

اختر Wan 2.1 إذا كنت بحاجة إلى نموذج متعدد الاستخدامات يدعم مهام متعددة (تحويل النص إلى فيديو، تحويل الصورة إلى فيديو، تحرير الفيديو)، وقدرات متعددة اللغات، وأداء فعال على وحدات معالجة الرسوميات الاستهلاكية. إنه مناسب بشكل خاص للتطبيقات التي تتطلب أداءً عاليًا في الحركة الديناميكية، العلاقات المكانية، دقة الألوان، والتفاعلات بين الأجسام المتعددة.

اختر Mochi 1 إذا كان تركيزك على الحركة عالية الدقة والالتزام القوي بالتعليمات النصية في توليد الفيديو. بينما لديه متطلبات أعلى من VRAM، فإن طبيعته مفتوحة المصدر وتوافقه مع أدوات مثل ComfyUI تجعله خيارًا ممتازًا للتجارب الإبداعية والبحث.

Novita AI هي المنصة السحابية الشاملة التي تمكّن طموحاتك في الذكاء الاصطناعي. واجهات برمجة تطبيقات متكاملة، بدون خادم، مثيلات GPU — الأدوات الفعالة من حيث التكلفة التي تحتاجها. تخلص من البنية التحتية، ابدأ مجانًا، وحقق رؤيتك في الذكاء الاصطناعي.

قراءات موصى بها