Wan2.1: نموذج ذكاء اصطناعي مفتوح المصدر يتفوق على Sora

Wan2.1: نموذج ذكاء اصطناعي مفتوح المصدر يتفوق على Sora

النقاط الرئيسية

التوفر كمصدر مفتوح: Wan2.1 هو نموذج ذكاء اصطناعي مفتوح المصدر يتيح توليد فيديو عالي الجودة بتكلفة فعالة للأكاديميين والباحثين والشركات.

إمكانيات متعددة: يدعم تحويل النص إلى فيديو (T2V)، وتحويل الصورة إلى فيديو (I2V)، وتحرير الفيديو، وتحويل النص إلى صورة (T2I)، ويولّد نصوصًا متعددة اللغات بالصينية والإنجليزية للترجمة.

متطلبات الأجهزة: نموذج T2V-1.3B يحتوي على 1.3 مليار معامل فقط، مما يقلل متطلبات الأجهزة بشكل كبير.

هندسة النموذج والابتكارات: يضم Wan-VAE للتشفير ثلاثي الأبعاد، وVideo Diffusion DiT، وخط أنابيب قوي لمجموعات بيانات تدريب عالية الجودة.

تقييم VBench والأداء: يتفوق على المنافسين مثل Sora بنسبة 86.22% على VBench، متفوقًا في اتساق الهوية والدقة المكانية وتنفيذ تعليمات الحركة.

Novita AI تقدم واجهة برمجة تطبيقات لـ Wan 2.1. فقط سجّل للحصول على نسخة تجريبية مجانية واستخدم الواجهة مع طلبات بسيطة.

Wan2.1 هو نموذج ذكاء اصطناعي مفتوح المصدر طورته Alibaba Cloud لتوليد الفيديو المتقدم. صُمم لتحقيق أداء عالٍ وكفاءة وتنوع، ويلبي مجموعة واسعة من التطبيقات الإبداعية والمهنية. النماذج متاحة على مجتمع نماذج Alibaba Cloud (ModelScope) و Hugging Face.

المصدر من wan

ابدأ نسخة تجريبية مجانية على Novita AI اليوم. لدمج واجهة برمجة تطبيقات Hunyuan Video، قم بزيارة وثائق المطور للحصول على مزيد من التفاصيل.

تقدم Novita أسعارًا تنافسية للغاية في السوق.

على سبيل المثال، فيديو Wan 2.1 بدقة 720P لمدة 5 ثوانٍ يكلف فقط 0.3 دولارًا للفيديو الواحد

بينما فيديو مماثل على Replicate يكلف 2.39 دولارًا للفيديو

التوفر كمصدر مفتوح

قامت Alibaba Cloud بفتح مصدر سلسلة نماذج Wan2.1 الخاصة بها لتوليد الفيديو. تهدف هذه المبادرة إلى خفض حواجز الوصول وتمكين الشركات من إنشاء محتوى مرئي عالي الجودة بتكلفة فعالة. من خلال إطلاق هذه النماذج كمصدر مفتوح، يمكن للأكاديميين والباحثين والكيانات التجارية تسخير قوة الذكاء الاصطناعي لمشاريعهم دون تكاليف أولية كبيرة.

إمكانيات Wan2.1 المتعددة

يتفوق Wan2.1 في مجموعة متنوعة من المهام، مما يجعله أداة متعددة الاستخدامات لتوليد الفيديو:

  • تحويل النص إلى فيديو (T2V)
  • تحويل الصورة إلى فيديو (I2V)
  • تحرير الفيديو
  • تحويل النص إلى صورة (T2I)

الجدير بالذكر أن Wan2.1 هو أول نموذج فيديو قادر على توليد نصوص باللغتين الصينية والإنجليزية، ويتميز بقدرة قوية على توليد النصوص مما يعزز تطبيقاته العملية.

متطلبات الأجهزة

فيما يلي ملخص تفصيلي لمتطلبات الأجهزة لنماذج Wan2.1 الأربعة. يوضح الجدول وظيفة كل نموذج، والدقة المدعومة، وحجم النموذج، ومتطلبات الأجهزة، ووحدات معالجة الرسوميات الموصى بها للأداء الأمثل.

اسم النموذج الوظيفة الدقة المدعومة حجم النموذج متطلبات الأجهزة وحدة معالجة رسوميات موصى بها
T2V-14B تحويل النص إلى فيديو (T2V) 480P / 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-720P تحويل الصورة إلى فيديو (I2V) 720P 14B ⭐⭐⭐⭐ A100 / RTX 3090 / RTX 4090
I2V-14B-480P تحويل الصورة إلى فيديو (I2V) 480P 14B ⭐⭐⭐ RTX 3090 / RTX 4070 Ti
T2V-1.3B تحويل النص إلى فيديو (T2V) دقة منخفضة 1.3B ⭐⭐ RTX 3060 / RTX 4060 أو أعلى

هندسة النموذج والابتكارات الرئيسية

تم بناء Wan2.1 على نموذج انتشار المحولات (diffusion transformer)، معززًا بإطار Flow Matching. تشمل ابتكاراته الرئيسية:

  • Wan-VAE: مشفر تلقائي متغير ثلاثي الأبعاد مصمم لضغط فعال ودقة عالية في إعادة إنتاج الحركة. يقوم بتشفير وفك تشفير فيديوهات بدقة 1080P مع الحفاظ على التماسك الزمني. يدمج النموذج استراتيجيات متعددة لتحسين الضغط المكاني الزمني، وتقليل استخدام الذاكرة، وضمان السببية الزمنية.

Wan-VAE

  • Video Diffusion DiT: يستفيد Wan2.1 من إطار Flow Matching ضمن محولات الانتشار، باستخدام مشفر T5 لإدخال النص متعدد اللغات و cross-attention لتضمين النص في النموذج. تستخدم شبكة MLP مشتركة مع SiLU وطبقات خطية للتنبؤ بستة معلمات تعديل لتضمينات الزمن، مما يسمح لكل كتلة محول بتعلم انحيازات متميزة. تعمل هذه الهندسة على تحسين الأداء بشكل كبير دون زيادة حجم المعاملات.

dIT

  • مجموعة بيانات مرشحة: قام Wan 2.1 بتنظيم وإزالة التكرار من مجموعة بيانات مرشحة تضم كمية هائلة من بيانات الصور والفيديو. أثناء عملية تنظيم البيانات، صممنا عملية تنظيف بيانات من أربع خطوات، مع التركيز على الأبعاد الأساسية، والجودة البصرية وجودة الحركة. من خلال خط أنابيب معالجة البيانات القوي، يمكننا بسهولة الحصول على مجموعات تدريب عالية الجودة ومتنوعة وواسعة النطاق من الصور والفيديو.

DATA

تقييم VBench

VBench عبارة عن مجموعة معايير شاملة وقوية مصممة لتقييم نماذج توليد الفيديو. يقسم “جودة توليد الفيديو” إلى أبعاد هرمية ومنفصلة ومحددة، كل منها مزود بمطالبات وأساليب تقييم مخصصة. تشمل مقاييس التقييم الرئيسية:

  • توليد الحركة الكبيرة
  • القطع الأثرية البشرية
  • الثبات على مستوى البكسل
  • اتساق الهوية
  • المعقولية الفيزيائية
  • النعومة
  • جودة الصورة الشاملة
  • جودة توليد المشهد
  • القدرة على التصميم
  • دقة الكائن الواحد
  • دقة الكائنات المتعددة
  • دقة الموضع المكاني
  • التحكم في الكاميرا
  • اتباع تعليمات الحركة

الغرض من VBench هو تقديم رؤى قيمة حول نقاط القوة والضعف للنماذج الفردية، مما يتيح تقييمًا دقيقًا وموضوعيًا. لا توجه هذه الرؤى التطورات المستقبلية في توليد الفيديو فحسب، بل تساعد أيضًا في تحسين أداء النموذج. لضمان التوافق مع الإدراك البشري، يدمج VBench تفضيلات الإنسان، مما يتحقق من ملاءمته وموثوقيته كمعيار. يتم عرض أداء Wan2.1 في الرسم البياني أدناه:

vbench

من Alizila

بالإضافة إلى ذلك، تم استخدام Wan-Bench لتقييم نموذج T2V-1.3B، الذي تفوق على النماذج مفتوحة المصدر الأكبر حجمًا في المقاييس الرئيسية. تسلط هذه التقييمات الضوء على تقدم النموذج في:

wanbench

Wan 2.1 مقابل Sora

التفوق الشامل في الأداء:

  • يحقق Wan2.1 درجة إجمالية أعلى على VBench، بنسبة 86.22%، متجاوزًا نسبة Sora البالغة 84.28%، ويظهر أداءً أقوى عبر أبعاد فرعية متعددة.

دعم توليد الترجمة بالصينية والإنجليزية:

  • Wan2.1 هو أول نموذج توليد فيديو يدعم توليد الترجمة باللغتين الصينية والإنجليزية، مما يمنحه ميزة فريدة في السيناريوهات متعددة اللغات. لا تقدم Sora هذه الوظيفة.

الأداء في الأبعاد الفرعية:

  • اتساق الهوية: يتفوق Wan2.1 في الحفاظ على اتساق الكائنات داخل الفيديو.
  • دقة الكائن الواحد: يولد Wan2.1 نتائج أكثر دقة لسيناريوهات الكائن الواحد.
  • دقة الموضع المكاني: يتفوق Wan2.1 بشكل ملحوظ على Sora في معالجة العلاقات المنطقية المكانية.
  • تنفيذ تعليمات الحركة: يُظهر Wan2.1 فهمًا وتنفيذًا أفضل لتعليمات الحركة المعقدة.

المصدر المفتوح وسهولة الوصول:

  • يوفر Wan2.1 كودًا مفتوح المصدر، مما يجعله أكثر سهولة في الوصول وأسهل للمطورين للاستخدام والتكامل.
  • على الرغم من أن Sora تقدم واجهات برمجة تطبيقات، إلا أنها ليست مفتوحة المصدر، مما يحد من مرونتها.

مجالات التحسين:

  • Wan2.1 أدنى قليلاً من Sora من حيث نعومة الحركة و توليد الحركة الكبيرة، لكن الفجوة ضئيلة.

التطبيقات

إنشاء المحتوى

  • يتيح التوليد الآلي لفيديوهات عالية الجودة لوسائل التواصل الاجتماعي والتسويق والترفيه.
  • يدعم توليد الفيديو بتصميمات فنية لتتناسب مع احتياجات فنية أو علامة تجارية محددة.

التعليم والتعلم الإلكتروني

  • يولد فيديوهات تعليمية برسومات مخصصة وترجمة باللغتين الصينية والإنجليزية.
  • يسهل إنشاء محتوى تعليمي جذاب ومخصص.

الأفلام والرسوم المتحركة

  • يساعد في إنشاء لوحات القصة، ونماذج الفيديو الأولية، أو المشاهد الكاملة بناءً على مدخلات نصية أو صور.
  • يدعم الترجمة متعددة اللغات، مما يجعله مناسبًا للجماهير العالمية.

الإعلان والتسويق

  • ينتج إعلانات فيديو مخصصة تستهدف جماهير محددة.
  • يعزز الحملات بمحتوى جذاب بصريًا ومرتبط بالسياق.

الألعاب

  • يولد مشاهد سينمائية أو رسوم متحركة داخل اللعبة بناءً على أوصاف نصية أو صور شخصيات.
  • ينشئ أصول فيديو ديناميكية لتطوير الألعاب وسرد القصص.

التواصل متعدد اللغات

  • يدعم توليد الترجمة باللغتين الصينية والإنجليزية، مما يجعله مثاليًا للعروض التقديمية والإعلام متعدد اللغات.

النمذجة الأولية والتصور

  • يساعد في تصور المفاهيم والأفكار أو التصاميم المعمارية من خلال الفيديو.
  • يولد تمثيلات ديناميكية للمشاريع للعروض التقديمية أو العروض الترويجية.

إمكانية الوصول والشمولية

  • ينشئ فيديوهات مع ترجمة، مما يحسن الوصول للجماهير ضعاف السمع.
  • الدعم متعدد اللغات يسهل إنشاء المحتوى لمجموعات مستخدمين متنوعة.

اكتشف عرض Wan 2.1 التجريبي الآن

يمثل Wan2.1 تقدمًا كبيرًا في توليد الفيديو بالذكاء الاصطناعي. طبيعته مفتوحة المصدر، وإمكانياته متعددة اللغات، وأداؤه المتفوق عبر معايير مثل VBench تجعله أداة متعددة الاستخدامات ويسهل الوصول إليها للتطبيقات الإبداعية والمهنية. بينما يتخلف قليلاً عن Sora في نعومة الحركة وتوليد الحركة الكبيرة، فإن قدراته الشاملة وهندسته المبتكرة وتطبيقاته الواسعة تجعله مغيرًا لقواعد اللعبة في صناعات مثل التعليم والإعلام والألعاب وغيرها.

Novita AI هي منصة سحابية شاملة تمكن طموحاتك في الذكاء الاصطناعي. واجهات برمجة تطبيقات متكاملة، بدون خادم، مثيل GPU — الأدوات الفعالة من حيث التكلفة التي تحتاجها. تخلص من البنية التحتية، ابدأ مجانًا، وحوّل رؤيتك في الذكاء الاصطناعي إلى واقع.

قراءات موصى بها