Wan 2.2 T2V على Novita AI: ما الجديد ولماذا يهم الأمر

Wan 2.2 T2V على Novita AI: ما الجديد ولماذا يهم الأمر

أطلقت Novita AI رسميًا أحدث واجهة برمجة تطبيقات Wan 2.2، وهي أداة متطورة لتوليد الفيديو من النص. ستقدم هذه المقالة تعريفًا بنموذج Wan 2.2، وتسليط الضوء على ميزاته الجديدة والتحديثات التي يقدمها، بالإضافة إلى مناقشة أدائه. علاوة على ذلك، سنتناول الأسئلة الشائعة لمساعدتك على البدء في استخدام هذه التقنية القوية.

ما هو نموذج Wan 2.2 T2V؟

Wan 2.2 T2V هو أحدث نموذج للذكاء الاصطناعي التوليدي مفتوح المصدر لتحويل النص إلى فيديو من شركة Alibaba، ويمثل ترقية كبيرة عن نظام Wan 2.1 السابق. وهو جزء من سلسلة نماذج توليد الفيديو “Wan” من Alibaba (يُشار إليها عادةً باسم Tongyi Wanxiang باللغة الصينية)، ويتميز بأنه أول نموذج فيديو مفتوح المصدر في الصناعة يستخدم بنية الخبراء المختلطين (Mixture-of-Experts (MoE)). في الواقع، يشمل Wan 2.2 مجموعة من النماذج، بما في ذلك نموذج مخصص لتحويل النص إلى فيديو وأدوات ذات صلة، لكن مصطلح “Wan 2.2 T2V” يشير تحديدًا إلى مكون تحويل النص إلى فيديو في هذه السلسلة.

مواصفات نموذج Wan 2.2 T2V

الفئة الوصف
بنية النموذج يستخدم بنية الخبراء المختلطين (Mix-of-Experts) مع نموذجين فرعيين للخبراء.
عدد المعاملات يحتوي النموذج الكلي على 27 مليار معامل، لكن只有 14 مليار معامل نشط أثناء الاستدلال.
مزايا التصميم باستخدام “خبراء” متخصصين (كل منهم يحتوي على حوالي 14B معامل)، يتضاعف حجم النموذج مع الحفاظ على تكاليف تشغيل مماثلة مقارنة بنموذجه السابق Wan 2.1 (14B معامل).
إصدارات النموذج المطلقة 1. T2V-A14B: نموذج لتحويل النص إلى فيديو لتوليد مقاطع فيديو من النص.
2.TI2V-5B: نموذج هجين للمهمتين، محسّن لأجهزة المستخدمين العاديين (5B معامل).
تحسين الأجهزة تم تحسين TI2V-5B لأجهزة GPU للمستخدمين العاديين، مثل التشغيل على بطاقة NVIDIA RTX 4090 واحدة.
الدقة ومعدل الإطارات يمكن للنموذج القياسي لـ Wan 2.2 T2V توليد مقاطع فيديو مدتها 5 ثوانٍ بدقة 720 بكسل (1280×720) بمعدل 24 إطارًا في الثانية.

الميزات الرئيسية لنموذج Wan 2.2 T2V

جودة سينمائية وتحكم كامل

  • تم تدريبه على مجموعة بيانات منسقة بعناية مع تسميات جمالية لتوليد مقاطع فيديو ذات مظهر وملمس سينمائي.
  • يدعم تحكمًا دقيقًا عبر النص، مما يسمح للمستخدمين بتحديد:
    • ظروف الإضاءة
    • وقت اليوم
    • درجة اللون
    • زوايا الكاميرا
    • البعد البؤري
    • جوانب سينمائية أخرى.
  • يفهم المصطلحات السينمائية مثل “إضاءة الساعة الذهبية” و “عدسة واسعة الزاوية”، مما يضمن تحكمًا دقيقًا في مخرج الفيديو.

مجموعة توليد متعددة الوسائط

  • يتضمن وظيفة نقل النمط:
    • يتيح تطبيق أنماط فنية بنقرة واحدة، مثل تحويل الصور أو مقاطع الفيديو إلى رسوم كاريكاتورية أو رسومات يدوية (veo-video.org).
  • يوفر عائلة نماذج موحدة تدعم مهام توليد مختلفة، مما يجعلها منصة ذكاء اصطناعي إبداعية شاملة.

مفتوح المصدر ونظام بيئي مجتمعي

مرخص بموجب Apache 2.0، مما يسمح بالاستخدام التجاري (hackernoon.com). وبدعم من مجتمع نشط يساهم في:

  • أدلة
  • أدوات تكامل (مثل تلك الخاصة بـ ComfyUI)
  • تحسينات الضبط الدقيق
  • دعم عام.

ما هي تحسينات سير العمل الموجودة في Wan 2.2؟

ما هي تحسينات سير العمل الموجودة في Wan 2.2؟

مقارنة بين نموذج Wan 2.2 T2V ونموذج Wan 2.1 T2V

مقارنة بنية النموذج بين Wan 2.2 T2V و Wan 2.1 T2V

الجانب Wan 2.1 Wan 2.2
البنية محول الانتشار أحادي المرحلة (UNet). محول الخبراء المختلطين ثنائي المرحلة (MoE) مع خبراء للضوضاء العالية وخبراء للضوضاء المنخفضة.
المعاملات 14B (النموذج الأساسي) و 1.3B (النموذج الصغير). 27B إجمالي (14B نشط)؛ 14B لنموذج T2V، 14B لنموذج I2V، و 5B للنموذج الهجين.
بيانات التدريب مجموعة بيانات كبيرة، أقل تنظيمًا. +65% صور، +83% مقاطع فيديو، مصنفة من حيث الجمالية والسمات السينمائية.
جودة المخرجات جيدة لكنها عرضة للوميض؛ مناسبة لمقاطع الفيديو البسيطة ذات الطابع الفني. تفاصيل أعلى، اتساق زمني أفضل، واقعية، ومؤثرات بصرية سينمائية.
الميزات T2V، I2V، تحرير (إطار عمل VACE)، دعم ضبط LoRA الدقيق. T2V، I2V، نقل نمط أفضل؛ لا يوجد إطار عمل VACE بعد، توافق محدود مع LoRA.

مقارنة الأداء بين Wan 2.2 T2V و Wan 2.1 T2V

مقارنة بين Wan 2.2 T2V و Wan 2.1 T2V

من مصدر Artificial Analysis

مقارنة التوليد بين Wan 2.2 T2V و Wan 2.1 T2V

نموذج Wan 2.2 T2V

نموذج Wan 2.1 T2V

تكلفة وطرق الوصول إلى نموذج Wan 2.2 T2V

تكاليف الأجهزة

النموذج الحد الأدنى من متطلبات ذاكرة الوصول العشوائي للفيديو (GB) الحد الأدنى من نموذج GPU الحد الأدنى من عدد وحدات GPU سرعة وحدة GPU الواحدة (ثانية) (480P) سرعة وحدة GPU الواحدة (ثانية) (720P) السعر التقريبي لوحدة GPU (دولار أمريكي)
T2V-5B 22.6 NVIDIA RTX 4090 1 534.7 524.8 $1,599
T2V-A14B 41.3 NVIDIA A100 1 1133.9 4048.7 $10,000 - $15,000

ملاحظات:

  • NVIDIA RTX 4090: أُطلقت في أكتوبر 2022 بسعر بيع موصى به يبلغ 1,599 دولار.
  • NVIDIA A100: تختلف الأسعار بناءً على التكوين وعوامل السوق. يتراوح نموذج 40GB PCIe عادةً بين 10,000 و 12,000 دولار، بينما يتراوح نموذج 80GB PCIe بين 12,000 و 15,000 دولار.

تكاليف واجهة برمجة التطبيقات (API)

تعد Novita AI منصة سحابية للذكاء الاصطناعي توفر للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة التطبيقات البسيطة الخاصة بنا، بالإضافة إلى توفير سحابة GPU بأسعار معقولة وموثوقة للبناء والتوسع.

النموذج السعر الدقة وقت التوليد
Wan 2.1 T2V 0.3 دولار لكل فيديو 1280*720 5 ثوانٍ
Wan 2.2 T2V 0.4 دولار لكل فيديو 1080P 5 ثوانٍ

جرب Wan 2.2 الآن!

دليل الوصول إلى نموذج Wan 2.2 T2V

الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج

سجل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

تسجيل الدخول والوصول إلى مكتبة النماذج

الخطوة 2: اختر النموذج الخاص بك

تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

الخطوة 2: اختر النموذج الخاص بك

الخطوة 3: احصل على مفتاح API الخاص بك

للمصادقة باستخدام واجهة برمجة التطبيقات، سنزودك بمفتاح API جديد. عند الدخول إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

الحصول على مفتاح API

الخطوة 4: تثبيت واجهة برمجة التطبيقات (API)

قم بتثبيت واجهة برمجة التطبيقات باستخدام مدير الحزم الخاص بلغة البرمجة التي تستخدمها.

الخطوة 4: تثبيت واجهة برمجة التطبيقات

جرب Wan 2.2 الآن!

بعد التثبيت، قم باستيراد المكتبات اللازمة إلى بيئة التطوير الخاصة بك. قم بتهيئة واجهة برمجة التطبيقات باستخدام مفتاح API الخاص بك لبدء التفاعل مع نماذج اللغات الكبيرة من Novita AI. هذا مثال على استخدام واجهة برمجة تطبيقات إكمال الدردشة لمستخدمي لغة بايثون.

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-t2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>"
    },
    "parameters": {
        "size": "<string>",
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

المشاكل الشائعة لنموذج Wan 2.2 T2V وطرق حلها

مشاكل التثبيت وتوافق وحدات معالجة الرسوميات (GPU)

  • المشكلة: أخطاء على وحدات GPU الأقدم (مثل سلسلة GTX 10) بسبب ميزة FlashAttention.
  • الحل: استخدم وحدات GPU متوافقة مثل سلسلة RTX 30/40 أو سلسلة A. بدلاً من ذلك، قم بتعطيل ميزة FlashAttention (--disable_flashattn) أو استبدالها بـ xFormers لأداء أبطأ لكنه يعمل.

بطء سرعة التوليد

  • المشكلة: مخرجات بطيئة للغاية، خاصة على وحدات GPU المتواضعة.
  • الحل:
    • تحسين عدد الخطوات (30-50 خطوة عادةً ما تكون كافية).
    • استخدم نموذج TI2V-5B الأصغر للحصول على نتائج أسرع.
    • تأكد من إعدادات تبديل الخبراء الصحيحة (يوصى بالتكوينات الافتراضية).

مشاكل جودة المخرجات (وميض/عوامل تشويه)

  • المشكلة: إطارات وميض أو عوامل تشويه في مقاطع الفيديو المُولدة.
  • الحل:
    • اضبط مقياس CFG للحصول على توازن أفضل بين الدقة والسلاسة.
    • اضبط خط تسليم الخبراء للحصول على انتشار مثالي.
    • تفعيل الانتباه الزمني للحفاظ على اتساق الإطارات.
    • استخدم أدوات المعالجة اللاحقة مثل استيفاء الإطارات إذا لزم الأمر.

المطالبة (Prompt) أو المخرجات لا تطابق التوقعات

  • المشكلة: تختلف المخرجات عن المشاهد الموضفة أو تحتوي على عناصر غير مرغوب فيها.
  • الحل:
    • أعد صياغة المطالبات وتبسيطها.
    • استخدم المطالبات السلبية لاستبعاد عناصر محددة.
    • تأكد من أوزان النموذج الصحيحة (مثل عدم استخدام نموذج I2V للمطالبات النصية فقط).

مشاكل تقنية LoRA والضبط الدقيق

  • المشكلة: نماذج LoRA القديمة من Wan 2.1 غير متوافقة مع Wan 2.2.
  • الحل: انتظر نماذج LoRA أو عمليات ضبط دقيق مخصصة لـ Wan 2.2. تأكد من أن أي ضبط دقيق مصمم لبنية الخبراء الثنائية الجديدة.

إيجابيات وسلبيات نموذج Wan 2.2 T2V للشركات الصغيرة

الجانب الإيجابيات السلبيات
الترخيص والتكلفة مجاني بموجب Apache 2.0، بدون رسوم ترخيص، يخفض تكاليف الدخول بشكل كبير. تكاليف حسابية عالية للاستخدام على نطاق واسع (سحابي أو كهرباء).
جودة المحتوى مقاطع فيديو بجودة سينمائية؛ إنشاء داخلي بدون الحاجة إلى توظيف مصممين أو مصوري فيديو. جودة مخرجات غير متوقعة؛ قد تتطلب مراجعة يدوية وتحريرًا.
المرونة الإبداعية نماذج أولية سريعة باستخدام مطالبات نصية؛ وقت تسليم سريع لمقاطع الفيديو المفاهيمية. أبطأ للتوليد في الوقت الفعلي أو عند الطلب؛ أفضل للمحتوى المخطط مسبقًا.
التخصيص مصمم ليتناسب مع جماليات العلامة التجارية عبر المطالبات أو الضبط الدقيق؛ مرونة مفتوحة المصدر للتكامل الأعمق. تتطلب خبرة لصياغة مطالبات أو ضبط دقيق للنماذج بشكل فعال.
قابلية التوسع توليد مئات مقاطع الفيديو بسهولة؛ مثالي للإعلانات المترجمة أو اختبارات A/B. أجهزة باهظة الثمن (مثل RTX 4090 أو A100) مطلوبة للاستخدام عالي السعة.
دعم المجتمع مدعوم من مجتمع مفتوح المصدر؛ الوصول إلى دروس تعليمية، تحديثات، وأدوات مثل سير عمل ComfyUI. لا يوجد دعم رسمي أو ضمانات؛ الاعتماد على حسن نية المجتمع لحل المشاكل.
سهولة الاستخدام يُبسط إنشاء الفيديو للفرق الصغيرة؛ يعمل كـ “استوديو إبداعي مصغر”. تتطلب معرفة بتعلم الآلة للإعداد (بايثون، CUDA، معاملات النموذج)؛ منحنى تعليم حاد.
الأخلاقيات والقانونية يتيح الابتكار في التسويق المدعوم بالذكاء الاصطناعي. مخاطر توليد محتوى غير مقصود أو غير لائق؛ مسؤوليات قانونية محتملة.

الأفضل لـ: الشركات الصغيرة التي تمتلك خبرة تقنية أو وصول إلى مستشارين، بهدف خفض تكاليف إنشاء المحتوى وتوسيع نطاق إنتاج الفيديو. التحديات: تتطلب تخطيطًا دقيقًا، إعدادًا تقنيًا، ومراقبة للأجهزة والتكاليف.

الاتجاهات المستقبلية لتقنية Wan 2.2 T2V

الاتجاهات المستقبلية لتقنية Wan 2.2 T2V

  1. دقة وطول أعلى
    • الاتجاه نحو دقة 1080 بكسل، 4K، ومقاطع أطول (10-20 ثانية).
    • تحسين التماسك لمقاطع الفيديو المطولة عبر التوليد الهرمي.
  2. حركة واتساق محسّنان
    • استقرار حركة أفضل وتفاعلات طبيعية.
    • خبراء متخصصون لأنواع حركة مختلفة (مثل البطيء مقابل السريع).
  3. تحرير الفيديو وتعدد الوسائط
    • أوامر نصية لتحرير مقاطع الفيديو الموجودة (مثل تغيير المشاهد أو إزالة العناصر).
    • تكامل توليد الصوت لمشاريع فيديو كاملة.
  4. الكفاءة وقابلية التوسع
    • نماذج أصغر وأسرع (مثل النماذج المقطرة 5B بجودة قريبة من 27B).
    • يصبح توليد الفيديو في الوقت الفعلي ممكنًا مع التقدم في الأجهزة.
  5. نمو المجتمع والنظام البيئي
    • عمليات ضبط دقيق متخصصة (مثل نمط الكاريكاتير، مقاطع الفيديو الطبية).
    • اعتماد أوسع عبر الإضافات وتطبيقات الهاتف المحمول.
  6. الأخلاقيات والتنظيم
    • علامات مائية وبيانات وصفية للمحتوى المُولد بالذكاء الاصطناعي.
    • معايير تضمن الشفافية في حالات الاستخدام مثل الإعلان.

يمثل إطلاق واجهة برمجة تطبيقات Wan 2.2 تقدمًا كبيرًا في تقنية تحويل النص إلى فيديو. مع دقة أعلى، اتساق حركة محسّن، وكفاءة محسّنة، يفتح Wan 2.2 إمكانيات جديدة للمطورين وصناع المحتوى. تمنحك واجهة برمجة التطبيقات المرنة الخاصة به القدرة على تحويل أفكارك إلى حقيقة، مما يضع معيارًا جديدًا لتوليد الفيديو.

الأسئلة الشائعة

ما هو نموذج Wan 2.2؟

Wan 2.2 هو نموذج مفتوح المصدر لتحويل النص إلى فيديو قادر على توليد مقاطع فيديو عالية الجودة وذات اتساق حركة، ومناسبة لتطبيقات مثل الإعلان، صناعة الأفلام، وغيرها.

ما الجديد في Wan 2.2 مقارنة بالإصدارات السابقة؟

دعم دقة أعلى (تصل إلى 1080 بكسل). اتساق زمني محسّن، يقلل من الوميض. إدخال بنية الخبراء المختلطين (Mixture-of-Experts (MoE)) للتعامل بشكل أفضل مع المشاهد المعقدة.

كيف هو أداء نموذج Wan 2.2؟

يتميز Wan 2.2 بالسرعة، تحسين الذاكرة، وجودة المخرجات. عند دمجه مع وحدات GPU عالية الأداء، يمكنه توليد فيديو عالي الدقة بسرعة.

تعد Novita AI منصة سحابية شاملة تمكّنك من تحقيق طموحاتك في مجال الذكاء الاصطناعي. واجهات برمجة تطبيقات متكاملة، بدون خوادم، مثيلات GPU — الأدوات الاقتصادية التي تحتاجها. تخلص من البنية التحتية، ابدأ مجانًا، وحقق رؤيتك في مجال الذكاء الاصطناعي.

موصى بقراءتها