زيادة الإنتاجية إلى أقصى حد باستخدام واجهة برمجة تطبيقات Wan 2.2 I2V من Novita AI

زيادة الإنتاجية إلى أقصى حد باستخدام واجهة برمجة تطبيقات Wan 2.2 I2V من Novita AI

تقدم Novita AI بفخر واجهة برمجة تطبيقات Wan 2.2 I2V، وهي أداة متطورة لتوليد الفيديو من الصور (I2V) تُحدث ثورة في إنشاء محتوى الفيديو. كامتداد لنموذج Wan 2.2 T2V من Alibaba، تستفيد هذه الواجهة من بنية الخبراء المختلطين (MoE) وتقنيات ضغط متقدمة لتقديم فيديوهات بدقة 720P بمعدل 24 إطارًا في الثانية، مُحسّنة لوحدات معالجة الرسومات الاستهلاكية. يتناول هذا المقال ماهية Wan 2.2 I2V، وميزاته، وكيف يمكنه تحويل سير عمل إنشاء الفيديو.

ما هي Wan 2.2 I2V؟

Wan 2.2 I2V هو مولد فيديو متطور مدعوم بالذكاء الاصطناعي يحول المدخلات النصية أو الصورية إلى مقاطع فيديو قصيرة. يشير مصطلح “I2V” إلى تحويل الصور إلى فيديو، وهو أحد أوضاع التوليد الخاصة به (كما يدعم تحويل النص إلى فيديو). يمثل Wan 2.2 الإصدار الرئيسي الثاني من سلسلة نماذج Wan، ويجلب ترقيات كبيرة مقارنة بالإصدار 2.1. يستخدم بنية انتشار الخبراء المختلطين (MoE) المتطورة لتحقيق مخرجات فيديو عالية الدقة 720p من الأوامر النصية. النموذج مفتوح المصدر (مرخص ب Apache 2.0) ومصمم لتقديم نتائج احترافية على الأجهزة الاستهلاكية القياسية.

حل TI2V مدمج ومتعدد الاستخدامات: يقدم Wan2.2 نموذجًا مفتوح المصدر بقدرة 5B مدعومًا بـ Wan2.2-VAE المتقدم، ليحقق نسبة ضغط مذهلة تبلغ 16×16×4. يدعم هذا النموذج الخفيف بسلاسة كلاً من توليد الفيديو من النص (T2V) وتوليد الفيديو من الصور (I2V) بدقة 720P بمعدل 24 إطارًا في الثانية. مُحسّن لوحدات معالجة الرسومات الاستهلاكية مثل NVIDIA 4090، فهو يُعد أحد أسرع النماذج المتاحة بدقة 720P@24fps، مما يجعله حلاً مثالياً لكل من التطبيقات الصناعية والبحث الأكاديمي.

بنية Wan 2.2 I2V وفهم الصور

نوعان من MoE

يستخدم نموذج انتشار الخبراء المختلطين (MoE) في Wan 2.2 كلاً من شبكات الخبراء عالية الضوضاء ومنخفضة الضوضاء للتعامل بشكل أفضل مع التغيرات في تعقيدات المدخلات الصورية. على سبيل المثال، تتألق شبكة الضوضاء العالية في معالجة التفاصيل الدقيقة للصور، بينما تركز شبكة الضوضاء المنخفضة على تكوين المشهد العام. يعزز هذا التقسيم للعمل من قدرة النموذج على تحليل وتفسير محتوى الصور بفعالية.

الضغط والاتساق الزمكاني

يستخدم النموذج Wan-VAE (المشفر التلقائي الاختلافي) للضغط الزمكاني، ليحقق ضغطًا بنسبة 64 ضعفًا (4 مرات زمنيًا، 16×16 مكانيًا). يتيح ذلك ترميز وفك تشفير فعالين لإطارات الفيديو مع الحفاظ على التفاصيل الأساسية والتماسك الزمني. لا تعمل تقنية الضغط هذه على تحسين كفاءة التوليد فحسب، بل تضمن أيضًا انتقالًا سلسًا وطبيعيًا من الصور الثابتة إلى الفيديوهات الديناميكية.

يعد الحفاظ على الاتساق الزمني أمرًا بالغ الأهمية عند توليد الفيديوهات من الصور، خاصة بالنسبة لجوانب مثل تغيرات الإضاءة وحركة الأشياء. تضمن بنية الضغط ثلاثية الأبعاد لـ Wan-VAE سلاسة بصرية وتمددًا صحيحًا لمحتوى الصور بمرور الوقت، مما يضمن مخرجات فيديو عالية الجودة.

الميزات الرئيسية لـ Wan 2.2 I2V

الميزة الوصف
🎥 التحكم بالجماليات السينمائية يوفر تحكمًا جماليًا على مستوى السينما مع معلمات احترافية بأسلوب الأفلام. يمكن للأوامر النصية تحديد الإضاءة، ودرجات الألوان، وزوايا الكاميرا، وتفاصيل التكوين للتأثير على مظهر الفيديو المُولّد.
🤖 الحركة المعقدة والاستقرار يتفوق في إعادة إنتاج الحركات واسعة النطاق والمعقدة بسلاسة. يتعامل مع حركات الكاميرا السريعة (المسح الأفقي، الميل، التكبير/التصغير) والعديد من الأشياء المتحركة باستقرار محسّن. بفضل خبراء MoE، ينتج حركة أكثر سلاسة مع عدد أقل من مشاكل الاهتزاز أو الاستمرارية.
🎯 الامتثال الدقيق للدلالات يظهر فهمًا أفضل للمشاهد المعقدة وتفاعلات الأشياء المتعددة، ويولد مخرجات تطابق closely نية المستخدم في الأمر النصي. تعمل بيانات التدريب الموسعة واستراتيجيات الانتشار المطورة على تحسين الاتساق والموثوقية.

ما هي تحسينات سير العمل الموجودة في Wan 2.2؟

ما هي تحسينات سير العمل الموجودة في Wan 2.2؟

مقارنة Wan 2.2 I2V مع Wan 2.1 I2V

بنية Wan 2.2 I2V مقابل Wan 2.1 I2V

الفئة Wan 2.1 Wan 2.2
نموذج الانتشار بنية انتشار كثيفة: نموذج واحد يعالج جميع خطوات إزالة الضوضاء. انتشار الخبراء المختلطين (MoE): نموذجان فرعيان متخصصان يعالجان مستويات ضوضاء مختلفة، حيث يعالج أحدهما خطوات الضوضاء العالية المبكرة، ويعالج الآخر خطوات الضوضاء المنخفضة اللاحقة. هذا يحسن التفاصيل والتماسك.
حجم النموذج والمعلمات ~14 مليار معلمة لمهام تحويل النص إلى فيديو وتحويل الصور إلى فيديو. كانت هناك متغيرات أصغر (مثل 1.3 مليار) متاحة للنماذج الأولية الأسرع. ~27 مليار معلمة (خبيران كل منهما 14 مليار)، ولكن يتم تنشيط خبير واحد فقط في كل مرة. تم تقديم نموذج هجين جديد بقدرة 5B لـ TI2V (تجهيز النص والصورة) قادر على مخرجات بدقة 720p، ليحل محل دور النموذج الأصغر في الإصدار 2.1 ولكن بجودة أفضل.
بيانات التدريب وتسميات الجماليات مجموعة بيانات محدودة مع أوصاف أساسية للتحكم بالأوامر النصية. مدرب على مجموعة بيانات تحتوي على 65% صور إضافية و83% مقاطع فيديو إضافية. تم تقديم علامات سينمائية (مثل الإضاءة، اللون، التكوين) لتمكين تحكم أدنى في النمط مقارنة بالأوصاف الأساسية في الإصدار 2.1.
المكونات الأساسية استخدم Wan-VAE لترميزات 1080p، مع التركيز على الحفاظ على الاتساق الزمني. تحسين تكامل Wan-VAE وانتشار MoE لتحقيق توازن أفضل بين الجودة واستخدام الموارد. تمت إضافة FlashAttention لعمليات المحولات الأسرع، مما يعزز الأداء مقارنة بالإصدار 2.1.
الميزات يدعم T2V و I2V والتحرير باستخدام إطار عمل VACE. كان ضبط LoRA مدعومًا بالكامل. يدعم T2V و I2V ونقل النمط المحسّن. لا يوجد إطار عمل VACE بعد، و compatibilité LoRA محدودة فقط.

أداء Wan 2.2 I2V مقابل Wan 2.1 I2V

مقارنة Wan 2.2 T2V مع Wan 2.1 T2V: الأداء

من Artificial Analysis

توليد Wan 2.2 I2V مقابل Wan 2.1 I2V

Wan 2.2 I2V

Wan 2.1 I2V

تكلفة Wan 2.2 I2V والوصول إليها

تكاليف الأجهزة

  • نموذج I2V 5B:
    • الحد الأدنى لمتطلبات ذاكرة الوصول العشوائي للفيديو (VRAM): 24 جيجابايت.
    • الحد الأدنى لنموذج وحدة معالجة الرسومات (GPU): NVIDIA RTX 4090.
    • الحد الأدنى لعدد وحدات معالجة الرسومات: 1.
    • سرعة وحدة المعالجة الواحدة: ما يقارب 524.8 ثانية بدقة 720P.
    • السعر التقريبي لوحدة المعالجة: تم إصدار NVIDIA RTX 4090 في 12 أكتوبر 2022، بسعر ابتدائي قدره 1599 دولارًا.
  • نموذج I2V A14B:
    • دقة 480P:
      • الحد الأدنى لمتطلبات VRAM: 40 جيجابايت.
      • الحد الأدنى لنموذج GPU: NVIDIA A100 40GB.
      • الحد الأدنى لعدد وحدات المعالجة: 1.
      • سرعة وحدة المعالجة الواحدة: ما يقارب 810.0 ثانية.
      • السعر التقريبي لوحدة المعالجة: يُسعّر NVIDIA A100 40GB بمبلغ 13135 دولارًا.
    • دقة 720P:
      • الحد الأدنى لمتطلبات VRAM: 80 جيجابايت.
      • الحد الأدنى لنموذج GPU: NVIDIA H100 80GB.
      • الحد الأدنى لعدد وحدات المعالجة: 1.
      • سرعة وحدة المعالجة الواحدة: ما يقارب 1055.9 ثانية.
      • السعر التقريبي لوحدة المعالجة: معلومات التسعير الخاصة بـ NVIDIA H100 80GB غير متوفرة في المصادر المقدمة.

تكاليف واجهة برمجة التطبيقات

Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة التطبيقات البسيطة الخاصة بنا، مع توفير سحابة وحدات معالجة رسومات بأسعار معقولة وموثوقة للبناء والتوسع.

النموذج السعر الدقة وقت التوليد
Wan 2.1 I2V 0.3 دولار لكل فيديو 1280*720 5 ثوانٍ
Wan 2.2 I2V 0.4 دولار لكل فيديو 1080P 5 ثوانٍ

جرّب Wan 2.2 الآن!

دليل الوصول إلى Wan 2.2 I2V

الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج

سجل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

تسجيل الدخول والوصول إلى مكتبة النماذج

الخطوة 2: اختر النموذج الخاص بك

تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

الخطوة 2: اختر النموذج الخاص بك

الخطوة 3: احصل على مفتاح واجهة برمجة التطبيقات الخاص بك

للمصادقة مع واجهة برمجة التطبيقات، سنزودك بمفتاح واجهة برمجة تطبيقات جديد. عند الدخول إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح واجهة برمجة التطبيقات كما هو موضح في الصورة.

الحصول على مفتاح واجهة برمجة التطبيقات

الخطوة 4: تثبيت واجهة برمجة التطبيقات

قم بتثبيت واجهة برمجة التطبيقات باستخدام مدير الحزم الخاص بلغة البرمجة التي تستخدمها.

الخطوة 4: تثبيت واجهة برمجة التطبيقات

جرّب Wan 2.2 الآن!

بعد التثبيت، قم باستيراد المكتبات الضرورية إلى بيئة التطوير الخاصة بك. قم بتهيئة واجهة برمجة التطبيقات باستخدام مفتاح واجهة برمجة التطبيقات الخاص بك لبدء التفاعل مع Novita AI LLM. هذا مثال على استخدام واجهة برمجة تطبيقات إكمال الدردشة لمستخدمي بايثون.

import requests

url = "https://api.novita.ai/v3/async/wan-2.2-i2v"

payload = {
    "input": {
        "prompt": "<string>",
        "negative_prompt": "<string>",
        "img_url": "<string>"
    },
    "parameters": {
        "resolution": "<string>",
        "duration": 123,
        "prompt_extend": True,
        "seed": 123
    }
}
headers = {
    "Content-Type": "<content-type>",
    "Authorization": "<authorization>"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

Wan 2.2 I2V: المشاكل الشائعة وإصلاحاتها

المشكلة الإصلاح
إطارات وميض زيادة خطوات الانتشار أو معدل الإطارات؛ استخدام وضع I2V؛ تثبيت في المعالجة اللاحقة.
بطء / نفاد ذاكرة الوصول العشوائي استخدام نموذج 5B أو دقة أقل؛ تفعيل تحسينات الذاكرة؛ النظر في وحدات معالجة الرسومات السحابية.
عدم تطابق الأمر النصي تبسيط الأوامر النصية؛ استخدام الأوامر النصية السلبية؛ تحسينها بشكل تكراري للحصول على نتائج أفضل.
مخرجات ضبابية استخدام LoRA “DetailZ”؛ طلب تفاصيل أكثر حدة في الأوامر النصية؛ زيادة الحدة أو التحجيم في المعالجة اللاحقة.
أشياء غير متسقة استخدام صور مرجعية في وضع I2V؛ توليد مقاطع أقصر وربطها معًا؛ الحفاظ على ثبات الأوامر النصية.
لا يوجد صوت إضافة صوت في الإنتاج اللاحق؛ استخدام أدوات ذكاء اصطناعي للموسيقى أو التعليق الصوتي ومزامنتها مع العناصر البصرية.

إيجابيات وسلبيات Wan 2.2 I2V للشركات الصغيرة

الإيجابيات:

  1. تكاليف إنتاج محتوى أقل: لا حاجة للتصوير أو فريق إنتاج، مما يوفر الميزانية. مثالي للشركات الناشئة ذات الموارد المحدودة.
  2. دورة إبداعية أسرع: يمكن توليد الفيديوهات في دقائق، مما يسمح بالاستجابة السريعة للاتجاهات والنماذج الأولية السريعة.
  3. متاح على الأجهزة الاستهلاكية: يعمل على أجهزة الكمبيوتر القياسية المزودة بوحدات معالجة رسومات جيدة، مما يتجنب الحاجة إلى أجهزة متخصصة باهظة الثمن.
  4. مرونة إبداعية: يدعم أنماط ومشاهد مختلفة، لتلبية احتياجات متنوعة ببساطة عن طريق تعديل الأوامر النصية.
  5. أداة مفتوحة المصدر ومتطورة: يضمن دعم المجتمع تحديثات مستمرة، مما يقلل من خطر التقادم.

السلبيات:

  1. منحنى تعلم وخبرة مطلوبة: يتطلب معرفة بالذكاء الاصطناعي أو وقتًا لتعلم صياغة الأوامر النصية، مما يجعلها صعبة للمستخدمين غير المطلعين على التكنولوجيا.
  2. تكاليف حسابية: يترتب على توليد الفيديو على نطاق واسع تكاليف مستمرة لوحدات معالجة الرسومات والطاقة، والتي يجب تخصيص ميزانية لها.
  3. قيود الجودة: المخرجات محدودة بدقة 720p وقد تتطلب تحريرًا لاحقًا للاحتياجات عالية الجودة.
  4. الاتساق والعلامة التجارية: قد يفتقر المحتوى المُولّد إلى الاتساق عبر الفيديوهات، مما يتطلب تنظيمًا إضافيًا لمواءمة العلامة التجارية.
  5. اعتبارات أخلاقية وقانونية: يجب إدارة القضايا مثل حقوق النشر والشفافية وثقة الجمهور بعناية.

الاتجاهات المستقبلية لتقنية Wan 2.2 I2V

الاتجاه الوصف
دقة أعلى دعم دقة 1080p+ ومدد فيديو أطول (10-15 ثانية أو أفلام قصيرة كاملة).
الصوت والتفاعل تكامل توليد الصوت والتحرير التفاعلي (مثل تحسينات تحويل الفيديو إلى فيديو).
تحكم أكبر أدوات لللوحات القصة، التحكم بالإطارات، وشخصيات/علامة تجارية متسقة عبر المشاهد.
أسرع وأكثر سهولة في الوصول توليد فيديو شبه فوري مع نماذج محسّنة وتقدم في الأجهزة (مثل وحدات معالجة الرسومات، السحابة).
اعتماد أوسع الاستخدام في الترفيه، التعليم، والإعلان، مع نظام بيئي للإضافات وأنماط المجتمع.
منافسة وتعاون يستفيد Wan مفتوح المصدر من التقدمات البحثية، مما يدفع الابتكار والنماذج الهجينة للجودة.

تضع واجهة برمجة تطبيقات Wan 2.2 I2V معيارًا جديدًا لتوليد الفيديو، مع تحكم جمالي سينمائي، معالجة دقيقة للحركة، وكفاءة لا مثيل لها. سواء كنت صانع محتوى، أو مسوقًا، أو باحثًا، فإن قدرات Wan 2.2 تبسط سير العمل، وتقلل التكاليف، وتفتح إمكانيات إبداعية جديدة. بفضل أساسها مفتوح المصدر وواجهة برمجة التطبيقات القوية، فإن Wan 2.2 I2V هو مستقبل إنشاء الفيديو القوي وسهل الوصول.

الأسئلة الشائعة

ما هي Wan 2.2 I2V؟

Wan 2.2 I2V هي واجهة برمجة تطبيقات متقدمة لتوليد فيديوهات عالية الجودة من الصور، باستخدام بنية MoE من Alibaba وضغط Wan-VAE للحصول على عناصر بصرية سلسة ومتسقة.

ما الدقة التي يدعمها Wan 2.2؟

تدعم الواجهة دقة 720P بمعدل 24 إطارًا في الثانية، مُحسّنة لوحدات معالجة الرسومات الاستهلاكية مثل NVIDIA RTX 4090.

كيف يضمن Wan 2.2 الاتساق الزمني؟

يستخدم Wan 2.2 الضغط الزمكاني ثلاثي الأبعاد عبر Wan-VAE، مما يضمن انتقالات سلسة وإضاءة وحركة متسقة.

Novita AI هي المنصة السحابية الشاملة التي تمكين طموحاتك في الذكاء الاصطناعي. واجهات برمجة تطبيقات متكاملة، بدون خوادم، مثيلات لوحدات معالجة الرسومات — الأدوات ذات التكلفة الفعالة التي تحتاجها. أزل البنية التحتية، ابدأ مجانًا، وحقق رؤيتك في الذكاء الاصطناعي.

قراءات موصى بها