يُمثل Wan2.6 نقلة نوعية في مجال توليد الفيديو بالذكاء الاصطناعي، حيث يقدم قدرات إنشاء فيديو الأكثر شمولاً على مستوى العالم. يتضمن النموذج ميزات لعب الأدوار، والتحكم في اللقطات المتعددة، ومزامنة الصوت والصورة التي تميزه عن المنافسين.
الآن متاح على منصة Model API الخاصة بـ Novita AI، يمكن للمطورين والشركات الوصول إلى هذا النموذج المتطور من خلال تكامل API بسيط دون الحاجة إلى إدارة بنية تحتية معقدة.
يستكشف هذا الدليل كيفية الاستفادة من Wan2.6 على Novita AI لتوليد الفيديو من النص، وتوليد الفيديو من الصور، وتوليد الفيديو من الفيديو المرجعي.
جرب Wan2.6 في مساحة عمل Novita AI
ما هو Wan2.6؟
تم توليد هذا الفيديو بواسطة Wan2.6
Wan2.6 هو الجيل الأحدث من سلسلة نماذج توليد الفيديو الخاصة بـ Alibaba Cloud، مصمم خصيصاً لسيناريوهات الإنتاج السينمائي المحترف والمحتوى الإبداعي.
بصفتها نموذج توليد الفيديو الأكثر اكتمالاً للميزات على مستوى العالم، يقدم Wan2.6 قدرات ثورية تسد الفجوة بين إنشاء المحتوى الهواة والتصوير السينمائي المحترف.
التقنية الأساسية
يستخدم Wan2.6 نمذجة مشتركة متعددة الوسائط متقدمة لمعالجة الفيديوهات المرجعية. يستخرج النظام معلومات زمنية حول مشاعر الموضوعات، ووضعياتها، والميزات البصرية الشاملة من زوايا متعددة.
يلتقط النموذج في نفس الوقت الخصائص الصوتية، بما في ذلك نبرة الصوت ومعدل الكلام. تعمل هذه العناصر كشروط تحكم أثناء التوليد للحفاظ على اتساق حسي كامل من العناصر البصرية إلى الصوت.
الابتكارات التقنية
يدمج النموذج عدة تقنيات مبتكرة:
- التعلم متعدد الوسائط: يعالج البيانات البصرية والصوتية والزمنية في نفس الوقت للحصول على مخرجات متماسكة
- الفهم الدلالي عالي المستوى: يحول الأوامر النصية البسيطة إلى سرديات لقطات متعددة احترافية مع حبكات كاملة
- النمذجة الموحدة: يحافظ على الاتساق في الموضوعات الأساسية، وتخطيطات المشاهد، والجو البيئي عبر انتقالات اللقطات
- مزامنة الصوت والصورة: يضمن مزامنة الشفاه المثالية ومطابقة الصوت مع المحتوى البصري
الميزات الرئيسية لـ Wan2.6
1. قدرة لعب الأدوار
تسمح الميزة المميزة لـ Wan2.6 للمستخدمين بتحميل فيديوهات شخصية وتحويل أنفسهم إلى شخصيات في مشاهد ذات جودة احترافية.
يتعامل النموذج مع:
- عروض شخصية فردية ومتعددة: يدعم العروض المنفردة أو التفاعلات الجماعية
- نقل المشاعر والإيماءات: يلتقط ويستنسخ التعبيرات والحركات الدقيقة
- التحويل عبر الأنماط: يطبق أنواعاً مختلفة (خيال علمي، إثارة، رومانسية) على اللقطات المصدر
- محاكاة التمثيل الاحترافي: يولد عروضاً بجودة سينمائية من فيديوهات المستخدمين العادية
2. التحكم في اللقطات المتعددة والانتقالات
يتفوق النموذج في تكوين اللقطات والانتقالات ذات المستوى الاحترافي:
- تخطيط اللقطات التلقائي: يحول الأوامر النصية البسيطة إلى نصوص لقطات متعددة
- انتقالات سلسة: قصات سلسة بين زوايا كاميرا ووجهات نظر مختلفة
- التماسك السردي: يحافظ على استمرارية القصة عبر لقطات متعددة
- الحفاظ على الاتساق: يحافظ على وحدة الشخصيات، والأماكن، والجو طوال الفيديو
3. مدة الفيديو الممتدة
يدعم Wan2.6 ما يصل إلى 15 ثانية لكل عملية توليد—وهي أطول مدة توليد فردية متاحة في سوق الفيديو بالذكاء الاصطناعي في الصين.
تتيح هذه المدة الممتدة سرد قصص أكثر تعقيداً وتطوير مشاهد كاملة دون الحاجة إلى عمليات توليد متعددة ولصقها.
4. مزامنة الصوت والصورة
محاذاة مثالية بين العناصر الصوتية والبصرية:
- دقة مزامنة الشفاه: مطابقة حركة الفم الدقيقة للحوار
- الرسوم المتحركة التي يحركها الصوت: تحرك إشارات الصوت حركات الشخصيات وتعبيراتها
- الصوت البيئي: أصوات خلفية وتأثيرات مناسبة للسياق
5. مقاييس الجودة المحسنة
أدت التحسينات الأخيرة إلى تحسين كبير في عدة جوانب من النموذج:
- دقة بصرية محسنة: دقة أعلى وجودة تفاصيل أفضل
- تأثيرات صوتية أفضل: تصميم صوتي ذات جودة احترافية
- اتباع أفضل للأوامر النصية: تفسير أكثر دقة للتعليمات المعقدة
- عمل كاميرا سينمائي: تطبيق تقنيات التصوير السينمائي الاحترافي تلقائياً
متغيرات نموذج Wan2.6 على Novita AI
توفر Novita AI ثلاثة نقاط نهاية API متميزة لـ Wan2.6، كل منها محسّن لحالات استخدام محددة ويمكن الوصول إليه عبر منصة Model API.
توليد الفيديو من النص (T2V)
توليد فيديوهات مباشرة من الأوامر النصية دون الحاجة إلى صور أو فيديوهات إدخال.
مثالي لإنشاء محتوى أصلي من أوصاف إبداعية مع تحكم في اللقطات المتعددة وتسلسل سردي.
القدرات الرئيسية:
- توليد سرديات لقطات متعددة من الأوامر المتسلسلة
- اختيار تلقائي لنوع اللقطة وحركات الكاميرا
- انتقالات سينمائية بين المشاهد
- دعم مدة فيديو 5 و10 و15 ثانية
المواصفات التقنية:
| المعامل | القيم المدعومة | ملاحظات |
|---|---|---|
| المدة | 5 ثوانٍ، 10 ثوانٍ، 15 ثانية | اختر بناءً على تعقيد المحتوى |
| الدقة | 1280×720، 720×1280، 960×960، 1088×832، 832×1088، 1920×1080، 1080×1920، 1440×1440، 1632×1248، 1248×1632 | لا يدعم دقة 480P |
| معرف النموذج | wan2.6-t2v |
استخدم هذا المعرف في استدعاءات API |
اعرف المزيد: وثائق API لتوليد الفيديو من النص لـ Wan2.6
توليد الفيديو من الصور (I2V)
تحريك الصور الثابتة إلى تسلسلات فيديو ديناميكية.
مثالي لإحياء صور المنتجات، والرسوم التوضيحية، أو فن المفاهيم مع حركة خاضعة للتحكم وسياق سردي.
القدرات الرئيسية:
- تحكم في قوة الحركة لشدة الرسوم المتحركة
- خيارات دقة متعددة لحالات استخدام مختلفة
- اتجاه رسوم متحركة موجه بالأوامر النصية
- رسوم متحركة للشخصيات والأشياء
المواصفات التقنية:
| المعامل | القيم المدعومة | ملاحظات |
|---|---|---|
| المدة | 5 ثوانٍ، 10 ثوانٍ، 15 ثانية | مدة ممتدة للرسوم المتحركة المعقدة |
| الدقة | 1080P، 720P | لا يدعم دقة 480P |
| معرف النموذج | wan2.6-i2v |
استخدم هذا المعرف في استدعاءات API |
اعرف المزيد: وثائق API لتوليد الفيديو من الصور لـ Wan2.6
الفيديو المرجعي (R2V)
تحويل الفيديوهات الموجودة باستخدام نقل النمط، أو لعب الأدوار، أو تعديلات المشاهد باستخدام إدخال فيديو مرجعي.
القدرات الرئيسية:
- لعب الأدوار واستبدال الشخصيات
- نقل النمط عبر الأنواع البصرية
- الحفاظ على مزامنة الصوت والصورة
- دعم فيديوهات مرجعية متعددة (يوصى بـ 1-2 فيديو)
المواصفات التقنية:
| المعامل | القيم المدعومة |
|---|---|
| المدة | 5 ثوانٍ، 10 ثوانٍ (لا يدعم 15 ثانية) |
| الدقة | 1280×720، 720×1280، 960×960، 1088×832، 832×1088، 1920×1080، 1080×1920، 1440×1440، 1632×1248، 1248×1632 (لا يوجد دقة 480P) |
| تنسيق الفيديو | MP4، MOV |
| حجم الملف | أقل من 30 ميجابايت لكل ملف |
| مرجع فردي | حد أقصى للمدة 5 ثوانٍ |
| مرجع مزدوج | حد أقصى 2.5 ثانية لكل منهما (لا يوصى بـ 3 فيديوهات) |
| معرف النموذج | wan2.6-v2v |
ملاحظات هامة: لا يمكن تحميل الفيديوهات المرجعية في نفس الوقت مع ملفات الصوت. يقبل المعامل reference_video_urls مصفوفة من عناوين URL للفيديو.
اعرف المزيد: وثائق API للفيديو المرجعي لـ Wan2.6
البدء في استخدام Wan2.6 على Novita AI
المتطلبات الأساسية
قبل البدء، تأكد من أن لديك:
- حساب Novita AI: سجل في novita.ai. احصل على رصيد مجاني بقيمة 1 دولار تلقائياً عند التسجيل
- مفتاح API: احصل عليه من لوحة التحكم الخاصة بك
- بيئة تطوير: Python أو Node.js أو أي عميل HTTP
تدفق الطلبات غير المتزامن
يستخدم Wan2.6 على Novita AI نموذج معالجة غير متزامن للتعامل مع طلبات التوليد بكفاءة:
- إرسال الطلب: أرسل طلب POST إلى نقطة النهاية المناسبة مع المعاملات الخاصة بك
- استلام معرف المهمة: يعيد API معرف
task_idفوراً - الاستعلام عن النتائج: استخدم معرف المهمة للتحقق من حالة التوليد
- استرجاع المخرجات: قم بتنزيل الفيديو المُولد بمجرد اكتماله
مثال على توليد الفيديو من النص
إليك مثال كامل لتوليد فيديو من نص باستخدام واجهة برمجة تطبيقات T2V لـ Wan2.6:
الخطوة 1: إرسال طلب التوليد
import requests
url = "https://api.novita.ai/v3/async/wan2.6-t2v"
payload = {
"input": {
"prompt": "<string>",
"audio_url": "<string>",
"negative_prompt": "<string>"
},
"parameters": {
"seed": 123,
"size": "<string>",
"audio": True,
"duration": 123,
"shot_type": "<string>",
"watermark": True,
"prompt_extend": True
}
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
الخطوة 2: الحصول على نتائج توليد الفيديو
import requests
url = "https://api.novita.ai/v3/async/task-result"
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.get(url, headers=headers)
print(response.text)
شرح المعاملات الرئيسية
| المعامل | الوصف | الخيارات |
|---|---|---|
prompt |
وصف نصي للفيديو المطلوب | وصف مشهد مفصل |
audio_url |
ملف صوتي اختياري للمزامنة | عنوان URL HTTPS لملف صوتي |
negative_prompt |
العناصر التي يجب تجنبها | مشاكل الجودة، أشياء غير مرغوب فيها |
seed |
بذرة عشوائية لإمكانية إعادة الإنتاج | أي عدد صحيح |
size |
دقة الفيديو | “1280x720”، “1920x1080”، “720x1280”، إلخ |
duration |
مدة الفيديو بالثواني | 5 أو 10 أو 15 |
shot_type |
زاوية الكاميرا | “wide_shot”، “medium_shot”، “close_up” |
prompt_extend |
تحسين تلقائي للأمر النصي | true/false |
watermark |
إضافة علامة مائية إلى الفيديو | true/false |
audio |
تفعيل توليد الصوت | true/false |
للحصول على مواصفات API كاملة ومعاملات إضافية، قم بزيارة وثائق API لـ Wan2.6.
هيكل الأوامر النصية للقطات المتعددة
تتيح قدرة اللقطات المتعددة لـ Wan2.6 إنشاء تسلسلات سردية متماسكة مع زوايا كاميرا ومشاهد متعددة. لتعظيم جودة فيديوهات اللقطات المتعددة، اتبع تنسيق الأمر النصي المنظم هذا.
صيغة هيكل الأمر النصي
Prompt = Overall Description + Shot Number + Timestamp + Shot Content
تفصيل المكونات
1. الوصف العام
قدم نظرة عامة موجزة لمحتوى الفيديو بالكامل. يجب أن يصف هذا القسم:
- موضوع القصة والأسلوب السردي
- المشاعر الرئيسية أو الأحداث الأساسية
- النبرة العامة والجو
هذا يساعد الذكاء الاصطناعي على فهم الاتجاه السردي العام والحفاظ على الاتساق عبر اللقطات.
2. رقم اللقطة
عيّن رقماً تسلسلياً لكل لقطة لـ:
- التمييز بين المشاهد أو المقاطع المختلفة
- تنظيم هيكل الفيديو بوضوح
- الحفاظ على تدفق منطقي بين الانتقالات
3. الطابع الزمني
حدد النطاق الزمني الدقيق لكل لقطة ضمن الجدول الزمني للفيديو:
- يضمن محاذاة المحتوى مع توقيت الفيديو
- يحسن دقة التوليد
- يساعد في التحكم الدقيق في مدة اللقطة
4. محتوى اللقطة
قدم أوصافاً مفصلة لكل لقطة، بما في ذلك:
- الشخصيات أو الأشياء الرئيسية وسلوكياتها المحددة
- الإجراءات، الحوار، التعبيرات، والإيماءات
- زوايا وحركات الكاميرا
- تفاصيل الإضاءة والجو
اتبع اتفاقيات كتابة الأوامر النصية للقطات الفردية القياسية لهذا القسم.
مثال على أمر نصي للقطات المتعددة
إليك مثال عملي يوضح الهيكل الكامل:
This story is told from a third-person perspective, depicting a short drama about abandonment and the rekindling of hope.
Shot 1 [0-3 seconds]: A boy sits alone in the corner of a playground, head down, looking at a letter in his hands. He lets out a soft sigh, his eyes revealing confusion and uncertainty.
Shot 2 [3-5 seconds]: Hard cut transition, fixed camera position, focusing on the boy's eyes. Tears glisten, conveying a sense of loss and helplessness.
Shot 3 [5-10 seconds]: Hard cut transition, scene shifts to a simple classroom. A girl with gentle yet determined eyes, wearing modest clothing, approaches the boy with a warm and reassuring smile to comfort him.
الخاتمة
يُسهل Wan2.6 على Novita AI الوصول إلى الإنتاج السينمائي المحترف، حيث يقدم تحكماً إبداعياً غير مسبوق من خلال لعب الأدوار، والسرديات متعددة اللقطات، ومزامنة الصوت والصورة.
سواء كنت مطوراً يبني ميزات توليد الفيديو، أو مسوقاً ينشئ محتوى حملات، أو صانع أفلام يستكشف التصور المسبق، فإن منصة Model API الخاصة بـ Novita AI تلغي تعقيدات البنية التحتية مع تقديم نتائج بجودة سينمائية.
ابدأ في توليد فيديوهات احترافية اليوم وحول رؤيتك الإبداعية إلى واقع في غضون دقائق.
جاهز للبدء؟ أنشئ حساب Novita AI الخاص بك وادخل إلى Wan2.6 برصيد مجدي لتجربة مستقبل توليد الفيديو بالذكاء الاصطناعي.
Novita AI هي منصة سحابة ذكاء اصطناعي رائدة توفر للمطورين واجهات برمجة تطبيقات سهلة الاستخدام وبنية تحتية لـ GPU بأسعار معقولة وموثوقة لبناء وتوسيع نطاق تطبيقات الذكاء الاصطناعي.
