تقدم Novita أسعارًا تنافسية للغاية في السوق.
على سبيل المثال، فيديو Wan 2.1 I2V بدقة 720P لمدة 5 ثوانٍ يكلف فقط 0.3 دولار لكل فيديو، فيديو Wan 2.1 I2V بدقة 480P لمدة 5 ثوانٍ يكلف فقط 0.2 دولار لكل فيديو!
يدعم حاليًا ما يصل إلى 3 Loras!
ابدأ تجربة مجانية على Novita AI اليوم. لدمج Wan 2.1 API، قم بزيارة وثائق المطورين لمزيد من التفاصيل.
Wan 2.1 I2V (تحويل الصورة إلى فيديو) هو نموذج متطور لتوليد الفيديو يجمع بين تقنيات حديثة مثل Wan-VAE و Video Diffusion DiT. يتميز بإعادة بناء فيديو عالية الدقة، وضغط فعال، وتوليد سلس من النص إلى فيديو، مدعومًا بمجموعة بيانات تدريبية قوية ونظيفة.
قدرة Wan2.1 I2V

الابتكارات الرئيسية لـ Wan 2.1
1. Wan-VAE
نظرة عامة
- مُشفر تلقائي متغير ثلاثي الأبعاد (VAE) مصمم للضغط الفعال وإعادة إنتاج الحركة عالية الدقة.
- قادر على ترميز وفك تشفير فيديوهات بدقة 1080P مع الحفاظ على الاستمرارية الزمنية.
- يدمج استراتيجيات متعددة لتحسين الضغط المكاني-الزمني، وتقليل استخدام الذاكرة، وضمان السببية الزمنية.
المشكلات التي يعالجها
- الضغط الفعال: يقلل من متطلبات التخزين والحساب لبيانات الفيديو.
- إعادة البناء عالية الدقة: يضمن أن تكون الفيديوهات المُنتجة عالية الجودة والحركة مترابطة.
- الاتساق الزمني: يتجنب المشكلات الشائعة مثل انقطاع الإطارات أو الارتعاش في الفيديوهات المُنتجة.
2. Video Diffusion DiT
نظرة عامة
- مبني على محولات الانتشار (Diffusion Transformers)، معززة بإطار عمل Flow Matching.
- يدعم إدخال النص متعدد اللغات (عبر T5 Encoder) وتضمين النص (cross-attention).
- يستخدم MLP مشترك للتنبؤ بمعلمات التعديل لتضمينات الوقت، مما يمكّن كل كتلة محول من تعلم تحيزات مميزة، وبالتالي تحسين الأداء.
المشكلات التي يعالجها
- التكامل العميق بين النص وتوليد الفيديو: يسمح للنموذج بفهم وتوليد فيديوهات أفضل وفقًا للأوصاف النصية.
- تحسين أداء التوليد: يحسن بشكل كبير جودة وقدرة التعبير للفيديوهات المُنتجة دون زيادة عدد المعلمات.
- دعم متعدد الوسائط: يتعامل مع لغات متعددة وأنواع إدخال، مما يوسع نطاق التطبيقات.
3. مجموعة البيانات المرشحة (Candidate Dataset)
نظرة عامة
- مجموعة بيانات كبيرة الحجم، منسقة، وخالية من التكرار من الصور والفيديوهات.
- تستخدم عملية تنظيف بيانات من أربع خطوات، مع التركيز على أبعاد البيانات والجودة البصرية وجودة الحركة.
- تبني مجموعة تدريبية متنوعة وعالية الجودة.
المشكلات التي يعالجها
- ضوضاء البيانات والتكرار: تزيل بشكل فعال البيانات منخفضة الجودة أو المكررة، مما يحسن فعالية بيانات التدريب.
- التنوع والجودة: تزود النموذج بعينات غنية ونظيفة، مما يعزز التعميم وقدرات التوليد.
- التدريب على نطاق واسع: تدعم التدريب الفعال على مجموعات بيانات كبيرة وعالية الجودة.
Vbench لـ Wan 2.1
يُظهر Wan 2.1 (Wan-14B) أداءً ممتازًا في المهام الأساسية مثل اتساق الهوية، والمعقولية الفيزيائية، والسلاسة. درجته المرجحة الإجمالية من بين الأعلى في الصناعة، مما يجعله أحد نماذج توليد الفيديو الرائدة المتاحة اليوم. ومع ذلك، لا يزال هناك مجال للتحسين في مجالات مثل القدرة على التصميم والتحكم بالكاميرا.

متطلبات الأجهزة لـ Wan 2.1
متطلبات أجهزة Wan 2.1 عالية، خاصة للمهام عالية الدقة والنماذج الكبيرة. تصل متطلبات الذاكرة لـ Wan 2.1 I2V إلى 80 جيجابايت تقريبًا. يُوصى باستخدام وحدات معالجة رسومية متعددة عالية الجودة من فئة مراكز البيانات (مثل A100 و H100 أو H20) لتلبية متطلبات الذاكرة والسرعة. وحدات معالجة الرسومية الاستهلاكية مناسبة فقط للنماذج الصغيرة والسيناريوهات منخفضة الدقة.
| النموذج | متوافق مع بطاقة واحدة | توصية متعددة وحدات معالجة الرسومية | مستوى التوصية |
|---|---|---|---|
| RTX 4090 | لا | لا | فقط لـ T2V-1.3B بدقة 480P |
| H20 | غير مدعوم | 4 GPU أو 8 GPU | ★★★ |
| A800/A100 | مدعوم | 4 GPU أو 8 GPU | ★★★★ |
| H800/H100 | مدعوم | 4 GPU أو 8 GPU | ★★★★★ |
كيفية الوصول إلى Wan 2.1 عبر Novita AI؟
Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة التطبيقات البسيطة، مع توفير سحابة GPU ميسورة التكلفة وموثوقة للبناء والتوسع.
الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج
قم بتسجيل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

الخطوة 2: اختر نموذجك
تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

الخطوة 3: ابدأ تجربتك المجانية

الخطوة 4: احصل على مفتاح API الخاص بك
للمصادقة مع API، سنوفر لك مفتاح API جديدًا. عند دخول الصفحة، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

الخطوة 5: تثبيت API
قم بتثبيت API باستخدام مدير الحزم الخاص بلغة البرمجة التي تستخدمها.

بعد التثبيت، قم باستيراد المكتبات اللازمة في بيئة التطوير الخاصة بك. قم بتهيئة API باستخدام مفتاح API الخاص بك للبدء في التفاعل مع Novita AI LLM. هذا مثال لاستخدام API chat completions لمستخدمي Python:
import requests
url = "https://api.novita.ai/v3/async/wan-i2v"
payload = {
"extra": {"webhook": {
"url": "<string>",
"test_mode": {
"enabled": True,
"return_task_status": "<string>"
}
}},
"model_name": "<string>",
"image_url": "<string>",
"width": 123,
"height": 123,
"loras": [
{
"path": "<string>",
"scale": {}
}
],
"seed": 123,
"prompt": "<string>",
"negative_prompt": "<string>",
"steps": 123,
"guidance_scale": 123,
"flow_shift": 123,
"enable_safety_checker": True
}
headers = {
"Content-Type": "<content-type>",
"Authorization": "<authorization>"
}
response = requests.request("POST", url, json=payload, headers=headers)
print(response.text)
Wan 2.1 I2V (تحويل الصورة إلى فيديو) هو نموذج متطور لتوليد الفيديو يجمع بين تقنيات حديثة مثل Wan-VAE و Video Diffusion DiT. يتميز بإعادة بناء فيديو عالية الدقة، وضغط فعال، وتوليد سلس من النص إلى فيديو، مدعومًا بمجموعة بيانات تدريبية قوية ونظيفة.
الأسئلة الشائعة
ما هي متطلبات الأجهزة لـ Wan 2.1 I2V؟
Wan 2.1 I2V هو نموذج متقدم لتوليد فيديوهات عالية الجودة من مدخلات نصية أو صور. تكمن خصوصيته في إعادة إنتاج الحركة عالية الدقة والاتساق الزمني والدعم متعدد اللغات لتوليد النص إلى فيديو.
ما هو Wan 2.1 I2V وما الذي يجعله فريدًا؟
أسعار تنافسية: 0.40 دولار لكل فيديو بدقة 720P لمدة 5 ثوانٍ مقارنة بـ 2.39 دولار على منصات مماثلة.
واجهة برمجة تطبيقات سهلة الاستخدام مع وثائق مفصلة للمطورين.
كيف يمكنني الوصول إلى Wan 2.1 I2V؟
يمكنك استخدام Wan 2.1 I2V عبر منصة Novita AI. ما عليك سوى تسجيل الدخول، واختيار النموذج، والحصول على مفتاح API الخاص بك، ودمج API في بيئة التطوير الخاصة بك.
Novita AI هي المنصة السحابية الشاملة التي تمكن طموحاتك في الذكاء الاصطناعي. واجهات برمجة تطبيقات متكاملة، بدون خوادم، وGPU Instance — الأدوات الفعالة من حيث التكلفة التي تحتاجها. تخلص من البنية التحتية، ابدأ مجانًا، وحقق رؤيتك في الذكاء الاصطناعي.
