Wan 2.7 على Novita AI: نص إلى فيديو مقابل صورة إلى فيديو مقابل مرجع إلى فيديو

Wan 2.7 على Novita AI: نص إلى فيديو مقابل صورة إلى فيديو مقابل مرجع إلى فيديو

يقدم Wan 2.7 على Novita AI ثلاثة أوضاع توليد متميزة — نص إلى فيديو (Text-to-Video)، صورة إلى فيديو (Image-to-Video)، ومرجع إلى فيديو (Reference-to-Video) — كل منها يحل مشكلة مختلفة. يُنتج T2V فيديو مباشرة من مطالبة نصية مع صوت اختياري؛ يُحرك I2V صورة بداية ويدعم استمرارية الفيديو؛ يجلب R2V شخصيات مرجعية إلى مشاهد جديدة مع تحكم متعدد اللقطات. اختيار الوضع الخاطئ يضيف تعقيدًا؛ يوضح لك هذا الدليل مكان كل وضع في سير العمل المناسب له.

ما الذي تغير من Wan 2.6 إلى 2.7

قدم Wan 2.6 لعب الأدوار عبر فيديو مرجعي، وسرديات متعددة اللقطات، ومزامنة صوتية بصرية — مجموعة ميزات قوية ولكنها موزعة على ثلاث نقاط نهاية مع بعض التداخل. يعمل Wan 2.7 على تحسين هذا النموذج بشكل كبير.

الترقية الأوضح هي في I2V. ينتقل I2V في Wan 2.7 إلى ما هو أبعد من الرسوم المتحركة ذات الإطار الواحد ليدعم ثلاثة أوضاع إدخال متميزة في نقطة نهاية واحدة: الإطار الأول فقط، الإطار الأول + الإطار الأخير، واستمرار الفيديو. كان I2V في Wan 2.6 يتعامل فقط مع الرسوم المتحركة ذات الإطار الواحد؛ وكانت الاستمرارية تتم عبر R2V. هذا الدمج مهم للمطورين الذين يبنون خطوط أنابيب لتوسيع أو إعادة مزج اللقطات الموجودة.

يغير R2V في 2.7 أيضًا نموذج الشخصية الخاص به. بينما كان 2.6 يقبل ما يصل إلى فيديوهين مرجعيين للعب الأدوار، يقبل 2.7 ما يصل إلى خمسة عناصر وسائط مرجعية (صور أو فيديوهات)، مع تعيين كل منها لفتحة شخصية مسماة (character1، character2، إلخ) في المطالبة الخاصة بك. أصبح التفاعل متعدد الشخصيات على نطاق واسع ميزة من الدرجة الأولى، وليس حلاً بديلاً.

القدرة الأساسية لـ T2V — مطالبة نصية إلى فيديو مع صوت — تظل مشابهة، ولكن نقطة النهاية أصبحت أنظف: توليد الصوت نشط افتراضيًا (يمكنك تعطيله)، وتقوم علامة prompt_extend بإعادة كتابة المطالبات القصيرة بذكاء قبل التوليد. يتم ترحيل سطح المعلمات الخاص بـ Wan 2.6 T2V مع تحسينات، وليس استبدالاً.

تختلف نطاقات المدة أيضًا حسب الوضع في 2.7: يدعم كل من T2V و I2V 2–15 ثانية، بينما يحد R2V بـ 10 ثوانٍ. الحد الأدنى البالغ ثانيتين يحل محل الحد الأدنى البالغ 5 ثوانٍ من المدد القياسية في 2.6.

نظرة عامة على الأوضاع وجدول الاختيار السريع

T2V I2V R2V
الإدخال مطالبة نصية صورة + نص اختياري وسائط مرجعية (صور/فيديوهات) + نص
مدة الإخراج 2–15 ثانية 2–15 ثانية 2–10 ثوانٍ
الدقة 720P، 1080P 720P، 1080P 720P، 1080P
الصوت مولّد تلقائيًا أو مدفوع بالصوت مولّد تلقائيًا أو مدفوع بالصوت قابل للتحكم عبر علامة audio + reference_voice
التحكم في اللقطة لقطة واحدة لقطة واحدة لقطة واحدة أو متعددة
الشخصيات محددة بالمطالبة محددة بالمطالبة ما يصل إلى 5 شخصيات مرجعية مسماة
معرف النموذج wan2.7-t2v wan2.7-i2v wan2.7-r2v
نقطة النهاية /v3/async/wan2.7-t2v /v3/async/wan2.7-i2v /v3/async/wan2.7-r2v
الأفضل لـ محتوى أصلي من الصفر تحريك الأصول الموجودة مشاهد لعب أدوار متسقة مع الشخصيات

كيف يعمل Wan 2.7 T2V على Novita AI؟

T2V هو نقطة البداية الصحيحة عندما يكون لديك مفهوم إبداعي ولكن لا توجد أصول بصرية موجودة. يُنشئ النموذج فيديو سلسًا مباشرة من وصف نصي ويُرفق الصوت تلقائيًا — إما موسيقى خلفية/مؤثرات صوتية مولدة لتتناسب مع المشهد، أو صوت تقدمه كمصدر قيادة لمزامنة الشفاه ومطابقة الإيقاع.

المعلمات الرئيسية:

  • prompt — وصف المشهد؛ يدعم اللغتين الصينية والإنجليزية
  • size — مستوى الدقة: 1920*1080، 1280*720، 720*1280، 960*960، 1088*832، 832*1088 (1080P أو 720P)
  • duration — عدد صحيح بالثواني، النطاق 2–15
  • audio_url — اختياري؛ عند توفيره، يستخدم النموذج هذا الصوت لقيادة التوليد (مزامنة الشفاه، مطابقة الإيقاع). احذفه للسماح للنموذج بالتوليد التلقائي
  • prompt_extend — افتراضي true؛ يعيد كتابة المطالبات القصيرة باستخدام LLM قبل التوليد للحصول على جودة أفضل
  • seed — اضبطه للحصول على مخرجات قابلة للتكرار

لمن يناسب T2V: المسوقون الذين يُنشئون مقاطع فيديو للحملات التسويقية من النصوص، والمطورون الذين ينتجون محتوى فيديو على نطاق واسع، أو أي شخص يحتاج إلى لقطات أصلية دون مواد مصدرية.

أين يقصر: بدون صورة مرجعية أو إطار فيديو سابق، يصعب الحفاظ على اتساق الشخصيات المعقد عبر عدة عمليات توليد. إذا كنت تقوم بالتكرار على مشهد أو شخصية معينة، فإن I2V أو R2V يمنحك تحكمًا أكبر.

كيف يعمل Wan 2.7 I2V على Novita AI؟

الميزة المميزة لـ I2V في 2.7 هي أنه يتعامل مع ثلاثة أنماط رسوم متحركة مختلفة من خلال نقطة نهاية واحدة، يتم تمييزها حسب المعلمات التي تملؤها:

إطار أول إلى فيديو: قم بتوفير image_url. يقوم النموذج بتحريك الصورة للأمام. هذه هي حالة الاستخدام الكلاسيكية “إضفاء الحياة على الصورة”.

إطار أول + إطار أخير إلى فيديو: قم بتوفير كل من image_url و last_frame_url. يقوم النموذج بتوليد الجسر بين إطارين رئيسيين، وهو مفيد للانتقالات المتحكم بها أو تسلسلات التحول.

استمرار الفيديو: قم بتوفير first_clip_url (مقطع فيديو موجود، mp4 أو mov، 2–10 ثوانٍ). يقوم النموذج بتمديد الفيديو للأمام بناءً على محتواه والمطالبة الخاصة بك.

تعمل معلمة driving_audio_url بنفس الطريقة كما في T2V — عند توفيرها، تقود التوليد بمزامنة الشفاه أو مطابقة الإيقاع؛ عند حذفها، يتم توليد الصوت تلقائيًا.

المعلمات الرئيسية:

  • image_url — مطلوبة لأوضاع الإطار الأول والإطار الأول + الأخير؛ صورة الإطار الأول (JPEG، JPG، PNG، BMP، WEBP؛ حتى 20 ميغابايت؛ العرض/الارتفاع 240–8000 بكسل). لا تُستخدم في وضع الاستمرار.
  • last_frame_url — اختيارية؛ صورة الإطار الأخير لوضع الإطار الرئيسي إلى الإطار الرئيسي
  • first_clip_url — اختيارية؛ مقطع فيديو موجود لوضع الاستمرار (mp4/mov، 2–10 ثوانٍ)
  • resolution720P أو 1080P (افتراضي 1080P)؛ نسبة أبعاد الفيديو تتطابق مع وسائط الإدخال
  • duration — 2–15 ثانية (عدد صحيح)
  • driving_audio_url — صوت قيادة اختياري
  • prompt — اختياري؛ يوجه اتجاه الرسوم المتحركة وأسلوبها

لمن يناسب I2V: فرق التجارة الإلكترونية التي تحرك صور المنتجات، ورسامي المفاهيم الذين يضيفون حركة إلى الرسوم التوضيحية، أو المطورين الذين يبنون خطوط أنابيب لتوسيع اللقطات الموجودة.

تنبيه: يجب أن يكون مقطع الإدخال للاستمرار بطول 2–10 ثوانٍ. نسبة أبعاد دقة فيديو الإخراج تتبع وسائط الإدخال — لا يمكنك ضبط الدقة ونسبة الأبعاد بشكل مستقل.

كيف يعمل Wan 2.7 R2V على Novita AI؟

R2V هو الوضع الخاص بفيديو سردي متسق مع الشخصيات. تقوم بتوفير عنصر وسائط مرجعي واحد أو أكثر — صور أو مقاطع فيديو قصيرة — ويستخرج النموذج مظهر كل شخصية وحركتها وصوتها. ثم توجه تلك الشخصيات في المطالبة الخاصة بك باستخدام character1، character2، إلخ.

هذا هو المكان الذي يتقدم فيه Wan 2.7 بشكل ملحوظ عن 2.6. بدلاً من الاقتصار على 1–2 فيديو مرجعي، يقبل 2.7 ما يصل إلى خمسة عناصر وسائط إجمالاً (صور: 0–5، فيديوهات: 0–3، المجموع ≤ 5)، مما يمنحك مجموعة من الشخصيات دون الحاجة إلى تجميع عمليات توليد منفصلة.

تتحكم معلمة shot_type في البنية السردية: single يحافظ على الإخراج كلقطة مستمرة واحدة؛ multi يُنشئ تسلسلاً مع انتقالات. تأخذ قيمة multi الأولوية على أي تعليمات لقطة بلقطة في المطالبة الخاصة بك، لذا فهي تبديل وضع متعمد وليس تلميحًا في المطالبة.

السلوك الصوتي في R2V هو أيضًا أكثر وضوحًا: يتحكم المنطق audio (افتراضي true) في ما إذا كان يتم توليد الصوت على الإطلاق، ويسمح لك reference_voice بتحديد مرجع صوتي لحوار الشخصية.

المعلمات الرئيسية:

  • media — مطلوبة؛ مصفوفة من عناصر الوسائط المرجعية؛ الترتيب يتوافق مع character1، character2، إلخ.
  • prompt — مطلوبة؛ استخدم character1، character2 للإشارة إلى الشخصيات
  • size — الدقة؛ نفس خيارات 720P/1080P كما في T2V
  • duration — 2–10 ثوانٍ (حد أقصى أقصر من T2V/I2V)
  • shot_typesingle (افتراضي) أو multi
  • audio — منطقي، افتراضي true
  • reference_voice — مرجع صوت اختياري لكلام الشخصية
  • negative_prompt — اختياري؛ بحد أقصى 500 حرف؛ صينية أو إنجليزية

لمن يناسب R2V: المطورون الذين يبنون رموز فيديو، ومنشئو المحتوى القصير الذين يحتاجون إلى طاقم تمثيل ثابت، أو أي شخص يقوم بسيناريوهات لعب الأدوار/أداء الشخصيات.

تنبيه: يحد R2V بـ 10 ثوانٍ لكل عملية توليد. للتسلسلات الأطول، خطط لربط استدعاءات R2V متعددة. يتعامل نوع اللقطة multi مع الانتقالات ضمن تلك النافذة، لكنه لا يمدد سقف الـ 10 ثوانٍ.

مقارنة الأسعار عبر الأوضاع

يتم فوترة جميع أوضاع Wan 2.7 الثلاثة لكل ثانية من الفيديو المُنشأ، وليس لكل طلب. تؤثر الدقة أيضًا على التكلفة — مخرجات 1080P تكلف أكثر من 720P. تحتوي نقطة نهاية R2V على منطق audio إضافي يؤثر على التسعير عند تمكينه.

التسعير مدرج في صفحات نماذج Wan 2.7 T2V، Wan 2.7 I2V، و Wan 2.7 R2V على Novita AI. تحقق من تلك الصفحات مباشرة للحصول على الأسعار الحالية لكل ثانية، حيث يتم تحديث أسعار نماذج الفيديو بشكل متكرر.

لتقدير التكلفة لسير العمل: اضرب المدة المستهدفة في السعر لكل ثانية للدقة التي اخترتها. على سبيل المثال، مقطع T2V بدقة 1080P وطول 10 ثوانٍ يكلف 10 × السعر المعلن لـ 1080P/ثانية. نظرًا لأن T2V و I2V يشتركان في نفس الحد الأقصى للمدة (15 ثانية) وخيارات الدقة، فإن منحنيات التكلفة الخاصة بهما متشابهة؛ الحد الأقصى لـ R2V البالغ 10 ثوانٍ يعني أن أقصى تكلفة لكل عملية توليد أقل.

أذرع التحكم في التكلفة:

  • استخدم 720P للتطوير والاختبار؛ قم بالتبديل إلى 1080P فقط للمخرجات النهائية
  • أبقِ prompt_extend مفعلًا (افتراضي T2V) — يحسن الجودة دون التأثير على التكلفة
  • بالنسبة لـ R2V، قم بتعيين audio: false عندما تقوم بتوفير الصوت الخاص بك في مرحلة ما بعد الإنتاج

ما الوضع الذي يجب استخدامه؟

ابدأ بـ T2V عندما: تقوم بتوليد محتوى أصلي من نص أو مطالبة وليس لديك مرئيات مصدرية. إنه المسار الأقل تعقيدًا — مطالبة واحدة، استدعاء واحد، فيديو بالإضافة إلى صوت كمخرج. جيد لتوليد محتوى بكميات كبيرة، وإنشاء أصول الحملات، واستكشاف المفاهيم بسرعة.

انتقل إلى I2V عندما: لديك صور أو لقطات موجودة تحتاج إلى الحركة. وضع الإطار الأول يُحرك صور المنتجات أو الرسوم التوضيحية؛ وضع الإطار الأول + الأخير يمنحك انتقالات متحكم بها بين إطارين رئيسيين؛ وضع الاستمرار يمدد اللقطات التي لديك بالفعل. I2V هو الخيار الصحيح عندما تكون مادتك المصدرية هي التي تقود المخرجات البصرية.

استخدم R2V عندما: هوية الشخصية واتساقها مهمان. إذا كانت حالة الاستخدام الخاصة بك تتطلب ظهور نفس الشخص (أو عدة أشخاص) عبر فيديوهات متعددة، أو إذا كنت تبني محتوى قائمًا على الأداء مثل رموز الفيديو أو المشاهد النصية، فإن نظام الشخصيات المرجعية في R2V هو الحل المصمم خصيصًا. يضيف نوع اللقطة multi بنية سينمائية دون خطوة مستقلة لرسم القصة المصورة.

شجرة قرار عملية:

  1. هل لديك شخصيات مرجعية أو أشخاص يجب أن يظهروا في الفيديو؟ → R2V
  2. هل لديك صورة موجودة أو مقطع فيديو تريد تحريكه أو تمديده؟ → I2V
  3. هل تقوم بتوليد لقطات أصلية من وصف نصي فقط؟ → T2V

البدء مع Novita AI API

تتبع جميع نقاط النهاية الثلاث نفس النمط غير المتزامن: POST لتقديم مهمة، واستلام task_id، ثم الاستعلام عن Task Result API.

المتطلبات الأساسية: مفتاح API من وحدة تحكم Novita AI الخاصة بك. تتلقى الحسابات الجديدة 1 دولارًا كرصيد مجاني.

بداية سريعة مع T2V

import requests, time

API_KEY = "your_api_key"
BASE = "https://api.novita.ai"

# Submit generation
resp = requests.post(
    f"{BASE}/v3/async/wan2.7-t2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "prompt": "A golden retriever running through autumn leaves in a park, warm afternoon light",
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 5,
            "prompt_extend": True
        }
    }
)
task_id = resp.json()["task_id"]

# Poll for result
while True:
    result = requests.get(
        f"{BASE}/v3/async/task-result",
        headers={"Authorization": f"Bearer {API_KEY}"},
        params={"task_id": task_id}
    ).json()
    if result.get("task", {}).get("status") == "TASK_STATUS_SUCCEED":
        print(result["videos"][0]["video_url"])
        break
    time.sleep(5)

I2V — استمرار الفيديو

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-i2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "first_clip_url": "https://example.com/existing-clip.mp4",
            "prompt": "Continue the scene with smooth camera pan to the right"
        },
        "parameters": {
            "resolution": "1080P",
            "duration": 8
        }
    }
)
task_id = resp.json()["task_id"]

R2V — مشهد متعدد الشخصيات

resp = requests.post(
    f"{BASE}/v3/async/wan2.7-r2v",
    headers={"Authorization": f"Bearer {API_KEY}", "Content-Type": "application/json"},
    json={
        "input": {
            "media": [
                {"type": "image", "url": "https://example.com/person-a.jpg"},
                {"type": "image", "url": "https://example.com/person-b.jpg"}
            ],
            "prompt": "character1 and character2 are having a conversation at a café, natural daylight"
        },
        "parameters": {
            "size": "1920*1080",
            "duration": 8,
            "shot_type": "multi",
            "audio": True
        }
    }
)
task_id = resp.json()["task_id"]

المرجع الكامل للمعلمات لكل وضع موجود في وثائق Wan 2.7 T2V API، وثائق Wan 2.7 I2V API، و وثائق Wan 2.7 R2V API.

إذا كنت ترغب في مقارنة Wan 2.7 مع الجيل السابق، فإن دليل Wan 2.6 على Novita AI يغطي مجموعة ميزات 2.6 الكاملة وسطح المعلمات.

الخلاصة

ينظم Wan 2.7 قدراته التوليدية في ثلاثة أوضاع مصممة خصيصًا بدلاً من نقطة نهاية واحدة ضخمة. T2V هو أسرع مسار من الفكرة إلى الفيديو عندما لا يكون لديك مواد مصدرية — يكفي مطالبة ومفتاح API. يمنحك I2V التحكم في الحركة والاستمرارية عندما تعمل من صور أو لقطات موجودة، مع ثلاثة أنماط إدخال متميزة في نقطة نهاية واحدة. يتعامل R2V مع المشكلة الأصعب: فيديو متسق مع الشخصيات عبر المشاهد، مع ما يصل إلى خمس شخصيات مرجعية وهيكل متعدد اللقطات مدمج.

الترقية من 2.6 إلى 2.7 تكون أكثر وضوحًا في I2V (الاستمرارية أصبحت أصلية الآن، وليست حلاً بديلاً) و R2V (خمس شخصيات مقابل اثنتين، فتحات مسماة مقابل موضعية). يحمل T2V نقاط قوة 2.6 مع سطح معلمة أنظف.

بالنسبة لمعظم سير العمل، شجرة القرار بسيطة: ابدأ بـ T2V للمحتوى الأصلي، وانتقل إلى I2V عندما يكون لديك صورة مصدرية أو مقطع، وانتقل إلى R2V عندما تحتاج هوية الشخصية إلى البقاء متسقة عبر عمليات توليد متعددة.

الأسئلة الشائعة

ما الفرق بين Wan 2.7 T2V و I2V و R2V؟ يُولد T2V فيديو من مطالبة نصية فقط. يُحرك I2V صورة موجودة أو يمدد مقطع فيديو موجود. يُولد R2V فيديو متسقًا مع الشخصيات باستخدام صور أو مقاطع مرجعية كقوالب للشخصيات. كل وضع هو نقطة نهاية منفصلة محسنة لنوع الإدخال الخاص به.

هل يمكن لـ Wan 2.7 توليد الصوت تلقائيًا؟ نعم. جميع الأوضاع الثلاثة تدعم توليد الصوت تلقائيًا بشكل افتراضي. يُولد T2V و I2V موسيقى خلفية ومؤثرات صوتية تتطابق مع المشهد؛ يضيف R2V معلمة reference_voice لحوار الشخصية. يمكنك توفير الصوت الخاص بك عبر audio_url (T2V) أو driving_audio_url (I2V)، أو تعطيل الصوت باستخدام audio: false (R2V).

ما أطوال الفيديو التي يدعمها Wan 2.7؟ يدعم كل من T2V و I2V 2–15 ثانية. يحد R2V بـ 10 ثوانٍ لكل عملية توليد. تستخدم جميع الأوضاع حدًا أدنى يبلغ ثانيتين.

كيف يعمل استمرار الفيديو في I2V؟ أرسل first_clip_url يشير إلى ملف mp4 أو mov موجود (2–10 ثوانٍ). يقوم النموذج بتحليل محتوى المقطع وحركته، ثم يُنشئ مقطعًا جديدًا يستمر بشكل طبيعي من الإطار الأخير. لا ترسل image_url جنبًا إلى جنب مع first_clip_url — فهما لوضعين مختلفين.

كم عدد الشخصيات المرجعية التي يدعمها Wan 2.7 R2V؟ ما يصل إلى خمسة عناصر وسائط إجمالاً (صور: 0–5، فيديوهات: 0–3، المجموع ≤ 5). يتوافق كل عنصر مع فتحة شخصية مسماة (character1، character2، إلخ) تستخدمها في المطالبة الخاصة بك.

هل تؤثر الدقة على التسعير؟ نعم. يتم فوترة الأوضاع الثلاثة لكل ثانية من الفيديو المُنشأ، وتكلف 1080P أكثر لكل ثانية من 720P. استخدم 720P أثناء التطوير وانتقل إلى 1080P للمخرجات النهائية لإدارة التكاليف.

هل يمكنني استخدام Wan 2.7 عبر REST API؟ نعم. جميع نقاط النهاية قائمة على REST وتتبع نمطًا غير متزامن: POST مهمة للحصول على task_id، ثم الاستعلام عن Task Result API. راجع أمثلة API في قسم “البدء” أعلاه، والمرجع الكامل للمعلمات في وثائق Novita AI API.

مقالات موصى بها