Kling O1 على Novita AI: أوضاع T2V وI2V وRef2V وتحرير الفيديو

Kling O1 على Novita AI: أوضاع T2V وI2V وRef2V وتحرير الفيديو

Kling O1 (Kling Omni Video O1) هو أول نموذج فيديو متعدد الوسائط موحد من Kuaishou، ويكشف عن أربعة أوضاع توليد مميزة عبر واجهة برمجة تطبيقات Novita AI: من النص إلى الفيديو (T2V)، ومن الصورة إلى الفيديو (I2V)، ومن المرجع إلى الفيديو (Ref2V)، وتحرير الفيديو (Video Edit). كل وضع يقبل مدخلات مختلفة ويحل مشكلة مختلفة — اختيار الوضع الخطأ يضيف احتكاكًا وتكلفة. يشرح هذا الدليل ما يفعله كل وضع فعليًا، وما يتطلبه، وكيف يتم تسعيره على Novita AI، وأي واحد تجربه أولاً لحالات استخدام المطورين الشائعة.

ما هو Kling O1؟

تم بناء Kling O1 على بنية MVL (لغة بصرية متعددة الوسائط) من Kuaishou، والتي تدمج مهام النص والصورة والمرجع وتحرير الفيديو في نموذج واحد بدلاً من توجيهها إلى نماذج متخصصة منفصلة. هذا مهم عمليًا: نموذج الحركة الأساسي وترميز الهوية مشتركان عبر الأوضاع، لذا فإن الشخصيات والأشياء الموصوفة في وضع واحد تحمل خصائص بصرية متسقة إلى الوضع التالي.

مقارنة بإصدارات Kling السابقة (V2.5، V2.6، V3.0 Standard/Pro)، يضيف Kling O1 إمكانيات Ref2V وتحرير الفيديو الجديدة هيكليًا — لم تكن متوفرة في أي طبقة Standard أو Pro قبل O1. تكتسب T2V وI2V في O1 العمود الفقري المشترك لـ MVL، مما يحسن اتساق الموضوع عبر الإطارات مقارنة بنماذج التوليد السابقة.

Kling O1 متميز عن Kling 3.0 (يسمى أيضًا Kling O3). Kling 3.0 هو نموذج لاحق يضيف توليدًا صوتيًا أصليًا ومقاطع ممتدة لمدة 15 ثانية. يغطي Kling O1 على Novita AI حاليًا مقاطع فيديو تصل إلى 10 ثوانٍ بدون صوت أصلي.

الأوضاع الأربعة في لمحة

الوضع المدخل الأساسي المدخلات المطلوبة المدة السعر على Novita AI
T2V موجه نصي prompt 5–10 ث $0.112/ثا
I2V صورة + موجه image_url, prompt 5–10 ث $0.112/ثا
Ref2V صور مرجعية + موجه prompt, image_urls أو elements 3–10 ث $0.168/ثا
تحرير فيديو فيديو مصدر + موجه video_url, prompt 3–10 ث (سريع: 6–20 ث) $0.168/ثا (سريع: $0.09/ثا)

تم التحقق من التسعير على صفحات نموذج Novita AI في 26 يونيو 2026. يتم تطبيق الفوترة لكل ثانية على المدة التي تحددها.

Kling O1 من النص إلى الفيديو (T2V) على Novita AI

نقطة النهاية: POST /v3/async/kling-o1-t2v

يقوم T2V بتوليد فيديو بالكامل من وصف نصي. تقدم موجهًا؛ يقوم النموذج بإنشاء الحركة والإضاءة وحركة الكاميرا وتكوين المشهد من الصفر. لا يوجد مرساة صورة، لذا فإن النموذج لديه حرية إبداعية كاملة ضمن قيود الموجه.

استخدم T2V عندما:

  • لا تملك صورة مرجعية أو إطار مشهد.
  • تستكشف مفهومًا قبل الالتزام باتجاه بصري.
  • تحتاج إلى توليد العديد من الاختلافات البصرية بتكلفة منخفضة لكل مقطع.

بتكلفة $0.112/ثا، تبلغ تكلفة المقطع الذي تبلغ مدته 5 ثوانٍ $0.56 والمقطع الذي تبلغ مدته 10 ثوانٍ $1.12. يدعم T2V مددًا تبلغ 5 ثوانٍ و10 ثوانٍ على Novita AI بنسب أبعاد 16:9 و9:16 و1:1.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "ثعلب أحمر يهرول عبر غابة صنوبرية مغطاة بالثلوج، ضوء الساعة الذهبية، لقطة واسعة سينمائية",
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

Kling O1 من الصورة إلى الفيديو (I2V) على Novita AI

نقطة النهاية: POST /v3/async/kling-o1-i2v

يقوم I2V بتحريك صورة ثابتة إلى مقطع فيديو. تصبح الصورة المصدر الإطار البداية؛ يتحكم الموجه في الحركة وتطور المشهد التالي. يمكنك اختياريًا توفير إطار نهاية لإعطاء النموذج حالة مستهدفة، ويقوم النموذج باستيفاء الحركة بين البداية والنهاية.

مطلوب: image_url (إطار البداية) وprompt. إطار النهاية (end_image_url) اختياري ولكنه مفيد عندما تريد تكوينًا محددًا عند نقطة القطع.

استخدم I2V عندما:

  • لديك صورة أو تصميم موجود يحتاج إلى الحركة.
  • تريد تأريضًا بصريًا حتميًا — مظهر الشخصية أو المشهد محدد بالفعل في الصورة المصدر.
  • تقوم ببناء عروض توضيحية للمنتج أو محتوى اجتماعي أو رسوم متحركة للتجارة الإلكترونية من الأصول الموجودة.

بتكلفة $0.112/ثا، تكون تكلفة I2V مماثلة لـ T2V. المقايضة الرئيسية هي أن I2V يقفل الإطار الافتتاحي على صورة الإدخال الخاصة بك، مما يحسن الاتساق ولكنه يعني أيضًا أن صورة المصدر منخفضة الجودة تحد من المخرجات. قيود الصورة على Novita AI: الحد الأدنى 300×300 بكسل، الحد الأقصى لحجم الملف 10 ميجابايت، نسبة العرض إلى الارتفاع بين 0.4 و2.5.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-i2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "image_url": "https://example.com/product-shot.jpg",
    "prompt": "المنتج يدور ببطء ليكشف عن اللوحة الخلفية، إضاءة استوديو ناعمة",
    "duration": 5,
    "aspect_ratio": "1:1"
  }'

Kling O1 من المرجع إلى الفيديو (Ref2V) على Novita AI

نقطة النهاية: POST /v3/async/kling-o1-ref2v

Ref2V هو الوضع الأكثر مرونة وهو الذي يستخدم بنية MVL الخاصة بـ O1 بشكل مباشر. بدلاً من إطار بداية واحد، تقوم بتوفير ما يصل إلى سبع صور مرجعية عبر نوعين من المدخلات: image_urls (مراجع النمط أو المشهد) وelements (مراسي هوية الشخصية أو الكائن). يستخدم الموجه علامات @Image1 و@Image2 و@Element1 و@Element2 لإخبار النموذج بالمرجع الذي يجب تطبيقه وأين.

يتيح لك هذا تكوين مشهد من أصول مصدر متعددة: شخصية واحدة من صورة شخصية، وخلفية من صورة موقع، ودعامة من صورة منتج — يتم الرجوع إليها جميعًا بالاسم في الموجه.

قواعد الإدخال:

  • prompt مطلوب.
  • image_urls وelements اختياريان ولكن يجب أن يكون واحد منهما على الأقل ذا معنى؛ الموجه العاري بدون مراجع يعمل ولكن سلوكه أقرب إلى T2V.
  • يجب ألا يتجاوز إجمالي المراجع (elements + image_urls) 7.
  • يمكن أن يتضمن كل عنصر في elements عدة reference_image_urls (لقطات متعددة الزوايا) بالإضافة إلى frontal_image_url اختياري لمطابقة هوية أكثر نظافة.

استخدم Ref2V عندما:

  • تحتاج إلى شخصيات متسقة عبر مقاطع متعددة (محتوى حلقات، تسلسلات تسويقية).
  • تقوم بدمج شخصيات أو كائنات من صور مصدر مختلفة في مشهد واحد.
  • تريد من النموذج أن يستيف من إطار بداية مع الحفاظ على الهوية البصرية من مجموعة مراجع منفصلة.

تكلفة Ref2V هي $0.168/ثا — 50٪ أكثر من T2V وI2V. بالنسبة لمقطع مدته 5 ثوانٍ، هذا هو $0.84؛ لمدة 10 ثوانٍ، $1.68. يعكس القسط خطوة ترميز المرجع الإضافية. إذا كانت حالة الاستخدام الخاصة بك لا تتطلب اتساق الهوية عبر الصور، فإن I2V بسعر $0.112/ثا كافٍ.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-ref2v \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "خذ @Image1 كإطار البداية. يمشي @Element1 إلى المشهد ويلتقط القطعة الأثرية المتوهجة. إضاءة سينمائية، كاميرا ثابتة.",
    "image_urls": ["https://example.com/scene-bg.jpg"],
    "elements": [
      {
        "reference_image_urls": ["https://example.com/character-front.jpg", "https://example.com/character-side.jpg"],
        "frontal_image_url": "https://example.com/character-front.jpg"
      }
    ],
    "duration": 5,
    "aspect_ratio": "16:9"
  }'

وضع تحرير الفيديو Kling O1 على Novita AI

نقطة النهاية (قياسية): POST /v3/async/kling-o1-video-edit

نقطة النهاية (سريعة): متاحة عبر متغير Fast VideoEdit من Novita AI

يأخذ تحرير الفيديو فيديو موجودًا كمدخل ويحوله باستخدام موجه باللغة الطبيعية. يحافظ النموذج على بنية الحركة الأصلية — التوقيت، حركة الكاميرا، قوس الحركة — مع تغيير الموضوعات أو البيئات أو النمط البصري وفقًا للموجه. يمكنك أيضًا توفير صور مرجعية ومراسي عناصر باستخدام نفس نظام العلامات @Image1 / @Element1 الموجود في Ref2V.

مطلوب: video_url (فيديو مصدر، 3–10 ثوانٍ، MP4 أو MOV، 720–2160 بكسل، بحد أقصى 200 ميجابايت) وprompt.

متغيران:

  • VideoEdit قياسي: يدعم مقاطع فيديو مصدر من 3 إلى 10 ثوانٍ، بسعر $0.168/ثا.
  • VideoEdit سريع: يدعم مقاطع فيديو مصدر من 6 إلى 20 ثانية، بسعر $0.09/ثا — أقل تكلفة في الثانية من أي وضع Kling O1 على Novita AI.

استخدم تحرير الفيديو عندما:

  • لديك لقطات تحتاج إلى تغيير في الأسلوب أو المحتوى دون إعادة التصوير.
  • تريد استبدال شخصية في فيديو موجود مع الحفاظ على نفس الحركة.
  • تحتاج إلى تحويل مقطع حركة حية إلى نمط متحرك.

القيود الرئيسية: يتحكم الفيديو المصدر في الحركة. لا يمكن لتحرير الفيديو تغيير ما يفعله الموضوع — يمكنه فقط تغيير كيف يبدو الموضوع وما هي البيئة التي يشغلها. للتغييرات في الحركة، قم بإنشاء لقطات جديدة باستخدام T2V أو I2V بدلاً من ذلك.

curl --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-video-edit \
  --header 'Authorization: Bearer $NOVITA_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "video_url": "https://example.com/source-clip.mp4",
    "prompt": "حول الإعداد إلى زقاق سايبربانك مضاء بالنيون، حافظ على حركات الشخصية كما هي تمامًا",
    "duration": 5
  }'

التسعير على Novita AI

تستخدم جميع أوضاع Kling O1 على Novita AI الفوترة بالثانية مقابل المدة التي تحددها عند الطلب. تم التحقق من التسعير في 26 يونيو 2026.

الوضع نقطة النهاية نطاق المدة السعر/ثا تكلفة 5 ثوانٍ تكلفة 10 ثوانٍ
T2V /v3/async/kling-o1-t2v 5–10 ث $0.112 $0.56 $1.12
I2V /v3/async/kling-o1-i2v 5–10 ث $0.112 $0.56 $1.12
Ref2V /v3/async/kling-o1-ref2v 3–10 ث $0.168 $0.84 $1.68
VideoEdit /v3/async/kling-o1-video-edit 3–10 ث $0.168 $0.84 $1.68
VideoEdit سريع (متغير Novita AI Fast) 6–20 ث $0.090 $0.90

يحصل المستخدمون الجدد في Novita AI على أرصدة مجانية. تحقق من صفحة تسعير Novita AI للحصول على الأسعار الحالية، حيث قد تتغير الأسعار.

ما الوضع الذي يجب أن تبدأ به؟

ابدأ بـ T2V إذا كان هدفك هو استكشاف المفهوم أو ليس لديك أصل صورة معين. إنها نقطة الدخول الأقل احتكاكًا: معلمة واحدة مطلوبة (prompt)، لا حاجة لإعداد الأصول.

انتقل إلى I2V عندما يكون لديك صورة تحتاج إلى الحركة. صور المنتج ورسوم الشخصيات وخلفيات المشاهد تعمل جميعها بشكل جيد كإطارات بداية لـ I2V. نفس سعر T2V، تحكم بصري أكثر.

استخدم Ref2V عندما يكون اتساق الهوية عبر المقاطع مهمًا — على سبيل المثال، شخصية متكررة في مشاهد متعددة، أو دمج شخص معين مع بيئة معينة. ضع في الاعتبار علاوة السعر البالغة 50٪؛ فهي ليست ضرورية لتوليد مقطع واحد.

احتفظ بـ تحرير الفيديو لسير عمل ما بعد الإنتاج حيث تحتاج اللقطات الموجودة إلى تجديد بصري ولكن يجب أن تظل الحركة سليمة. المتغير السريع بسعر $0.09/ثا هو الخيار الأكثر فعالية من حيث التكلفة للتحريرات الأطول (6–20 ثانية) حيث تكون سرعة التوليد أقل أهمية.

الموقف الوضع الموصى به
لا توجد صورة، استكشاف الأفكار T2V
لديك صورة منتج أو مشهد، تريد حركة I2V
تحتاج نفس الشخصية عبر مقاطع متعددة Ref2V
لديك لقطات فيديو، تريد مظهرًا مختلفًا VideoEdit (قياسي)
تحرير طويل (6–20 ث)، حساس للتكلفة VideoEdit سريع

كيفية استدعاء واجهة برمجة تطبيقات Kling O1 على Novita AI

جميع أوضاع Kling O1 الأربعة على Novita AI غير متزامنة. كل طلب يعيد task_id فورًا؛ قم بالاستعلام عن نقطة نهاية نتيجة المهمة حتى تصبح الحالة succeed.

# الخطوة 1: أرسل مهمة التوليد الخاصة بك (مثال: T2V)
RESPONSE=$(curl --silent --request POST \
  --url https://api.novita.ai/v3/async/kling-o1-t2v \
  --header "Authorization: Bearer $NOVITA_API_KEY" \
  --header "Content-Type: application/json" \
  --data '{"prompt": "موجهك هنا", "duration": 5, "aspect_ratio": "16:9"}')

TASK_ID=$(echo $RESPONSE | python3 -c "import sys,json; print(json.load(sys.stdin)['task_id'])")

# الخطوة 2: استعلم عن النتائج
curl --request GET \
  --url "https://api.novita.ai/v3/async/task-result?task_id=$TASK_ID" \
  --header "Authorization: Bearer $NOVITA_API_KEY"

يتضمن الرد حقل status. عندما يقرأ succeed، يحتوي مصفوفة videos على رابط الإخراج. وقت التوليد النموذجي هو 30–120 ثانية حسب المدة والوضع.

احصل على مفتاح API الخاص بك من لوحة تحكم Novita AI. الحسابات الجديدة تحصل على أرصدة مجانية لاختبار جميع الأوضاع الأربعة قبل الالتزام بحجم الإنتاج.

الخلاصة

يمنح Kling O1 على Novita AI المطورين إمكانية الوصول إلى أربعة أوضاع متميزة لتوليد الفيديو — T2V وI2V وRef2V وتحرير الفيديو — من خلال واجهة برمجة تطبيقات موحدة واحدة. تغطي T2V وI2V حالات التوليد الشائعة بسعر $0.112/ثا. يضيف Ref2V تكوين هوية متعدد المراجع للشخصيات المتكررة بسعر $0.168/ثا. يحول تحرير الفيديو اللقطات الموجودة مع الحفاظ على الحركة، مع متغير سريع بسعر $0.09/ثا للمقاطع الأطول. اختيار الوضع الصحيح مسبقًا يوفر التكلفة ويزيل الاحتكاك: ابدأ بـ T2V إذا لم يكن لديك أصل صورة، وI2V إذا كان لديك، وRef2V عندما يكون اتساق الهوية عبر المقاطع مهمًا، وتحرير الفيديو عندما تكون الحركة ملتقطة بالفعل. تشترك جميع الأوضاع في نفس نمط المهمة غير المتزامنة على Novita AI، لذا فإن دمج أوضاع متعددة في خط أنابيب واحد يتطلب حدًا أدنى من الكود الإضافي.

Novita AI هي منصة سحابية للذكاء الاصطناعي تمنح المطورين إمكانية الوصول المستضاف إلى نماذج الفيديو والصورة والصوت واللغة من خلال واجهة برمجة تطبيقات موحدة.

الأسئلة الشائعة

ما الفرق بين Kling O1 T2V وI2V على Novita AI؟

يقوم T2V بتوليد الفيديو من موجه نصي فقط — لا حاجة لصورة. يأخذ I2V صورة كإطار بداية ويحركها وفقًا للموجه. كلاهما بسعر $0.112/ثا ويدعمان مقاطع من 5 إلى 10 ثوانٍ. استخدم T2V للاستكشاف؛ استخدم I2V عندما يكون لديك مرساة بصرية محددة.

ما الذي يفعله Kling O1 Ref2V ولا يستطيع I2V فعله؟

يقبل Ref2V ما يصل إلى 7 صور مرجعية عبر فتحات إدخال متعددة، مما يتيح لك الجمع بين مصادر منفصلة لهوية الشخصية وخلفية المشهد والنمط. تشير إلى كل إدخال بالاسم في الموجه (@Element1، @Image1). يستخدم I2V إطار بداية واحد بدون نظام مرجعي مسمى.

هل Kling O1 هو نفسه Kling 3.0؟

لا. Kling O1 (صدر ديسمبر 2025) هو النموذج الأساسي الموحد للفيديو متعدد الوسائط. Kling 3.0 (يسمى أيضًا Kling O3، صدر فبراير 2026) هو نموذج لاحق يضيف توليدًا صوتيًا أصليًا ومقاطع تصل إلى 15 ثانية. يدعم Kling O1 على Novita AI فيديو يصل إلى 10 ثوانٍ بدون صوت أصلي.

كيف أختار بين VideoEdit القياسي وVideoEdit السريع؟

يقبل VideoEdit القياسي مقاطع مصدر من 3 إلى 10 ثوانٍ بسعر $0.168/ثا. يقبل VideoEdit السريع مقاطع من 6 إلى 20 ثانية بسعر $0.09/ثا. إذا كان الفيديو المصدر أقل من 10 ثوانٍ ووقت التسليم مهم، استخدم القياسي. إذا كان لديك مقاطع أطول أو تقوم بأعمال إنتاج ما بعد الدفعة، فإن السريع أرخص بكثير.

مقالات موصى بها