خلف الكواليس: كيف نستضيف النماذج على Novita AI

خلف الكواليس: كيف نستضيف النماذج على Novita AI

النماذج مفتوحة المصدر مثل Deepseek V3 و Qwen3 Coder لا تكتفي فقط بمواكبة النماذج المغلقة المصدر المنافسة لها، بل تقدم أداءً متطورًا بميزة تكلفة تتراوح بين 6 إلى 10 أضعاف. لكن هذا الإمكانات الهائلة تأتي مع تحدي خفي: نادرًا ما يتم استضافة النماذج مفتوحة المصدر، بينما يتم استضافة النماذج المغلقة المصدر دائمًا تقريبًا.

بالنسبة لمعظم الفرق، يعد نشر هذه النماذج داخليًا تحديًا لثلاثة أسباب رئيسية:

  1. مكلف: لتشغيل نموذج مثل Llama 3.3 70B، ستحتاج على الأرجح إلى وحدتي معالجة رسومية H100، وهي نفقة أولية ضخمة. لزيادة الطين بلة، غالبًا ما يظل هذا العتاد باهظ الثمن خاملاً خلال فترات انخفاض الطلب، مما يؤدي إلى استخدام ضعيف واستثمار مهدر.
  2. معقد: يتطلب نشر وصيانة نماذج اللغة الكبيرة (LLMs) خبرة عميقة في تحسين الاستدلال وعمليات وحدات المعالجة الرسومية، ولا يعد توظيف فريق MLOps كاملًا منطقيًا لمعظم الشركات.
  3. مرهق: يتم إصدار نماذج جديدة بشكل متكرر، لكن الإعدادات الداخلية صلبة، مما يجعل اختبار النماذج الجديدة أو التوسع لتلبية التقلبات المفاجئة في الطلب بطيئًا وصعبًا.

في Novita AI، نعتقد أنه لا يجب عليك الاختيار بين قوة المصدر المفتوح وجودة الخدمة المُدارة. تم تصميم منصتنا لتقديم الاستقرار والأداء وتجربة المطور التي تتوقعها من النموذج المغلق المميز، مع فوائد التكلفة للنظام البيئي المفتوح. نقدم استضافة على مستوى الإنتاج للنماذج اللغوية الكبيرة مفتوحة المصدر.

إليك لمحة خلف الكواليس عما نفعله لجعل هذا ممكنًا.

خلف الكواليس لاستضافة النماذج

عندما تستضيف نموذجًا مخصصًا على Novita AI أو تستدعي واجهة برمجة التطبيقات (API) الخاصة بالنماذج اللغوية الكبيرة مفتوحة المصدر لدينا، يحدث الكثير تحت السطح. تتطلب استضافة النماذج على نطاق واسع عملية معقدة من التنسيق والتحسين والمراقبة المستمرة لضمان أن كل طلب سريع وموثوق.

تخزين النماذج والعتاد الصلب

نحتفظ بمكتبة دافئة من النماذج مفتوحة المصدر الشائعة (مثل Llama و Qwen و DeepSeek)، والتي تتضمن تخزين هذه النماذج التي تحتوي على مليارات المعاملات. وبما أن تشغيل هذه النماذج اللغوية الكبيرة يتطلب عتادًا متخصصًا، فإننا نتعاون مع مراكز بيانات حول العالم لضمان خدمة سريعة وموثوقة للمستخدمين في كل موقع لإدارة:

  • خوادم قوية بما يكفي للتعامل مع أحمال عمل الاستدلال
  • شبكات لنقل الطلبات والاستجابات بسرعة
  • طاقة للحفاظ على تشغيل كل شيء على مدار الساعة طوال أيام الأسبوع

نتكبد تكاليف العتاد الصلب ونقدم:

  • مكتبة النماذج الدافئة: نحتفظ بمئات النماذج التي تم تشغيلها مسبقًا. يسمح لك هذا باختبار والتحقق من أحدث النماذج اللغوية الكبيرة (LLMs) لحالة الاستخدام الخاصة بك فورًا.
  • نقاط نهاية بدون خادم بالدفع حسب الاستخدام: تدفع فقط مقابل الرموز التي تستخدمها. نموذج التسعير هذا القائم على الرموز مثالي للتطبيقات ذات الطلب المتغير، مثل روبوتات الدردشة وتوليد النصوص، مما يضمن أنك لا تدفع أبدًا مقابل سعة خاملة.
  • عمليات نشر مخصصة عند الطلب: عندما تحتاج إلى مزيد من التحكم، يمكنك استئجار وحدات معالجة رسومية (GPUs) قوية مثل NVIDIA H100 مقابل 1.85 دولار في الساعة كحد أدنى. يسمح لك هذا بتوسيع مواردك وفقًا لاحتياجاتك، محولًا النفقات الرأسمالية الثقيلة إلى تكلفة تشغيلية يمكن التنبؤ بها.
  • تكامل صديق للمطورين: قمنا بإعداد واجهة برمجة تطبيقات (API) موحدة تخفي التعقيدات الأساسية. تم تصميم هذه الواجهات لتكون متوافقة مع الأطر الشائعة مثل واجهة برمجة تطبيقات OpenAI، مما يسهل عليك تبديل مقدمي الخدمة: فقط قم بتغيير عنوان URL الأساسي والمفتاح، وستحصل على إمكانية الوصول إلى جميع النماذج المفتوحة في مكتبتنا. كما نتكامل بسلاسة مع أطر مثل LangChain و LiteLLM و LlamaIndex، لذلك لن يؤدي تبديل أو تجربة النماذج الجديدة إلى تعطيل سير عملك الحالي.

تحسين الاستدلال

تنفيذ النموذج الخام هو مجرد البداية. لتقديم أفضل أداء بأقل تكلفة، نستخدم عدة تقنيات لتحسين الاستدلال:

  1. التكميم: تقليل دقة أوزان النموذج، مما يجعلها أصغر وأسرع في التشغيل مع الحفاظ على الأداء
  2. المعالجة بالدفعات: معالجة عدة طلبات مستخدم في نفس الوقت لتعظيم استخدام وحدات المعالجة الرسومية
  3. موازنة الأحمال: توزيع الطلبات عبر عدة خوادم بحيث لا يتم تحميل أي خادم واحد بشكل زائد، مع الحفاظ على زمن استجابة منخفض

نتولى التعامل مع التعقيدات الأساسية لتقديم تجربة مصقولة وصديقة للمطورين تجعل الذكاء الاصطناعي مفتوح المصدر متاحًا للجميع.

  • نقدم دعمًا مدمجًا للميزات الحرجة مثل Function Calling و Structured Outputs و Batch Inference. هذا يلغي الحاجة إلى بناء هذه الأنظمة المعقدة بنفسك، مما يسرع من وقت وصولك إلى السوق.
  • التوسع المرن لأي حمل عمل: تم تصميم بنيتنا التحتية لتكون مرنة بالكامل. تتوسع نقاط النهاية بدون خادم تلقائيًا للتعامل مع التزامن العالي مع زمن الوصول لأول رمز (TTFT) أقل من 300 مللي ثانية. تقدم عمليات النشر المخصصة والشركات توسعًا تلقائيًا لوحدات المعالجة الرسومية لتلبية أي طلب مع ضمان الأداء وعزل البيانات.

للتطبيقات الحرجة للمهمة، نقدم حل “Zero-Ops”. أرسل متطلباتك (اسم النموذج، طول الإدخال/الإخراج (I/O)، اتفاقية مستوى الخدمة (SLA) للأداء)، وسيقوم محرك تحسين النماذج اللغوية الكبيرة (LLM Optimizer Engine) لدينا بتصميم الحل الأكثر فعالية من حيث التكلفة خصيصًا لك. سيقوم فريق الخبراء لدينا أيضًا بنشر النموذج وإدارته نيابة عنك، مدعومًا باتفاقية مستوى خدمة (SLA) بنسبة 99.5%، وأداء مضمون، ودعم فني مباشر.

الاستضافة الذاتية مقابل استخدام النماذج المستضافة

يفضل بعض المطورين استضافة نماذجهم الخاصة للحصول على أقصى درجة من التحكم. إذا كنت واحدًا منهم، نحن هنا لدعمك: استأجر وحدات معالجة رسومية بالساعة عبر Novita AI واضبط مجموعتك التقنية بالطريقة التي تريدها تمامًا.

لكن الاستضافة الذاتية تأتي مع تنازلات كبيرة: يتطلب الإعداد والصيانة الوقت والخبرة، ويمكن أن يكون التوسع صعبًا، ويمكن أن يكون الموازنة بين تنازلات التكلفة والأداء تحديًا مستمرًا.

إن استخدام واجهات برمجة التطبيقات (APIs) لنماذج اللغة الكبيرة مفتوحة المصدر المستضافة مثل Novita يلغي هذا العبء، مما يمنحك حلًا جاهزًا للإنتاج بأداء يمكن التنبؤ به وعبء تشغيلي ضئيل. لقد قمنا بتحسين بنية Novita AI التحتية لنقدم لك أفضل تجربة بأقل تكلفة. من خلال تشغيل النماذج على نطاق واسع، يمكننا تقديم أسعار أقل مما يمكن للفرد أو الشركة الصغيرة تحقيقه من خلال الاستضافة الذاتية. نحن نفرض رسومًا بناءً على عدد الرموز المعالجة، لذلك تدفع فقط مقابل ما تستخدمه.

لقد صممنا ثلاث فئات خدمات لتوفير حل مثالي لكل مرحلة من مراحل رحلة الذكاء الاصطناعي الخاصة بك.

نقاط النهاية بدون خادم عمليات النشر المخصصة عمليات النشر للشركات
دعم النماذج نماذج لغة كبيرة حديثة مثل Qwen3 و DeepSeek و LLaMA3 مئات النماذج الدافئة + رفع نموذج مخصص مئات النماذج الدافئة + رفع نموذج مخصص
التسعير دفع حسب الاستخدام بناءً على عدد الرموز استئجار وحدات معالجة رسومية (GPUs) بالساعة عند الطلب تسعير بناءً على الأداء وعدد الرموز
التكامل خدمة ذاتية، تكامل بسطر واحد نشر ذاتي لوحدات المعالجة الرسومية، تكامل بسطر واحد نشر خبراء وخدمات للشركات
التوسع المرن توسع مرن ضمن حدود معدل الطلب نقاط نهاية مخصصة: توسع تلقائي لوحدات المعالجة الرسومية بناءً على الاستخدام توسع مرن بناءً على الأداء
حالة الاستخدام المثالية وصول سريع إلى النماذج الجديدة دون إدارة بنية تحتية الحاجة إلى مزيد من التحكم في النموذج والإعدادات المخصصة عمليات نشر مُدارة بالكامل مع أداء مضمون

ملاحظة: الحد الأقصى لوحدات المعالجة الرسومية (GPUs) لـ نقاط النهاية المخصصة هو 8. إذا كنت بحاجة إلى المزيد من وحدات المعالجة الرسومية، اتصل بقسم المبيعات للحصول على خدمة للشركات.

الخلاصة

سواء كنت تشغل نموذجًا تم ضبطه دقيقًا لحالة استخدام متخصصة أو تجرب أحدث النماذج اللغوية الكبيرة مفتوحة المصدر، فإن Novita AI يمنحك راحة النماذج المغلقة المصدر بأسعار المصدر المفتوح. إذا كنت مهتمًا بحل مخصص أو تريد مناقشة إعدادك، فجدولة محادثة مع مهندسينا هنا.

شكر وتقدير: شكر خاص لتشارلز، مدير مشروع النماذج اللغوية الكبيرة (LLM) في Novita، على مساهماته ورؤاه لهذا المقال.