- ما المشكلة التي يحلها PegaFlow لتقديم vLLM؟
- كيف يتكامل PegaFlow مع vLLM؟
- ما الذي تضيفه بنية Novita AI؟
- ما نتائج الأداء المتاحة للجمهور؟
- متى تكون ذاكرة التخزين المؤقت KV الخارجية الأكثر فائدة؟
- كيف يمكن للمطورين فحص PegaFlow اليوم؟
- ما الذي يجب على فرق المنصة التحقق منه قبل اعتماده؟
- الأسئلة الشائعة
- الخلاصة
- مقالات مقترحة
ذاكرة التخزين المؤقت KV الخارجية من PegaFlow لـ vLLM
سرعة بدء تشغيل أسرع بمقدار 2.15 مرة هو الرقم الرئيسي من المقال المشترك بين vLLM و Novita AI PegaFlow، لكن النقطة الأعمق هي معمارية: تقديم LLM في الإنتاج يحتاج إلى ملكية ذاكرة التخزين المؤقت KV خارج عملية محرك الاستدلال الواحدة. يجعل PegaFlow من ذاكرة التخزين المؤقت KV خدمة مستقلة بحيث يمكن لنشرات vLLM الحفاظ على ذاكرة التخزين المؤقت ومشاركتها وتوسيعها عبر عمليات إعادة التشغيل والمثيلات المحلية والعقد البعيدة.
يقدم هذا المنشور وجهة نظر Novita AI حول سبب بناء PegaFlow، وما يظهره التكامل العام مع vLLM، وما هي الادعاءات المدعومة بالمصادر بالفعل، وكيف يمكن للمطورين فحص التطبيق مفتوح المصدر اليوم.
استكشف مستودع PegaFlow على GitHub أو اقرأ المقال المشترك vLLM x Novita AI للحصول على الشرح الفني الكامل.
ما المشكلة التي يحلها PegaFlow لتقديم vLLM؟
يعالج PegaFlow هشاشة ذاكرة التخزين المؤقت KV المحلية للعملية في استدلال LLM عالي الإنتاجية. عندما تعيش ذاكرة التخزين المؤقت KV داخل عملية محرك vLLM واحدة فقط، يمكن أن تختفي حالة ذاكرة التخزين المؤقت المفيدة أثناء عمليات إعادة التشغيل، أو تظل محاصرة داخل مثيل واحد، أو تفشل في الانتقال بكفاءة عبر العقد.
يصبح ذلك مكلفًا عندما تعيد أحمال العمل استخدام الموجهات الطويلة، أو توجيه الطلبات المتشابهة عبر النسخ المتماثلة، أو فصل عمل التعبئة المسبقة وفك التشفير. قد تحتوي ذاكرة التخزين المؤقت بالفعل على عمل لا يجب على النظام إعادة حسابه، لكن طوبولوجيا التقديم لا يمكنها دائمًا إعادة استخدامه.
يغير PegaFlow هذا الحد. يعمل كخدمة خارجية لذاكرة التخزين المؤقت KV، مطبقة بنواة Rust، ويتصل بـ vLLM من خلال آلية موصل KV الخارجي بدلاً من فرع طويل الأمد.
كيف يتكامل PegaFlow مع vLLM؟
يتكامل PegaFlow مع vLLM من خلال kv_transfer_config و PegaKVConnector و kv_connector_module_path. في المقال المنشور، يسمح الموصل لـ PegaFlow بتولي عمليات ذاكرة التخزين المؤقت KV الرئيسية أثناء وقت التشغيل بينما يستمر vLLM في التعامل مع الجدولة، وتنفيذ النموذج، والتجميع، ومسار التقديم المتوافق مع OpenAI.
يسرد المستودع العام حاليًا vLLM كجاهز في جدول تكامل الإطار ويظهر تكوين الموصل هذا في البدء السريع:
vllm serve Qwen/Qwen3-0.6B \
--kv-transfer-config '{"kv_connector": "PegaKVConnector", "kv_role": "kv_both", "kv_connector_module_path": "pegaflow.connector"}'
الفوائد العملية هي نموذج ملكية أنظف: يبقى vLLM محرك التقديم، بينما يمتلك PegaFlow تخزين ذاكرة التخزين المؤقت KV الخارجية، ونقلها، ومشاركتها، ومراقبتها ذات الصلة.
ما الذي تضيفه بنية Novita AI؟
هدف تصميم Novita AI هو جعل ذاكرة التخزين المؤقت KV تتصرف مثل بنية تقديم الإنتاج، وليس ذاكرة عملية مؤقتة. وهذا يعني أن PegaFlow مصمم حول حدود خدمة مستقلة، ومسار بيانات Rust، ومجموعات ذاكرة تخزين مؤقت مشتركة، وتخزين متعدد المستويات.
| خيار معماري | لماذا يهم المطورين | المصدر العام |
|---|---|---|
| خدمة جانبية مستقلة | يمكن لذاكرة التخزين المؤقت KV البقاء على قيد الحياة بعد إعادة تشغيل محرك الاستدلال والتوسع بشكل منفصل عن عملية vLLM. | README PegaFlow |
| نواة Rust خالية من GIL | يتجنب المسار الساخن لذاكرة التخزين المؤقت عبء Python ويبقي خيوط محرك الاستدلال مركزة على التقديم. | README PegaFlow |
| ذاكرة مضيفة مثبتة، ذاكرة RDMA عن بعد، وذاكرة تخزين مؤقت SSD | يمكن لذاكرة التخزين المؤقت أن تمتد عبر ذاكرة محلية أسرع، وذاكرة عقدة بعيدة، وسعة SSD أكبر. | مقال vLLM |
| مقاييس Prometheus وتصدير OTLP | يمكن للمشغلين مراقبة سلوك ذاكرة التخزين المؤقت بدلاً من معاملة إعادة استخدام KV كتفصيل محرك مخفي. | README PegaFlow |
آخر تحقق: 2026-05-20. هذه التفاصيل مأخوذة من مقال vLLM المشترك وملف README العام novitalabs/pegaflow.
ما نتائج الأداء المتاحة للجمهور؟
يجب قراءة ادعاءات الأداء العامة كنتائج تقييم PegaFlow من مقال vLLM المشترك وقياس المستودع، وليست ضمانات عامة لكل عبء عمل. تؤثر نسبة ضربات ذاكرة التخزين المؤقت، وإعادة استخدام الموجه، وشكل النموذج، والأجهزة، وطوبولوجيا الشبكة، وتوجيه الطلبات جميعها على النشر الفعلي.
| السيناريو | النتيجة المبلغ عنها | المصدر |
|---|---|---|
| بدء تشغيل vLLM مع مجموعة KV مضيفة بحجم 500 جيجابايت مملوكة مسبقًا | سرعة بدء أسرع بمقدار 2.15 مرة | مقال vLLM المشترك |
| ثمانية مثيلات Qwen3-8B تشارك ذاكرة تخزين مؤقت مضيفة واحدة | إنتاجية أعلى بنسبة 56% | مقال vLLM المشترك |
| DeepSeek-V3.2 MLA مع TP8 | إنتاجية أعلى بنسبة 72% | مقال vLLM المشترك |
| قراءات عن بعد داخلية في مجموعة RDMA | متوسط إنتاجية القراءة عن بعد 194 جيجابايت/ثانية | مقال vLLM المشترك |
| قياس مرجعي H800، Llama-3.1-8B، ذاكرة تخزين مؤقت دافئة مقابل باردة | متوسط TTFT انخفض من 572.5 مللي ثانية إلى 61.5 مللي ثانية؛ P99 TTFT انخفض من 1113.7 مللي ثانية إلى 77.0 مللي ثانية | README PegaFlow |
آخر تحقق: 2026-05-20. يُوصف رقم RDMA في المقال المصدر كنتيجة مجموعة داخلية، لذلك يجب أن يبقى مؤطرًا كبيانات تقييم مبلغ عنها وليس وعدًا عالميًا بالإنتاجية.
متى تكون ذاكرة التخزين المؤقت KV الخارجية الأكثر فائدة؟
تكون ذاكرة التخزين المؤقت KV الخارجية الأكثر فائدة عندما يكون إعادة استخدام الموجه مرتفعًا بدرجة كافية بحيث تصبح إعادة الحساب مرئية في زمن الوصول أو الإنتاجية أو استخدام GPU. تكون أقل فائدة لأحمال العمل حيث يكون كل طلب تقريبًا فريدًا وإعادة استخدام ذاكرة التخزين المؤقت منخفض بشكل طبيعي.
- إعادة التشغيل المتكرر: الاحتفاظ بذاكرة التخزين المؤقت خارج المحرك يمكن أن يقلل من عقوبات إعادة التشغيل عندما تظل حالة ذاكرة التخزين المؤقت مفيدة.
- تقديم متعدد المثيلات: مشاركة ذاكرة التخزين المؤقت المضيفة يمكن أن تقلل من عمل التعبئة المسبقة المكرر عبر مثيلات vLLM المحلية.
- نشر متعدد العقد: ذاكرة التخزين المؤقت عن بعد المدعومة بـ RDMA يمكن أن تجعل كتل KV المفيدة متاحة خارج جهاز واحد.
- فصل التعبئة المسبقة/فك التشفير: ذاكرة التخزين المؤقت الخارجية يمكن أن تعطي نظام التقديم نقطة تسليم أوضح بين المراحل.
بالنسبة لـ Novita AI، هذا جزء من مبدأ بنية أوسع: تحتاج أنظمة AI الإنتاجية إلى محرك التقديم، وطبقة الذاكرة، وطبقة التوجيه، وطبقة المراقبة للتطور بشكل مستقل عندما تصبح أنماط المرور معقدة.
كيف يمكن للمطورين فحص PegaFlow اليوم؟
يمكن للمطورين فحص مستودع GitHub العام وتثبيت الحزم المنشورة المشار إليها في ملف README. يوثق المستودع حزمة CUDA 12، وحزمة CUDA 13، ومثال موصل vLLM، وتكوين الخادم، وإعداد P2P RDMA، وتوجيه التعبئة المسبقة/فك التشفير، والمقاييس، وأهداف المشروع.
uv pip install pegaflow-llm # CUDA 12
uv pip install pegaflow-llm-cu13 # CUDA 13
أمر الخادم المحلي الأبسط في ملف README هو:
pegaflow-server
لتقييم الإنتاج، ابدأ بملف تعريف إعادة استخدام الموجه الخاص بك، والنموذج المستهدف، وطوبولوجيا GPU، وسعة الذاكرة، وافتراضات RDMA أو SSD. PegaFlow هو بنية تحتية لإعادة استخدام ذاكرة التخزين المؤقت؛ يحدد عبء العمل مقدار القيمة التي يمكن التقاطها.
ما الذي يجب على فرق المنصة التحقق منه قبل اعتماده؟
يجب على فرق المنصة التحقق من صحة PegaFlow مقابل طوبولوجيا التقديم الخاصة بهم قبل معاملة أرقام القياس العامة كمدخلات تخطيط. الاختبار الصحيح ليس فقط ذاكرة تخزين مؤقت باردة مقابل دافئة، ولكن ما إذا كان إعادة استخدام ذاكرة التخزين المؤقت يظهر في نمط المرور الذي يدفع التكلفة أو زمن الوصول فعليًا.
- قياس إعادة استخدام الموجه ومعدل ضربات ذاكرة التخزين المؤقت KV المتوقعة تحت التوجيه الحقيقي.
- مقارنة سلوك إعادة التشغيل مع وبدون ذاكرة تخزين مؤقت KV مملوكة خارجيًا.
- اختبار المشاركة متعددة المثيلات على عقدة واحدة قبل التوسع إلى RDMA.
- التحقق من المراقبة: ضربات ذاكرة التخزين المؤقت، والأخطاء، وزمن نقل، وضغط الذاكرة، وسلوك SSD.
- تأكيد توافق الإصدار مع مسار موصل vLLM المستخدم في نشرتك.
هذا أيضًا هو السبب في أهمية حدود المصدر المفتوح. يمكن للمطورين فحص الموصل، وتكوين الخادم، والمقاييس، وإعداد القياس بدلاً من الاعتماد على خدمة ذاكرة تخزين مؤقت صندوق أسود.
الأسئلة الشائعة
ما هو PegaFlow؟
PegaFlow هو محرك تخزين لذاكرة التخزين المؤقت KV مفتوح المصدر لاستدلال LLM من Novita AI. يعمل كخدمة مستقلة ويتصل بـ vLLM من خلال مسار موصل KV الخارجي.
هل يتطلب PegaFlow fork من vLLM؟
لا. يصف مقال vLLM المنشور PegaFlow متصلاً من خلال kv_transfer_config و PegaKVConnector، مع حزم خارجية محملة من خلال kv_connector_module_path.
ما نتائج الأداء المتاحة للجمهور؟
يبلغ مقال vLLM المشترك عن سرعة بدء أسرع بمقدار 2.15 مرة، وإنتاجية أعلى بنسبة 56% في إعداد ذاكرة تخزين مؤقت مضيفة مشتركة، وإنتاجية أعلى بنسبة 72% لإعداد DeepSeek-V3.2 MLA، ومتوسط إنتاجية القراءة عن بعد 194 جيجابايت/ثانية في مجموعة RDMA داخلية. يبلغ README أيضًا عن تخفيضات TTFT لـ H800 لقياس مرجعي لذاكرة تخزين مؤقت دافئة.
أين يمكن للمطورين تجربة PegaFlow؟
يمكن للمطورين مراجعة مستودع novitalabs/pegaflow العام، وتثبيت pegaflow-llm لـ CUDA 12 أو pegaflow-llm-cu13 لـ CUDA 13، واتباع البدء السريع للمستودع.
الخلاصة
PegaFlow هو عمل ذاكرة التخزين المؤقت KV الخارجية من Novita AI لاستدلال LLM في الإنتاج مع vLLM: خدمة ذاكرة تخزين مؤقت مستقلة، ومسار بيانات Rust، ومجموعات ذاكرة تخزين مؤقت مشتركة، وحدود موصل تتجنب fork من vLLM. الاستنتاج الرئيسي بسيط: عندما تصبح ذاكرة التخزين المؤقت KV بنية تحتية بدلاً من حالة محلية للعملية، تحصل فرق التقديم على تحكم أكبر في عمليات إعادة التشغيل والمشاركة والتوسع والمراقبة. راجع مستودع PegaFlow، وقارن النتائج العامة مع عبء العمل الخاص بك، واستخدم البنية التحتية الأوسع للمطورين من Novita AI عندما تحتاج إلى واجهات برمجة تطبيقات النماذج أو تنفيذ الوكلاء أو سير عمل GPU حول تلك الحزمة التقديمية.
