مع التقدم السريع في الذكاء الاصطناعي (AI)، برزت نماذج اللغة الكبيرة (LLMs) كحجر زاوية في معالجة اللغة الطبيعية (NLP). تُظهر هذه النماذج قدرات ملحوظة في توليد اللغة وفهمها، مما يجعلها جزءًا لا يتجزأ من تطبيقات مثل الترجمة الآلية والأنظمة الحوارية وتوليد النصوص. ومع ذلك، مع استمرار نمو حجم هذه النماذج، تظل كفاءة الاستدلال واستهلاك الموارد عقبات كبيرة أمام النشر على نطاق واسع.
في السنوات الأخيرة، اقترح الباحثون تقنيات تحسين متنوعة لتعزيز كفاءة استدلال LLM. في عملنا السابق، حققنا تسريعًا بمقدار 1.5 مرة في الاستدلال من خلال الاستفادة من ضغط ذاكرة التخزين المؤقت KV الديناميكي استنادًا إلى إطار نموذج اللغة الكبير جدًا (vLLM)، مما وضع أساسًا متينًا لتحسين أداء LLM.
تتعمق هذه الورقة في استراتيجيتين إضافيتين للتحسين: فك الترميز التخميني والقياس المنخفض الدقة. تهدف هذه الأساليب إلى تعظيم القدرات الحاسوبية للأجهزة الرئيسية، وتقليل تكاليف الاستدلال، وتحسين السرعة. من خلال استخدام هذه التقنيات، نسعى لتقديم وجهات نظر جديدة وحلول عملية لتعزيز كفاءة استدلال LLM، ومعالجة تحديات نشر الذكاء الاصطناعي القابل للتوسع.
فك الترميز التخميني
المبادئ التقنية
فك الترميز التخميني هو تقنية تسرع الاستدلال من خلال إدخال نموذج أصغر لتوليد عدة رموز مرشحة، ثم يتم التحقق منها بواسطة النموذج الأكبر، مما يتيح فك الترميز المتوازي لتحسين السرعة. يعتمد جدوى هذا النهج على عاملين رئيسيين:
عنق الزجاجة في الذاكرة
في الأجهزة الحديثة مثل GPU، غالبًا ما يكون عرض النطاق الترددي للوصول إلى الذاكرة أبطأ من السرعة الحاسوبية المطلوبة للاستدلال، مما يجعل العملية محدودة بالذاكرة بشكل كبير. يتم تحديد حركة مرور ذاكرة GPU أثناء مرحلة استدلال نماذج اللغة الكبيرة بشكل أساسي من خلال حجم النموذج، بينما غالبًا ما تمتلك GPUs قدرة حاسوبية فائضة. من خلال الاستفادة من هذه الفائضة عبر الاستدلال المتوازي بنموذج صغير، يمكن تحسين الكفاءة الإجمالية.
دقة توقع النموذج الصغير
عادةً ما تكون نماذج توليد اللغة السائدة حاليًا نماذج انحدار ذاتي تعتمد على بنية Transformer. تظهر النماذج الصغيرة دقة عالية في توقع أنماط اللغة الشائعة (مثل التجميعات الاصطلاحية أو التعبيرات القياسية). عندما يتنبأ النموذج الصغير بنجاح بالرمز التالي، يمكن للنموذج الكبير إعادة استخدام هذه النتيجة مباشرة، مما يقلل بشكل كبير من التكلفة الحاسوبية.
طريقة التنفيذ
تتكون طريقة فك الترميز التخميني بشكل أساسي من الخطوات التالية:
-
توليد مرشحات متعددة الجولات
- استخدام نموذج صغير مدرب خصيصًا للاستدلال السريع، وتوليد عدة رموز مرشحة عالية الجودة لكل موضع.
- اعتماد آلية تعديل عتبة الاحتمال الديناميكية بشكل مبتكر للتحكم التكيفي في عدد المرشحات.
- تقديم آلية تخزين مؤقت واعية بالسياق لتحسين دقة توقع النموذج الصغير أثناء توليد النص المستمر.
-
استراتيجية تحقق فعالة
- تصميم آلية تحقق دفعي لتجميع عدة رموز مرشحة وإرسالها إلى النموذج الكبير لعملية تسجيل واحدة.
- تنفيذ استراتيجية إنهاء مبكر لإرجاع النتائج بسرعة عند العثور على تطابق عالي الثقة.
- تمكين المعالجة غير المتزامنة لنتائج التحقق لتقليل وقت الانتظار الخامل لـ GPU.
-
نظام جدولة ذكي
- تحقيق توازن ديناميكي في تخصيص الموارد الحاسوبية بين توقع النموذج الصغير والتحقق من النموذج الكبير.
- استخدام التوقع التكيفي بناءً على الإحصائيات التاريخية لتحسين استراتيجيات توليد الرموز المرشحة.
- تنفيذ تقسيم وجدولة مهام دقيقة لتعظيم استخدام الأجهزة.

الشكل 1. فك الترميز التخميني بطول مسودة ديناميكي
النتائج التجريبية
بناءً على إطار استدلال vLLM الرائد في الصناعة، أجرينا تخصيصًا وتطويرًا عميقين، محققين تحسينات كبيرة في الأداء. أجرينا تجارب باستخدام نموذج LLaMA-3.1-70B-Instruct على GPU H20 واختبرنا سيناريوهات بأطوال سياق مختلفة. بالإضافة إلى ذلك، قارنا الأداء مع vLLM بدون فك الترميز التخميني، مع التركيز على الإنتاجية تحت أحجام دفعات مختلفة، وتظهر النتائج التجريبية في الشكل 2.
-
تحسينات الأداء
- تحقيق تسريع إجمالي للاستدلال بمقدار 1.4 مرة مع الحفاظ على جودة المخرجات.
- التوافق الكامل مع وظائف vLLM الحالية وإمكانية التكامل السلس في الأنظمة الحالية.
- دعم نماذج اللغة بمقاييس مختلفة، مع تحسينات ملحوظة بشكل خاص للنماذج واسعة النطاق.

الشكل 2. رسم بياني لنسبة تسريع فك الترميز التخميني.
-
المزايا التقنية
- استراتيجية أخذ عينات ديناميكية قائمة على الاحتمال لصياغة الرموز والتحقق منها بكفاءة.
- آلية الجدولة الذكية المستقرة تضمن تأثيرات تسريع متسقة.
- فعالة من حيث التكلفة مع حمل موارد منخفض.
القياس المنخفض الدقة
المبادئ التقنية
- نظرة عامة على القياس
القياس هو تقنية معتمدة على نطاق واسع تقلل من التكاليف الحاسوبية وتكاليف الذاكرة لنماذج اللغة واسعة النطاق (LLMs) عن طريق تحويل أوزان النموذج والتنشيطات من تمثيلات عالية عرض البت إلى تمثيلات أقل عرض البت. على وجه التحديد، تتضمن العديد من الطرق قياس موترات FP16 إلى موترات صحيحة منخفضة البت، كما هو موضح أدناه:

- القياس بعد التدريب (PTQ)
يقوم PTQ بقياس النماذج المدربة مسبقًا دون الحاجة إلى إعادة تدريب، وبالتالي تجنب التكاليف العالية لإعادة التدريب. ومع ذلك، فإن تطبيق طرق القياس التقليدية على LLMs يقدم تحديات فريدة:
-
- تظهر LLMs تواترًا أعلى للقيم الشاذة في الأوزان والتنشيطات، بالإضافة إلى نطاقات توزيع أوسع، مقارنة بالنماذج الأصغر.
- لذلك، يتطلب القياس الفعال لـ LLMs تقنيات تحسين متخصصة لتقليل فقدان الدقة مع الحفاظ على الكفاءة.
طريقة التنفيذ
- تحسين القيم الشاذة
يمثل وجود القيم الشاذة في الأوزان والتنشيطات لنماذج اللغة الكبيرة تحديًا كبيرًا أثناء عملية القياس. تتعامل الطرق التقليدية عادةً مع القيم الشاذة من خلال القص أو التحجيم البسيط، والذي قد يعمل بشكل جيد للنماذج الأصغر ولكنه غالبًا ما يؤثر بشكل كبير على أداء LLMs.
يعمل نهجنا على تحسين عملية معالجة القيم الشاذة من خلال التحليل التفصيلي واستراتيجيات التحسين. لا يعمل فقط على تحسين حساب القيم الشاذة، بل أيضًا يحسن هياكل البيانات المرتبطة بها، مما يضمن احتفاظ النموذج بقوة حاسوبية فعالة مع تقليل فقدان الدقة. على سبيل المثال، نعتمد استراتيجية توزيع نطاق ديناميكي أكثر مرونة لمعالجة القيم الشاذة بشكل هرمي، مما يلتقط خصائص النموذج بشكل أكثر دقة.
- المشغلات المحسّنة ودمج الطبقات
صممنا سلسلة من المشغلات المحسّنة التي يمكنها معالجة هياكل البيانات الكمية بشكل أكثر كفاءة. على سبيل المثال، من خلال تقنيات دمج الطبقات، نقوم بدمج عدة مشغلات متتالية في مشغل واحد أثناء الحساب الأمامي لتقليل الحمل الحاسوبي ونقل البيانات الوسيطة.
بالإضافة إلى ذلك، بالنسبة للعمليات الشائعة مثل ضرب المصفوفات المقترنة بوظائف التنشيط، صممنا مشغلات منخفضة البت فعالة لتسريع استدلال النموذج. لا يقلل هذا التحسين بشكل كبير من متطلبات عرض النطاق الترددي على مستوى الأجهزة فحسب، بل يعزز أيضًا الكفاءة الحاسوبية الإجمالية.
- مخطط قياس FP8 الفريد
بينما تستخدم طرق القياس السائدة في الصناعة بشكل عام التحويل من FP16 إلى INT8، قد لا يكون هذا النهج مناسبًا للسيناريوهات التي تتطلب دقة أقل. يقدم مخطط قياس FP8 لدينا عامل تحجيم تكيفي لتقليل عرض البت بشكل أكبر مع الاحتفاظ بالتعبير العددي للنموذج. في التنفيذ، نقوم بضبط نسبة الأس والجزء العشري في FP8 للتكيف بشكل أفضل مع خصائص توزيع LLMs، مما يضمن احتفاظ النموذج بالدقة حتى مع عروض بت منخفضة جدًا.
- قياس KVCache
في السيناريوهات التي تدعم الاستدلال واسع النطاق، تكون كفاءة تخزين والوصول إلى KVCache أمرًا بالغ الأهمية. غالبًا ما تطبق الطرق التقليدية تقنيات قياس قياسية دون تحسين الخصائص المحددة لهياكل تخزين KVCache.
نقترح تقنية قياس KVCache متخصصة تقلل من متطلبات الموارد الحاسوبية من خلال تطبيق استراتيجيات قياس محددة على الاستعلامات وأزواج المفتاح-القيمة. على وجه التحديد، نقوم بتحسين التحديثات الديناميكية وكثافة تخزين KVCache، من خلال الجمع بين طرق القياس الجزئي وتخزين المصفوفات المتناثرة لتحسين استخدام ذاكرة التخزين المؤقت بشكل كبير أثناء عملية الاستدلال.
- تحسين عملية الاستدلال
يتم قياس أوزان النموذج في FP16 إلى تنسيق FP8 للاستدلال. تمر رموز الإدخال عبر طبقة التضمين ووحدة Transformer، بما في ذلك آليات الانتباه والشبكات الأمامية.
باستخدام FP8 TensorCore و KVCache المحسّن، يقوم النظام بتخزين وتحديث أزواج المفتاح-القيمة بكفاءة.
تولد التحويلات الخطية وطبقة Softmax توزيع احتمالات المخرجات، مما ينتج رمز المخرجات النهائي.
يستفيد هذا النهج من الكفاءة الحاسوبية لـ FP8 TensorCore لتقديم استدلال أسرع بتكاليف حاسوبية أقل. في الشكل 3، يتم قياس أوزان النموذج، في الأصل بتنسيق FP16، إلى FP8 للاستدلال، مما يقلل بشكل كبير من حمل الوصول إلى البيانات ويحسن السرعة. أثناء عملية استدلال LLM، تخضع عمليات مثل إسقاط QKV والانتباه السريع والطبقات الأمامية لضرب المصفوفات في تنسيق FP8. يتم تسريع هذه العمليات الحاسوبية باستخدام Tensor Cores، مما يؤدي إلى زيادة كبيرة في سرعة الاستدلال. للتخفيف من فقدان الدقة، يتم استخدام كمية صغيرة من البيانات الإضافية لـ PTQ، مما يضمن بقاء دقة استدلال النموذج سليمة. في سيناريوهات النص الطويل، يمكن أن يؤدي الحمل المرتبط بالوصول إلى بيانات KV إلى إبطاء سرعة الاستدلال. لمعالجة ذلك، يتم قياس بيانات KV أيضًا إلى FP8، مما يحسن أداء استدلال النموذج بشكل أكبر.

الشكل 3. نظرة عامة على خط أنابيب القياس الدقيق FP8.
النتائج التجريبية
- يوضح الشكل 4 نسبة التسريع بعد تطبيق القياس المنخفض الدقة على Llama3-8B-BF16، بأطوال إدخال-إخراج مختلفة (10000-1000، 5000-500، 2000-200) وأحجام دفعات (Batch Size). كلما زاد طول الإدخال-الإخراج، كان تأثير التسريع أكثر وضوحًا، خاصة أثناء استدلال الدفعات الكبيرة. على GPU 4090 واحد بتشغيل Llama3-8B-FP8-KV8، مع تقييد ttft (الوقت حتى الرمز الأول) بأقل من ثانيتين، يبلغ حجم الدفعة حوالي 4، ونسبة التسريع 1.4x.

الشكل 4. نسبة التسريع بواسطة قياس FP8.
- تقلل طريقتنا بشكل كبير من تأثير القيم الشاذة عند التعامل مع أطوال إدخال-إخراج أكبر وتعزز كفاءة الحساب والنقل من خلال تحسينات مثل دمج الطبقات. غالبًا ما تكافح طرق PTQ الصناعية التقليدية عند التعامل مع أطوال إدخال-إخراج كبيرة في النماذج واسعة النطاق، لكن حلنا مصمم خصيصًا لمعالجة هذه المشكلة، مما يضمن أداء نموذج مستقر.
- تُظهر التجارب أنه على GPU 4090، تُظهر طريقتنا تسريعًا فائقًا عند معالجة أطوال إدخال-إخراج كبيرة وأحجام دفعات متوسطة، مع الحفاظ على زمن استدلال (ttft) أقل من ثانيتين، مما يلبي متطلبات الاستدلال في الوقت الفعلي.
تقييم الجودة
لاختبار واجهات برمجة تطبيقات النماذج المختلفة (مثل openrouter.ai) على مجموعة اختبار mmlu_pro (5-shot) باستخدام أداة lm-evaluation-harness، اتبع هذه الخطوات للاستدلال مع التكوين الافتراضي للأداة. تظهر النتائج في الشكل 5.

الشكل 5. مقارنة معدلات التطابق التام بين Meta-Liama-3.1-8B-Instruct-FP8 و Meta-Liama-3.1-8B-Instruct.
الخاتمة
تقدم هذه الورقة فك الترميز التخميني والقياس المنخفض الدقة كتقنيتين متكاملتين تهدفان إلى تعزيز كفاءة استدلال نماذج اللغة الكبيرة (LLM). يسرع فك الترميز التخميني عملية الاستدلال من خلال الاستفادة من نموذج أصغر لتوليد رموز مرشحة، يتم التحقق منها لاحقًا بواسطة النموذج الأكبر بالتوازي، مما يحقق تسريعًا بمقدار 1.4x.
في المقابل، يخفف القياس المنخفض الدقة من الأعباء الحاسوبية وأعباء الذاكرة عن طريق تحويل أوزان النموذج إلى تمثيلات أقل عرض البت، مع الحفاظ على أداء النموذج. مجتمعة، توفر هذه المنهجيات رؤى جديدة وحلول عملية لتحقيق استدلال عالي الكفاءة، مكملة للتقنيات الحالية مثل ضغط ذاكرة التخزين المؤقت KV الديناميكي.
نُشر في الأصل على Novita AI
Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة تطبيقات بسيطة، مع توفير سحابة GPU ميسورة التكلفة وموثوقة للبناء والتوسع.
قراءات موصى بها
