مقدمة
مع ازدياد شعبية نماذج اللغة الكبيرة (LLMs) مثل GPT-3 وPaLM وChatGPT وغيرها، أصبحت الحاجة إلى تقييم قدراتها بدقة أمرًا بالغ الأهمية. هذه النماذج المتقدمة من الذكاء الاصطناعي قادرة على فهم وتوليد نصوص شبيهة بالنص البشري، مما يجعلها أدوات قوية عبر تطبيقات متنوعة.
ولكن مع القوة العظيمة تأتي مسؤولية كبيرة — يجب أن نضمن أن نماذج اللغة الكبيرة موثوقة، وغير متحيزة، وأن مخاطرها المحتملة مفهومة جيدًا. في هذه المدونة، سنناقش الورقة الأكاديمية “استطلاع حول تقييم نماذج اللغة الكبيرة” (A Survey on Evaluation of Large Language Models)، والتي تقدم لك نظرة شاملة حول كيفية تقييم نماذج اللغة الكبيرة بفعالية.

ما هي نماذج اللغة الكبيرة؟
تمثل نماذج اللغة الكبيرة (LLMs) فئة من نماذج التعلم العميق المتقدمة التي أحدثت ثورة في مجال معالجة اللغة الطبيعية (NLP). تتميز هذه النماذج بحجمها الهائل وتدريبها المسبق الواسع على كميات ضخمة من البيانات النصية المستمدة من الإنترنت. البنية الأساسية التي تقوم عليها العديد من نماذج اللغة الكبيرة تُعرف باسم Transformer، والتي تتكون من طبقات من وحدات التشفير ووحدات فك التشفير المجهزة بآليات الانتباه الذاتي.
تمكن بنية Transformer نماذج اللغة الكبيرة من التفوق في فهم وتوليد نصوص شبيهة بالبشر. على عكس النماذج التقليدية التي تعالج النصوص بالتسلسل، يمكن لـ Transformers معالجة تسلسلات كاملة من البيانات بالتوازي، والاستفادة من القوة الحاسوبية لوحدات معالجة الرسوميات (GPUs) لتسريع أوقات التدريب بشكل كبير. قدرة المعالجة المتوازية هذه ضرورية للتعامل مع تعقيد وحجم البيانات المشاركة في تدريب النماذج الكبيرة.
يتم تدريب نماذج اللغة الكبيرة بطريقة غير خاضعة للإشراف أو ذاتية الإشراف، مما يعني أنها تتعلم التنبؤ بالكلمة التالية أو سلسلة الكلمات التالية في النص بناءً فقط على الأنماط والبنية المتأصلة في البيانات. يسمح هذا النهج لنماذج اللغة الكبيرة بالتقاط أنماط لغوية معقدة، وقواعد نحوية، وعلاقات دلالية عبر اللغات والمجالات.

علاوة على ذلك، فإن نماذج اللغة الكبيرة قادرة على التعلم النقلي (transfer learning)، حيث يمكن ضبطها بدقة على مهام محددة باستخدام كميات صغيرة نسبيًا من البيانات الخاصة بالمهمة. هذه القدرة على التكيف تجعلها أدوات متعددة الاستخدامات عبر مجموعة واسعة من التطبيقات، بما في ذلك على سبيل المثال لا الحصر: الترجمة الآلية، تحليل المشاعر، تلخيص النصوص، الإجابة عن الأسئلة، وحتى الكتابة الإبداعية أو مهام توليد الأكواد. العديد من الشركات، مثل Novita AI، توفر واجهات برمجة تطبيقات لنماذج اللغة الكبيرة (LLM APIs) للمبرمجين للاستفادة من قوة نماذج اللغة الكبيرة.
ما هي جوانب نماذج اللغة الكبيرة التي يجب تقييمها؟
تصنف الورقة “استطلاع حول تقييم نماذج اللغة الكبيرة” تقييم نماذج اللغة الكبيرة إلى عدة مجالات رئيسية:
معالجة اللغة الطبيعية (NLP)
اختبار قدرات معالجة اللغة الطبيعية الأساسية مثل تصنيف النصوص، الاستدلال اللغوي الطبيعي، التلخيص، الترجمة، الإجابة عن الأسئلة، إلخ.
الاستدلال (Reasoning)
تقييم قدرات الاستدلال المنطقي، الاستدلال الفطري السليم، الاستدلال الحسابي متعدد الخطوات.
المتانة (Robustness)
فحص أداء النموذج تحت المدخلات العدائية، العينات خارج نطاق التوزيع، التلفيات في البيانات، إلخ.
الأخلاق والتحيزات (Ethics and Biases)
تقييم التحيزات المتعلقة بالجنس، العرق، الدين، واختبار الالتزام بالمبادئ الأخلاقية.
الجديرية بالثقة (Trustworthiness)
قياس الموثوقية، الصدق، الدقة الواقعية لمخرجات النموذج.
والعديد من المجالات الأخرى مثل الأداء متعدد اللغات، التطبيقات الطبية، الهندسة، الرياضيات، والإجابة على الأسئلة العلمية.
أين يتم تقييم نماذج اللغة الكبيرة؟
لتقييم نماذج اللغة الكبيرة بشكل شامل، يشير مؤلفو الورقة “استطلاع حول تقييم نماذج اللغة الكبيرة” إلى أننا بحاجة إلى مجموعات بيانات ومعايير (benchmarks) تم اختيارها بعناية عبر مجالات مختلفة:
المعايير العامة (General Benchmarks):
- BIG-bench، HELM، PromptBench: تختبر قدرات متنوعة في معيار واحد
معايير متخصصة في معالجة اللغة الطبيعية (Specialized NLP Benchmarks):
- GLUE، SuperGLUE: لفهم اللغة العام
- SQuAD، NarrativeQA: للإجابة على الأسئلة
معايير الاستدلال (Reasoning Benchmarks):
- StrategyQA، PIE: للاستدلال الفطري/متعدد الخطوات
معايير المتانة (Robustness Benchmarks):
- GLUE-X، CheckList: لتقييم المتانة ضد الاضطرابات المختلفة
معايير الأخلاق والتحيز (Ethics & Bias Benchmarks):
- Winogender، CrowS-Pairs: للتحيز الجنسي
- CANDELA: لتقييم خطاب الكراهية
المعايير متعددة اللغات (Multilingual Benchmarks):
- XGLUE، XTREME: للتعميم عبر اللغات
- M3Exam: للقدرات متعددة اللغات
معايير متخصصة في المجالات للرياضيات، العلوم، الأكواد، اختبار الشخصية، والمزيد.
المعايير متعددة الوسائط (Multimodal Benchmarks):
- تجمع بين النصوص والصور، الصوت، الفيديو، إلخ.
- MMBench، MMLU، LAMM، MME من بين آخرين
كيف يتم تقييم نماذج اللغة الكبيرة؟
تناقش الورقة “استطلاع حول تقييم نماذج اللغة الكبيرة” بروتوكولات مختلفة لتقييم نماذج اللغة الكبيرة:
التقييم التلقائي (Automatic Evaluation):
- استخدام مقاييس مثل BLEU، ROUGE، F1، الدقة (Accuracy) لتقييم المخرجات مقارنة بالمراجع
- يعمل للمهام المحددة جيدًا ولكن له قيود
التقييم البشري (Human Evaluation):
- توظيف بشر لتقييم المخرجات بشكل ذاتي
- أكثر تكلفة ولكنه يمكنه التقاط الجوانب المفتوحة
- يُستخدم للاستدلال الفطري، التوليد المفتوح
الإنسان في الحلقة (Human-in-the-Loop):
- يقدم البشر ملاحظات تفاعلية لتحسين مطالبات النموذج/مخرجاته
- مثال: AdaFilter الذي يقوم بتصفية المخرجات السامة
الاختبار الجماعي (Crowd-sourced Testing):
- جمع القوالب من الناس لإنشاء حالات اختبار جديدة
- منصات مثل DynaBench تقوم باختبار ضغط مستمر
قوائم التدقيق (Checklists):
- حالات اختبار منسقة تغطي القدرات وأنماط الفشل
- مستوحاة من قوائم تدقيق اختبار البرمجيات

ما هي نماذج اللغة الكبيرة الشائعة ذات الأداء المتميز في المعايير؟
Anthropic: Claude 3.5 Sonnet
يقدم Claude 3.5 Sonnet قدرات أفضل من Opus، وسرعات أسرع من Sonnet، بنفس أسعار Sonnet. Sonnet جيد بشكل خاص في البرمجة، تعزيز خبرة علم البيانات البشرية، التعامل مع البيانات غير المهيكلة مع استخدام أدوات متعددة للرؤى، المعالجة البصرية والمهام الوكيلة. يتم توفير واجهة برمجة تطبيقات Claude 3.5 Sonnet بواسطة Anthropic.

Meta: Llama 3 70B Instruct
أحدث فئة من نماذج Meta (Llama 3) تم إطلاقها بأحجام ونكهات متنوعة. تم تحسين هذا الإصدار المضبوط بتعليمات (70B) لحالات استخدام الحوار عالية الجودة. لقد أظهر أداءً قويًا مقارنة بالنماذج المغلقة الرائدة في التقييمات البشرية. المزودون الرئيسيون لواجهة برمجة تطبيقات Llama 3 70B Instruct يشملون DeepInfra، Novita AI، OctoAI، Lepton، Together، Fireworks وPerplexity.

OpenAI: GPT-4o
GPT-4o (“o” تعني “omni”) هو أحدث نموذج ذكاء اصطناعي من OpenAI، يدعم إدخال النصوص والصور مع إخراج النصوص. يحافظ على مستوى الذكاء الخاص بـ GPT-4 Turbo بينما يكون أسرع بمرتين وأقل تكلفة بنسبة 50٪. كما يقدم GPT-4o أداءً محسنًا في معالجة اللغات غير الإنجليزية وقدرات بصرية محسنة. المزودون الرئيسيون لـ GPT-4o يشملون OpenAI وAzure.

WizardLM-2 8x22B
WizardLM-2 8x22B هو نموذج Wizard الأكثر تقدمًا من Microsoft AI. يُظهر أداءً تنافسيًا عاليًا مقارنة بالنماذج الملكية الرائدة، ويتفوق باستمرار على جميع النماذج مفتوحة المصدر الحالية المتطورة. المزودون الرئيسيون لواجهة برمجة تطبيقات WizardLM-2 8x22B يشملون Novita AI، DeepInfra، Lepton، OctoAI وTogether.

Mistral: Mistral 7B Instruct
Mistral 7B Instruct هو نموذج عالي الأداء، قياسي في الصناعة بحجم 7.3 مليار معلمة، مع تحسينات للسرعة وطول السياق. المزودون الرئيسيون لـ Mistral 7B Instruct يشملون Novita AI، Lepton، DeepInfra، OctoAI وTogether.

ما هي التحديات المستقبلية لتقييم نماذج اللغة الكبيرة؟
يشير مؤلفو “استطلاع حول تقييم نماذج اللغة الكبيرة” إلى بعض التحديات المستقبلية التي يجب على القراء أخذها في الاعتبار:
تصميم معايير الذكاء العام الاصطناعي (AGI Benchmarks):
- الحاجة إلى معايير يمكنها اختبار الذكاء العام الاصطناعي بشكل شامل
- يجب أن تغطي قدرات متعددة المهام، متعددة الوسائط، مفتوحة النهاية
اختبار السلوك الكامل (Complete Behavioral Testing):
- اختبار إجهاد لجميع توزيعات المدخلات والسلوكيات الممكنة
- ضمان الموثوقية والسلامة في النشر في العالم الحقيقي
تقييم المتانة (Robustness Evaluation):
- الهجمات العدائية، تحولات التوزيع، مخاطر السلامة
- الحاجة إلى أطر مبدئية تتجاوز الأساليب الحالية المخصصة
التقييم الديناميكي (Dynamic Evaluation):
- تحديث التقييمات مع تطور نماذج اللغة الكبيرة لمعالجة المخاطر/القدرات الجديدة
- مثال: عندما تصبح نماذج اللغة الكبيرة أفضل في البرمجة أو الاستدلال الرياضي
التقييم الموحد (Unified Evaluation):
- الحاجة إلى أطر موحدة لتقييم نماذج اللغة الكبيرة المتنوعة بشكل متسق
- النهج الحالي مخصص ويفتقر إلى التوحيد القياسي
التقييم الجدير بالثقة (Trustworthy Evaluation):
- يجب أن تكون عملية التقييم نفسها غير متحيزة، آمنة، وأمينة
- منع الغش من قبل نماذج اللغة الكبيرة أو الشروح البشرية غير الموثوقة
الخاتمة
يعتبر التقييم الدقيق لنماذج اللغة الكبيرة أمرًا بالغ الأهمية لبناء الثقة وتمكين نشرها الآمن والأخلاقي. توفر “استطلاع حول تقييم نماذج اللغة الكبيرة” نظرة شاملة على الجوانب الرئيسية، ومجموعات البيانات، والبروتوكولات، والتحديات المفتوحة في تقييم نماذج اللغة الكبيرة. مع استمرار تقدم نماذج الذكاء الاصطناعي القوية هذه، يجب أن يواكب أبحاث التقييم السرعة لفحص أدائها والحماية ضد المخاطر المحتملة على المجتمع. إن اتباع ممارسات التقييم المبدئية أمر حيوي للاستفادة المسؤولة من الإمكانات التحويلية لنماذج اللغة الكبيرة.
المراجع
Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2018). A survey on evaluation of large language models. Journal of the ACM, 37(4), Article 111. https://arxiv.org/abs/2307.03109
Novita AI هي المنصة السحابية الشاملة التي تمكن طموحاتك في الذكاء الاصطناعي. مع واجهات برمجة تطبيقات متكاملة بسلاسة، وحوسبة بدون خادم، وتسريع عبر وحدات معالجة الرسوميات (GPU)، نوفر الأدوات الفعالة من حيث التكلفة التي تحتاجها لبناء وتوسيع نطاق أعمالك المدعومة بالذكاء الاصطناعي بسرعة. تخلص من متاعب البنية التحتية وابدأ مجانًا — Novita AI تجعل أحلامك في الذكاء الاصطناعي حقيقة.
