مقدمة
هل القدرات الناشئة لنماذج اللغة الكبيرة سراب؟ الإجابة المختصرة على هذا السؤال هي: في الغالب، نعم. يجادل بعض العلماء من جامعة ستانفورد بأن الأمر كله يتعلق بالمقاييس. على وجه التحديد، LLMs تطور قدراتها تدريجيًا، وليس فجأة وفقًا لمعظم المقاييس، بينما تظهر هذه المعجزات الناشئة فقط في مقاييس معينة. في هذه المدونة، نستكشف التعريف الأصلي للقدرات الناشئة لنماذج اللغة الكبيرة، وكيف يتحدى هؤلاء العلماء الادعاء، وآثار نتائجهم في عالم الذكاء الاصطناعي.

ما هي القدرات الناشئة لنماذج اللغة الكبيرة؟
القدرات الناشئة تشير إلى قدرات أو سلوكيات جديدة تظهر في الأنظمة المعقدة مع زيادة حجمها أو تعقيدها. في سياق LLMs، هذه هي مهارات غير متوقعة أو تحسينات في الأداء يُفترض أنها لم تكن موجودة في النماذج الأصغر ولكنها تظهر مع نمو النموذج.
الخاصية 1: الحدة
الحدة في سياق القدرات الناشئة تشير إلى الزيادة المفاجئة والدراماتيكية في الأداء في مهمة محددة. وكأن النموذج لديه “لحظة إضاءة” حيث ينتقل من عدم القدرة على أداء مهمة على الإطلاق إلى القيام بها بشكل لا تشوبه شائبة. غالبًا ما يتم تصور ذلك كمنحنى حاد على الرسم البياني، يظهر مقاييس الأداء مثل الدقة أو معدل إنجاز المهمة تقفز من قيمة منخفضة إلى قيمة عالية دون الكثير بينهما.
تخيل أن لديك سلسلة من نماذج اللغة بأحجام متفاوتة، من الصغير إلى الكبير جدًا. تختبر قدرتها على ترجمة النص من الإنجليزية إلى الفرنسية. النماذج الأصغر قد تكافح، وتوفر ترجمات ضعيفة مع العديد من الأخطاء. ومع ذلك، مع اختبار نماذج أكبر وأكبر، قد تجد فجأة أنه عند حجم معين، تكون ترجمات النموذج شبه مثالية، مع أخطاء قليلة جدًا إن وجدت. هذا التحسن المفاجئ هو ما يشار إليه بـ “الحدة” للقدرة الناشئة.

الخاصية 2: عدم القدرة على التنبؤ
عدم القدرة على التنبؤ يتعلق بصعوبة توقع متى أو في أي حجم سيظهر النموذج قدرة ناشئة. لا يوجد اتجاه تدريجي واضح يمكن أن تشير إليه وتقول: “عندما نصل إلى هذا الحجم أو التعقيد، سيكون النموذج قادرًا على فعل X.” بدلاً من ذلك، يبدو ظهور هذه القدرات وكأنه يأتي من العدم، دون أي نمط أو تحذير واضح.
بالاستمرار في مثال الترجمة، قد تتوقع أنه مع زيادة حجم النموذج، ستتحسن قدرته على الترجمة بشكل مطرد. ومع ذلك، فإن عدم القدرة على التنبؤ يعني أنك لا تستطيع التنبؤ بشكل موثوق في أي حجم نموذج محدد ستصبح الترجمات ممتازة. قد يظهر نموذج قفزة في القدرة عندما يحتوي على 100 مليون معلمة، بينما قد لا يظهر آخر نفس القفزة حتى يحتوي على مليار معلمة. لا توجد قاعدة واضحة تخبرك متى سيحدث هذا، مما يجعل ظهور القدرة غير قابل للتنبؤ.

تحدي ادعاء الظهور: مجرد سراب
المقال بعنوان “هل القدرات الناشئة لنماذج اللغة الكبيرة سراب؟” من تأليف ريلان شيفر وبراندو ميراندا وسانمي كويجو من قسم علوم الكمبيوتر بجامعة ستانفورد، يتحدى فكرة أن LLMs تظهر قدرات ناشئة. كالعادة، إذا لم تكن مهتمًا بتفاصيل البحث، فقط خذ هذه الخلاصة وانتقل إلى القسم التالي: “القدرات الناشئة” الملموسة في نماذج اللغة الكبيرة قد تكون في الواقع وهمًا ناتجًا عن اختيار مقاييس الأداء بدلاً من تغيير حقيقي ومفاجئ في قدرات النماذج مع زيادة حجمها.
خلفية البحث وسؤال البحث
يبدأ المقال بمناقشة مفهوم الخصائص الناشئة في الأنظمة المعقدة، الذي حظي باهتمام في التعلم الآلي بسبب ملاحظات نماذج اللغة الكبيرة (LLMs) التي تظهر قدرات لم تُرَ في النماذج الأصغر. تتميز هذه القدرات الناشئة بحادتها وعدم قابلية التنبؤ بها.
سؤال البحث الذي يطرحه المقال هو ما إذا كانت هذه القدرات الناشئة خاصية أساسية لزيادة حجم نماذج الذكاء الاصطناعي أم أنها مجرد قطعة أثرية من المقاييس المستخدمة لقياس الأداء.
تصميم التجربة
يقترح المؤلفون تفسيرًا بديلاً للقدرات الناشئة، مشيرين إلى أنها قد تكون نتيجة لاختيار المقياس وليس سلوكًا جوهريًا للنموذج. يقدمون نموذجًا رياضيًا لإثبات ذلك ويختبرون فرضيتهم من خلال ثلاثة مناهج متكاملة:
- اختبروا فكرتهم باستخدام عائلة نماذج ذكاء اصطناعي معروفة (InstructGPT/GPT-3) في مهام ذكر الناس أن هذه المهارات الخاصة ظهرت فيها. نظروا في كيف أن تغيير نتائج الاختبار (المقاييس) يغير ما نراه.
- أجروا تحليلًا تلويًا للقدرات الناشئة على مجموعة من الاختبارات (BIG-Bench) لمعرفة ما إذا كانت هذه المهارات الخاصة تظهر فقط عند استخدام طرق معينة للدرجات (المقاييس).
- استحثوا قدرات ناشئة ظاهريًا في مهام رؤية متعددة عبر شبكات عميقة متنوعة عن طريق تغيير مقاييس التقييم.
النتائج
- نتائج الاختبار: عندما غير الباحثون طريقة قياس أداء الذكاء الاصطناعي (المقاييس)، رأوا شيئًا مثيرًا للاهتمام. بدلاً من قفزة مفاجئة في قدرات الذكاء الاصطناعي، وجدوا تحسنًا سلسًا ومطردًا مع زيادة حجم نماذج الذكاء الاصطناعي. كان هذا عكس ما توقعوه إذا كان الذكاء الاصطناعي لديه حقًا “مهارات خاصة” تظهر من العدم.

- مقاييس مختلفة، قصص مختلفة: وجدوا أن طرقًا معينة لقياس الأداء جعلتها تبدو وكأن الذكاء الاصطناعي تحسن كثيرًا بسرعة كبيرة. لكن عندما استخدموا مقاييس مختلفة صنفت الذكاء الاصطناعي بشكل أكثر إنصافًا، كانت التحسينات أكثر تدريجية. كان الأمر وكأن الذكاء الاصطناعي لم يصبح أكثر ذكاءً فجأة؛ بل كان يتم اختباره بطريقة جعلته يبدو كذلك.

- الاختبار الكبير (التحليل التلوي): عندما نظروا إلى مجموعة من الاختبارات المختلفة (BIG-Bench)، رأوا أن هذه “المهارات الخاصة” تظهر فقط عند استخدام مقاييس معينة. كان الأمر كما لو أن هذه المهارات كانت مخفية ولم تظهر إلا عندما تم إعداد الاختبار بطريقة معينة.
- جعل المهارات تظهر: أخيرًا، أظهر الباحثون أنه يمكنهم جعل هذه “المهارات الخاصة” تظهر في أنواع أخرى من مهام الذكاء الاصطناعي (مثل التعرف على الصور) فقط عن طريق تغيير طريقة قياس أداء الذكاء الاصطناعي. كان الأمر مثل السحر، ولكن بدلاً من خدعة سحرية حقيقية، كان الأمر يتعلق بكيفية نظرتهم إلى قدرات الذكاء الاصطناعي.

الآثار على أبحاث وتطوير الذكاء الاصطناعي
اختيار المقياس
يجب على الباحثين النظر بعناية في اختيار المقاييس عند تقييم نماذج الذكاء الاصطناعي. تشير الورقة إلى أن المقاييس غير الخطية أو المتقطعة قد تخلق تصورًا مضللاً لقدرات النموذج. اختيار المقاييس المناسبة التي تعكس بدقة التحسينات التدريجية أمر بالغ الأهمية للتقييم الصحيح والموثوق.
تصميم المعايير
يجب أن يأخذ تصميم المعايير في الاعتبار التأثير المحتمل لاختيار المقياس على القدرات الملموسة لنماذج الذكاء الاصطناعي. يجب أن تستخدم المعايير مجموعة متنوعة من المقاييس لتوفير تقييم شامل وتجنب الإفراط في التركيز على النتائج من المقاييس التي قد تتسبب في ظهور قدرات ناشئة.
تفسير النتائج
يجب على الباحثين توخي الحذر عند تفسير النتائج التي توحي بوجود قدرات ناشئة. تشجع الورقة على فهم أكثر دقة لأداء النموذج، مع مراعاة احتمال أن تكون السلوكيات “الناشئة” المرصودة مجرد قطع أثرية لعملية القياس.
شفافية النموذج وقابلية إعادة الإنتاج
تسلط الورقة الضوء على أهمية جعل النماذج ومخرجاتها متاحة للجمهور للتحقق المستقل. هذه الشفافية ضرورية للمجتمع العلمي للتحقق من الادعاءات وإعادة إنتاج النتائج، مما يضمن نزاهة أبحاث الذكاء الاصطناعي.
سلامة الذكاء الاصطناعي ومواءمته
إذا تم النظر إلى القدرات الناشئة على أنها تنشأ بشكل غير متوقع، فقد يكون لهذا آثار على سلامة الذكاء الاصطناعي ومواءمته. ومع ذلك، إذا كانت هذه القدرات نتيجة لاختيار المقياس، فهذا يشير إلى أن الباحثين لديهم سيطرة أكبر على تطوير قدرات الذكاء الاصطناعي مما كان يُعتقد سابقًا، مما يمكن استغلاله لتوجيه تطوير الذكاء الاصطناعي نحو نتائج مفيدة.
تخصيص الموارد
فهم أن القدرات الناشئة قد تكون سرابًا يمكن أن يوجه تخصيص الموارد في تطوير الذكاء الاصطناعي. بدلاً من التركيز على زيادة حجم النماذج لتحقيق قدرات غير متوقعة، قد يكون من الأفضل إنفاق الموارد على تحسين الخوارزميات ومجموعات البيانات وعمليات التدريب لإنتاج النتائج المرجوة بطريقة أكثر قابلية للتنبؤ.
الاعتبارات الأخلاقية
ترتبط الآثار الأخلاقية لقدرات الذكاء الاصطناعي ارتباطًا وثيقًا بفهمنا لما يمكن للذكاء الاصطناعي فعله وما لا يمكنه فعله. إذا كانت القدرات الناشئة أقل شيوعًا أو أقل حدة مما كان يُعتقد، فقد يؤثر ذلك على كيفية تعاملنا مع المبادئ التوجيهية الأخلاقية واللوائح الخاصة بتطوير ونشر الذكاء الاصطناعي.
التواصل العام
يعد التواصل الدقيق لقدرات الذكاء الاصطناعي مع الجمهور أمرًا مهمًا لإدارة التوقعات ومعالجة المخاوف بشأن الذكاء الاصطناعي. تشير نتائج الورقة إلى ضرورة توخي الحذر لتجنب المبالغة في قدرات الذكاء الاصطناعي وتقديم صورة واضحة وواقعية لقدرات الذكاء الاصطناعي الحالية والمستقبلية المحتملة.
تحديد أولويات البحث
قد تدفع النتائج الباحثين إلى إعطاء الأولوية لفهم الآليات الأساسية وراء تحسينات أداء الذكاء الاصطناعي على البحث عن قدرات ناشئة بعيدة المنال. قد يتضمن ذلك مزيدًا من التركيز على التحسينات الخوارزمية وجودة البيانات وتقنيات التدريب.
احصل على خبرة عملية مع قدرات LLM
على الرغم من أن المؤلفين ينكرون قدرات LLM على أنها ناشئة، إلا أنهم لا يشيرون إلى أن قدرات LLM ليست صلبة. قدرات LLM على حل المشكلات في سيناريوهات الحياة الواقعية لا جدال فيها. إذا كنت حريصًا على الحصول على خبرة عملية مع قدرات LLM، فإن Novita AI توفر للشركات الناشئة في مجال الذكاء الاصطناعي واجهات برمجة تطبيقات LLM للاستفادة من قوة LLMs.

يمكنك استخدام نسخة تجريبية مجانية لـ LLM لدينا لمقارنة أداء مختلف LLMs المدمجة في واجهة برمجة التطبيقات الخاصة بنا لاحقًا. علاوة على ذلك، يُسمح أيضًا بتعديل المعلمات والمطالبات النظامية في الدردشة المجانية لتلبية احتياجاتك الخاصة من مخرجات LLM.


الخاتمة
النقاش حول ما إذا كانت نماذج اللغة الكبيرة (LLMs) تظهر قدرات ناشئة حقيقية أم أن هذه مجرد سراب، كما اقترح باحثون من ستانفورد، يسلط الضوء على الدور المحوري لمقاييس الأداء في تقييم الذكاء الاصطناعي. تطرح الدراسة أن التحسينات الحادة وغير المتوقعة المنسوبة إلى LLMs قد تكون قطعة أثرية لمقاييس معينة بدلاً من قدرة نموذجية جوهرية.
يدفع هذا المنظور مجتمع الذكاء الاصطناعي إلى إعادة النظر في تصميم المعايير وتفسير النتائج، والدعوة إلى الشفافية والمقاييس المتنوعة وفهم أعمق للتقدم التدريجي للذكاء الاصطناعي. الآثار واضحة: بينما نطور أبحاث الذكاء الاصطناعي، يجب علينا أن نفحص بشكل نقدي أدوات تقييمنا لضمان مسار تطوير واقعي وأخلاقي يتماشى مع التوقعات المجتمعية ومعايير السلامة.
تابعونا لاستكشاف أحدث نتائج الأوساط الأكاديمية للذكاء الاصطناعي!
Novita AI، المنصة الشاملة للإبداع غير المحدود التي تمنحك الوصول إلى أكثر من 100 واجهة برمجة تطبيقات. من توليد الصور ومعالجة اللغة إلى تحسين الصوت ومعالجة الفيديو، ادفع حسب الاستخدام بتكلفة منخفضة، فهي تحررك من متاعب صيانة GPU أثناء بناء منتجاتك الخاصة. جربها مجانًا.
قراءات موصى بها
كل ما تحتاج معرفته عن التحفيز التلقائي لسلسلة الأفكار في نماذج اللغة الكبيرة
الغوص في الحدود الأكاديمية: مقدمة عن الخصوصية التفاضلية لنماذج اللغة الكبيرة
