استدعاء سلسلة الأفكار يعزز الاستدلال في نماذج اللغة الكبيرة

استدعاء سلسلة الأفكار يعزز الاستدلال في نماذج اللغة الكبيرة

استكشف فعاليتها في مهام الحساب والاستدلال الرمزي والمنطق السليم، وكشف فوائدها القابلة للتوسع. شاهد تحسينات الأداء المذهلة عبر معايير متنوعة وافهم إمكاناتها في التعميم الطولي.

المقدمة

شهد مجال معالجة اللغة الطبيعية تحولاً كبيراً بفضل التطورات الحديثة في نماذج اللغة. لقد ثبت أن توسيع نطاق هذه النماذج يقدم فوائد متنوعة، بما في ذلك تحسين الأداء والكفاءة في التعلم من العينات. ومع ذلك، فإن مجرد زيادة حجم النماذج لم يثبت كفايته لتحقيق كفاءة عالية في المهام الصعبة مثل الحساب والاستدلال المنطقي السليم والاستدلال الرمزي.

تتعمق هذه المقالة في كيفية تعزيز قدرات الاستدلال لنماذج اللغة الكبيرة من خلال نهج مباشر مدفوع بمفهومين رئيسيين. أولاً، تؤكد على أهمية توليد شروحات باللغة الطبيعية توضح الخطوات المؤدية إلى الحل، وهو أمر مفيد بشكل خاص في مهام الاستدلال الحسابي. بالإضافة إلى ذلك، تبرز إمكانات نماذج اللغة الكبيرة للتعلم القليل بالسياق من خلال التلقين. بدلاً من ضبط نموذج منفصل لكل مهمة جديدة، يتضمن هذا النهج تزويد النموذج ببعض الأمثلة المدخلة-المخرجة التي توضح المهمة، وقد أظهر نجاحاً ملحوظاً عبر مهام الإجابة على الأسئلة البسيطة المتنوعة.

تمكن تقنية التلقين بسلسلة الأفكار نماذج اللغة الكبيرة من معالجة المهام المعقدة في الحساب والمنطق السليم والاستدلال الرمزي.

ما هو التلقين بسلسلة الأفكار

يقدم التلقين بسلسلة الأفكار العديد من الصفات الجذابة كنهج لتعزيز الاستدلال في نماذج اللغة.

  1. أولاً، تمكن النماذج من تقسيم المشكلات المعقدة إلى خطوات وسيطة، مما يسمح بتخصيص حسابات إضافية للمشكلات التي تتطلب خطوات استدلال متعددة.
  2. ثانياً، تقدم سلسلة الأفكار نظرة ثاقبة ومفهومة لسلوك النموذج، مما يشير إلى كيف قد يكون قد وصل إلى إجابة معينة ويقدم فرصاً لتحديد وتصحيح الأخطاء في عملية الاستدلال (على الرغم من أن الفهم الكامل لحسابات النموذج الداعمة للإجابة لا يزال تحدياً).
  3. ثالثاً، يمكن تطبيق الاستدلال بسلسلة الأفكار على مهام متنوعة مثل مسائل الرياضيات اللفظية والاستدلال المنطقي السليم والتلاعب الرمزي، وقد يمتد ليشمل أي مهمة يمكن للبشر حلها عن طريق اللغة.
  4. أخيراً، يمكن دمج الاستدلال بسلسلة الأفكار بسهولة في نماذج اللغة المدربة مسبقاً والكبيرة بما يكفي من خلال تضمين أمثلة لسلاسل الأفكار في أمثلة التلقين القليلة، مما يجعلها أداة متعددة الاستخدامات لتحسين أداء النموذج.

إذا كنت ترغب في معرفة المزيد من المعلومات العامة حول سلسلة الأفكار في نماذج اللغة الكبيرة، يمكنك الاطلاع على مدونتنا: فتح إمكانات التلقين بسلسلة الأفكار في نماذج اللغة واسعة النطاق

الاستدلال الحسابي

بينما قد يبدو الاستدلال الحسابي بسيطاً للبشر، غالباً ما تواجه نماذج اللغة صعوبات معه. بشكل ملحوظ، عند تطبيقه على نموذج لغوي يحتوي على 540 مليار معلمة، يحقق التلقين بسلسلة الأفكار أداءً مشابهاً للنماذج المضبوطة خصيصاً للمهمة عبر مهام متعددة. بل ويحقق معياراً فنياً جديداً على معيار GSM8K الصعب.

الإعداد التجريبي

نتعمق في فعالية التلقين بسلسلة الأفكار عبر نماذج لغة مختلفة على معايير متعددة لمسائل الرياضيات اللفظية. تشمل هذه المعايير معيار GSM8K ومجموعة بيانات SVAMP ومجموعة بيانات ASDiv ومجموعة بيانات AQuA ومعيار MAWPS، حيث يقدم كل منها تحديات متميزة في حل مسائل الرياضيات اللفظية. نقدم أمثلة على المشكلات في الجدول 12 من الملحق كمرجع.

المعايير.

للمقارنة الأساسية، نستخدم تقنية التلقين القليلة القياسية واسعة الاستخدام. تتضمن هذه الطريقة تقديم أمثلة سياقية من أزواج المدخلات والمخرجات للنموذج اللغوي قبل عمل تنبؤات على أمثلة وقت الاختبار. يتم تنظيم هذه الأمثلة كأسئلة وأجوبة، حيث يقوم النموذج بإخراج الإجابة مباشرة.

التلقين القياسي

في المقابل، يعزز نهجنا المقترح، التلقين بسلسلة الأفكار، كل مثال في التلقين القليلة من خلال سلسلة أفكار مفصلة مرتبطة بالإجابة المقابلة. نظراً لأن معظم مجموعات البيانات توفر فقط قسم تقييم، نقوم بإنشاء مجموعة من ثمانية أمثلة للتلقين القليلة يدوياً مع سلاسل أفكار للتلقين. أحد هذه الأمثلة لسلسلة الأفكار موضح في الشكل 1، والمجموعة الكاملة متاحة في الجدول 20 من الملحق. من المهم ملاحظة أن هذه الأمثلة لم تخضع لأي هندسة تلقين؛ نستكشف متانتها في القسم 3.4 والملحق أ.2.

هدفنا هو التحقق مما إذا كان هذا الشكل من التلقين بسلسلة الأفكار يمكنه تحفيز استدلال ناجح عبر مجموعة متنوعة من سيناريوهات مسائل الرياضيات اللفظية.

نماذج اللغة

نقيم أداء خمسة نماذج لغة كبيرة. الأول هو GPT-3، الذي نستخدم له إصدارات text-ada-001 وtext-babbage-001 وtext-curie-001 وtext-davinci-002، المقابلة لنماذج InstructGPT بحجم 350M و1.3B و6.7B و175B معلمة على التوالي. النموذج الثاني هو LaMDA، متوفر بإصدارات 422M و2B و8B و68B و137B معلمة. النموذج الثالث هو PaLM، الذي يقدم نماذج بحجم 8B و62B و540B معلمة. النموذج الرابع هو UL2 20B، والخامس هو Codex.

نأخذ عينات من هذه النماذج باستخدام فك الترميز الجشع، على الرغم من أن الأبحاث اللاحقة تشير إلى أن التلقين بسلسلة الأفكار يمكن تحسينه من خلال تجميع الأغلبية للإجابة النهائية عبر عدة أجيال مأخوذة. بالنسبة لـ LaMDA، نقدم متوسط النتائج عبر خمس بذور عشوائية، حيث تستخدم كل بذرة ترتيباً مختلفاً عشوائياً للأمثلة. نظراً لأن التجارب مع LaMDA لم تظهر تبايناً كبيراً عبر البذور المختلفة، لتحسين الموارد الحسابية، نبلغ النتائج بناءً على ترتيب مثال واحد لجميع النماذج الأخرى.

النتائج

يمكّن التلقين بسلسلة الأفكار نماذج اللغة الكبيرة من معالجة مسائل الرياضيات الصعبة. ومن اللافت للنظر أن القدرة على الاستدلال من خلال سلاسل الأفكار تظهر مع زيادة حجم النماذج.

الاستدلال المنطقي السليم

بينما تكون منهجية سلسلة الأفكار فعالة بشكل خاص في معالجة مسائل الرياضيات اللفظية، فإن نهجها القائم على اللغة يجعلها قابلة للتطبيق على مجموعة واسعة من مهام الاستدلال المنطقي السليم. يتضمن الاستدلال المنطقي السليم فهم التفاعلات الفيزيائية والبشرية بناءً على المعرفة الخلفية العامة، وهي مهارة لا تزال تشكل تحدياً لأنظمة فهم اللغة الطبيعية الحالية (Talmor et al., 2021).

المعايير

نقيم هذا النهج عبر خمس مجموعات بيانات تمثل أنواعاً مختلفة من الاستدلال المنطقي السليم. تتضمن مجموعة بيانات CSQA الإجابة على أسئلة منطقية سليمة حول العالم، وغالباً ما تتطلب معرفة مسبقة بالدلالات المعقدة. تتطلب StrategyQA من النماذج استنتاج استراتيجيات متعددة الخطوات للإجابة على الأسئلة. بالإضافة إلى ذلك، نستخدم مجموعتي تقييم متخصصتين من مبادرة BIG-bench: فهم التواريخ، التي تركز على استنتاج التواريخ من السياق، وفهم الرياضة، التي تتضمن تحديد معقولية الجمل المتعلقة بالرياضة. أخيراً، تتضمن مجموعة بيانات SayCan تعيين التعليمات باللغة الطبيعية إلى تسلسلات من إجراءات الروبوت من مجموعة منفصلة. يتم توضيح الأمثلة مع تعليقات سلسلة الأفكار لجميع مجموعات البيانات.

التلقينات.

من حيث الإعداد التجريبي، نتبع نهجاً مشابهاً كما في القسم السابق. بالنسبة لـ CSQA وStrategyQA، نختار عشوائياً أمثلة من مجموعة التدريب ونصنع سلاسل أفكار يدوياً لها لتكون بمثابة أمثلة للتلقين القليلة. نظراً لأن مهام BIG-bench تفتقر إلى مجموعات تدريب، نستخدم الأمثلة العشرة الأولى من مجموعة التقييم كأمثلة تلقين قليلة ونبلغ النتائج على باقي مجموعة التقييم. بالنسبة لـ SayCan، نستخدم ستة أمثلة من مجموعة التدريب وننشئ سلاسل أفكار يدوياً.

النتائج

النتائج، الموضحة في الشكل 7 لـ PaLM (مع النتائج الكاملة لـ LaMDA وGPT-3 وأحجام النماذج المختلفة في الجدول 4)، تكشف أن زيادة حجم النموذج يحسن أداء التلقين القياسي في جميع المهام. علاوة على ذلك، يؤدي التلقين بسلسلة الأفكار إلى مكاسب أداء إضافية، حيث لوحظت أكبر التحسينات في PaLM 540B. مع التلقين بسلسلة الأفكار، يحقق PaLM 540B نتائج مثيرة للإعجاب، متجاوزاً الأداء الفني السابق على StrategyQA (75.6% مقابل 69.4%) وحتى يتفوق على عشاق الرياضة غير المساعدين في فهم الرياضة (95.4% مقابل 84%). تؤكد هذه النتائج على إمكانات التلقين بسلسلة الأفكار لتعزيز الأداء عبر مجموعة من مهام الاستدلال المنطقي السليم، على الرغم من أن المكاسب كانت ضئيلة على CSQA.

الاستدلال الرمزي

في تقييمنا التجريبي الختامي، نركز على الاستدلال الرمزي، وهي مهمة بسيطة للبشر ولكنها قد تشكل تحديات لنماذج اللغة. نوضح أن التلقين بسلسلة الأفكار لا يمكّن نماذج اللغة من معالجة مهام الاستدلال الرمزي الصعبة في ظل ظروف التلقين القياسية فحسب، بل يساعد أيضاً في التعميم الطولي، مما يسمح للنماذج بالتعامل مع مدخلات وقت الاستدلال الأطول من تلك الموجودة في أمثلة التلقين القليلة.

المهام

نستخدم المهمتين البسيطتين التاليتين لتحليلنا:

  1. تسلسل الحرف الأخير: في هذه المهمة، يُطلب من النموذج تسلسل الأحرف الأخيرة من الكلمات في اسم معين (مثال: “Amy Brown” → “yn”). تقدم هذه نسخة أكثر تحدياً من مهمة تسلسل الحرف الأول، والتي يمكن لنماذج اللغة أداؤها بالفعل دون الحاجة إلى سلسلة أفكار. ننتج أسماء كاملة عن طريق الجمع العشوائي للأسماء من أعلى ألف اسم أول وأخير مأخوذة من بيانات التعداد السكاني.
  2. قلب العملة: تتطلب هذه المهمة من النموذج تحديد ما إذا كانت العملة لا تزال مقلوبة وجهاً لأعلى بعد أن يقوم الأشخاص بقلبها أو عدم قلبه (مثال: “A coin is heads up. Phoebe flips the coin. Osvaldo does not flip the coin. Is the coin still heads up?” → “no”).

النتائج

في الشكل أدناه، نقدم نتائج التقييمات داخل النطاق وخارج النطاق (OOD) لـ PaLM، مع تفصيل نتائج LaMDA في الجدول 5 من الملحق. بشكل ملحوظ، مع PaLM 540B، يحقق التلقين بسلسلة الأفكار معدلات نجاح تقترب من 100%، على الرغم من أن التلقين القياسي يحقق بالفعل مهام قلب العملة مع PaLM 540B (وإن لم يكن لـ LaMDA 137B).

تتضمن هذه التقييمات داخل النطاق “مهام لعبة”، حيث يتم توفير هياكل الحل المثالية بواسطة سلاسل الأفكار في أمثلة التلقين القليلة. على الرغم من ذلك، لا تزال النماذج الأصغر تعاني، مما يدل على أن القدرة على التعامل مع المفاهيم المجردة على رموز غير مرئية تظهر فقط عند مقياس 100B معلمة نموذج.

في التقييمات خارج النطاق، يفشل التلقين القياسي في كلتا المهمتين. ومع ذلك، مع التلقين بسلسلة الأفكار، تظهر نماذج اللغة منحنيات تصاعدية، وإن كان بأداء أقل مقارنة بالبيئة داخل النطاق. يشير هذا إلى أن التلقين بسلسلة الأفكار يسهل التعميم الطولي بعد سلاسل الأفكار المألوفة لنماذج اللغة الموسعة بشكل مناسب.

الخاتمة

يكشف استكشافنا للتلقين بسلسلة الأفكار عن فعاليته كتقنية مباشرة وقابلة للتطبيق على نطاق واسع لتعزيز قدرات الاستدلال في نماذج اللغة. عبر التجارب التي تشمل الاستدلال الحسابي والرمزي والمنطقي السليم، نلاحظ أن الاستدلال بسلسلة الأفكار يظهر كخاصية لحجم النموذج. وهذا يمكّن نماذج اللغة الكبيرة بما فيه الكفاية من معالجة مهام الاستدلال التي تظهر منحنيات توسع مسطحة بخلاف ذلك بشكل فعال.

من خلال توسيع ذخيرة مهام الاستدلال التي يمكن لنماذج اللغة التعامل معها بكفاءة، نهدف إلى تحفيز الاستكشاف والتطوير المستمر للنهج القائمة على اللغة في الاستدلال.

novita.ai، المنصة الشاملة للإبداع اللامحدود التي تمنحك الوصول إلى أكثر من 100 واجهة برمجة تطبيقات. من توليد الصور ومعالجة اللغة إلى تحسين الصوت ومعالجة الفيديو، الدفع حسب الاستخدام الرخيص، يحررك من عناء صيانة وحدات معالجة الرسوميات أثناء بناء منتجاتك الخاصة. جربها مجاناً.

قراءة موصى بها

ما الفرق بين LLM و GPT

الكشف عن توقعات لوحة متصدرة LLM 2024

محرك استدلال Novita AI LLM: أكبر إنتاجية وأرخص استدلال متاح