مقدمة
كيف نميز نحن البشر الأسباب وراء التأثيرات التي نلاحظها حولنا؟ عندما نرى السحب الرعدية تتجمع، لماذا نتوقع هطول المطر، أو كيف نستنتج أن الدواء كان فعالاً عندما تتحسن صحتنا؟
هذه القدرة، المعروفة باسم الاستدلال السببي، هي مكون رئيسي من الإدراك البشري تساعدنا على التنقل وفهم العالم. ولكن هل يمكن للذكاء الاصطناعي الحديث، وخاصة نماذج اللغة الكبيرة (LLMs) مثل GPT-3 وGPT-4، محاكاة هذه المهارة الحاسمة؟ ما مدى فهم هذه النماذج للعلاقة بين السبب والنتيجة، وأين تقصر؟ في هذه المدونة، سنناقش هذه الأسئلة حول الاستدلال السببي ونماذج اللغة الكبيرة واحدًا تلو الآخر.
ما هو الاستدلال السببي؟
نحن البشر جيدون جدًا في فهم الأسباب والنتائج. عندما نرى شيئًا يحدث، يمكننا غالبًا معرفة ما تسبب فيه وما قد تكون له من تأثيرات. هذه القدرة على التفكير في الأسباب تسمى الاستدلال السببي.
إنها مهارة حاسمة تساعدنا على فهم العالم واتخاذ قرارات جيدة. على سبيل المثال، إذا تحسنت حالتك بعد تناول الدواء، يمكنك استنتاج أن الدواء هو سبب تعافيك. أو إذا رأيت سحبًا رعدية، يمكنك توقع أن المطر هو النتيجة المحتملة.
الاستدلال السببي أمر حيوي في مجالات مثل العلوم والطب وصنع السياسات وغيرها. إن فهم الأسباب بشكل صحيح يسمح لنا بالتدخل بفعالية في المشاكل وتجنب إرجاع التأثيرات إلى أسباب خاطئة.

أنواع مهام الاستدلال السببي
هناك أنواع مختلفة من مهام الاستدلال السببي التي تتطلب هذا الفهم للسبب والنتيجة:
الاكتشاف السببي
معرفة العلاقات السببية بين المتغيرات المختلفة فقط من البيانات الرصدية. على سبيل المثال، تحليل البيانات الصحية لتحديد ما إذا كان التدخين يسبب السرطان.

تقدير التأثير
قياس حجم تأثير السبب على متغير النتيجة. مثل حساب مقدار زيادة التدخين لخطر الإصابة بالسرطان.

الاستدلال المضاد للواقع
النظر في سيناريوهات بديلة مثل “لو لم أدخن، هل كنت سأصاب بالسرطان؟”

السببية الفعلية
بالنسبة لحدث معين وقع، تحديد الأسباب الفعلية التي جعلته يحدث. مثل ما إذا كان تلوث مصنع ما سببًا فعليًا لمشاكل الجهاز التنفسي في مجتمع معين.

ما مدى جودة نماذج اللغة الكبيرة في الاستدلال السببي؟
بدأ الباحثون (Kıcıman et al., 2023) في تقييم نماذج اللغة الكبيرة مثل GPT-3 وGPT-4 على مجموعة متنوعة من مهام الاستدلال السببي باستخدام معايير معتمدة. النتائج مثيرة للاهتمام للغاية:
الاكتشاف السببي الثنائي: سهل
يشير هذا إلى مهمة تحديد العلاقة السببية بين زوج من المتغيرات X و Y. هل X يسبب Y، أم Y يسبب X، أم هما مجرد مرتبطين، أم لا توجد علاقة؟
حققت نماذج اللغة الكبيرة دقة ملحوظة بلغت 97% في تحديد العلاقة السببية بين أزواج المتغيرات عبر أكثر من 100 مثال من مجالات متنوعة مثل الفيزياء والأحياء وعلم الأوبئة وغيرها. تفوق هذا بشكل كبير على أفضل خوارزميات الاكتشاف السببي التقليدية السابقة التي وصلت أقصاها إلى 83% على معيار Tübingen (مجموعة بيانات تستخدم لتقييم خوارزميات الاكتشاف السببي في مهمة توجيه الزوج السببي).
اكتشاف الرسم البياني السببي الكامل: سهل
بعد تجاوز أزواج المتغيرات، يتضمن ذلك اكتشاف النموذج الرسومي السببي الكامل لمجموعة من المتغيرات — تحديد المتغيرات التي تسبب أيًا من المتغيرات الأخرى وتمثيلها كرسم بياني. هذا يسمح برسم الهيكل السببي الكامل بين عدة متغيرات.
في هذه المهمة الأكثر تعقيدًا المتمثلة في استعادة النموذج الرسومي السببي الكامل عبر عدة متغيرات، كانت طرق نماذج اللغة الكبيرة منافسة لأساليب التعلم العميق الحديثة مثل GCAI. على معايير مثل CADTR وCBN-Discrete، حققت الرسوم البيانية المتوقعة من GPT-4 درجات دقة هيكلية مماثلة.
الاستدلال المضاد للواقع: سهل
يقيم هذا ما إذا كان نموذج اللغة الكبير يمكنه التفكير في كيفية تغير النتائج في ظل سيناريوهات افتراضية مختلفة أو تدخلات على النظام السببي. على سبيل المثال، “إذا لم يحدث هذا السبب، فهل كان ذلك التأثير سيحدث؟” الاستدلال المضاد للواقع هو محور الإدراك السببي البشري.
عند تقييم هذا المعيار، أجاب GPT-4 على 92% من الأسئلة بشكل صحيح. كانت هذه زيادة كبيرة بنسبة 20 نقطة مئوية عن النتائج السابقة الأفضل في هذا المعيار المضاد للواقع.
تحديد الأسباب الضرورية/الكافية: سهل
بالنسبة لحدث معين وقع، يتطلب هذا تحديد الأسباب التي كانت ضرورية لحدوث الحدث، وأي مجموعة فرعية من الأسباب كانت كافية (كافية) لحدوث الحدث. هذا يصل إلى جوهر تحديد السببية الفعلية.
بالنظر إلى وصف قصصي قصير لأحداث محددة وقعت، تمكن GPT-4 بنجاح من تحديد الأسباب الضرورية التي يجب أن تكون موجودة، وكذلك الأسباب الكافية بأقل قدر كافٍ لحدوث الحدث، بدقة بلغت 86%.
تقييم الحالة الطبيعية: لا يزال سهلاً
أحد المكونات الرئيسية للاستدلال عالي المستوى حول السببية الفعلية للأحداث هو تقييم ما إذا كان سبب أو حدث ما ينتهك القواعد والافتراضات النموذجية. أدت نماذج اللغة الكبيرة بشكل معتدل بدقة حوالي 70% في هذا النوع من مهام الحكم على الحالة الطبيعية من معيار Cause18.
أشار الباحثون إلى أن نماذج اللغة الكبيرة حققت هذه النتائج بينما تم تزويدها فقط بأوصاف المتغيرات/الأحداث كمدخلات — دون تحليل أي بيانات بشكل مباشر. قد يشير هذا إلى أن نماذج اللغة الكبيرة تمتلك قدرة مثيرة للاهتمام على الاستفادة من معرفتها الواسعة لأداء جيد بشكل ملحوظ في العديد من مهام الاستدلال السببي.
ما هي قيود قدرات نماذج اللغة الكبيرة في الاستدلال السببي؟
لا يوجد محارب سداسي
في تجارب Kıcıman et al. (2023) على GPT 3 و GPT 4، لم يتفوق أي نموذج لغة كبير واحد على الآخر عبر كل معيار.

GPT-3
نقاط القوة:
- حقق دقة 97% في الاكتشاف السببي الثنائي (معيار Tübingen)، أفضل بكثير من الطرق السابقة
- أظهر القدرة على الأداء الجيد في بعض مهام الاستدلال السببي على الرغم من عدم الوصول المباشر إلى البيانات
نقاط الضعف:
- لم يتم تقييمه بشكل صريح في المهام الأكثر تعقيدًا مثل اكتشاف الرسم البياني السببي الكامل أو الاستدلال المضاد للواقع
- أظهر فشلًا غير متوقع وهشاشة تجاه تغييرات المطالبة (قيود ملحوظة لنماذج اللغة الكبيرة بشكل عام)
GPT-4
نقاط القوة:
- أداء قوي عبر مهام متعددة:
- دقة 92% في الاستدلال المضاد للواقع
- دقة 86% في تحديد الأسباب الضرورية/الكافية
- منافس لطرق التعلم العميق في اكتشاف الرسم البياني السببي الكامل
- يمثل زيادة كبيرة في القدرة مقارنة بـ GPT-3
نقاط الضعف:
- لا يزال لديه بعض الفجوات في الأداء في مهام مثل تقييم الحالة الطبيعية للأحداث (دقة 70%)
- يفتقر إلى المتانة تجاه تغييرات المطالبة التي تؤثر على الأداء (قيد عام لنماذج اللغة الكبيرة)
الإخفاقات غير المتوقعة
- سوء التفسير السياقي: غالبًا ما تفشل نماذج اللغة الكبيرة في تفسير السياقات السببية بشكل صحيح، خاصة في المواقف التي تنحرف عن الأنماط الشائعة في بيانات التدريب الخاصة بها. يمكن أن يؤدي هذا إلى تفسيرات سببية ليست خاطئة فقط بل مضللة أيضًا، خاصة في السيناريوهات المعقدة التي تتضمن عوامل متعددة متفاعلة.
- الأخطاء المنطقية: حتى مع النماذج المتطورة مثل GPT-4، فإن نماذج اللغة الكبيرة معرضة لارتكاب أخطاء أساسية في المنطق. قد تظهر فهمًا قويًا في حالة واحدة ثم تفشل في أخرى تحت ظروف مختلفة قليلاً. غالبًا ما تنبع هذه الإخفاقات من قيود النموذج في تطبيق التفكير المنطقي الأعمق بشكل متسق عبر سياقات متنوعة.
عدم المتانة
- الاعتماد على المطالبة: يتأثر أداء نماذج اللغة الكبيرة في الاستدلال السببي بشكل كبير بكيفية صياغة الأسئلة. يمكن أن تؤدي التغييرات الصغيرة في الصياغة إلى نتائج مختلفة بشكل كبير، مما يعكس اعتماد النموذج على إشارات لغوية محددة بدلاً من فهم حقيقي للآليات السببية.
- عدم الاتساق في الاستجابات: يمكن لنماذج اللغة الكبيرة إنتاج إجابات مختلفة لنفس السؤال عند طرحه عدة مرات أو تحت ظروف معدلة قليلاً. يبرز هذا عدم الاتساق نقصًا في الاستقرار في عملية التفكير للنموذج، مما يجعله غير موثوق للمهام التي يكون فيها التحليل السببي المتسق والدقيق أمرًا بالغ الأهمية.
لماذا تؤدي نماذج اللغة الكبيرة أداءً جيدًا في الاستدلال السببي ولكنها لا تزال ترتكب أخطاء أساسية؟
الإجابة البسيطة هي: نماذج اللغة الكبيرة هي مجرد “ببغاوات سببية: قد تتحدث نماذج اللغة الكبيرة عن السببية ولكنها ليست سببية”.
نقص الفهم السببي الحقيقي
الارتباط مقابل السببية: تعمل نماذج اللغة الكبيرة بشكل أساسي على الارتباطات الإحصائية المستمدة من كميات هائلة من البيانات التي تم تدريبها عليها. إنها تفتقر إلى القدرة على التمييز جوهريًا بين الارتباط والسببية، وهو جانب حاسم من الاستدلال السببي الحقيقي. لا تمتلك النماذج إمكانية الوصول إلى الآليات السببية الأساسية ولكن فقط إلى الأنماط التي قد تحاكي السببية.
النماذج السببية الهيكلية الفوقية (meta SCMs)
قدم Zečević, Willig, Dhami, and Kersting (2023) مفهوم النماذج السببية الهيكلية الفوقية لشرح الحالات التي تظهر فيها نماذج اللغة الكبيرة أنها تؤدي استدلالًا سببيًا. تقوم هذه النماذج بترميز الحقائق السببية حول النماذج السببية الهيكلية الأخرى ضمن متغيراتها، مما يشير إلى أن نماذج اللغة الكبيرة يمكنها فقط تقليد مظهر السببية عندما تعيد سرد أو تعكس الارتباطات التي تعلمتها أثناء التدريب والتي تكون منظمة مثل الحقائق السببية.
التدريب على البيانات المترابطة
المصطلح “الببغاوات السببية” المستخدم في مقالة Zečević, Willig, Dhami, and Kersting (2023) يوضح أن نماذج اللغة الكبيرة، مثل الببغاوات، تكرر فقط المعلومات (بما في ذلك العلاقات السببية) التي تعرضت لها في بيانات التدريب الخاصة بها دون فهم حقيقي. يعتمد هذا التكرار على الأنماط والارتباطات في البيانات بدلاً من أي فهم حقيقي للسببية.
ما هي الاتجاهات المستقبلية لأبحاث الاستدلال السببي حول نماذج اللغة الكبيرة؟
فهم قدرات الاستدلال السببي لنماذج اللغة الكبيرة
هناك حاجة إلى مزيد من البحث لفهم الآليات التي تؤدي بها نماذج اللغة الكبيرة مهام الاستدلال السببي. يشمل ذلك التحقيق في كيف تلتقط وتطبق نماذج اللغة الكبيرة المعرفة العامة والخاصة بالمجال في السيناريوهات السببية.
تحسين المتانة والموثوقية
تظهر نماذج اللغة الكبيرة دقة عالية في المتوسط ولكنها ترتكب أيضًا أخطاء بسيطة غير متوقعة. يجب أن تركز الأبحاث المستقبلية على زيادة متانة نماذج اللغة الكبيرة، ربما من خلال أدوات خارجية أو حالات إضافية من نماذج اللغة الكبيرة نفسها.
التكامل مع الطرق السببية الحالية
هناك إمكانات لدمج نماذج اللغة الكبيرة مع الطرق السببية الحالية، لتكون بمثابة وكيل للمعرفة البشرية في مجال معين وتقليل الجهد المطلوب لإعداد التحليلات السببية.
اكتشاف سببي قائم على المعرفة
استكشاف كيف يمكن لنماذج اللغة الكبيرة الاستفادة من البيانات الوصفية والأوصاف باللغة الطبيعية لاستنتاج الهياكل السببية، مما قد يعيد صياغة مشكلة الاكتشاف السببي لتضمين البيانات الوصفية للمتغيرات والمعرفة الحالية المشفرة من خلال نماذج اللغة الكبيرة.
الاستدلال المضاد للواقع
تطوير طرق توجه نماذج اللغة الكبيرة في استخدام البدائيات السببية مثل الضرورة والكفاية للإجابة على أسئلة الحكم السببي الفعلي عالية المستوى، ربما باستخدام نظرية السببية الفعلية الرسمية كمرشد.
التعاون بين الإنسان ونماذج اللغة الكبيرة
البحث في أفضل الطرق لتسهيل التعاون بين البشر ونماذج اللغة الكبيرة لمهام مثل إنشاء الرسوم البيانية، حيث قد تقترح نماذج اللغة الكبيرة حواف الرسم البياني وتقديم ملاحظات حول الرسوم البيانية المولدة يدويًا.
استنتاج التأثير السببي
التحقيق في كيف يمكن لنماذج اللغة الكبيرة المساعدة في تحديد مجموعات التعديل الصالحة لاستنتاج التأثير السببي واقتراح متغيرات أدوات محتملة للمهام السببية.
تنظيم السببية الفعلية والإسناد
استخدام نماذج اللغة الكبيرة لدعم الاستدلال السببي الفعلي في مجالات مثل القانون والتحليل الاستخباراتي، حيث يحتاج المحللون إلى تجميع التفسيرات حول درجة مساهمة الأحداث في أحداث أخرى.
إنشاء معايير للاكتشاف السببي
الاستفادة من نماذج اللغة الكبيرة للمساعدة في تحديد الحواف المفقودة أو المصنفة بشكل خاطئ في معايير الاكتشاف السببي، نظرًا لقدرتها على معالجة كميات كبيرة من النصوص.
استكشاف قدرات نماذج اللغة الكبيرة في مهام سببية متنوعة
هناك حاجة إلى مزيد من البحث لاستكشاف قدرات نماذج اللغة الكبيرة عبر مجموعة واسعة من المهام السببية، بما في ذلك الاكتشاف السببي واستنتاج التأثير والسببية الفعلية.
دمج التفكير القائم على التباين والمنطق
التحقيق في كيف يمكن لنماذج اللغة الكبيرة تسهيل دمج التحليل السببي القائم على التباين والمنطق من خلال واجهات اللغة الطبيعية.
الخاتمة
في الختام، يكشف استكشاف الاستدلال السببي في مجال نماذج اللغة الكبيرة عن سيف ذو حدين. من ناحية، أظهرت نماذج اللغة الكبيرة مثل GPT-3 وGPT-4 براعة ملحوظة في مهام الاستدلال السببي. من ناحية أخرى، فإن قيود نماذج اللغة الكبيرة في الاستدلال السببي ليست تافهة. على الرغم من دقتها العالية في بعض المهام، إلا أنها لا تزال ترتكب أخطاء أساسية وتظهر أنماط فشل غير متوقعة. يُعزى هذا إلى حد كبير إلى افتقارها إلى الفهم السببي الحقيقي، حيث تعمل استنادًا إلى الارتباطات الإحصائية بدلاً من الآليات السببية الحقيقية.
بينما نواصل كشف تعقيدات قدرات الاستدلال السببي لنماذج اللغة الكبيرة، من الضروري التعامل مع دمجها في التطبيقات الواقعية بحذر. بينما تحمل وعدًا بتعزيز الخبرة البشرية في التحليلات السببية، لا ينبغي أن تحل محل صرامة أطر الاستدلال السببي الرسمية. بدلاً من ذلك، يجب النظر إلى نماذج اللغة الكبيرة كأدوات تكميلية يمكن أن تُعمم الوصول إلى الأدوات والمعرفة السببية، مما يسهل التفاعلات القائمة على اللغة الطبيعية والطلقة لإجراء التحليل السببي. يكمن الطريق إلى الأمام في تسخير نقاط القوة في نماذج اللغة الكبيرة مع الاعتراف بقيودها ومعالجتها، والتوجه نحو مستقبل يكون فيه الاستدلال السببي في الذكاء الاصطناعي متطورًا وموثوقًا.
المراجع
Kıcıman, E., Ness, R., Sharma, A., & Tan, C. (2023). Causal reasoning and large language models: Opening a new frontier for causality (Working Paper №23-05002). arXiv. https://arxiv.org/abs/2305.05002
Zečević, M., Willig, M., Dhami, D. S., & Kersting, K. (2023). Causal Parrots: Large Language Models May Talk Causality But Are Not Causal. Transactions on Machine Learning Research, 08(2023). Retrieved from https://arxiv.org/abs/2308.13067
Novita AI، المنصة الشاملة للإبداع اللامحدود التي تمنحك إمكانية الوصول إلى أكثر من 100 واجهة برمجة تطبيقات. من توليد الصور ومعالجة اللغة إلى تحسين الصوت ومعالجة الفيديو، دفع حسب الاستخدام بسعر منخفض، يحررك من عناء صيانة وحدة معالجة الرسوميات أثناء بناء منتجاتك الخاصة. جربها مجانًا.
