أفضل نماذج مزيج الخبراء: نظرة مقارنة

برز مزيج الخبراء (MoE) بسرعة كأحد أهم خيارات التصميم لتوسيع نطاق نماذج اللغات الكبيرة اليوم. فبدلاً من تفعيل كل مُعامل لكل رمز، يُوجّه MoE المُدخلات بشكل انتقائي عبر مجموعة صغيرة من الخبراء، مُوازنًا بين الكفاءة وسعة النموذج الهائلة. يُتيح هذا التحول الهيكلي للمطورين بناء نماذج بمئات المليارات من المُعاملات مع الحفاظ على تكاليف الاستدلال في حدودها الدنيا.

في هذه المقالة، نقدم أساسيات MoE، ونلقي الضوء على الاختلافات المعمارية بين أفضل نماذج MoE، ونوضح لك كيفية الوصول إليها عمليًا.

مقدمة موجزة عن مزيج الخبراء (وزارة التعليم)

مزيج الخبراء (MoE) هو أسلوب تعلّم آلي يُقسّم نموذج الذكاء الاصطناعي إلى شبكات فرعية متعددة، تُسمى "خبراء"، كلٌّ منها مُدرّب على معالجة جزء مُحدّد من بيانات الإدخال، والتي تعمل معًا لإنجاز المهمة. يستخدم MoE مجموعة من النماذج المُتخصصة، إلى جانب آلية بوابات، لاختيار "شبكات الخبراء" الأنسب ديناميكيًا لمعالجة كل مُدخل.

كيف تعمل وزارة التعليم

1. شبكة البوابة (الموجه)
في قلب نظام MoE، تقع شبكة البوابات، التي تُحدد الخبراء الذين سيُعالجون كل رمز مُدخل. فبدلاً من إرسال كل رمز إلى جميع الخبراء، يُفعّل جهاز التوجيه الرموز الأكثر صلةً بشكل انتقائي، مما يضمن الكفاءة والتخصص.

2. MoE مقابل Dense

وزارة التربية والتعليم (خليط من الخبراء) يعمل هذا النهج بتوجيه كل رمز عبر مجموعة فرعية صغيرة فقط من الخبراء الذين تختارهم البوابة. يسمح هذا النهج للنموذج بتوسيع سعته الإجمالية بشكل كبير مع الحفاظ على تكلفة الحوسبة الفعلية في متناول الجميع. يتخصص الخبراء المختلفون في أنماط إدخال مختلفة، مما يتيح أداءً أقوى للمهام المعقدة دون الحاجة إلى توسيع نطاق الحوسبة خطيًا.

فى المقابل، نماذج كثيفة إرسال كل رمز عبر جميع الخبراء أو الطبقات، مما يجعل التصميم بسيطًا ولكنه مكلف حسابيًا. الفرق الرئيسي هو أن نموذج MoE يعتمد على التنشيط الانتقائي لتحقيق الكفاءة، بينما تعتمد النماذج الكثيفة على التنشيط الكامل لكل مُدخل.

وزارة التعليم المتفرقة
وزارة التربية
وزارة التعليم الكثيفة
كثيف

المرجع: دراسة استقصائية حول مزيج الخبراء في نموذج اللغة الكبير. (متوفر: https://arxiv.org/abs/2407.06204)

المزايا الرئيسية لوزارة التعليم

لقد أصبح MoE الخيار التصميمي السائد في أنظمة الذكاء الاصطناعي الحديثة نظرًا لمزاياه الفريدة:

  • سعة هائلة مع حوسبة مُتحكم بها:تتيح تقنية MoE المتفرقة للنماذج زيادة المعلمات بشكل كبير دون زيادة مماثلة في الطلب الحسابي. يتبع هذا التصميم مبدأ الحساب الشرطيحيث يتم تخصيص الموارد فقط عند الحاجة إليها، مما يجعل من الممكن تدريب النماذج ذات سعة أكبر بكثير من نظيراتها الكثيفة بنفس تكلفة الحوسبة.
  • التخصص الخبير:يتخصص الخبراء المختلفون بشكل طبيعي في أنماط أو مهام مميزة، مما يعزز الأداء عبر مجموعة واسعة من المدخلات ويتيح قدرات أكثر ثراءً على نطاق واسع LLMs.
  • الكفاءة في التدريب والاستدلال:تقوم Sparse MoE بتنشيط مجموعة فرعية صغيرة فقط من الخبراء لكل رمز، مما يقلل من النفقات العامة الثقيلة للنماذج الكثيفة ويحسن استخدام الموارد في مجموعات التدريب الكبيرة.
  • سيناريوهات النشر العمليةتُعد نماذج MoEs المتفرقة فعّالة بشكل خاص في بيئات الإنتاجية العالية التي تتيح الوصول إلى العديد من الأجهزة، حيث تُقدم نتائج أفضل بميزانية حوسبة ثابتة. قد تُناسب النماذج الكثيفة إعدادات الإنتاجية المنخفضة أو ذاكرة VRAM المحدودة للغاية، نظرًا لبساطتها التي تجعلها أكثر عمليةً لعمليات النشر على نطاق صغير.
  • المرونة في التوجيه:من خلال استراتيجيات التوجيه مثل بوابة الأعلى 1 أو الأعلى 2، يحقق Sparse MoE التوازن بين الكفاءة الحسابية والقوة التعبيرية، والتكيف مع أحمال العمل المختلفة ومتطلبات التوسع.

بفضل هذه المزايا، ليس من المستغرب اعتماد نموذج MoE على نطاق واسع في نماذج اللغات الكبيرة المتطورة. في القسم التالي، سنتناول بعضًا من أكثر النماذج القائمة على نموذج MoE تأثيرًا في عام ٢٠٢٥، مستكشفين كيفية تطبيقها والاستفادة من هذه البنية.

نماذج وزارة التعليم المتطورة في عام 2025

نظرة عامة على نماذج MoE مفتوحة المصدر: نظرة متعمقة على بنيتها

الموديلإجمالي المعلماتالمعلمات المنشطةحجم حمام السباحة الخبيرالخبراء النشطون لكل رمز
GPT OSS 120B116.8B مع 36 طبقة5.1B1284
GPT OSS 20B20.9B مع 24 طبقة3.6B324
ديب سيك V3.1671B37B256 موجه + 1 مشترك8
جي إل إم 4.5335B32B1608
كيمي K2 09051T مع 61 طبقة32B384 موجه + 1 مشترك8
مبرمج Qwen3480B مع 62 طبقة35B1608
لاما 4 كشاف109B17B16غير محدد

يسلط كل نموذج الضوء على أولويات مختلفة من خلال تصميمه المعماري.

  • ديب سيك V3.1 و كيمي K2 0905 الاعتماد على مجموعات خبراء كبيرة بشكل استثنائي مع العديد من الخبراء النشطين لكل رمز، وهو إعداد يعمل على تعظيم التخصص ويوفر أداءً قويًا في المهام المعقدة والمتعددة الخطوات.
  • GPT-OSS 120Bمن ناحية أخرى، يتبنى نهجًا أكثر توازناً، حيث يجمع بين مجموعة من الخبراء متوسطة الحجم مع تنشيط معتدل، مما يجعله مناسبًا لتطبيقات المؤسسات حيث يجب أن يتعايش الاستقرار والحجم.
  • GPT-OSS 20B يتبنى تكوينًا أخف وزنًا مع عدد أقل من الخبراء، ومُحسَّنًا للسيناريوهات التي يكون فيها زمن الوصول وكفاءة التكلفة أمرًا بالغ الأهمية، مثل برامج الدردشة الآلية في الوقت الفعلي أو عمليات النشر المقيدة بالموارد.
  • مبرمج Qwen3 يركز على المهام الموجهة نحو الكود مع إعداد MoE متوازن، ويجمع بين القدرة القوية على التفكير والتنشيط الفعال لتقديم أداء موثوق به لتطبيقات المطورين.
  • لاما 4 كشاف يوضح تصميم MoE المدمج مع مجموعة صغيرة من الخبراء وحمل تنشيط منخفض، مما يجعله خيارًا عمليًا للتطبيقات ذات زمن الوصول المنخفض أو مستوى الحافة.

توضح هذه الاختلافات كيف يمكن ضبط تكوينات MoE لتتوافق مع أهداف النشر المختلفة - من الاستكشاف على نطاق البحث والأنظمة الوكيلية المتقدمة إلى الاستدلال خفيف الوزن والجاهز للإنتاج.

ومع ذلك، ما يبقى ثابتًا هو الطلب على البنية التحتية للحوسبة الموثوقة. إن تشغيل النماذج التي تحتوي على مليارات أو حتى تريليونات من المعلمات لا يتطلب فقط قدرات قوية GPUولكن أيضًا ربطات عالية النطاق الترددي وخطوط أنابيب مُحسّنة. بالنسبة لمعظم الفرق، يُشكّل هذا حافزًا قويًا للاستفادة من السحابة. GPU الحالات وخدمات API المُدارة، والتي تزيل عبء صيانة المجموعات المحلية مع الاستمرار في توفير الوصول إلى إمكانيات MoE الرائدة.

كيفية الوصول إلى أفضل نماذج وزارة التعليم؟

النشر المحلي

الموديلVRAM (تقريبًا)توضيحالأجهزة الموصى بها
GPT OSS 120B80 جيجا بايتMXFP4H100 × 1
GPT OSS 20B16 جيجا بايتMXFP4RTX 4090 x1
ديب سيك V3.11.34 تيرا بايت16 بتمجموعة بطاقات H200 المكونة من 8 بطاقات
جي إل إم 4.5717 جيجا بايت16 بتارتفاع 100 × 16 / ارتفاع 200 × 8
كيمي K2 09052.05 تيرا بايت16 بتH100/A100 80 جيجابايت (x32)
مبرمج Qwen3290 جيجا بايتس4_ك_مA6000 × 2
لاما 4 كشاف 17ب216 جيجا بايتInt4H100 × 1

في حين يمكن نشر أفضل نماذج وزارة التعليم محليًا باستخدام كميات هائلة من الموارد، GPU المتطلبات، Novita AI يوفر سحابة محسّنة GPUمما يُزيل تعقيد إدارة البنية التحتية عالية التكلفة. لاستكشاف خيارات مرنة وإيجاد الخطة التي تناسب عبء عملك، تفضل بزيارة موقعنا الأسعار .

تكامل واجهة برمجة التطبيقات

هل تريد طريقة أبسط؟ اختر Novita AIواجهات برمجة التطبيقات الخاصة بـ !

Novita AI تقدم واجهات برمجة التطبيقات لـ جميع موديلات MoE المتميزة، تتميز بنوافذ سياقية طويلة وبأسعار تنافسية للغاية!

مكتبة النماذج 1
مكتبة النماذج 2

الخطوة 1 : تسجيل الدخول والوصول إلى مكتبة النماذج

قم بتسجيل الدخول أو قم بالتسجيل في حسابك وانقر على مكتبة النموذج .

أين تجد مكتبة النماذج على Novita AI

الخطوة 2: اختر النموذج الخاص بك

تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

صفحة مكتبة النماذج

الخطوة 3: ابدأ تجربتك المجانية

بدء الخاص بك مجاني محاولة لاستكشاف قدرات النموذج المحدد.

الخطوة 4: احصل على مفتاح API الخاص بك

للمصادقة باستخدام واجهة برمجة التطبيقات، سنزودك بمفتاح واجهة برمجة تطبيقات جديد. عند الدخول إلى صفحة "الإعدادات"، يمكنك نسخ مفتاح واجهة برمجة التطبيقات كما هو موضح في الصورة.

إظهار كيفية الحصول على مفتاح API

الخطوة 5: تثبيت واجهة برمجة التطبيقات (API)

قم بتثبيت واجهة برمجة التطبيقات (API) باستخدام مدير الحزم المخصص للغة البرمجة الخاصة بك.

انقر اضغط هنا للتحقق من البرنامج التعليمي التفصيلي.

أسئلة شائعة

ما هو نموذج مزيج الخبراء؟

MoE هي بنية شبكة عصبية تتضمن العديد من وحدات "الخبراء"، ولكن يتم تفعيل مجموعة فرعية صغيرة فقط لكل مُدخل. هذا يزيد السعة الإجمالية دون تكلفة حوسبة متناسبة.

كيف تختلف نماذج MoE عن النماذج الكثيفة؟

تُفعّل النماذج الكثيفة جميع المعلمات لكل مُدخل. أما نماذج MoE فتُفعّل بشكل انتقائي عددًا قليلًا من الخبراء لكل رمز، مما يجعلها أكثر كفاءة في الحوسبة على نطاق واسع.

ما هم الخبراء الموجهون والخبراء المشتركون؟

يتم اختيار الخبراء الموجهين بشكل ديناميكي بواسطة جهاز توجيه لكل رمز، بينما يتوفر دائمًا خبير مشترك كخيار احتياطي لضمان الاستقرار والعدالة في التوجيه.

نوفيتا أيه آي هي عبارة عن منصة سحابية للذكاء الاصطناعي توفر للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة التطبيقات البسيطة لدينا، مع توفيرها أيضًا بأسعار معقولة وموثوقة GPU السحابة للبناء والتوسع.


اكتشف المزيد من نوفيتا

اشترك للحصول على أحدث المشاركات المرسلة إلى بريدك الإلكتروني.

اترك تعليق

انتقل إلى الأعلى

اكتشف المزيد من نوفيتا

اشترك الآن لمواصلة القراءة والوصول إلى الأرشيف الكامل.

مواصلة القراءة