برز مزيج الخبراء (MoE) بسرعة كأحد أهم خيارات التصميم لتوسيع نطاق نماذج اللغات الكبيرة اليوم. فبدلاً من تفعيل كل مُعامل لكل رمز، يُوجّه MoE المُدخلات بشكل انتقائي عبر مجموعة صغيرة من الخبراء، مُوازنًا بين الكفاءة وسعة النموذج الهائلة. يُتيح هذا التحول الهيكلي للمطورين بناء نماذج بمئات المليارات من المُعاملات مع الحفاظ على تكاليف الاستدلال في حدودها الدنيا.
في هذه المقالة، نقدم أساسيات MoE، ونلقي الضوء على الاختلافات المعمارية بين أفضل نماذج MoE، ونوضح لك كيفية الوصول إليها عمليًا.
مقدمة موجزة عن مزيج الخبراء (وزارة التعليم)
مزيج الخبراء (MoE) هو أسلوب تعلّم آلي يُقسّم نموذج الذكاء الاصطناعي إلى شبكات فرعية متعددة، تُسمى "خبراء"، كلٌّ منها مُدرّب على معالجة جزء مُحدّد من بيانات الإدخال، والتي تعمل معًا لإنجاز المهمة. يستخدم MoE مجموعة من النماذج المُتخصصة، إلى جانب آلية بوابات، لاختيار "شبكات الخبراء" الأنسب ديناميكيًا لمعالجة كل مُدخل.
كيف تعمل وزارة التعليم
1. شبكة البوابة (الموجه)
في قلب نظام MoE، تقع شبكة البوابات، التي تُحدد الخبراء الذين سيُعالجون كل رمز مُدخل. فبدلاً من إرسال كل رمز إلى جميع الخبراء، يُفعّل جهاز التوجيه الرموز الأكثر صلةً بشكل انتقائي، مما يضمن الكفاءة والتخصص.
2. MoE مقابل Dense
وزارة التربية والتعليم (خليط من الخبراء) يعمل هذا النهج بتوجيه كل رمز عبر مجموعة فرعية صغيرة فقط من الخبراء الذين تختارهم البوابة. يسمح هذا النهج للنموذج بتوسيع سعته الإجمالية بشكل كبير مع الحفاظ على تكلفة الحوسبة الفعلية في متناول الجميع. يتخصص الخبراء المختلفون في أنماط إدخال مختلفة، مما يتيح أداءً أقوى للمهام المعقدة دون الحاجة إلى توسيع نطاق الحوسبة خطيًا.
فى المقابل، نماذج كثيفة إرسال كل رمز عبر جميع الخبراء أو الطبقات، مما يجعل التصميم بسيطًا ولكنه مكلف حسابيًا. الفرق الرئيسي هو أن نموذج MoE يعتمد على التنشيط الانتقائي لتحقيق الكفاءة، بينما تعتمد النماذج الكثيفة على التنشيط الكامل لكل مُدخل.


المرجع: دراسة استقصائية حول مزيج الخبراء في نموذج اللغة الكبير. (متوفر: https://arxiv.org/abs/2407.06204)
المزايا الرئيسية لوزارة التعليم
لقد أصبح MoE الخيار التصميمي السائد في أنظمة الذكاء الاصطناعي الحديثة نظرًا لمزاياه الفريدة:
- سعة هائلة مع حوسبة مُتحكم بها:تتيح تقنية MoE المتفرقة للنماذج زيادة المعلمات بشكل كبير دون زيادة مماثلة في الطلب الحسابي. يتبع هذا التصميم مبدأ الحساب الشرطيحيث يتم تخصيص الموارد فقط عند الحاجة إليها، مما يجعل من الممكن تدريب النماذج ذات سعة أكبر بكثير من نظيراتها الكثيفة بنفس تكلفة الحوسبة.
- التخصص الخبير:يتخصص الخبراء المختلفون بشكل طبيعي في أنماط أو مهام مميزة، مما يعزز الأداء عبر مجموعة واسعة من المدخلات ويتيح قدرات أكثر ثراءً على نطاق واسع LLMs.
- الكفاءة في التدريب والاستدلال:تقوم Sparse MoE بتنشيط مجموعة فرعية صغيرة فقط من الخبراء لكل رمز، مما يقلل من النفقات العامة الثقيلة للنماذج الكثيفة ويحسن استخدام الموارد في مجموعات التدريب الكبيرة.
- سيناريوهات النشر العمليةتُعد نماذج MoEs المتفرقة فعّالة بشكل خاص في بيئات الإنتاجية العالية التي تتيح الوصول إلى العديد من الأجهزة، حيث تُقدم نتائج أفضل بميزانية حوسبة ثابتة. قد تُناسب النماذج الكثيفة إعدادات الإنتاجية المنخفضة أو ذاكرة VRAM المحدودة للغاية، نظرًا لبساطتها التي تجعلها أكثر عمليةً لعمليات النشر على نطاق صغير.
- المرونة في التوجيه:من خلال استراتيجيات التوجيه مثل بوابة الأعلى 1 أو الأعلى 2، يحقق Sparse MoE التوازن بين الكفاءة الحسابية والقوة التعبيرية، والتكيف مع أحمال العمل المختلفة ومتطلبات التوسع.
بفضل هذه المزايا، ليس من المستغرب اعتماد نموذج MoE على نطاق واسع في نماذج اللغات الكبيرة المتطورة. في القسم التالي، سنتناول بعضًا من أكثر النماذج القائمة على نموذج MoE تأثيرًا في عام ٢٠٢٥، مستكشفين كيفية تطبيقها والاستفادة من هذه البنية.
نماذج وزارة التعليم المتطورة في عام 2025
نظرة عامة على نماذج MoE مفتوحة المصدر: نظرة متعمقة على بنيتها
| الموديل | إجمالي المعلمات | المعلمات المنشطة | حجم حمام السباحة الخبير | الخبراء النشطون لكل رمز |
| GPT OSS 120B | 116.8B مع 36 طبقة | 5.1B | 128 | 4 |
| GPT OSS 20B | 20.9B مع 24 طبقة | 3.6B | 32 | 4 |
| ديب سيك V3.1 | 671B | 37B | 256 موجه + 1 مشترك | 8 |
| جي إل إم 4.5 | 335B | 32B | 160 | 8 |
| كيمي K2 0905 | 1T مع 61 طبقة | 32B | 384 موجه + 1 مشترك | 8 |
| مبرمج Qwen3 | 480B مع 62 طبقة | 35B | 160 | 8 |
| لاما 4 كشاف | 109B | 17B | 16 | غير محدد |
يسلط كل نموذج الضوء على أولويات مختلفة من خلال تصميمه المعماري.
- ديب سيك V3.1 و كيمي K2 0905 الاعتماد على مجموعات خبراء كبيرة بشكل استثنائي مع العديد من الخبراء النشطين لكل رمز، وهو إعداد يعمل على تعظيم التخصص ويوفر أداءً قويًا في المهام المعقدة والمتعددة الخطوات.
- GPT-OSS 120Bمن ناحية أخرى، يتبنى نهجًا أكثر توازناً، حيث يجمع بين مجموعة من الخبراء متوسطة الحجم مع تنشيط معتدل، مما يجعله مناسبًا لتطبيقات المؤسسات حيث يجب أن يتعايش الاستقرار والحجم.
- GPT-OSS 20B يتبنى تكوينًا أخف وزنًا مع عدد أقل من الخبراء، ومُحسَّنًا للسيناريوهات التي يكون فيها زمن الوصول وكفاءة التكلفة أمرًا بالغ الأهمية، مثل برامج الدردشة الآلية في الوقت الفعلي أو عمليات النشر المقيدة بالموارد.
- مبرمج Qwen3 يركز على المهام الموجهة نحو الكود مع إعداد MoE متوازن، ويجمع بين القدرة القوية على التفكير والتنشيط الفعال لتقديم أداء موثوق به لتطبيقات المطورين.
- لاما 4 كشاف يوضح تصميم MoE المدمج مع مجموعة صغيرة من الخبراء وحمل تنشيط منخفض، مما يجعله خيارًا عمليًا للتطبيقات ذات زمن الوصول المنخفض أو مستوى الحافة.
توضح هذه الاختلافات كيف يمكن ضبط تكوينات MoE لتتوافق مع أهداف النشر المختلفة - من الاستكشاف على نطاق البحث والأنظمة الوكيلية المتقدمة إلى الاستدلال خفيف الوزن والجاهز للإنتاج.
ومع ذلك، ما يبقى ثابتًا هو الطلب على البنية التحتية للحوسبة الموثوقة. إن تشغيل النماذج التي تحتوي على مليارات أو حتى تريليونات من المعلمات لا يتطلب فقط قدرات قوية GPUولكن أيضًا ربطات عالية النطاق الترددي وخطوط أنابيب مُحسّنة. بالنسبة لمعظم الفرق، يُشكّل هذا حافزًا قويًا للاستفادة من السحابة. GPU الحالات وخدمات API المُدارة، والتي تزيل عبء صيانة المجموعات المحلية مع الاستمرار في توفير الوصول إلى إمكانيات MoE الرائدة.
كيفية الوصول إلى أفضل نماذج وزارة التعليم؟
النشر المحلي
| الموديل | VRAM (تقريبًا) | توضيح | الأجهزة الموصى بها |
| GPT OSS 120B | 80 جيجا بايت | MXFP4 | H100 × 1 |
| GPT OSS 20B | 16 جيجا بايت | MXFP4 | RTX 4090 x1 |
| ديب سيك V3.1 | 1.34 تيرا بايت | 16 بت | مجموعة بطاقات H200 المكونة من 8 بطاقات |
| جي إل إم 4.5 | 717 جيجا بايت | 16 بت | ارتفاع 100 × 16 / ارتفاع 200 × 8 |
| كيمي K2 0905 | 2.05 تيرا بايت | 16 بت | H100/A100 80 جيجابايت (x32) |
| مبرمج Qwen3 | 290 جيجا بايت | س4_ك_م | A6000 × 2 |
| لاما 4 كشاف 17ب | 216 جيجا بايت | Int4 | H100 × 1 |
في حين يمكن نشر أفضل نماذج وزارة التعليم محليًا باستخدام كميات هائلة من الموارد، GPU المتطلبات، Novita AI يوفر سحابة محسّنة GPUمما يُزيل تعقيد إدارة البنية التحتية عالية التكلفة. لاستكشاف خيارات مرنة وإيجاد الخطة التي تناسب عبء عملك، تفضل بزيارة موقعنا الأسعار .
تكامل واجهة برمجة التطبيقات
هل تريد طريقة أبسط؟ اختر Novita AIواجهات برمجة التطبيقات الخاصة بـ !
Novita AI تقدم واجهات برمجة التطبيقات لـ جميع موديلات MoE المتميزة، تتميز بنوافذ سياقية طويلة وبأسعار تنافسية للغاية!


الخطوة 1 : تسجيل الدخول والوصول إلى مكتبة النماذج
قم بتسجيل الدخول أو قم بالتسجيل في حسابك وانقر على مكتبة النموذج .

الخطوة 2: اختر النموذج الخاص بك
تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

الخطوة 3: ابدأ تجربتك المجانية
بدء الخاص بك مجاني محاولة لاستكشاف قدرات النموذج المحدد.
الخطوة 4: احصل على مفتاح API الخاص بك
للمصادقة باستخدام واجهة برمجة التطبيقات، سنزودك بمفتاح واجهة برمجة تطبيقات جديد. عند الدخول إلى صفحة "الإعدادات"، يمكنك نسخ مفتاح واجهة برمجة التطبيقات كما هو موضح في الصورة.

الخطوة 5: تثبيت واجهة برمجة التطبيقات (API)
قم بتثبيت واجهة برمجة التطبيقات (API) باستخدام مدير الحزم المخصص للغة البرمجة الخاصة بك.
انقر اضغط هنا للتحقق من البرنامج التعليمي التفصيلي.
أسئلة شائعة
MoE هي بنية شبكة عصبية تتضمن العديد من وحدات "الخبراء"، ولكن يتم تفعيل مجموعة فرعية صغيرة فقط لكل مُدخل. هذا يزيد السعة الإجمالية دون تكلفة حوسبة متناسبة.
تُفعّل النماذج الكثيفة جميع المعلمات لكل مُدخل. أما نماذج MoE فتُفعّل بشكل انتقائي عددًا قليلًا من الخبراء لكل رمز، مما يجعلها أكثر كفاءة في الحوسبة على نطاق واسع.
يتم اختيار الخبراء الموجهين بشكل ديناميكي بواسطة جهاز توجيه لكل رمز، بينما يتوفر دائمًا خبير مشترك كخيار احتياطي لضمان الاستقرار والعدالة في التوجيه.
نوفيتا أيه آي هي عبارة عن منصة سحابية للذكاء الاصطناعي توفر للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة التطبيقات البسيطة لدينا، مع توفيرها أيضًا بأسعار معقولة وموثوقة GPU السحابة للبناء والتوسع.
اكتشف المزيد من نوفيتا
اشترك للحصول على أحدث المشاركات المرسلة إلى بريدك الإلكتروني.




