النقاط الرئيسية
- مقدمة عن Mixtral: أصبح Mixtral الآن نموذج اللغة الكبير مفتوح المصدر المجاني الأكثر شعبية.
- مشاكل تشغيل LLM باستخدام RTX4080: ذاكرة عرض غير كافية، سرعة TTFT بطيئة، وتكلفة ضخمة.
- كيفية حل هذه المشاكل: تحسين أداء Mixtral، استخدام بطاقات رسومية متعددة، أو استخدام ذاكرة موسعة.
- مزايا استخدام مثيلات GPU: قابلية توسع أعلى، تكلفة أقل، الدفع حسب الاستخدام، وتكاليف صيانة أقل.
- دروس تعليمية ذات صلة: درس تعليمي حول تشغيل Mixtral محلياً ودرس تعليمي حول استخدام مثيلات GPU.
مقدمة
ستستكشف هذه المدونة كيفية جعل منتجات عائلة Mixtral تعمل بشكل أفضل على وحدات معالجة الرسوميات RTX 4080، وهي نوع من الأجهزة الاستهلاكية مثل أجهزة الكمبيوتر المحمولة. سنتحدث عن إدارة الذاكرة وإعداد وحدات GPU لاستخدام مواردها بكفاءة، بما في ذلك استخدام بطاقتي GPU على الأقل بسعة 16 جيجابايت من VRAM لكل منهما لتحقيق الأداء الأمثل. وسنقارن أيضاً بين تشغيل نماذج LLM على جهاز الكمبيوتر الخاص بك وبين استخدام مثيلات GPU، والتي قد تمنحك أداءً أفضل باستخدام VRAM كمخزن مؤقت عالي السرعة للتحميل الفعال ومنع مشكلات الأداء.
أطلق العنان لقوة نموذج Mixtral مفتوح المصدر
قبل إطلاق العنان لإمكانيات Mixtral، يحتاج الأشخاص أولاً إلى معرفة ما هو Mixtral. بالإضافة إلى ذلك، فإن فهم الإصدارات المختلفة من Mixtral سيساعد المستخدمين أيضاً على اختيار الجهاز المناسب وفقاً لإصدارات LLM المختلفة.
ما هو نموذج Mixtral؟
Mixtral هو نموذج لغة كبير مفتوح المصدر ومجاني أنشأته Mistral.ai. في قائمة Imsys لعام 2023، أصبح Mixtral 8x7b أحد أعلى نماذج LLM مفتوحة المصدر تصنيفاً من قبل المستخدمين.

ترتيب LLM
يستخدم طريقة تسمى المزج المتفرق للخبراء (MoE)، والمعروفة أيضاً باسم مزيج متفرق من الخبراء. هذا يختلف عن LLM العادي لأنه لا يتم استخدام جميع أجزاء Mixtral في وقت واحد. بدلاً من ذلك، يتم تنشيط أجزاء “خبير” قليلة فقط اعتماداً على المهمة.
كم عدد إصدارات Mistral؟
بحلول عام 2024، أطلقت Mistral.ai أربعة نماذج LLM مجانية ومفتوحة المصدر، وهي كالتالي:
- Mistral 7B
- Mixtral 8x7B
- Mixtral 8x22B
مع تطور منتجات سلسلة Mixtral، تحسنت قدرة الاستدلال، والقدرة متعددة اللغات، وقدرة الترميز الرياضي لهذه السلسلة من المنتجات بشكل كبير.
ومع ذلك، تتطلب هذه التحسينات أيضاً من المستخدمين استخدام ذاكرة أكبر وأداء أفضل. على سبيل المثال، تتطلب متطلبات الأجهزة لتشغيل Mixtral 8x22b على جهاز كمبيوتر شخصي وحدة معالجة رسومية بذاكرة تبلغ حوالي 300 جيجابايت ليعمل نموذج LLM هذا بسلاسة.
تشغيل Mixtral على 4080
الآن يختار بعض المستخدمين استخدام RTX4080 لتشغيل Mixtral. على سبيل المثال، نجح Slaghton في تشغيل Mixtral 8x7b باستخدام بطاقتي RTX4080. ومع ذلك، نظراً لقيود الذاكرة لوحدة GPU المحلية، يمكن لنموذج LLM هذا العمل فقط بأقل إنتاجية. في هذه الحالة، يمكن لنموذج LLM توليد حوالي 7–8 رمزاً في الثانية فقط.
كيف تشغل Mixtral 8x7b باستخدام وحدات GPU محلية؟
فيديو تعليمي: تثبيت Mixtral 8x7B محلياً على Windows على كمبيوتر محمول
الخطوة 1: تحتاج إلى مساحة كبيرة بما يكفي على الكمبيوتر للتشغيل، لذا ابدأ بتنظيف جهاز الكمبيوتر أولاً!
الخطوة 2: قم بتثبيت مكتبات وأدوات Python الضرورية، مثل TensorFlow و PyTorch وغيرها. يمكن تثبيت هذه المكتبات والأدوات عبر pip أو conda.
الخطوة 3: قم بتنزيل ملف نموذج Mixtral 8x7B من القناة الرسمية. عادةً ما يتم توفير ملف النموذج كحزمة مضغوطة تحتوي على أوزان وملفات تكوين النموذج.
الخطوة 4: قم بفك ضغط ملف النموذج الذي تم تنزيله إلى الدليل المحدد.
الخطوة 5: وفقاً لملف تكوين النموذج، قم بتعيين متغيرات البيئة الضرورية، مثل مسار النموذج، نوع الجهاز (CPU/GPU)، إلخ.
ماذا يحدث عند تشغيل Mixtral باستخدام RTX4080 محلي؟
قد يواجه الأشخاص الذين يحاولون تشغيل LLM ببطاقة رسوميات استهلاكية المشكلات التالية.
- ذاكرة عرض غير كافية: الحد الأقصى لذاكرة العرض لـ RXT4080 هو 16 جيجابايت، لكن قد يستغرق الأمر حوالي 200–300 جيجابايت لتشغيل Mixtral بسلاسة.
- سرعة TTFT بطيئة: بناءً على تجربة العديد من ناشري المحتوى على Reddit الذين شغلوا Mistral 7b و Mixtral 8x7b باستخدام 4060 و 4080 و 4090. باستخدام بطاقة رسوميات استهلاكية، يمكن أن تصل سرعة TTFT لتشغيل نموذج LLM إلى 1 رمز/ثانية – 8 رمز/ثانية فقط.
- تكلفة ضخمة: غالباً ما يستخدم هؤلاء الناشرون عدة بطاقات رسومية أو ذاكرة خارجية لتشغيل Mixtral. وفقاً للسعر المنشور على موقع Amazon الإلكتروني، تبلغ تكلفة بطاقة RTX4080 999 دولاراً.
كيف تحسن أداء 4080 عند تشغيل Mixtral؟
- ضبط إعدادات LLM أمر مهم جداً للحصول على أفضل أداء على ذاكرة GPU بسعة 16 جيجابايت لـ RTX 4080. أحد الإعدادات الرئيسية هو “حجم الدفعة”. يحدد هذا الإعداد عدد عينات الإدخال التي تتم معالجتها في نفس الوقت. إذا قمت بخفض حجم الدفعة، يمكن أن يقلل ذلك من استخدام VRAM.
- من الجيد أيضاً توسيع ذاكرة بطاقة الرسوميات 4080 باستخدام ذاكرة موسعة.
- استخدام بطاقات رسومية متعددة.
الاتجاهات المستقبلية في تشغيل Mixtral
مع تطور LLM، تزداد القوة الحاسوبية وذاكرة العرض المطلوبة لتشغيل LLM. كما أن فرصة الفرد لتشغيل LLM باستخدام بطاقة رسوميات استهلاكية أصبحت أصغر فأصغر. أصبحت طريقة جديدة لتشغيل LLM شائعة بين الأفراد والمؤسسات، وهي تشغيله باستخدام مثيل GPU.
ما هي مثيلات GPU؟
مثيلات GPU هي أجهزة افتراضية أو موارد حاسوبية مقدمة في بيئة حوسبة سحابية مزودة بوحدات معالجة رسوميات (GPU).
سيناريو التطبيق:
- التعلم العميق: يتطلب تدريب نماذج الشبكات العصبية الكثير من عمليات المصفوفات، ويمكن لقدرات المعالجة المتوازية لوحدات GPU تسريع التدريب بشكل كبير.
- تقديم الرسوميات: يُستخدم في تطوير الألعاب، إنتاج الأفلام والتلفزيون، وغيرها من المجالات لتوفير مخرجات رسومية عالية الجودة.
- الحوسبة العلمية: عمليات المحاكاة والحسابات المعقدة في مجالات الفيزياء والكيمياء والأحياء.
مثيل GPU مقابل GPU محلي
- استخدام مثيلات GPU أرخص بدلاً من ذلك: سعر مثيلات GPU التي تستخدم RTX 4090 أقل من 1 دولار/ساعة. لكن وفقاً لـ Amazon، تكلفة RTX4090 المحلية حوالي 1،660 دولاراً.

تكلفة مثيل GPU
-
قابلية توسع أعلى: يمكن لمستخدمي مثيلات GPU ضبط عدد وأداء مثيلات GPU ديناميكياً حسب الطلب بنقرة زر الفأرة.
-
الدفع حسب الاستخدام: يمكن للمستخدمين الدفع بناءً على الاستخدام، دون استثمار مسبق في الأجهزة.
-
تكاليف صيانة أقل: استخدام موارد GPU الافتراضية يلغي القلق من تلف الأجهزة الذي يتسبب في عدم تشغيل البرنامج.
كيفية استخدام GPU Cloud؟
الخطوة 1: انتقل إلى موقع Novita.ai وانقر على Produce — GPU Instance

صفحة موقع Novita.ai
الخطوة 2: انقر على البدء الآن

صفحة موقع Novita.ai
الخطوة 3: اختر نوع بطاقة الرسوميات التي تحتاجها وحجم الذاكرة الذي تحتاجه وانقر على Deploy.

صفحة موقع Novita.ai
للحصول على تفاصيل حول كيفية إنشاء مثيل GPU، راجع كيفية استخدام Llama 3 على Novita AI GPU Instance
الأسئلة الشائعة
ما هي كمية RAM التي يحتاجها Mixtral؟
عادةً ما يحتاج Mixtral إلى 8 جيجابايت على الأقل من RAM ليعمل بشكل جيد. إذا كانت مهامك أكثر تعقيداً، فإن وجود RAM إضافية يمكن أن يساعد. من المهم أن تكون RAM كافية لتشغيل Mixtral بسلاسة ومعالجة المهام بكفاءة.
ما هي GPU المطلوبة لـ Mixtral 8x22B؟
لاستخدام Mixtral 8x22B بفعالية، تحتاج إلى GPU قوية. من الأفضل أن يكون لديك 48 جيجابايت على الأقل من VRAM. NVIDIA A100 هو خيار جيد للحصول على أفضل أداء من Mixtral.
ما مدى سرعة توليد رموز Mistral 7B؟
يظهر Mistral 7B سرعات توليد رموز رائعة. يمكن أن تتغير هذه السرعات اعتماداً على أجهزتك وإعداداتك. على GPU استهلاكي عالي الأداء، مثل RTX 4080، فإنه يولد عادةً ما بين 10 إلى 20 رمزاً كل ثانية.
Novita AI هي المنصة السحابية الشاملة التي تمكّن طموحاتك في AI. واجهات برمجة تطبيقات متكاملة، بدون خادم، مثيل GPU — الأدوات الفعالة من حيث التكلفة التي تحتاجها. تخلص من البنية التحتية، ابدأ مجاناً، وحقق رؤيتك في AI.
قراءة موصى بها
أسرار Mixtral 8x22b مكشوفة: دليل شامل
