تحسين استغلال ذاكرة الفيديو (VRAM) لنموذج GLM 4.5 للمهام المتقدمة للذكاء الاصطناعي

تحسين استغلال ذاكرة الفيديو (VRAM) لنموذج GLM 4.5 للمهام المتقدمة للذكاء الاصطناعي

هل تفكر في نشر نموذج GLM-4.5 محليًا ولكنك قلق بشأن الموارد الكبيرة لوحدات المعالجة الرسومية (GPU) المطلوبة؟ يتطلب النموذج الكامل لـ GLM-4.5 تكوينات مثل 16 وحدة معالجة رسومية من NVIDIA H100 أو 8 وحدات من H200 بدقة FP8، بينما يعمل البديل الأكثر كفاءة في استخدام الموارد GLM-4.5-Air على وحدتي H100 أو وحدة واحدة من H200 بدقة FP8. تضمن هذه الإعدادات الأداء الأمثل ويدعم طول السياق الواسع للنموذج يصل إلى 128 ألف رمز.

في هذا المقال، سنستكشف متطلبات ذاكرة الفيديو (VRAM) لنموذج GLM-4.5، ونناقش جدوى النشر المحلي، ونفحص طرقًا بديلة لاستخدام هذا النموذج اللغوي القوي بشكل فعال.

متطلبات ذاكرة الفيديو (VRAM) لنموذج GLM 4.5

يعد نموذج GLM-4.5 أحدث تطور في عائلة GLM، ويتميز بهندسة معقدة من نوع خلط الخبراء (Mixture-of-Experts, MoE) ومحسّن للتطبيقات القائمة على الوكلاء (agentic). يأتي النموذج في نسختين: النسخة الرئيسية GLM-4.5 التي تحتوي على 355 مليار معامل إجمالي (32 مليار معامل نشط)، والنسخة الفعالة GLM-4.5-Air التي تحتوي على 106 مليار معامل إجمالي (12 مليار معامل نشط).

تشمل الابتكارات المعمارية الرئيسية هيكل نموذج أعمق مع عرض أقل وعمق أكبر لتعزيز الاستدلال، ومرحلة ما قبل التدريب على مجموعة ضخمة من الرموز تبلغ 15 تريليون رمز لمعرفة شاملة، وبنية تحتية مفتوحة المصدر للتعلم المعزز (RL) المسماة “slime” المصممة للتعلم المعزز القابل للتطوير على نطاق واسع للتطبيقات القائمة على الوكلاء.

مقاييس أداء نموذج glm 4.5

من Z.AI

كم كمية ذاكرة الفيديو (VRAM) التي يحتاجها نموذج GLM 4.5 للاستدلال؟

يمكن تشغيل النماذج ضمن التكوينات الموضحة في الجدول أدناه:

النموذج الدقة نوع وعدد وحدات المعالجة الرسومية (GPU) إطار الاختبار
GLM-4.5 BF16 H100 × 16 / H200 × 8 sglang
GLM-4.5 FP8 H100 × 8 / H200 × 4 sglang
GLM-4.5-Air BF16 H100 × 4 / H200 × 2 sglang
GLM-4.5-Air FP8 H100 × 2 / H200 × 1 sglang

ضمن التكوينات الموضحة في الجدول أدناه، يمكن للنماذج استخدام طول السياق الكامل البالغ 128 ألف رمز:

النموذج الدقة نوع وعدد وحدات المعالجة الرسومية (GPU) إطار الاختبار
GLM-4.5 BF16 H100 × 32 / H200 × 16 sglang
GLM-4.5 FP8 H100 × 16 / H200 × 8 sglang
GLM-4.5-Air BF16 H100 × 8 / H200 × 4 sglang
GLM-4.5-Air FP8 H100 × 4 / H200 × 2 sglang

كم كمية ذاكرة الفيديو (VRAM) التي يحتاجها نموذج GLM 4.5 للضبط الدقيق (fine-tuning)؟

يمكن تشغيل الكود ضمن التكوينات الموضحة في الجدول أدناه باستخدام Llama Factory:

النموذج نوع وعدد وحدات المعالجة الرسومية (GPU) الاستراتيجية حجم الدفعة (لكل وحدة معالجة رسومية)
GLM-4.5 H100 × 16 Lora 1
GLM-4.5-Air H100 × 4 Lora 1

يمكن تشغيل الكود ضمن التكوينات الموضحة في الجدول أدناه باستخدام Swift:

النموذج نوع وعدد وحدات المعالجة الرسومية (GPU) الاستراتيجية حجم الدفعة (لكل وحدة معالجة رسومية)
GLM-4.5 H20 (96GiB) × 16 Lora 1
GLM-4.5-Air H20 (96GiB) × 4 Lora 1
GLM-4.5 H20 (96GiB) × 128 SFT 1
GLM-4.5-Air H20 (96GiB) × 32 SFT 1
GLM-4.5 H20 (96GiB) × 128 RL 1
GLM-4.5-Air H20 (96GiB) × 32 RL 1

استخدام ذاكرة الفيديو (VRAM) لنموذج GLM 4.5 مع أحجام دفعات مختلفة

النموذج الدقة حجم الدفعة (لكل وحدة معالجة رسومية) ذاكرة الفيديو (VRAM)
GLM-4.5 FP16 1 945.36GB
GLM-4.5 FP16 8 1128.49GB
GLM-4.5 FP16 16 1137.79GB
GLM-4.5 FP16 32 1756.38GB
GLM-4.5-Air FP16 1 288.68GB
GLM-4.5-Air FP16 8 343.58GB
GLM-4.5-Air FP16 16 406.33GB
GLM-4.5-Air FP16 32 531.83GB

ما هي متطلبات الأجهزة لنموذج GLM 4.5؟

https://www.youtube.com/watch?v=grAXN76\_-Ig

  • وحدات المعالجة الرسومية (GPU):
    • الاستدلال: 8 × H100 / 4 × H200 (بدقة FP8) أو 16 × H100 / 8 × H200 (بدقة BF16) للنموذج الكامل؛ نصف هذه القيمة للنسخة Air.
    • الضبط الدقيق (Fine-Tuning): وحدات معالجة رسومية بذاكرة فيديو (VRAM) تبلغ 80 جيجابايت على الأقل.
  • وحدة المعالجة المركزية (CPU) والنظام:
    • ذاكرة وصول عشوائي (RAM) تبلغ 1 تيرابايت على الأقل لتحميل النماذج وإدارة مخازن الإفراغ المؤقت.
    • وصلة اتصال عالية النطاق (مثل NVLink أو مفتاح HPC) لدعم التوازي في معالجة Tensors بين وحدات المعالجة الرسومية المتعددة.
  • الدقة:
    • دقة FP8 لاستخدام ذاكرة الفيديو (VRAM) بأقل قدر ممكن (تتطلب وحدات معالجة رسومية تدعم دقة FP8 بشكل أصلي).
    • دقة BF16 كبديل لوحدات المعالجة الرسومية التي لا تدعم FP8.
  • البرمجيات:
    • استخدام vLLM أو Llama Factory للاستدلال؛ مع دعم فك التشفير التخميني (Speculative Decoding) والإفراغ المؤقت إلى وحدة المعالجة المركزية (CPU).

تحسين نموذج GLM 4.5 لتقليل استهلاك ذاكرة الفيديو (VRAM)

  • نسخ النموذج: اختر نسخة GLM 4.5-Air (106 مليار معامل إجمالي / 12 مليار معامل نشط) للإعدادات التي تحتوي على وحدات معالجة رسومية بذاكرة 32–64 جيجابايت.
  • متى تختار نسخة GLM-4.5-Air
    • سرعة توليد أعلى بكثير: تصل سرعة إخراج نسخة GLM-4.5-Air إلى حوالي 160 رمزًا في الثانية، أي ما يقارب ضعف سرعة النموذج كامل الحجم (حوالي 88 رمزًا في الثانية).这使得 هذه النسخة مثالية للتطبيقات الحساسة لزمن الاستجابة.
    • زمن استجابة أول رمز منخفض للغاية (TTFT): تخرج نسخة Air أول رمز لها في حوالي 0.58 ثانية، مقارنة بـ 0.68 ثانية للنموذج كامل الحجم. في بعض الاختبارات، يمكن أن يصل زمن استجابة النموذج كامل الحجم إلى 22–23 ثانية عند إضافة وقت “التفكير”.
    • زمن استجابة من البداية إلى النهاية أقصر: تقدم نسخة Air استجابات من البداية إلى النهاية (معالجة المدخلات، الاستدلال، الإخراج) في حوالي 16 ثانية، بينما يستغرق النموذج كامل الحجم ما يقارب 29 ثانية، مما يجعل النموذج كامل الحجم أقل ملاءمة للتفاعلات في الوقت الفعلي.
    • درجات أقل قليلاً في مهام الاستدلال المعقد: في معايير الاستدلال مثل MMLU-Pro و GPQA و AIME، تحقق نسخة Air درجات أقل بنسبة 2–3% مقارنة بالنموذج كامل الحجم، لكنها لا تزال تحافظ على أداء رائد في المجال.
    • موصى بها لمعظم حالات الاستخدام: لمعظم مهام توليد النصوص، التلخيص، الاستدلال الأساسي، ومساعدة البرمجة، لا حاجة إلى النموذج كامل الحجم—فإن نسخة Air كافية لتحقيق أداء عالي واستجابة سريعة.

مقارنة بين نموذج GLM 4.5 ونسخته Air

  • إفراج الطبقات مؤقتًا (Layer Offloading): انقل خبراء MoE المحددين أو طبقات التغذية الأمامية إلى ذاكرة وحدة المعالجة المركزية (CPU).
  • تقليل كمية ذاكرة التخزين المؤقت KV (KV-Cache Quantization): قلل دقة ذاكرة التخزين المؤقت لتوفير ذاكرة الفيديو (VRAM) مع تكلفة جودة طفيفة.
  • حجم الدفعة = 1: قصر الاستدلال على عينة واحدة لكل وحدة معالجة رسومية لتقليل التنشيطات (activations).

خيار آخر فعال من حيث التكلفة: واجهة برمجة التطبيقات (API)

إليك مقارنة مبسطة بين نشر نموذج GLM 4.5 عبر واجهة برمجة التطبيقات (API) وتشغيله محليًا:

الجانب النشر عبر API النشر المحلي
التكلفة تسعير حسب الاستخدام؛ على سبيل المثال، 0.6 دولار لكل مليون رمز مدخل و 2.2 يوان صيني لكل مليون رمز مخرج على منصة Novita AI استثمار أولي كبير في الأجهزة (مثل وحدات معالجة رسومية NVIDIA A100)؛ قد تكون التكاليف أقل بمرور الوقت للاستخدام المكثف.
الأداء قابل للتطوير مع احتمال وجود زمن استجابة للشبكة؛ مناسب للتطبيقات التي يمكنها قبول تأخيرات طفيفة. زمن استجابة منخفض وأداء متسق؛ مثالي للتطبيقات في الوقت الفعلي التي تتطلب استجابات فورية.
قابلية التوسع قابل للتوسع بسهولة دون إدارة البنية التحتية؛ حيث يتولى المزود عملية التوسع. يتطلب التوسع إضافة أجهزة وإدارة بنية تحتية إضافية.
خصوصية البيانات تتم معالجة البيانات خارجيًا، مما قد يثير مخاوف تتعلق بالخصوصية، خاصة في الصناعات الخاضعة للتنظيم. تبقى البيانات داخل المؤسسة، مما يوفر تحكمًا أكبر وامتثالًا للوائح حماية البيانات.
التعقيد التشغيلي إعداد وصيانة ضئيلة؛ حيث يتولى المزود عملية التحديثات وإدارة البنية التحتية. يتطلب خبرة تقنية للإعداد والصيانة والأمان؛ ولكنه يوفر تخصيصًا أكبر.
التخصيص محدود بتكوينات المزود؛ مرونة أقل للاحتياجات المحددة. تحكم كامل في تخصيص النموذج، الضبط الدقيق، والتكامل مع الأنظمة الحالية.
ملاءمة حالات الاستخدام مثالي للتطبيقات ذات الاستخدام المتغير أو المنخفض، أو احتياجات التطوير السريع، أو الموارد التقنية المحدودة. الأفضل للتطبيقات ذات الاستخدام المرتفع والمستمر، أو متطلبات خصوصية البيانات الصارمة، أو الحاجة إلى تخصيص واسع النطاق.

كيفية الوصول إلى نموذج GLM 4.5 عبر منصة Novita AI؟

توفر منصة Novita AI واجهات برمجة تطبيقات (API) بسياق يبلغ 131 ألف رمز، وتكاليف تبلغ 0.6 دولار للمدخلات و 2.2 دولار للمخرجات، مما يوفر دعماً قوياً لتحقيق أقصى استفادة من إمكانيات وكيل البرمجة لنموذج GLM 4.5.

Novita AI

الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج

سجل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

تسجيل الدخول والوصول إلى مكتبة النماذج

جرب GLM 4.5 الآن!

الخطوة 2: اختر النموذج الخاص بك

تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

اختيار النموذج

الخطوة 3: ابدأ تجربتك المجانية

ابدأ تجربتك المجانية لاستكشاف إمكانيات النموذج المختار.

بدء التجربة المجانية لنموذج glm 4.5

الخطوة 4: احصل على مفتاح API الخاص بك

للمصادقة مع واجهة برمجة التطبيقات (API)، سنزودك بمفتاح API جديد. عند الدخول إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

الحصول على مفتاح API

الخطوة 5: تثبيت واجهة برمجة التطبيقات (API)

قم بتثبيت واجهة برمجة التطبيقات (API) باستخدام مدير الحزم الخاص بلغة البرمجة التي تستخدمها.

بعد التثبيت، قم باستيراد المكتبات اللازمة إلى بيئة التطوير الخاصة بك. قم بتهيئة واجهة برمجة التطبيقات (API) باستخدام مفتاح API الخاص بك لبدء التفاعل مع نموذج اللغات الكبيرة (LLM) لـ Novita AI. إليك مثال لاستخدام واجهة برمجة التطبيقات لإكمال المحادثات لمستخدمي لغة بايثون.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="session_UsudmdAIggvSInjIdO2HWaTCyXxTFOXDV8TH8UCPbA576Rs4AGqSA5ThNbelSDgdEGAWQcWXnAU2bHi5BueceA==",
)

model = "zai-org/glm-4.5"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

يوفر نموذج GLM-4.5 ونسخته Air حلولًا قوية للتطبيقات القائمة على الوكلاء، مع متطلبات مختلفة لذاكرة الفيديو (VRAM) لتناسب سيناريوهات النشر المختلفة. سيساعدك تقييم احتياجاتك ومواردك المحددة في الاختيار بين النشر المحلي والحلول القائمة على واجهات برمجة التطبيقات (API).

الأسئلة الشائعة

من يجب أن يستخدم نموذج GLM 4.5؟

يعد نموذج GLM-4.5 مثاليًا للمطورين والباحثين والشركات التي تسعى إلى الحصول على إمكانيات متقدمة لوكلاء الذكاء الاصطناعي، خاصة لمهام البرمجة والأتمتة والمهام المعرفية.

ما هو نموذج GLM-4.5؟

يعد نموذج GLM-4.5 نموذجًا لغويًا كبيرًا متقدمًا يتميز بهندسة خلط الخبراء (Mixture-of-Experts)، ومحسّن للتطبيقات القائمة على الوكلاء التي تتطلب استدلالًا معقدًا وتكاملًا مع الأدوات.

هل يمكنني نشر نموذج GLM-4.5 دون أجهزة متطورة؟

نعم، يعد استخدام نموذج GLM-4.5 عبر واجهة برمجة التطبيقات (API) بديلاً يقلل من الحاجة إلى استثمار كبير في الأجهزة، على الرغم من أنه قد يتضمن اعتبارات تتعلق بخصوصية البيانات وزمن استجابة الشبكة.

Novita AI هي منصة سحابية للذكاء الاصطناعي توفر للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة التطبيقات (API) البسيطة الخاصة بنا، بالإضافة إلى توفير سحابة وحدات معالجة رسومية (GPU) بأسعار معقولة وموثوقة للبناء والتوسع.

موصى بقراءة المقالات التالية