سلسلة Qwen 3.5 Medium - متطلبات VRAM: دليل نشر GPU لنماذج 27B و35B و122B

سلسلة Qwen 3.5 Medium - متطلبات VRAM: دليل نشر GPU لنماذج 27B و35B و122B

تقدم سلسلة Qwen 3.5 Medium (27B, 35B-A3B, 122B-A10B) نماذج لغوية على مستوى المؤسسات باحتياجات متفاوتة من VRAM:

  • 27B: 17-54 جيجابايت (من Q4_K_M إلى BF16)
  • 35B-A3B: 22-69 جيجابايت (من Q4_K_M إلى BF16)
  • 122B-A10B: 77-244 جيجابايت (من Q4_K_M إلى BF16)

انشر على Novita AI مع خيارات GPU مرنة (H100, RTX 5090, RTX 4090) أو واجهة برمجة تطبيقات غير خادمية لإدارة بنية تحتية صفرية.

ما هي سلسلة Qwen 3.5 Medium

تتألف سلسلة Qwen 3.5 Medium من ثلاثة نماذج لغوية عالية الأداء مصممة لتطبيقات الإنتاج:

  • Qwen3.5-27B: 27 مليار معلمة، أداء متوازن للمهام العامة
  • Qwen3.5-35B-A3B: 35 مليار معلمة إجمالية مع 3 مليارات معلمة نشطة لكل رمز (بنية MoE)
  • Qwen3.5-122B-A10B: 122 مليار معلمة إجمالية مع 10 مليارات معلمة نشطة لكل رمز (بنية MoE)

تتفوق هذه النماذج في التفكير والبرمجة والفهم متعدد اللغات ومعالجة السياقات الطويلة.

يعد فهم متطلبات VRAM أمرًا بالغ الأهمية للنشر الفعال من حيث التكلفة - سواء كنت تشغل على GPUs مخصصة أو تستفيد من بنية تحتية غير خادمية.

متطلبات VRAM حسب النموذج والدقة

تختلف احتياجات VRAM بشكل كبير بناءً على دقة التكميم. فيما يلي متطلبات الذاكرة بناءً على بيانات توافق الأجهزة من Hugging Face.

⚠️ ملاحظة: تمثل هذه الأرقام أحجام أوزان النموذج. سيكون استخدام VRAM الفعلي أثناء الاستدلال أعلى بنسبة 10-30% اعتمادًا على حجم الدفعة وطول السياق وإضافة ذاكرة التخزين المؤقت KV. نوصي باختيار GPUs بهامش لا يقل عن 10-20%.

Qwen3.5-27B-GGUF

التكميم VRAM (جيجابايت) الأجهزة الموصى بها
BF16 54 GPU: A100 × 1 (80 جيجابايت) / H100 × 1 (80 جيجابايت)
Q8_0 29 CPU: Intel Sapphire Rapids 16× vCPU · ذاكرة عشوائية 32 جيجابايت
GPU: A100 40 جيجابايت / RTX 4090 24 جيجابايت (استدلال أسرع)
Q4_K_M 17 CPU: Intel Sapphire Rapids 16× vCPU · ذاكرة عشوائية 32 جيجابايت
GPU: RTX 4090 24 جيجابايت / L40S 48 جيجابايت (استدلال أسرع)

💡 وحدة المعالجة المركزية مقابل GPU: بدقة Q8_0 وQ4_K_M، يتسع النموذج ضمن حدود الذاكرة العشوائية الحديثة لوحدة المعالجة المركزية (32-64 جيجابايت). ومع ذلك، فإن الاستدلال على GPU أسرع بمقدار 10-50 مرة حسب حجم الدفعة. لأحمال العمل الإنتاجية التي تتطلب زمن استجابة منخفضًا أو إنتاجية عالية، يُوصى بشدة بالنشر على GPU.

Qwen3.5-35B-A3B-GGUF

التكميم VRAM (جيجابايت) الأجهزة الموصى بها
BF16 69 GPU: A100 × 1 (80 جيجابايت) / H100 × 1 (80 جيجابايت)
Q8_0 37 GPU: L40S × 1 (48 جيجابايت) / A100 40 جيجابايت
Q4_K_M 22 CPU: Intel Sapphire Rapids 16× vCPU · ذاكرة عشوائية 32 جيجابايت
GPU: RTX 4090 24 جيجابايت / L40S 48 جيجابايت (استدلال أسرع)

Qwen3.5-122B-A10B-GGUF

التكميم VRAM (جيجابايت) الأجهزة الموصى بها
BF16 244 GPU: A100 × 4 (320 جيجابايت) / H100 × 4 (320 جيجابايت)
Q8_0 130 GPU: A100 × 2 (160 جيجابايت) / H100 × 2 (160 جيجابايت)
Q4_K_M 77 GPU: A100 × 1 (80 جيجابايت) / H100 × 1 (80 جيجابايت)

💡 ملاحظة: يتطلب النموذج 122B GPUs عالية المستوى حتى مع التكميم العدواني نظرًا لحجمه. الإعدادات متعددة GPUs ضرورية لدقة BF16 وQ8_0.

النشر على Novita AI

توفر Novita AI خيارات نشر مرنة لسلسلة Qwen 3.5 Medium، لتحقيق التوازن بين الأداء والتكلفة وسهولة الاستخدام.

نشر GPU (موصى به للمستخدمين المهتمين بـ VRAM)

تقدم Novita AI GPUs عالية الأداء محسّنة لنشر نماذج Qwen 3.5 مع خيارات فوترة مرنة:

تكوينات GPU الموصى بها

النموذج التكميم VRAM المطلوب GPU الموصى به حالة الاستخدام
27B BF16 54 جيجابايت H100 80 جيجابايت / RTX 5090 32 جيجابايت × 2 إنتاج، أقصى جودة
27B Q8_0 29 جيجابايت RTX 5090 32 جيجابايت / RTX 4090 24 جيجابايت × 2 أداء متوازن
27B Q4_K_M 17 جيجابايت RTX 4090 24 جيجابايت استدلال فعال التكلفة
35B-A3B BF16 69 جيجابايت H100 80 جيجابايت إنتاج، أقصى جودة
35B-A3B Q8_0 37 جيجابايت RTX 5090 32 جيجابايت × 2 / H100 80 جيجابايت أداء متوازن
35B-A3B Q4_K_M 22 جيجابايت RTX 4090 24 جيجابايت استدلال فعال التكلفة
122B-A10B BF16 244 جيجابايت H100 80 جيجابايت × 4 مؤسسات، أقصى جودة
122B-A10B Q8_0 130 جيجابايت H100 80 جيجابايت × 2 أداء متوازن
122B-A10B Q4_K_M 77 جيجابايت H100 80 جيجابايت استدلال فعال التكلفة

لماذا نشر GPU على Novita AI؟

توفر Novita AI خيارات GPU عبر مستويات أداء متعددة لمطابقة عبء العمل والميزانية:

  • GPUs من فئة المؤسسات: تكوينات VRAM عالية لدقة BF16 وQ8_0
  • GPUs استهلاكية عالية الأداء: سعر/أداء متوازن للنماذج متوسطة الحجم
  • خيارات فعالة التكلفة: تكوينات ميسورة للنماذج المكمّمة (Q4_K_M)
  • إعدادات متعددة GPUs: التوسع بسلاسة من تكوين 1× إلى 8× GPUs
  • فوترة مرنة: حسب الطلب، ومثيلات فورية، و GPUs غير خادمية (الدفع بالثانية)
  • نشر فوري: قوالب مهيأة مسبقًا للإعداد السريع

استكشف خيارات GPU والأسعار

واجهة برمجة تطبيقات غير خادمية (بديل البنية التحتية الصفرية)

للمستخدمين الذين يفضلون إدارة بنية تحتية صفرية، تقدم Novita AI نقاط نهاية واجهة برمجة تطبيقات غير خادمية بواجهات متوافقة مع OpenAI.

النماذج المدعومة

النموذج معرف النموذج
Qwen3.5-27B qwen/qwen3.5-27b
Qwen3.5-35B-A3B qwen/qwen3.5-35b-a3b
Qwen3.5-122B-A10B qwen/qwen3.5-122b-a10b

كيفية الحصول على مفتاح API

  1. سجل في Novita AI
  2. انتقل إلى قسم مفاتيح API في لوحة التحكم
  3. انقر على إنشاء مفتاح جديد وانسخ مفتاح API الخاص بك
  4. أضف رصيدًا إلى حسابك لبدء استخدام الواجهة

كيفية الحصول على مفتاح API لاستخدام Qwen 3.5

مثال سريع:

from openai import OpenAI

client = OpenAI(
    api_key="<مفتاح API الخاص بك>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3.5-35b-a3b",
    messages=[
        {"role": "system", "content": "أنت مساعد مفيد."},
        {"role": "user", "content": "مرحبًا، كيف حالك؟"}
    ],
    max_tokens=65536,
    temperature=0.7
)

print(response.choices[0].message.content)

اختيار الدقة المناسبة

BF16 (الدقة الكاملة)

  • حالة الاستخدام: بيئات الإنتاج التي تتطلب أقصى جودة
  • المقايضة: أعلى متطلبات VRAM
  • الأفضل من أجل: تطبيقات المؤسسات، معايير البحث

Q8_0 (تكميم 8 بت)

  • حالة الاستخدام: أداء وكفاءة متوازنان
  • المقايضة: فقدان جودة بنسبة ~1-2%، تقليل VRAM بنسبة 50%
  • الأفضل من أجل: استدلال عالي الإنتاجية، إنتاج حساس للتكلفة

Q4_K_M (تكميم 4 بت)

  • حالة الاستخدام: نشر فعال التكلفة على GPUs استهلاكية
  • المقايضة: فقدان جودة بنسبة ~3-5%، تقليل VRAM بنسبة 70-75%
  • الأفضل من أجل: التطوير، الاختبار، النشر المحدود الميزانية

الخلاصة

تقدم سلسلة Qwen 3.5 Medium نماذج لغوية قوية لاحتياجات المؤسسات المتنوعة، مع متطلبات VRAM تتراوح من 17 جيجابايت (27B Q4_K_M) إلى 244 جيجابايت (122B BF16).

النقاط الرئيسية:

  • اختر التكميم بناءً على المقايضات بين الجودة والتكلفة
  • الاستدلال على GPU أسرع بمقدار 10-50 مرة من وحدة المعالجة المركزية لأحمال العمل الإنتاجية
  • توفر Novita AI نشرًا مرنًا: تأجير GPU (حسب الطلب/فوري) أو واجهة برمجة تطبيقات غير خادمية

الخطوات التالية:

  1. حدد حجم النموذج واحتياجات الدقة
  2. استكشف أسعار GPU أو نقاط نهاية API من Novita AI
  3. انشر في دقائق باستخدام القوالب المهيأة مسبقًا

Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة تطبيقات بسيطة، كما توفر سحابة GPU ميسورة وموثوقة لبناء النماذج وتوسيع نطاقها.

الأسئلة الشائعة

ما هو VRAM؟

VRAM (ذاكرة الوصول العشوائي للفيديو) هي ذاكرة مخصصة على GPU تُستخدم لتخزين أوزان النموذج والتنشيطات والحسابات الوسيطة أثناء الاستدلال. بالنسبة لنماذج اللغة الكبيرة مثل Qwen 3.5، تتزايد متطلبات VRAM مع حجم النموذج ودقته - فالنماذج الأكبر والدقة الأعلى (مثل BF16) تحتاج إلى VRAM أكثر من الإصدارات المكمّمة (مثل Q4_K_M). سيؤدي عدم كفاية VRAM إلى أخطاء نفاد الذاكرة أو إجبارك على استخدام استدلال وحدة المعالجة المركزية، وهو أبطأ بكثير.

هل يمكنني تشغيل نماذج Qwen 3.5 Medium على وحدة المعالجة المركزية؟

نعم، يمكن تشغيل النماذج المكمّمة الأصغر (Q8_0 و Q4_K_M) على وحدات المعالجة المركزية بذاكرة عشوائية تتراوح بين 32-64 جيجابايت. ومع ذلك، فإن الاستدلال على وحدة المعالجة المركزية أبطأ بمقدار 10-50 مرة من GPU، مما يجعله غير عملي لأحمال العمل الإنتاجية أو التطبيقات في الوقت الفعلي. للحصول على أفضل أداء، يُوصى بشدة بالنشر على GPU حتى للنماذج المكمّمة.

ما الفرق بين BF16 و Q8_0 و Q4_K_M؟

BF16 (16 بت) هي دقة كاملة بأقصى جودة ولكن أعلى استخدام لـ VRAM. يقلل Q8_0 (8 بت) VRAM بنسبة ~50% مع فقدان جودة ضئيل (~1-2%). يخفض Q4_K_M (4 بت) VRAM بنسبة 70-75% ولكنه قد يؤدي إلى تدهور الجودة بنسبة 3-5% - مثالي للنشر الحساس للتكلفة حيث تكون المقايضات الطفيفة في الدقة مقبولة.