سلسلة Qwen 3.5 Medium - متطلبات VRAM: دليل نشر GPU لنماذج 27B و35B و122B

جدول المحتويات

ما هي سلسلة Qwen 3.5 Medium
متطلبات VRAM حسب النموذج والدقة
النشر على Novita AI
اختيار الدقة المناسبة
الخلاصة

تقدم سلسلة Qwen 3.5 Medium (27B, 35B-A3B, 122B-A10B) نماذج لغوية على مستوى المؤسسات باحتياجات متفاوتة من VRAM:

27B: 17-54 جيجابايت (من Q4_K_M إلى BF16)
35B-A3B: 22-69 جيجابايت (من Q4_K_M إلى BF16)
122B-A10B: 77-244 جيجابايت (من Q4_K_M إلى BF16)

انشر على Novita AI مع خيارات GPU مرنة (H100, RTX 5090, RTX 4090) أو واجهة برمجة تطبيقات غير خادمية لإدارة بنية تحتية صفرية.

ما هي سلسلة Qwen 3.5 Medium

تتألف سلسلة Qwen 3.5 Medium من ثلاثة نماذج لغوية عالية الأداء مصممة لتطبيقات الإنتاج:

Qwen3.5-27B: 27 مليار معلمة، أداء متوازن للمهام العامة
Qwen3.5-35B-A3B: 35 مليار معلمة إجمالية مع 3 مليارات معلمة نشطة لكل رمز (بنية MoE)
Qwen3.5-122B-A10B: 122 مليار معلمة إجمالية مع 10 مليارات معلمة نشطة لكل رمز (بنية MoE)

تتفوق هذه النماذج في التفكير والبرمجة والفهم متعدد اللغات ومعالجة السياقات الطويلة.

يعد فهم متطلبات VRAM أمرًا بالغ الأهمية للنشر الفعال من حيث التكلفة - سواء كنت تشغل على GPUs مخصصة أو تستفيد من بنية تحتية غير خادمية.

متطلبات VRAM حسب النموذج والدقة

تختلف احتياجات VRAM بشكل كبير بناءً على دقة التكميم. فيما يلي متطلبات الذاكرة بناءً على بيانات توافق الأجهزة من Hugging Face.

⚠️ ملاحظة: تمثل هذه الأرقام أحجام أوزان النموذج. سيكون استخدام VRAM الفعلي أثناء الاستدلال أعلى بنسبة 10-30% اعتمادًا على حجم الدفعة وطول السياق وإضافة ذاكرة التخزين المؤقت KV. نوصي باختيار GPUs بهامش لا يقل عن 10-20%.

Qwen3.5-27B-GGUF


التكميم	VRAM (جيجابايت)	الأجهزة الموصى بها
BF16	54	GPU: A100 × 1 (80 جيجابايت) / H100 × 1 (80 جيجابايت)
Q8_0	29	CPU: Intel Sapphire Rapids 16× vCPU · ذاكرة عشوائية 32 جيجابايت GPU: A100 40 جيجابايت / RTX 4090 24 جيجابايت (استدلال أسرع)
Q4_K_M	17	CPU: Intel Sapphire Rapids 16× vCPU · ذاكرة عشوائية 32 جيجابايت GPU: RTX 4090 24 جيجابايت / L40S 48 جيجابايت (استدلال أسرع)

💡 وحدة المعالجة المركزية مقابل GPU: بدقة Q8_0 وQ4_K_M، يتسع النموذج ضمن حدود الذاكرة العشوائية الحديثة لوحدة المعالجة المركزية (32-64 جيجابايت). ومع ذلك، فإن الاستدلال على GPU أسرع بمقدار 10-50 مرة حسب حجم الدفعة. لأحمال العمل الإنتاجية التي تتطلب زمن استجابة منخفضًا أو إنتاجية عالية، يُوصى بشدة بالنشر على GPU.

Qwen3.5-35B-A3B-GGUF


التكميم	VRAM (جيجابايت)	الأجهزة الموصى بها
BF16	69	GPU: A100 × 1 (80 جيجابايت) / H100 × 1 (80 جيجابايت)
Q8_0	37	GPU: L40S × 1 (48 جيجابايت) / A100 40 جيجابايت
Q4_K_M	22	CPU: Intel Sapphire Rapids 16× vCPU · ذاكرة عشوائية 32 جيجابايت GPU: RTX 4090 24 جيجابايت / L40S 48 جيجابايت (استدلال أسرع)

Qwen3.5-122B-A10B-GGUF


التكميم	VRAM (جيجابايت)	الأجهزة الموصى بها
BF16	244	GPU: A100 × 4 (320 جيجابايت) / H100 × 4 (320 جيجابايت)
Q8_0	130	GPU: A100 × 2 (160 جيجابايت) / H100 × 2 (160 جيجابايت)
Q4_K_M	77	GPU: A100 × 1 (80 جيجابايت) / H100 × 1 (80 جيجابايت)

💡 ملاحظة: يتطلب النموذج 122B GPUs عالية المستوى حتى مع التكميم العدواني نظرًا لحجمه. الإعدادات متعددة GPUs ضرورية لدقة BF16 وQ8_0.

النشر على Novita AI

توفر Novita AI خيارات نشر مرنة لسلسلة Qwen 3.5 Medium، لتحقيق التوازن بين الأداء والتكلفة وسهولة الاستخدام.

نشر GPU (موصى به للمستخدمين المهتمين بـ VRAM)

تقدم Novita AI GPUs عالية الأداء محسّنة لنشر نماذج Qwen 3.5 مع خيارات فوترة مرنة:

تكوينات GPU الموصى بها


النموذج	التكميم	VRAM المطلوب	GPU الموصى به	حالة الاستخدام
27B	BF16	54 جيجابايت	H100 80 جيجابايت / RTX 5090 32 جيجابايت × 2	إنتاج، أقصى جودة
27B	Q8_0	29 جيجابايت	RTX 5090 32 جيجابايت / RTX 4090 24 جيجابايت × 2	أداء متوازن
27B	Q4_K_M	17 جيجابايت	RTX 4090 24 جيجابايت	استدلال فعال التكلفة
35B-A3B	BF16	69 جيجابايت	H100 80 جيجابايت	إنتاج، أقصى جودة
35B-A3B	Q8_0	37 جيجابايت	RTX 5090 32 جيجابايت × 2 / H100 80 جيجابايت	أداء متوازن
35B-A3B	Q4_K_M	22 جيجابايت	RTX 4090 24 جيجابايت	استدلال فعال التكلفة
122B-A10B	BF16	244 جيجابايت	H100 80 جيجابايت × 4	مؤسسات، أقصى جودة
122B-A10B	Q8_0	130 جيجابايت	H100 80 جيجابايت × 2	أداء متوازن
122B-A10B	Q4_K_M	77 جيجابايت	H100 80 جيجابايت	استدلال فعال التكلفة

لماذا نشر GPU على Novita AI؟

توفر Novita AI خيارات GPU عبر مستويات أداء متعددة لمطابقة عبء العمل والميزانية:

GPUs من فئة المؤسسات: تكوينات VRAM عالية لدقة BF16 وQ8_0
GPUs استهلاكية عالية الأداء: سعر/أداء متوازن للنماذج متوسطة الحجم
خيارات فعالة التكلفة: تكوينات ميسورة للنماذج المكمّمة (Q4_K_M)
إعدادات متعددة GPUs: التوسع بسلاسة من تكوين 1× إلى 8× GPUs
فوترة مرنة: حسب الطلب، ومثيلات فورية، و GPUs غير خادمية (الدفع بالثانية)
نشر فوري: قوالب مهيأة مسبقًا للإعداد السريع

استكشف خيارات GPU والأسعار

واجهة برمجة تطبيقات غير خادمية (بديل البنية التحتية الصفرية)

للمستخدمين الذين يفضلون إدارة بنية تحتية صفرية، تقدم Novita AI نقاط نهاية واجهة برمجة تطبيقات غير خادمية بواجهات متوافقة مع OpenAI.

النماذج المدعومة


النموذج	معرف النموذج
Qwen3.5-27B	qwen/qwen3.5-27b
Qwen3.5-35B-A3B	qwen/qwen3.5-35b-a3b
Qwen3.5-122B-A10B	qwen/qwen3.5-122b-a10b

عنوان URL الأساسي: https://api.novita.ai/openai

كيفية الحصول على مفتاح API

سجل في Novita AI
انتقل إلى قسم مفاتيح API في لوحة التحكم
انقر على إنشاء مفتاح جديد وانسخ مفتاح API الخاص بك
أضف رصيدًا إلى حسابك لبدء استخدام الواجهة

مثال سريع:

from openai import OpenAI

client = OpenAI(
    api_key="<مفتاح API الخاص بك>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="qwen/qwen3.5-35b-a3b",
    messages=[
        {"role": "system", "content": "أنت مساعد مفيد."},
        {"role": "user", "content": "مرحبًا، كيف حالك؟"}
    ],
    max_tokens=65536,
    temperature=0.7
)

print(response.choices[0].message.content)

اختيار الدقة المناسبة

BF16 (الدقة الكاملة)

حالة الاستخدام: بيئات الإنتاج التي تتطلب أقصى جودة
المقايضة: أعلى متطلبات VRAM
الأفضل من أجل: تطبيقات المؤسسات، معايير البحث

Q8_0 (تكميم 8 بت)

حالة الاستخدام: أداء وكفاءة متوازنان
المقايضة: فقدان جودة بنسبة ~1-2%، تقليل VRAM بنسبة 50%
الأفضل من أجل: استدلال عالي الإنتاجية، إنتاج حساس للتكلفة

Q4_K_M (تكميم 4 بت)

حالة الاستخدام: نشر فعال التكلفة على GPUs استهلاكية
المقايضة: فقدان جودة بنسبة ~3-5%، تقليل VRAM بنسبة 70-75%
الأفضل من أجل: التطوير، الاختبار، النشر المحدود الميزانية

الخلاصة

تقدم سلسلة Qwen 3.5 Medium نماذج لغوية قوية لاحتياجات المؤسسات المتنوعة، مع متطلبات VRAM تتراوح من 17 جيجابايت (27B Q4_K_M) إلى 244 جيجابايت (122B BF16).

النقاط الرئيسية:

اختر التكميم بناءً على المقايضات بين الجودة والتكلفة
الاستدلال على GPU أسرع بمقدار 10-50 مرة من وحدة المعالجة المركزية لأحمال العمل الإنتاجية
توفر Novita AI نشرًا مرنًا: تأجير GPU (حسب الطلب/فوري) أو واجهة برمجة تطبيقات غير خادمية

الخطوات التالية:

حدد حجم النموذج واحتياجات الدقة
استكشف أسعار GPU أو نقاط نهاية API من Novita AI
انشر في دقائق باستخدام القوالب المهيأة مسبقًا

Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة تطبيقات بسيطة، كما توفر سحابة GPU ميسورة وموثوقة لبناء النماذج وتوسيع نطاقها.

الأسئلة الشائعة

ما هو VRAM؟

VRAM (ذاكرة الوصول العشوائي للفيديو) هي ذاكرة مخصصة على GPU تُستخدم لتخزين أوزان النموذج والتنشيطات والحسابات الوسيطة أثناء الاستدلال. بالنسبة لنماذج اللغة الكبيرة مثل Qwen 3.5، تتزايد متطلبات VRAM مع حجم النموذج ودقته - فالنماذج الأكبر والدقة الأعلى (مثل BF16) تحتاج إلى VRAM أكثر من الإصدارات المكمّمة (مثل Q4_K_M). سيؤدي عدم كفاية VRAM إلى أخطاء نفاد الذاكرة أو إجبارك على استخدام استدلال وحدة المعالجة المركزية، وهو أبطأ بكثير.

هل يمكنني تشغيل نماذج Qwen 3.5 Medium على وحدة المعالجة المركزية؟

نعم، يمكن تشغيل النماذج المكمّمة الأصغر (Q8_0 و Q4_K_M) على وحدات المعالجة المركزية بذاكرة عشوائية تتراوح بين 32-64 جيجابايت. ومع ذلك، فإن الاستدلال على وحدة المعالجة المركزية أبطأ بمقدار 10-50 مرة من GPU، مما يجعله غير عملي لأحمال العمل الإنتاجية أو التطبيقات في الوقت الفعلي. للحصول على أفضل أداء، يُوصى بشدة بالنشر على GPU حتى للنماذج المكمّمة.

ما الفرق بين BF16 و Q8_0 و Q4_K_M؟

BF16 (16 بت) هي دقة كاملة بأقصى جودة ولكن أعلى استخدام لـ VRAM. يقلل Q8_0 (8 بت) VRAM بنسبة ~50% مع فقدان جودة ضئيل (~1-2%). يخفض Q4_K_M (4 بت) VRAM بنسبة 70-75% ولكنه قد يؤدي إلى تدهور الجودة بنسبة 3-5% - مثالي للنشر الحساس للتكلفة حيث تكون المقايضات الطفيفة في الدقة مقبولة.

سلسلة Qwen 3.5 Medium - متطلبات VRAM: دليل نشر GPU لنماذج 27B و35B و122B

ما هي سلسلة Qwen 3.5 Medium