- بنية GPT OSS 120B مقابل Qwen3 235B Thinking 2507
- متطلبات الموارد لـ GPT OSS 120B مقابل Qwen3 235B Thinking 2507
- الاختلافات الرئيسية بين GPT-OSS-120B و Qwen-3 235B Thinking 2507
- توليد الكود: GPT OSS 120B مقابل Qwen 3 235B Thinking 2507
- روبوت محادثة عالي الدقة ومنخفض زمن الاستجابة: GPT OSS 120B مقابل Qwen 3 235B Thinking 2507
- كيفية الوصول إلى GPT OSS 120B و Qwen3 235B Thinking 2507 عبر API سريع وذا تكلفة فعالة؟
اختيار نموذج اللغة الكبيرة (LLM) المناسب يعتمد على الموازنة بين عمق الاستدلال، السرعة، تكلفة الأجهزة، ومتطلبات التكامل.
تقارن هذه المقالة بين GPT‑OSS‑120B و Qwen‑3 235B (Thinking 2507) — اثنين من أكثر النماذج مفتوحة المصدر قدرة اليوم.
ستتعرف على كيفية اختلافهما من حيث البنية، الأداء، متطلبات الموارد، قدرات البرمجة، وحالات الاستخدام الواقعية، حتى تتمكن من تحديد أي منهما يناسب تطبيقك بشكل أفضل — من روبوتات المحادثة منخفضة زمن الاستجابة إلى أنظمة البرمجة عالية الدقة.
بنية GPT OSS 120B مقابل Qwen3 235B Thinking 2507
تفاصيل البنية
| الميزة | GPT-OSS-120B | Qwen3-235B-Thinking-2507 |
|---|---|---|
| إجمالي المعاملات | 117B | 235B |
| المعاملات المنشطة / رمز | 5.1B | 22B |
| نسبة التنشيط | 4.36% | 9.36% |
| طبقات المحول | 36 | 94 |
| خبراء MoE | 128 | 128 |
| الخبراء المنشطون / رمز | 4 | 8 |
| آلية الانتباه | انتباه كثيف متناوب + انتباه نطاقي محلي sparse، GQA | غير مذكور صراحة (من المحتمل أن يكون قياسيًا مع تحسينات) |
| التكميم | MXFP4 (4-bit) | غير مذكور |
| طول السياق الأصلي | 128K | 32K |
| طول السياق الموسع | غير مذكور (الأصلي بالفعل 128K) | 262K+ (عبر YaRN، إلخ) |
معايير الأداء

يتفوق Qwen3-235B-Thinking-2507 في مهام البرمجة والاستدلال طويل السياق، مع تفوق طفيف في بعض معايير الاستدلال. يتفوق GPT-OSS-120B في اتباع التعليمات، الرياضيات التنافسية، ومعيار استدلال واحد ثقيل. كلا النموذجين منافسان في الاستدلال العلمي (متساويان تقريبًا).
متطلبات الموارد لـ GPT OSS 120B مقابل Qwen3 235B Thinking 2507
متطلبات GPU
| النموذج | التكميم | ذاكرة الوصول العشوائي للفيديو المطلوبة | متطلبات وحدة معالجة الرسوميات* |
|---|---|---|---|
| Qwen3-235B-Thinking-2507 | FP16 | 611.09 جيجابايت | 8 × 80 جيجابايت H100/A100 |
| FP8 | 606.67 جيجابايت | 8 × 80 جيجابايت H100/A100 | |
| INT8 | 606.67 جيجابايت | 8 × 80 جيجابايت H100/A100 | |
| INT4 | 604.45 جيجابايت | 8 × 80 جيجابايت H100/A100 | |
| GPT-OSS-120B | FP16 | 246.34 جيجابايت | 4 × 80 جيجابايت H100/A100 |
| Q8 | 124.03 جيجابايت | 2 × 80 جيجابايت H100/A100 | |
| Q4 | 62.87 جيجابايت | 1 × 80 جيجابايت H100/A100 |
بفضل استخدامه لتكميم MXFP4، يمكن تشغيل GPT OSS 120B على وحدة GPU واحدة سعتها 80 جيجابايت، بما في ذلك نماذج مثل NVIDIA H100 أو A100.
أما بالنسبة لأسعار وحدات GPU، يمكنك النقر على الزر أدناه للحصول على مزيد من المعلومات.
الوصول عبر API
Novita AI هي منصة سحابية للذكاء الاصطناعي توفر للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام API البسيط الخاص بنا، بالإضافة إلى توفير سحابة GPU بأسعار معقولة وموثوقة للبناء والتوسع.
| النموذج | طول السياق | سعر الإدخال | سعر الإخراج |
| Qwen3-235B-Thinking-2507 | سياق 131072 | 0.3 دولار / 1M | 3.0 دولار / 1M |
| GPT-OSS-120B | سياق 131072 | 0.1 دولار / 1M | 0.5 دولار / 1M |
الاختلافات الرئيسية بين GPT-OSS-120B و Qwen-3 235B Thinking 2507
الاختلافات في القدرات
| الميزة | GPT-OSS-120B | Qwen3-235B (Thinking 2507) |
|---|---|---|
| عمق الاستدلال القابل للتعديل | ✅ نعم (خيارات منخفض / متوسط / مرتفع) | ❌ لا (استدلال أقصى ثابت) |
| يخرج دائمًا سلسلة الأفكار (CoT) | ❌ لا (مخفي افتراضيًا) | ✅ نعم (وسوم <think>) |
| استدلال مخفي يمكن للمطورين الوصول إليه | ✅ نعم | ❌ لا |
| التبديل بين وضع التفكير / الوضع السريع | ✅ نعم (وضع سريع متاح) | ❌ لا (وضع التفكير فقط) |
| قدرة استخدام الأدوات | ✅ مدعوم | ✅ مدعوم |
| نتائج تقييم السلامة العامة | ✅ نعم (اختبار سلامة عدائي) | ❌ ذكر محدود |
| ترخيص مفتوح المصدر Apache 2.0 | ✅ نعم | ✅ نعم |
الاختلافات في التطبيقات
| إذا كنت بحاجة إلى… | اختر GPT-OSS-120B | اختر Qwen-3 235B (Thinking 2507) |
|---|---|---|
| التشغيل على أجهزة محدودة الموارد | ✅ ممكن التشغيل على GPU واحد سعة 80 جيجابايت (مثل NVIDIA H100 واحد) بفضل MoE + ضغط MXFP4؛ كما يوجد إصدار 20B لأجهزة الحافة ذات ذاكرة وصول عشوائي للفيديو سعة 16 جيجابايت | ❌ يتطلب خادم متعدد وحدات GPU (مثل 4×40 جيجابايت أو 8×80 جيجابايت) لأداء كامل |
| زمن استجابة أقل وتكلفة استدلال أقل | ✅ محسّن للسرعة والكفاءة | ❌ زمن استجابة أعلى وتكلفة حسابية أعلى |
| أقصى عمق استدلال (مفعل دائمًا) | ❌ عمق الاستدلال قابل للتعديل (منخفض / متوسط / مرتفع) | ✅ يعمل دائمًا بأقصى عمق استدلال مع أثر <think> مرئي |
| الأفضل للاستدلال على مستوى البحث (براهين رياضية، كود معقد، استدلال علمي متعدد الخطوات) | ❌ عالي الجودة لكن مضبوط للتوازن | ✅ أداء من الطراز الأول بين النماذج المفتوحة في الرياضيات، مسابقات البرمجة، والمنطق المنظم |
| روبوت محادثة للاستخدام العام / مساعد ذكاء اصطناعي للإنتاج | ✅ اتباع قوي للتعليمات، استخدام الأدوات، نشر منخفض زمن الاستجابة | ❌ ممكن، لكنه أثقل وأبطأ |
| التكامل مع واجهات برمجة التطبيقات/أدوات OpenAI الحالية | ✅ متوافق مع واجهة برمجة تطبيقات OpenAI والأدوات، تنسيق محادثة Harmony | ❌ يستخدم قالب محادثة خاص بـ Qwen وأدوات (SGLang، Qwen-Agent) تتطلب تكيفًا إذا كنت تهاجر من تنسيق OpenAI |
| التفاعل متعدد اللغات | ⚠️ محسّن بشكل أساسي للغة الإنجليزية | ✅ قدرة قوية متعددة اللغات |
توليد الكود: GPT OSS 120B مقابل Qwen 3 235B Thinking 2507
| الجانب | GPT-OSS-120B | Qwen3-235B (Thinking 2507) |
|---|---|---|
| استدعاء الوظائف (مواصفات واجهة برمجة تطبيقات OpenAI) | ✅ دعم أصلي — مدرب على إخراج JSON function_call / tool_calls تمامًا وفقًا لمخطط OpenAI؛ مستقر خارج الصندوق. |
❌ لا يوجد دعم أصلي — يمكن محاكاة التنسيق عبر هندسة الموجهات، لكن يتطلب تحليل/تحقق خارجي للاستقرار. |
| تكامل الأدوات | ✅ متوافق مباشرة مع نظام OpenAI البيئي (مفسر Python، بحث ويب، تنفيذ كود) عبر واجهة برمجة التطبيقات. | ⚠️ يستخدم Qwen-Agent / SGLang لتكامل الأدوات؛ مخطط مختلف، يتطلب تكيفًا إذا كنت تهاجر من تنسيق OpenAI. |
| طول وأسلوب إخراج الكود | موجز افتراضيًا؛ قد ينتج حلولًا جزئية عند إعطاء الأولوية للسرعة/الكفاءة (عمق استدلال قابل للتعديل). | أطول، وظائف كاملة قابلة للترجمة افتراضيًا، مع معالجة أكبر للحالات الحدية وتعليقات. |
| الاستدلال في توليد الكود | عمق استدلال قابل للتعديل (منخفض / متوسط / مرتفع)؛ يمكن تخطي الاستدلال المطول لإخراج كود أسرع. | يخرج دائمًا أثر استدلال كامل في وسوم <think> قبل الكود، مع شرح أكثر تفصيلاً مدمجًا. |
روبوت محادثة عالي الدقة ومنخفض زمن الاستجابة: GPT OSS 120B مقابل Qwen 3 235B Thinking 2507

يمكنك تعديل مستوى الاستدلال الذي يناسب مهمتك عبر ثلاثة مستويات:
- منخفض: استجابات سريعة للمحادثة العامة.
- متوسط: سرعة وتفاصيل متوازنة.
- مرتفع: تحليل عميق ومفصل.
يمكن تعيين مستوى الاستدلال في موجهات النظام، على سبيل المثال “الاستدلال: مرتفع”.
كيفية الوصول إلى GPT OSS 120B و Qwen3 235B Thinking 2507 عبر API سريع وذا تكلفة فعالة؟
الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج
سجل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

الخطوة 2: اختر النموذج الخاص بك
تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

الخطوة 3: ابدأ تجربتك المجانية
ابدأ تجربتك المجانية لاستكشاف قدرات النموذج المحدد.

الخطوة 4: احصل على مفتاح API الخاص بك
للمصادقة مع واجهة برمجة التطبيقات، سنزودك بمفتاح API جديد. عند الدخول إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

الخطوة 5: تثبيت واجهة برمجة التطبيقات
قم بتثبيت واجهة برمجة التطبيقات باستخدام مدير الحزم الخاص بلغة البرمجة التي تستخدمها.
بعد التثبيت، قم باستيراد المكتبات الضرورية إلى بيئة التطوير الخاصة بك. قم بتهيئة واجهة برمجة التطبيقات باستخدام مفتاح API الخاص بك لبدء التفاعل مع Novita AI LLM. هذا مثال على استخدام واجهة برمجة تطبيقات إكمال المحادثة لمستخدمي بايثون.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="",
)
model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "Hi there!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
- GPT‑OSS‑120B هو الخيار الأمثل للمطورين الذين يحتاجون إلى مرونة، سرعة، ونشر أسهل.
- يعمل على وحدة GPU واحدة سعة 80 جيجابايت (أو إصدار 20B الأصغر لأجهزة الحافة).
- عمق استدلال قابل للتعديل (
منخفض/متوسط/مرتفع) لتقديم تنازلات لكل استعلام بين السرعة والدقة. - دعم أصلي لاستدعاء وظائف واجهة برمجة تطبيقات OpenAI وتكامل الأدوات.
- مثالي للمساعدين الإنتاجيين، التطبيقات التفاعلية، والنشر ذات التكلفة الحساسة.
- Qwen‑3 235B (Thinking 2507) مصمم لـ أقصى دقة استدلال في كل مرة.
- يعمل دائمًا في وضع الاستدلال المرتفع مع آثار
<think>. - يتفوق في البرمجة المعقدة، براهين الرياضيات، والاستدلال طويل السياق.
- متعدد اللغات وقوي في مهام مستوى البحث، لكن يتطلب إعدادات متعددة وحدات GPU ويقبل استجابات أبطأ.
- مثالي للمستشارين الخبراء حيث تكون الصحة أولوية على السرعة.
- يعمل دائمًا في وضع الاستدلال المرتفع مع آثار
الخلاصة:
إذا كانت السرعة والكفاءة أولويتك → اختر GPT‑OSS‑120B.
إذا كانت الدقة للاستدلال المعقد أمرًا لا يمكن التفاوض عليه → اختر Qwen‑3 235B (Thinking 2507).
الأسئلة الشائعة
هل يمكن لـ Qwen‑3 235B استخدام واجهة برمجة تطبيقات استدعاء الوظائف من OpenAI؟
ليس بشكل أصلي. يمكنه محاكاة التنسيق عبر هندسة الموجهات، لكنك ستحتاج إلى تحليل وتحقق خارجي للحصول على نتائج مستقرة. يدعم GPT‑OSS‑120B ذلك خارج الصندوق.
أي نموذج يحتاج إلى أجهزة أقل؟
GPT‑OSS‑120B — يمكنه التشغيل على وحدة GPU واحدة سعة 80 جيجابايت بفضل تكميم MXFP4. يتطلب Qwen‑3 235B ما لا يقل عن 4-8 وحدات GPU لأداء كامل.
أي منهما أفضل للمحادثة في الوقت الفعلي؟
GPT‑OSS‑120B — زمن استجابة أقل، استدلال قابل للتعديل، ومعاملات نشطة أصغر تجعله أكثر استجابة.
Novita AI هي منصة سحابية للذكاء الاصطناعي توفر للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام API البسيط الخاص بنا، بالإضافة إلى توفير سحابة GPU بأسعار معقولة وموثوقة للبناء والتوسع.
