GPT OSS 120B مقابل Qwen3 235B Thinking 2507: محادثة أم برمجة؟

GPT OSS 120B مقابل Qwen3 235B Thinking 2507: محادثة أم برمجة؟

اختيار نموذج اللغة الكبيرة (LLM) المناسب يعتمد على الموازنة بين عمق الاستدلال، السرعة، تكلفة الأجهزة، ومتطلبات التكامل.
تقارن هذه المقالة بين GPT‑OSS‑120B و Qwen‑3 235B (Thinking 2507) — اثنين من أكثر النماذج مفتوحة المصدر قدرة اليوم.
ستتعرف على كيفية اختلافهما من حيث البنية، الأداء، متطلبات الموارد، قدرات البرمجة، وحالات الاستخدام الواقعية، حتى تتمكن من تحديد أي منهما يناسب تطبيقك بشكل أفضل — من روبوتات المحادثة منخفضة زمن الاستجابة إلى أنظمة البرمجة عالية الدقة.

بنية GPT OSS 120B مقابل Qwen3 235B Thinking 2507

تفاصيل البنية

الميزة GPT-OSS-120B Qwen3-235B-Thinking-2507
إجمالي المعاملات 117B 235B
المعاملات المنشطة / رمز 5.1B 22B
نسبة التنشيط 4.36% 9.36%
طبقات المحول 36 94
خبراء MoE 128 128
الخبراء المنشطون / رمز 4 8
آلية الانتباه انتباه كثيف متناوب + انتباه نطاقي محلي sparse، GQA غير مذكور صراحة (من المحتمل أن يكون قياسيًا مع تحسينات)
التكميم MXFP4 (4-bit) غير مذكور
طول السياق الأصلي 128K 32K
طول السياق الموسع غير مذكور (الأصلي بالفعل 128K) 262K+ (عبر YaRN، إلخ)

معايير الأداء

درجات معايير الأداء لـ Qwen3-235B-Thinking-2507 مقابل GPT-OSS-120B

يتفوق Qwen3-235B-Thinking-2507 في مهام البرمجة والاستدلال طويل السياق، مع تفوق طفيف في بعض معايير الاستدلال. يتفوق GPT-OSS-120B في اتباع التعليمات، الرياضيات التنافسية، ومعيار استدلال واحد ثقيل. كلا النموذجين منافسان في الاستدلال العلمي (متساويان تقريبًا).

متطلبات الموارد لـ GPT OSS 120B مقابل Qwen3 235B Thinking 2507

متطلبات GPU

النموذج التكميم ذاكرة الوصول العشوائي للفيديو المطلوبة متطلبات وحدة معالجة الرسوميات*
Qwen3-235B-Thinking-2507 FP16 611.09 جيجابايت 8 × 80 جيجابايت H100/A100
FP8 606.67 جيجابايت 8 × 80 جيجابايت H100/A100
INT8 606.67 جيجابايت 8 × 80 جيجابايت H100/A100
INT4 604.45 جيجابايت 8 × 80 جيجابايت H100/A100
GPT-OSS-120B FP16 246.34 جيجابايت 4 × 80 جيجابايت H100/A100
Q8 124.03 جيجابايت 2 × 80 جيجابايت H100/A100
Q4 62.87 جيجابايت 1 × 80 جيجابايت H100/A100

بفضل استخدامه لتكميم MXFP4، يمكن تشغيل GPT OSS 120B على وحدة GPU واحدة سعتها 80 جيجابايت، بما في ذلك نماذج مثل NVIDIA H100 أو A100.

أما بالنسبة لأسعار وحدات GPU، يمكنك النقر على الزر أدناه للحصول على مزيد من المعلومات.

احصل على سعر GPU

الوصول عبر API

Novita AI هي منصة سحابية للذكاء الاصطناعي توفر للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام API البسيط الخاص بنا، بالإضافة إلى توفير سحابة GPU بأسعار معقولة وموثوقة للبناء والتوسع.

النموذج طول السياق سعر الإدخال سعر الإخراج
Qwen3-235B-Thinking-2507 سياق 131072 0.3 دولار / 1M 3.0 دولار / 1M
GPT-OSS-120B سياق 131072 0.1 دولار / 1M 0.5 دولار / 1M

الاختلافات الرئيسية بين GPT-OSS-120B و Qwen-3 235B Thinking 2507

الاختلافات في القدرات

الميزة GPT-OSS-120B Qwen3-235B (Thinking 2507)
عمق الاستدلال القابل للتعديل ✅ نعم (خيارات منخفض / متوسط / مرتفع) ❌ لا (استدلال أقصى ثابت)
يخرج دائمًا سلسلة الأفكار (CoT) ❌ لا (مخفي افتراضيًا) ✅ نعم (وسوم <think>)
استدلال مخفي يمكن للمطورين الوصول إليه ✅ نعم ❌ لا
التبديل بين وضع التفكير / الوضع السريع ✅ نعم (وضع سريع متاح) ❌ لا (وضع التفكير فقط)
قدرة استخدام الأدوات ✅ مدعوم ✅ مدعوم
نتائج تقييم السلامة العامة ✅ نعم (اختبار سلامة عدائي) ❌ ذكر محدود
ترخيص مفتوح المصدر Apache 2.0 ✅ نعم ✅ نعم

الاختلافات في التطبيقات

إذا كنت بحاجة إلى… اختر GPT-OSS-120B اختر Qwen-3 235B (Thinking 2507)
التشغيل على أجهزة محدودة الموارد ✅ ممكن التشغيل على GPU واحد سعة 80 جيجابايت (مثل NVIDIA H100 واحد) بفضل MoE + ضغط MXFP4؛ كما يوجد إصدار 20B لأجهزة الحافة ذات ذاكرة وصول عشوائي للفيديو سعة 16 جيجابايت ❌ يتطلب خادم متعدد وحدات GPU (مثل 4×40 جيجابايت أو 8×80 جيجابايت) لأداء كامل
زمن استجابة أقل وتكلفة استدلال أقل ✅ محسّن للسرعة والكفاءة ❌ زمن استجابة أعلى وتكلفة حسابية أعلى
أقصى عمق استدلال (مفعل دائمًا) ❌ عمق الاستدلال قابل للتعديل (منخفض / متوسط / مرتفع) ✅ يعمل دائمًا بأقصى عمق استدلال مع أثر <think> مرئي
الأفضل للاستدلال على مستوى البحث (براهين رياضية، كود معقد، استدلال علمي متعدد الخطوات) ❌ عالي الجودة لكن مضبوط للتوازن ✅ أداء من الطراز الأول بين النماذج المفتوحة في الرياضيات، مسابقات البرمجة، والمنطق المنظم
روبوت محادثة للاستخدام العام / مساعد ذكاء اصطناعي للإنتاج ✅ اتباع قوي للتعليمات، استخدام الأدوات، نشر منخفض زمن الاستجابة ❌ ممكن، لكنه أثقل وأبطأ
التكامل مع واجهات برمجة التطبيقات/أدوات OpenAI الحالية ✅ متوافق مع واجهة برمجة تطبيقات OpenAI والأدوات، تنسيق محادثة Harmony ❌ يستخدم قالب محادثة خاص بـ Qwen وأدوات (SGLang، Qwen-Agent) تتطلب تكيفًا إذا كنت تهاجر من تنسيق OpenAI
التفاعل متعدد اللغات ⚠️ محسّن بشكل أساسي للغة الإنجليزية ✅ قدرة قوية متعددة اللغات

توليد الكود: GPT OSS 120B مقابل Qwen 3 235B Thinking 2507

الجانب GPT-OSS-120B Qwen3-235B (Thinking 2507)
استدعاء الوظائف (مواصفات واجهة برمجة تطبيقات OpenAI) ✅ دعم أصلي — مدرب على إخراج JSON function_call / tool_calls تمامًا وفقًا لمخطط OpenAI؛ مستقر خارج الصندوق. ❌ لا يوجد دعم أصلي — يمكن محاكاة التنسيق عبر هندسة الموجهات، لكن يتطلب تحليل/تحقق خارجي للاستقرار.
تكامل الأدوات ✅ متوافق مباشرة مع نظام OpenAI البيئي (مفسر Python، بحث ويب، تنفيذ كود) عبر واجهة برمجة التطبيقات. ⚠️ يستخدم Qwen-Agent / SGLang لتكامل الأدوات؛ مخطط مختلف، يتطلب تكيفًا إذا كنت تهاجر من تنسيق OpenAI.
طول وأسلوب إخراج الكود موجز افتراضيًا؛ قد ينتج حلولًا جزئية عند إعطاء الأولوية للسرعة/الكفاءة (عمق استدلال قابل للتعديل). أطول، وظائف كاملة قابلة للترجمة افتراضيًا، مع معالجة أكبر للحالات الحدية وتعليقات.
الاستدلال في توليد الكود عمق استدلال قابل للتعديل (منخفض / متوسط / مرتفع)؛ يمكن تخطي الاستدلال المطول لإخراج كود أسرع. يخرج دائمًا أثر استدلال كامل في وسوم <think> قبل الكود، مع شرح أكثر تفصيلاً مدمجًا.

روبوت محادثة عالي الدقة ومنخفض زمن الاستجابة: GPT OSS 120B مقابل Qwen 3 235B Thinking 2507

روبوت محادثة عالي الدقة ومنخفض زمن الاستجابة: GPT-OSS-120B مقابل Qwen-3 235B Thinking 2507

يمكنك تعديل مستوى الاستدلال الذي يناسب مهمتك عبر ثلاثة مستويات:

  • منخفض: استجابات سريعة للمحادثة العامة.
  • متوسط: سرعة وتفاصيل متوازنة.
  • مرتفع: تحليل عميق ومفصل.

يمكن تعيين مستوى الاستدلال في موجهات النظام، على سبيل المثال “الاستدلال: مرتفع”.

كيفية الوصول إلى GPT OSS 120B و Qwen3 235B Thinking 2507 عبر API سريع وذا تكلفة فعالة؟

الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج

سجل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

تسجيل الدخول والوصول إلى مكتبة النماذج

جرب GPT OSS الآن!

الخطوة 2: اختر النموذج الخاص بك

تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

الخطوة 2: اختر النموذج الخاص بك

الخطوة 3: ابدأ تجربتك المجانية

ابدأ تجربتك المجانية لاستكشاف قدرات النموذج المحدد.

الخطوة 3: ابدأ تجربتك المجانية

الخطوة 4: احصل على مفتاح API الخاص بك

للمصادقة مع واجهة برمجة التطبيقات، سنزودك بمفتاح API جديد. عند الدخول إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

الحصول على مفتاح API

الخطوة 5: تثبيت واجهة برمجة التطبيقات

قم بتثبيت واجهة برمجة التطبيقات باستخدام مدير الحزم الخاص بلغة البرمجة التي تستخدمها.

بعد التثبيت، قم باستيراد المكتبات الضرورية إلى بيئة التطوير الخاصة بك. قم بتهيئة واجهة برمجة التطبيقات باستخدام مفتاح API الخاص بك لبدء التفاعل مع Novita AI LLM. هذا مثال على استخدام واجهة برمجة تطبيقات إكمال المحادثة لمستخدمي بايثون.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="",
)

model = "openai/gpt-oss-120b"
stream = True # or False
max_tokens = 65536
system_content = ""Be a helpful assistant""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  
  • GPT‑OSS‑120B هو الخيار الأمثل للمطورين الذين يحتاجون إلى مرونة، سرعة، ونشر أسهل.
    • يعمل على وحدة GPU واحدة سعة 80 جيجابايت (أو إصدار 20B الأصغر لأجهزة الحافة).
    • عمق استدلال قابل للتعديل (منخفض / متوسط / مرتفع) لتقديم تنازلات لكل استعلام بين السرعة والدقة.
    • دعم أصلي لاستدعاء وظائف واجهة برمجة تطبيقات OpenAI وتكامل الأدوات.
    • مثالي للمساعدين الإنتاجيين، التطبيقات التفاعلية، والنشر ذات التكلفة الحساسة.
  • Qwen‑3 235B (Thinking 2507) مصمم لـ أقصى دقة استدلال في كل مرة.
    • يعمل دائمًا في وضع الاستدلال المرتفع مع آثار <think>.
    • يتفوق في البرمجة المعقدة، براهين الرياضيات، والاستدلال طويل السياق.
    • متعدد اللغات وقوي في مهام مستوى البحث، لكن يتطلب إعدادات متعددة وحدات GPU ويقبل استجابات أبطأ.
    • مثالي للمستشارين الخبراء حيث تكون الصحة أولوية على السرعة.

الخلاصة:
إذا كانت السرعة والكفاءة أولويتك → اختر GPT‑OSS‑120B.
إذا كانت الدقة للاستدلال المعقد أمرًا لا يمكن التفاوض عليه → اختر Qwen‑3 235B (Thinking 2507).

الأسئلة الشائعة

هل يمكن لـ Qwen‑3 235B استخدام واجهة برمجة تطبيقات استدعاء الوظائف من OpenAI؟

ليس بشكل أصلي. يمكنه محاكاة التنسيق عبر هندسة الموجهات، لكنك ستحتاج إلى تحليل وتحقق خارجي للحصول على نتائج مستقرة. يدعم GPT‑OSS‑120B ذلك خارج الصندوق.

أي نموذج يحتاج إلى أجهزة أقل؟

GPT‑OSS‑120B — يمكنه التشغيل على وحدة GPU واحدة سعة 80 جيجابايت بفضل تكميم MXFP4. يتطلب Qwen‑3 235B ما لا يقل عن 4-8 وحدات GPU لأداء كامل.

أي منهما أفضل للمحادثة في الوقت الفعلي؟

GPT‑OSS‑120B — زمن استجابة أقل، استدلال قابل للتعديل، ومعاملات نشطة أصغر تجعله أكثر استجابة.

Novita AI هي منصة سحابية للذكاء الاصطناعي توفر للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام API البسيط الخاص بنا، بالإضافة إلى توفير سحابة GPU بأسعار معقولة وموثوقة للبناء والتوسع.

موصى بقراءتها