تقوم منصة Novita AI بإطلاق حملة “شهر البناء” الخاصة بها، حيث تقدم للمطورين حافزًا حصريًا يصل إلى 20% خصم على جميع المنتجات الرئيسية!
يواجه المطورون الحديثون صعوبة متزايدة في دمج المدخلات الغنية بالرؤية مثل المخططات والصور الشاشة والوثائق التقنية في سير عمل البرمجة، مع الحفاظ في الوقت نفسه على زمن استجابة منخفض وتكاليف قابلة للتحكم. تكون نماذج اللغة البصرية (VLMs) التقليدية إما بطيئة جدًا لدرجة لا تسمح بوضعها داخل حلقات الأدوات، أو ضعيفة جدًا في الاستدلال المنظم لدرجة لا يمكنها توجيه قرارات الهندسة الحقيقية.
تشرح هذه المقالة كيف يعالج نموذج ERNIE-4.5-VL-28B-A3B-Thinking هذه الفجوة من خلال الجمع بين معايير استدلال اللغة البصرية القوية وهندسة A3B التي تتيح استدلال سريع ومتكرر، وتوضح كيف تجعل هذه الخصائص النموذج مناسبًا لسير عمل البرمجة المعزز بالأدوات.
بنية نموذج ERNIE-4.5-VL-28B-A3B
من خلال تفعيل 3 مليارات معامل فقط لكل رمز من مخزن 28B كثيف، يحقق النموذج ذكاءً رائدًا مع تكاليف استدلال على مستوى الأجهزة الطرفية.
يشير الاختصار “A3B” في اسم النموذج إلى Active 3B، مما يشير إلى هندسة مزيج الخبراء (MoE) المصممة للكفاءة القصوى.
-
إجمالي المعلمات: 28-30 مليار (MoE متفرق)
-
المعلمات النشطة: 3 مليار (لكل استدلال رمز)
-
نافذة السياق: 128 ألف رمز
-
التحسينات الأساسية:
- التفكير مع الصور: على عكس نماذج اللغة البصرية القياسية التي تعالج الصور كرموز ثابتة، يمكن لهذا النموذج “تكبير” و"بحث" بشكل تكراري داخل الصورة لحل التفاصيل الدقيقة.
- GSPO و IcePop RL: يستخدم التعلم المعزز المتقدم (تحسين اللعب الذاتي القائم على المجموعات) لتثبيت تدريب MoE، مما يضمن توجيه الخبراء بشكل صحيح للمنطق المعقد.
الحالة 1: قدرة ERNIE-4.5-VL-28B-A3B على التفكير مع الصور
ما هو نص اللوحة ذات الخلفية الزرقاء على الحائط بجانب الرصيف؟

من Baidu
الحالة: حل دائرة جسر لحساب المقاومة المكافئة
في هذا المثال، يُعرض للنموذج دائرة جسر غير بديهية ويُطلب منه حساب المقاومة المكافئة بين العقد أ و ب.

من [Baidu](https://yiyan.baidu.com/blog/posts/ernie 4.5-vl-28b-a3b-thinking/)
لماذا يمكن لنموذج ERNIE-4.5-VL-28B-A3B-Thinking تحسين سير عمل البرمجة المعزز بالأدوات
تظهر درجات المعايير قوة متسقة في استدلال STEM، وفهم الوثائق، وترسيخ الرؤية، والتي تتوافق مباشرة مع الخطوات المعرفية الأصعب في سير عمل البرمجة في العالم الحقيقي.
عبر معايير فهم الوثائق والاستدلال المنظم، يصل نموذج ERNIE-4.5-VL-A3B في كثير من الأحيان إلى أو يتجاوز النسبة المئوية 95 من نماذج Gemini-2.5-Pro و GPT-5-High، على الرغم من تفعيل عدد أقل بكثير من المعلمات لكل رمز.
| المعيار | ERNIE-4.5-VL-A3B | Gemini-2.5-Pro | GPT-5-High | ماذا يعني هذا للمطورين |
|---|---|---|---|---|
| MathVista | 82.5 | 82.7 | 81.3 | استدلال رمزي متعدد الخطوات موثوق |
| MathVerse | 81.0 | 82.9 | 84.1 | تجريد قوي تحت القيود |
| MMMU | 72.2 | 81.7 | 84.2 | تفكيك المشاكل متعددة الوسائط |
| ChartQA | 87.1 | 78.3 | 78.2 | استخراج بيانات منظمة |
| DocVQA (val) | 93.6 | 91.2 | 94.2 | ترسيخ دقيق للوثائق |
| OCRBench | 85.8 | 86.4 | 81.0 | تعرف على نص قوي من الصور |
| CharXiv-DQ | 90.3 | 91.2 | 93.5 | استدلال تقني طويل |
| CV-Bench | 83.8 | 84.8 | 85.0 | اتساق منطقي بصري |
| المعدل (الكل) | 73.1 | 75.4 | 76.6 | نموذج مدمج، استدلال شبه رائد |
على الرغم من أن النموذج يحتوي على 28 مليار معامل، فإن 3 مليار فقط تكون نشطة لكل رمز، مما يتيح استدلال سريع ومنخفض الزمن مناسب للاستدعاءات المتكررة داخل حلقات الأدوات.
الخصائص الرئيسية ذات الصلة للمستخدمين:
- المعلمات النشطة: 3 مليار لكل رمز
- زمن الاستجابة الفعال: قابل للمقارنة بالنماذج الصغيرة والمتوسطة الحجم
- طول السياق: يصل إلى 128 ألف رمز، يدعم الاستدلال على مستوى النظام
يتيح تصميم A3B:
- عمليات استدلال متكررة دون تكاليف باهظة
- زمن استجابة مستقر في سير العمل الوكيل
- نشر عملي كواجهة برمجة تطبيقات للاستدلال دائم التشغيل
جرب نموذج ERNIE-4.5-VL-28B-A3B-Thinking الآن!
ما الذي يفعله نموذج ERNIE-4.5-VL-28B-A3B-Thinking بالفعل داخل سير عمل أدوات البرمجة
يعامل نموذج ERNIE-4.5-VL-28B-A3B-Thinking الرؤية كمدخل استدلال، وليس مجرد مستخرج ميزات، مما يتيح للمطورين دمج لقطات الشاشة والمخططات والوثائق مباشرة في سير عمل البرمجة. هذا ليس توليد نص بعد التعرف الضوئي على الحروف (OCR). النموذج يستنتج على الهيكل البصري ويتماشى مع القصد.
1. فهم المخططات والهندسة المعمارية
يمكن للنموذج تفسير مخططات النظام وتحويل الهيكل البصري إلى علاقات منطقية ذات صلة بقرارات البرمجة.
ما الذي توفره قدرة VL
- يحدد المكونات والحدود وتدفق البيانات من المخططات
- يطابق العناصر البصرية مع الأوصاف النصية
- يحافظ على العلاقات الهيكلية في الاستدلال
مثال
- المدخل: مخطط هندسة الخدمات المصغرة + ملاحظة تصميم قصيرة
- المخرج: شرح تبعيات الخدمات ومسارات الاتصال
- التأثير: توجه أدوات البرمجة إلى الوحدات الصحيحة بدلاً من مسح قاعدة الكود بالكامل
2. فهم سياق الكود بناءً على لقطات الشاشة
يمكن للنموذج الاستدلال على لقطات شاشة واجهة المستخدم أو بيئة التطوير المتكاملة (IDE) لاستنتاج المنطق الأساسي والقصد.
ما الذي توفره قدرة VL
- يقرأ تخطيطات واجهة المستخدم والسجلات وحالات الخطأ من لقطات الشاشة
- يربط الحالات البصرية بمسارات الكود المحتملة
- يتعامل مع المعلومات النصية غير المكتملة أو الجزئية
مثال
- المدخل: لقطة شاشة لوحة تحكم فاشلة مع رسائل خطأ جزئية
- المخرج: فرضية حول عدم التطابق بين الواجهة الأمامية والخلفية وطبقة API ذات الصلة
- التأثير: تصحيح أخطاء أسرع دون الحاجة إلى إعادة إنتاج السجلات الكاملة
3. استدلال الكود المرتكز على الوثائق
يتفوق النموذج في استخراج المنطق القابل للتنفيذ من الوثائق التقنية التي تمزج النصوص والجداول والصور.
ما الذي توفره قدرة VL
- يحلل المواصفات وملفات PDF والوثائق البحثية
- يربط الأشكال والجداول بمنطق التنفيذ
- يحافظ على التطابق عبر الوثائق الطويلة
مثال
- المدخل: ملف PDF لمواصفات API يحتوي على جداول ومخططات انسيابية
- المخرج: ملخص منظم للنقاط النهائية والقيود والحالات الحدية
- التأثير: تبدأ أدوات توليد الكود من فهم صحيح ومؤسس
4. الاستدلال البصري لتفكيك المشاكل
تُستخدم المدخلات البصرية لدفع الاستدلال متعدد الخطوات، وليس مجرد التعرف.
ما الذي توفره قدرة VL
- يحول المشاكل البصرية إلى تمثيلات رمزية
- يحافظ على الاتساق عبر خطوات الاستدلال
- يدعم التجريد قبل التنفيذ
مثال
- المدخل: مخطط انسيابي لخط أنابيب بيانات
- المخرج: تفكيك خطوي لمراحل المعالجة ونقاط الفشل
- التأثير: يتيح استدعاءات أدوات موجهة بدلاً من تصحيح الأخطاء على نطاق واسع
جرب نموذج ERNIE-4.5-VL-28B-A3B-Thinking الآن!
كيفية الوصول إلى نموذج ERNIE-4.5-VL-28B-A3B-Thinking بسعر جيد؟
تقدم منصة Novita AI واجهات برمجة تطبيقات لنموذج ERNIE-4.5-VL-28B-A3B-Thinking بسعر 0.112 دولار للمدخلات و 0.448 دولار للمخرجات، مع دعم نافذة سياق تبلغ 30 ألف رمز، والمخرجات المنظمة واستدعاء الدوال.
الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج
سجل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

الخطوة 2: اختر النموذج الخاص بك
تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

جرب نموذج ERNIE-4.5-VL-28B-A3B-Thinking الآن!
الخطوة 3: ابدأ تجربتك المجانية
ابدأ تجربتك المجانية لاستكشاف قدرات النموذج المختار.

الخطوة 4: احصل على مفتاح API الخاص بك
للمصادقة مع واجهة برمجة التطبيقات، سنزودك بمفتاح API جديد. بالدخول إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="baidu/ernie-4.5-vl-28b-a3b",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=8000,
temperature=0.7
)
print(response.choices[0].message.content)
يحقق نموذج ERNIE-4.5-VL-28B-A3B-Thinking أداء استدلال لغة بصرية شبه رائد بينما يفعل 3 مليار معامل فقط لكل رمز، مما يتيح استدلال منخفض الزمن وعالي التكرار داخل سير عمل الأدوات. تسمح له نقاط القوة المثبتة في معايير فهم الوثائق وترسيخ الرؤية واستدلال STEM بالعمل كمنسق استدلال بدلاً من محرك صياغة. ونتيجة لذلك، فهو مناسب بشكل مثالي للمطورين الذين يحتاجون إلى دمج المخططات ولقطات الشاشة والوثائق التقنية في أدوات البرمجة دون التضحية بالسرعة أو كفاءة التكاليف.
الأسئلة الشائعة
ما هي مهام الاستدلال التي يكون نموذج ERNIE-4.5-VL-28B-A3B-Thinking الأنسب لها؟
يكون نموذج ERNIE-4.5-VL-28B-A3B-Thinking الأنسب لمهام استدلال اللغة البصرية مثل تفسير المخططات وفهم الوثائق وتفكيك المشاكل المنظمة، بدلاً من توليد الكود المخصص للصياغة النحوية البحتة.
هل يمكن لنموذج ERNIE-4.5-VL-28B-A3B-Thinking استبدال نموذج لغة كبير متخصص في البرمجة؟
لا. تم تصميم نموذج ERNIE-4.5-VL-28B-A3B-Thinking ليكمل النماذج المتخصصة في البرمجة من خلال التعامل مع فهم الرؤية والتخطيط والتحقق، وليس تنفيذ الكود منخفض المستوى.
ما الذي يجعل قدرة اللغة البصرية لنموذج ERNIE-4.5-VL-28B-A3B-Thinking مختلفة عن النماذج القائمة على OCR؟
يستنتج نموذج ERNIE-4.5-VL-28B-A3B-Thinking على الهيكل البصري والقصد، مما يتيح مهام مثل فهم النظام بناءً على المخططات وتصحيح الأخطاء بناءً على لقطات الشاشة بدلاً من استخراج النص البسيط.
Novita AI هي منصة سحابية شاملة تمكين طموحاتك في الذكاء الاصطناعي. واجهات برمجة التطبيقات المدمجة، بدون خوادم، مثيل GPU – الأدوات الاقتصادية التي تحتاجها. أزل البنية التحتية، ابدأ مجانًا، وحقق رؤيتك في الذكاء الاصطناعي.
