- ما هي بنية GLM-4.6V؟
- ما مدى فعالية GLM-4.6V في سير العمل الحقيقية وفقًا لنتائج معايير القياس؟
- ما الدور الذي يلعبه GLM-4.6V داخل سير العمل من البداية إلى النهاية؟
- كيفية الوصول إلى GLM-4.6V عبر واجهة برمجة التطبيقات؟
- كيفية الوصول إلى GLM 4.6V باستخدام OpenAIAgentsSDK
- كيفية الوصول إلى GLM 4.6V على منصات طرف ثالث
تقوم Novita AI بإطلاق حملة “شهر البناء” الخاصة بها، وتقدم للمطورين حافزًا حصريًا يصل إلى خصم 20% على جميع المنتجات الرئيسية!
يواجه المستخدمون الذين يبنون وكلاء متعددين الوسائط وسير عمل معقدة صعوبة في فهم كيفية تفسير نموذج واحد بشكل موثوق للصور والمستندات وحالات واجهة المستخدم، والاستدلال على القيود البصرية، وتنسيق الأدوات، والبقاء مستقرًا عبر السياقات الطويلة. يعالج GLM-4.6V هذه التحديات مباشرة من خلال توفير بنية موحدة للرؤية واللغة، واستخدام أدوات متعددة الوسائط أصلي، وقدرات استدلال وكيل قوية. يشرح هذا المقال كيف تم تصميم بنية GLM-4.6V، وكيف يتم التحقق من فعاليته من خلال معايير القياس، وكيف يعمل داخل سير العمل الحقيقية، وكيف يمكن للمطورين الوصول إلى GLM-4.6V بكفاءة عبر واجهة برمجة التطبيقات.
ما هي بنية GLM-4.6V؟
استخدام الأدوات متعددة الوسائط الأصلي
يأتي GLM-4.6V مجهزًا بقدرة استدعاء أدوات متعددة الوسائط أصلية:
- إدخال متعدد الوسائط: يمكن تمرير الصور ولقطات الشاشة وصفحات المستندات مباشرة كمعاملات للأدوات دون تحويلها إلى أوصاف نصية أولاً، مما يقلل من فقدان الإشارة.
- إخراج متعدد الوسائط: يمكن للنموذج فهم النتائج التي تعيدها الأدوات بصريًا - مثل نتائج البحث والرسوم البيانية الإحصائية ولقطات شاشة الويب المعروضة أو صور المنتجات المسترجعة - ودمجها في سلاسل الاستدلال اللاحقة.
الخصائص الأساسية للبنية
- تمثيل موحد للرؤية واللغة
- يتم محاذاة الميزات البصرية والدلالات النصية في مساحة مشتركة للاستدلال المشترك.
- تفاعل طويل السياق
- يدعم سير العمل التي تمزج سجل المحادثات وقطع التوثيق ومخرجات الأدوات.
- ملاءمة للإخراج المنظم
- أكثر ملاءمة لاستدعاء الوظائف والامتثال لمخطط JSON واتباع القيود مقارنة باستخدام نموذج اللغة البصري الذي يعتمد فقط على الأوصاف.
ما مدى فعالية GLM-4.6V في سير العمل الحقيقية وفقًا لنتائج معايير القياس؟
1. فهم المهام المعتمدة على البصر تأسيس المهام المجردة على المخططات ولقطات الشاشة والمواصفات البصرية
يظهر GLM-4.6V قدرة قوية على تحويل المدخلات البصرية الأولية إلى فهم دلالي منظم، وهو أمر ضروري لتهيئة سير عمل الوكلاء.
| المعيار | القدرة المقاسة | GLM-4.6V |
|---|---|---|
| MMBench v1.1 | الإجابة على الأسئلة البصرية العامة | 88.8 |
| MMBench v1.1 (CN) | فهم بصري متعدد اللغات | 88.2 |
| MMStar | إدراك متعدد الوسائط دقيق | 75.9 |
| BLINK (val) | التأسيس البصري والمحاذاة | 65.5 |
2. الاستدلال متعدد الوسائط على القيود البصرية استخدام الصور كمتغيرات في الاستدلال المنطقي والرياضي
ما وراء الإدراك، يظهر GLM-4.6V أداء استدلال متعدد الوسائط تنافسي، وهو أمر حرجي لسير العمل التي تعتمد قراراتها على أدلة بصرية.
| المعيار | محور الاستدلال | GLM-4.6V |
|---|---|---|
| MMMU (val) | استدلال متعدد الوسائط عام | 76.0 |
| MMMU-Pro | استدلال متعدد الوسائط الصعب | 66.0 |
| MathVista | استدلال رياضي بصري | 85.2 |
| AI2D | استدلال قائم على المخططات | 88.8 |
3. تشخيص الحالة المعتمد على لقطات الشاشة تفسير حالات واجهة المستخدم وشروط التشغيل من الأدلة البصرية
يمكن لـ GLM-4.6V استنتاج حالة النظام من لقطات الشاشة وال artifacts البصرية، وهو أمر مفيد بشكل خاص لتصحيح أخطاء ومراقبة الوكلاء.
| المعيار | القدرة المقاسة | GLM-4.6V |
|---|---|---|
| VideoMMMU | استدلال زمني وحالات | 74.7 |
| DynaMath | استدلال بصري ديناميكي | 54.5 |
| WeMath | استدلال بصري تطبيقي | 69.8 |
4. تخطيط الوكيل وتنسيق الأدوات *تخطيط وجدولة والتحقق من استخدام الأدوات عبر الخطوات|
تشير معايير قياس الوكيل لـ GLM-4.6V إلى ملاءمته كوحدة تحكم مركزية بدلاً من مجرد مستجيب سلبي.
| المعيار | سلوك الوكيل | GLM-4.6V |
|---|---|---|
| Design2Code | تخطيط من البصر إلى الفعل | 88.6 |
| Flame-React-Eval | استدلال تفاعلي متعدد الخطوات | 86.3 |
| OSWorld | تفاعل بيئة قائم على الأدوات | 37.2 |
| AndroidWorld | استدلال وكيل الهاتف المحمول | 57.0 |
| WebVoyager | التنقل على الويب والتخطيط | 81.0 |
5. محاذاة متعددة الوسائط طويلة السياق الحفاظ على الاتساق عبر المستندات والصور ومخرجات الأدوات
تظهر معايير القياس طويلة السياق مدى جودة النموذج في الحفاظ على القيود عبر التفاعلات الممتدة.
| المعيار | قدرة السياق | GLM-4.6V |
|---|---|---|
| MMLongBench-Doc | استدلال على مستوى المستند | 54.9 |
| MMLongBench-128K | سياق فائق الطول | 64.1 |
| LVBench | استدلال بصري طويل | 59.5 |
6. التعرف الضوئي على الحروف والرسوم البيانية والتأسيس المكاني *استخراج الهيكل من المستندات والتخطيطات المكانية|
تعتبر هذه القدرات مهمة عندما تعتمد سير العمل على لقطات شاشة التقارير أو لوحات التحكم أو المستندات الممسوحة ضوئيًا.
| المعيار | القدرة | GLM-4.6V |
|---|---|---|
| OCRBench | استخراج النصوص | 86.5 |
| OCR-Bench v2 (EN) | التعرف الضوئي على الحروف الإنجليزية | 65.1 |
| ChartQAPro | فهم الرسوم البيانية | 65.5 |
| OmniSpatial | استدلال مكاني | 52.0 |
| RefCOCO-avg (val) | تأسيس التعبيرات المشار إليها | 88.6 |
ما الدور الذي يلعبه GLM-4.6V داخل سير العمل من البداية إلى النهاية؟
يكون GLM-4.6V أكثر فعالية كطبقة الاستدلال والتنسيق بدلاً من مولد إجابات لمرة واحدة. فهو يفسر المدخلات متعددة الوسائط، ويستخرج القيود، ويخطط لاستخدام الأدوات، ويتحقق من صحة النتائج الوسيطة.
| دور سير العمل | المدخلات النموذجية | الاستخدام اللاحق |
|---|---|---|
| طبقة الاستدلال والتنسيق (الدور العام) | الصور والمستندات ولقطات شاشة واجهة المستخدم ومخرجات الأدوات وأهداف المهام | سير عمل معززة بالأدوات مستقرة مع تقليل انتشار الأخطاء |
| فهم المهام المعتمدة على البصر | مخططات البنية ومخططات التسلسل ولقطات شاشة النشر | عمليات بحث ضيقة في المستودعات؛ أولوية مسارات الكود؛ إنشاء خطط اختبار مستهدفة |
| استدلال الحالة المعتمد على لقطات الشاشة | مربعات حوار الأخطاء والتخطيطات المعطلة والشذوذ في لوحات التحكم | استرجاع السجلات تلقائيًا؛ تتبع موجه؛ كتيبات الحوادث |
| استدلال متوافق مع المستندات | صفحات توثيق واجهة برمجة التطبيقات ومقتطفات SDK وجداول المعاملات | إنشاء كود متوافق مع التوثيق؛ اختبار العقود؛ التحقق من المخطط |
| تخطيط وتحقق متعدد الخطوات | أهداف مهام عالية المستوى؛ صور؛ مستندات؛ مخرجات أدوات وسيطة | حلقات وكيل موثوقة؛ تقليل انحراف السياق؛ تنفيذ آمن متعدد الأدوات |
https://www.youtube.com/watch?v=5gqJKZWYOB4
كيفية الوصول إلى GLM-4.6V عبر واجهة برمجة التطبيقات؟
تقدم Novita AI واجهات برمجة تطبيقات ERNIE-4.5-VL-28B-A3B-Thinking مع نافذة سياق تبلغ 131K رمزًا بسعر 0.3 دولار لكل إدخال و 0.9 دولار لكل إخراج، مع دعم المخرجات المنظمة واستدعاء الوظائف.
يشير “قراءة ذاكرة التخزين المؤقت: 0.055 دولار لكل مليون رمز” إلى تكلفة قراءة الرموز المخزنة مؤقتًا عند حدوث إصابة في ذاكرة التخزين المؤقت. تم حساب هذه الرموز وتخزينها مسبقًا، لذلك لا يلزم إجراء استدلال إضافي للنموذج. في الأنظمة التي تشترك فيها العديد من الطلبات في نفس بادئة المطالبة، أو تعيد استخدام سجل المحادثات أو تعليمات الأدوات أو نصوص القواعد الثابتة، أو حيث تكون نتائج استرجاع RAG متكررة للغاية، يمكن تحقيق معدل إصابة عالي لذاكرة التخزين المؤقت، مما يقلل بشكل كبير من تكلفة الاستدلال الإجمالية.
الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج
سجل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

الخطوة 2: اختر النموذج الخاص بك
تصفح الخيارات المتاحة واختر النموذج الذي يناسب احتياجاتك.

الخطوة 3: ابدأ تجربتك المجانية
ابدأ تجربتك المجانية لاستكشاف قدرات النموذج المحدد.

الخطوة 4: احصل على مفتاح API الخاص بك
للمصادقة مع واجهة برمجة التطبيقات، سنزودك بمفتاح API جديد. عند الدخول إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="zai-org/glm-4.6v",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=32768,
temperature=0.7
)
print(response.choices[0].message.content)
كيفية الوصول إلى GLM 4.6V باستخدام OpenAIAgentsSDK
قم ببناء أنظمة متعددة الوكلاء متقدمة من خلال دمج Novita AI مع OpenAI Agents SDK:
- التوصيل والتشغيل: استخدم نماذج اللغات الكبيرة من Novita AI في أي سير عمل لـ OpenAI Agents.
- يدعم التسليم والتوجيه واستخدام الأدوات: صمم وكلاء يمكنهم تفويض المهام أو فرزها أو تشغيل الوظائف، وكلها مدعومة بنماذج Novita AI.
- تكامل بايثون: ما عليك سوى توجيه SDK إلى نقطة نهاية Novita (
https://api.novita.ai/v3/openai) واستخدام مفتاح API الخاص بك.
كيفية الوصول إلى GLM 4.6V على منصات طرف ثالث
- Hugging Face: استخدم GLM 4.6V في Spaces أو خطوط الأنابيب أو مع مكتبة Transformers عبر نقاط نهاية Novita AI.
- أطر الوكيل والتنسيق: اربط Novita AI بسهولة بالمنصات الشريكة مثل Continue و AnythingLLM و LangChain و Dify و Langflow عبر موصلات رسمية وأدلة تكامل خطوة بخطوة.
- واجهة برمجة تطبيقات متوافقة مع OpenAI: استمتع بالهجرة والتكامل بدون متاعب مع أدوات مثل Cline و Cursor، المصممة لمعيار واجهة برمجة تطبيقات OpenAI.
يتم وضع GLM-4.6V بشكل أفضل كطبقة استدلال وتنسيق لسير العمل متعددة الوسائط بدلاً من نموذج بسيط للإجابة على الأسئلة البصرية. من خلال تمثيلات موحدة للرؤية واللغة، ومحاذاة طويلة السياق، وقدرة تخطيط أدوات قوية، يتيح GLM-4.6V أنظمة وكلاء متعددة الوسائط أكثر موثوقية وقابلية للتوسع وكفاءة من حيث التكلفة.
الأسئلة الشائعة
ما الذي يجعل بنية GLM-4.6V مناسبة لسير العمل متعددة الوسائط؟ يستخدم GLM-4.6V تمثيلًا موحدًا للرؤية واللغة واستدعاء أدوات متعددة الوسائط أصلي، مما يسمح بالاستدلال المشترك على الصور والمستندات ومخرجات الأدوات بواسطة GLM-4.6V.
ما الدور الذي يلعبه GLM-4.6V داخل سير عمل الوكيل من البداية إلى النهاية؟ يعمل GLM-4.6V كطبقة استدلال وتنسيق، حيث يفسر المدخلات متعددة الوسائط، ويخطط لاستخدام الأدوات، ويتحقق من صحة النتائج الوسيطة.
كيف يمكن للمطورين تقليل التكاليف عند استخدام GLM-4.6V عبر واجهة برمجة التطبيقات؟ من خلال الاستفادة من تسعير قراءة ذاكرة التخزين المؤقت مع GLM-4.6V، يمكن إعادة استخدام المطالبات المتكررة والبادئات المشتركة ومخرجات RAG المتكررة، مما يقلل بشكل كبير من تكاليف الاستدلال.
Novita AI هي منصة سحابية شاملة تمكّنك من تحقيق طموحاتك في الذكاء الاصطناعي. واجهات برمجة تطبيقات متكاملة، بدون خوادم، مثيلات GPU - الأدوات الفعالة من حيث التكلفة التي تحتاجها. تخلص من البنية التحتية، ابدأ مجانًا، وحقق رؤيتك في الذكاء الاصطناعي.
قراءات موصى بها
