GLM 4.6V متاح على Novita AI كنموذج متعدد الوسائط بدون خادم للفرق التي تحتاج إلى ذكاء اصطناعي بصري مع استدعاء أدوات أصلي عبر API مستضاف. اعتبارًا من 24 يونيو 2026، تدرج Novita AI معرف النموذج كـ zai-org/glm-4.6v، مع وصول متوافق مع OpenAI عبر API، ونافذة سياق بحجم 131,072 رمزًا، وحد أقصى للإخراج 32,768 رمزًا، واستدعاء الدوال، والمخرجات المنظمة، ودعم التفكير، وتسعير بقيمة 0.30 دولار لكل مليون رمز إدخال، و0.055 دولار لكل مليون رمز إدخال مقروء من ذاكرة التخزين المؤقت، و0.90 دولار لكل مليون رمز إخراج.
النقاط الرئيسية
- GLM 4.6V هو نموذج قادر على الرؤية على Novita AI للفرق التي تبني تحليل لقطات الشاشة، وفهم الصور والمستندات، والإجابة على الأسئلة البصرية، ودعم الوسائط المتعددة، وسير عمل الوكلاء.
- تدرج Novita AI GLM 4.6V كنموذج بدون خادم مع دعم إدخال النص والصورة والفيديو، وإخراج نصي، ووصول متوافق مع OpenAI لمحادثات الدردشة، ودعم API متوافق مع Anthropic.
- تدرج صفحات Novita AI الحالية للنموذج والتسعير
zai-org/glm-4.6vمع نافذة سياق بحجم 131,072 رمزًا، وحد أقصى للإخراج 32,768 رمزًا، وتسعير لكل رمز مقسم عبر رموز الإدخال، والإدخال المقروء من ذاكرة التخزين المؤقت، والإخراج. - هذه المقالة هي صفحة إطلاق نموذج ومعلومات. استخدمها لتقرر ما إذا كان GLM 4.6V يناسب عبء عملك؛ استخدم مرجع API لـ Novita عندما تحتاج إلى بناء الجملة الدقيق للطلب لتنفيذ الإنتاج.
ما هو GLM 4.6V؟
GLM 4.6V هو متغير من نموذج GLM متعدد الوسائط مبني لمهام اللغة والرؤية. من الناحية العملية للمطورين، فهو مفيد عندما يحتاج الطلب إلى الجمع بين التعليمات باللغة الطبيعية والأدلة البصرية مثل لقطات الشاشة، وصفحات المستندات، والرسوم البيانية، ولوحات المعلومات، والنماذج، أو السياق المستمد من الفيديو.
على عكس نموذج الدردشة النصي فقط، تم تصميم GLM 4.6V للحالات التي يغير فيها الإدخال البصري الإجابة. قد يحتاج سير عمل الدعم إلى فحص لقطة شاشة للعميل قبل اقتراح حل. قد يرغب فريق المنتج في أن يقارن النموذج لقطة شاشة لواجهة المستخدم بالسلوك المتوقع. قد يحتاج مسار أتمتة المستندات إلى التفكير في التخطيط والجداول والتسميات المرئية التي يصعب الحفاظ عليها بعد استخراج النص العادي عبر OCR.
على Novita AI، يتم وضع GLM 4.6V كخيار API بدون خادم. وهذا يمنح الفرق طريقة مباشرة لتقييم النموذج ودمجه دون الحاجة إلى إدارة بنية GPU التحتية، أو تقديم النموذج، أو التوسع، أو إعداد وقت تشغيل الاستدلال. المسار العملي هو البدء من صفحة نموذج Novita AI ووثائق API، ثم الاتصال عبر سطح API المتوافق مع OpenAI.
الوصول إلى API GLM 4.6V على Novita AI
تدرج Novita AI GLM 4.6V في مكتبة النماذج بمعرف API للنموذج zai-org/glm-4.6v. بالنسبة للفرق التي تستخدم بالفعل محادثات دردشة متوافقة مع OpenAI، فإن تفاصيل الدمج الرئيسية هي مفتاح API لـ Novita AI، وعنوان URL الأساسي لـ Novita AI، ومعرف نموذج GLM 4.6V.
تحدد صفحة نموذج GLM 4.6V الحالية التوفر الخاص بالنموذج، والوسائط، والحدود، وعلم الميزات، والتسعير. يوثق مرجع API لمحادثات الدردشة لـ Novita نقطة النهاية لمحادثات الدردشة وشكل الاستجابة لاستدعاءات API.
على مستوى عالٍ، يستخدم دمج API GLM 4.6V ما يلي:
| عنصر API | القيمة الحالية |
|---|---|
| معرف API للنموذج | zai-org/glm-4.6v |
| عنوان URL الأساسي المتوافق مع OpenAI | https://api.novita.ai/openai |
| مسار REST لمحادثات الدردشة | https://api.novita.ai/openai/v1/chat/completions |
| الإخراج النموذجي | استجابة نصية بتنسيق محادثات الدردشة |
| المصادقة | مفتاح API لـ Novita AI يُمرر كرمز حامل |
تركز هذه الصفحة على الحقائق على مستوى الإطلاق التي يحتاجها المطورون عادةً أولاً: التوفر، والوصول عبر API، والتسعير، والحدود، والملاءمة. للحصول على حقول الطلب الدقيقة، وسلوك البث، وبناء جملة الأدوات، ومعلمات المخرجات المنظمة، استخدم مرجع API الحالي قبل نشر كود الإنتاج.
ملخص مواصفات GLM 4.6V والتسعير
يلخص الجدول التالي حقائق GLM 4.6V الأكثر أهمية عند اتخاذ قرار تقييم النموذج على Novita AI.
| الحقل | التفاصيل |
|---|---|
| الاسم المعروض | GLM 4.6V |
| معرف API للنموذج | zai-org/glm-4.6v |
| مسار الوصول | API بدون خادم |
| عنوان URL الأساسي | https://api.novita.ai/openai |
| نقطة نهاية محادثات الدردشة | https://api.novita.ai/openai/v1/chat/completions |
| وسائط الإدخال | نص، صورة، فيديو |
| وسيط الإخراج | نص |
| نافذة السياق | 131,072 رمزًا |
| الحد الأقصى لرموز الإخراج | 32,768 رمزًا |
| علامات الميزات | استدعاء الدوال، المخرجات المنظمة، التفكير |
| التسعير | 0.30 دولار لكل مليون رمز إدخال؛ 0.055 دولار لكل مليون رمز إدخال مقروء من ذاكرة التخزين المؤقت؛ 0.90 دولار لكل مليون رمز إخراج |
| أفضل استخدام | سير عمل API للغة والرؤية يحتاج إلى إجابات نصية من الأدلة البصرية |
يمكن أن يتغير التسعير، لذا تأكد من صفحة تسعير Novita AI الحالية قبل الإطلاق إلى الإنتاج أو الالتزام بالتكاليف التي تظهر للعملاء. الأسعار المذكورة مفيدة لوضع الميزانية الأولية، لكن الإنفاق الفعلي يعتمد على طول الطلب، واستخدام الصور أو الفيديو، وطول الإخراج المُنشأ، وإعادة المحاولات، وسلوك ذاكرة التخزين المؤقت، والطريقة التي تتعامل بها تطبيقك مع السياق الطويل.
معايير GLM 4.6V وإشارات الأداء

يأتي هذا الرسم البياني من مواد نموذج GLM-4.6V الرسمية التي نشرتها Z.ai والمشار إليها في مستودع GLM-V العام. الخلاصة الرئيسية هي الاتساع: يتم وضع GLM-4.6V كنموذج رؤية ولغة للأغراض العامة عبر OCR، وقراءة الرسوم البيانية، والتفكير المكاني، وفهم المستندات، والمهام متعددة الوسائط على غرار الوكلاء.
الرسم البياني ليس سوى نقطة بداية. لا يخبرك بمدى جودة التزام GLM-4.6V بمخططك أو كيف سيتصرف على مزيج لقطات الشاشة والمستندات الخاص بك. قبل الإطلاق، تحقق من:
- لقطات شاشة وصفحات مستندات تمثيلية من سير عملك الفعلي،
- حالات المخرجات المنظمة أو استدعاء الأدوات التي يجب أن تمر عبر المحلل الخاص بك،
- زمن الوصول والتكلفة بحجم السياق النموذجي لديك.
استخدم الرسم البياني الرسمي كدليل على أن GLM-4.6V لديه طموحات متعددة الوسائط واسعة، ثم اتخذ القرار النهائي بناءً على اختبارات الدقة وزمن الوصول والتكلفة الخاصة بك.
القدرات الرئيسية للمطورين
إدخال الرؤية لسير عمل لقطات الشاشة والمستندات
GLM 4.6V مفيد عندما يحتاج تطبيقك إلى التفكير في الإدخال البصري بدلاً من النص فقط. يمكن لفرق المنتج تلخيص لقطات شاشة واجهة المستخدم. يمكن لفرق الدعم تصنيف تقارير الأخطاء البصرية. يمكن لسير عمل المستندات الحفاظ على إشارات التخطيط التي غالبًا ما تُفقد عند تحويل الصفحة إلى نص عادي في وقت مبكر جدًا.
هذا لا يلغي الحاجة إلى التحقق من الصحة. بالنسبة للمستندات عالية المخاطر، أو لقطات شاشة العملاء الخاصة، أو البيانات الخاضعة للتنظيم، تأكد من أن سير العمل يطابق متطلبات الخصوصية ومعالجة البيانات الخاصة بك قبل إرسال الإدخال البصري إلى API خارجي.
سياق طويل للطلبات متعددة الوسائط الغنية
تمنح نافذة السياق البالغة 131,072 رمزًا للفرق مساحة للجمع بين التعليمات وتاريخ المحادثة والنص المسترجع ومقتطفات المستندات والمراجع البصرية. هذا قيم للمهام التي تعتمد فيها الإجابة على عدة أجزاء من السياق، وليس على صورة واحدة معزولة.
لا يزال التعامل مع السياق الطويل كميزانية وموارد زمن الوصول. لا ترسل تاريخ محادثة غير محدود أو كل ملف متاح افتراضيًا. قم بقص وتلخيص وتوجيه السياق بناءً على المهمة.
استدعاء الدوال والمخرجات المنظمة
تدرج Novita AI GLM 4.6V بدعم استدعاء الدوال والمخرجات المنظمة. هذا يجعل النموذج ذا صلة بالتطبيقات على غرار الوكيل حيث يحتاج الفهم البصري إلى الاتصال بمنطق تطبيق مُتحكم فيه، مثل إنشاء تذكرة دعم، أو اختيار أداة استرجاع، أو إرجاع كائن تصنيف JSON.
يجب أن يظل التطبيق هو السلطة. لا يزال بحاجة إلى التحقق من وسيطات الأدوات، والتحقق من الأذونات، وفرض قواعد المخطط، وطلب التأكيد قبل اتخاذ إجراءات تؤثر على بيانات المستخدم أو الفوترة أو الأنظمة الخارجية.
متى تستخدم GLM 4.6V
فرز الدعم البصري
استخدم GLM 4.6V عندما يرسل المستخدمون لقطات شاشة مع أوصاف نصية. يمكن للنموذج المساعدة في تلخيص حالة واجهة المستخدم المرئية، واستخراج فئات المشكلات المحتملة، وإنتاج ملاحظات موجزة لمراجع بشري أو سير عمل سفلي.
تفسير المستندات والرسوم البيانية
استخدم GLM 4.6V عندما يكون التخطيط البصري مهمًا. تشمل الأمثلة النماذج الممسوحة ضوئيًا، ولقطات شاشة التقارير، والصور المليئة بالجداول، ورسوم بيانية لوحات المعلومات، والتحف التصميمية حيث تعتمد الإجابة على الهيكل المرئي.
سير عمل الوكيل متعدد الوسائط
استخدم GLM 4.6V عندما يحتاج الوكيل إلى فحص الحالة البصرية ثم اختيار خطوة منظمة تالية. قد يستفيد وكيل الإجابة على الأسئلة البصرية، أو سير عمل على غرار المتصفح، أو مساعد العمليات من الجمع بين السياق البصري مع استدعاء الدوال والمخرجات المنظمة.
متى لا تستخدم GLM 4.6V
لا تختار GLM 4.6V فقط لأنه متعدد الوسائط. إذا كان مسارك نصيًا فقط، وقصيرًا، وحساسًا لزمن الوصول، وذو حجم كبير، فقد يكون النموذج المركّز على النص خيارًا افتراضيًا أفضل. قارن النماذج في مكتبة نماذج Novita AI وقيم التكلفة وزمن الوصول وجودة الإخراج على طلباتك الخاصة.
تجنب إرسال الصور أو المستندات الحساسة حتى يصبح لدى سير العمل قواعد واضحة للخصوصية والاحتفاظ والتحكم في الوصول. إذا كان يتعامل مع سجلات عملاء سرية، أو معلومات طبية، أو مستندات مالية، أو بيانات اعتماد داخلية مرئية في لقطات الشاشة، أضف عمليات إخفاء وفحص السياسات قبل استدعاءات النموذج.
كن حذرًا أيضًا مع الفيديو. تدرج Novita AI الفيديو كوسيط إدخال لـ GLM 4.6V، لكن سير عمل الفيديو في الإنتاج يعتمد على الوصول إلى الملف، والمدة، والحجم، وزمن الوصول، وتنسيق الطلب. تحقق من مسار الفيديو الخاص بك قبل جعله ميزة أساسية تواجه المستخدم.
كيف يتناسب GLM 4.6V مع سير عمل API الخاص بك
يتناسب GLM 4.6V بشكل أفضل كطبقة تفكير متعددة الوسائط خلف واجهة تطبيق مُتحكم فيها. تحافظ البنية النموذجية على مفاتيح API في خدمة خلفية، وتقبل نص المستخدم والإدخالات البصرية المعتمدة، وتستدعي API Novita AI باستخدام zai-org/glm-4.6v، وتتحقق من الاستجابة، ثم توجه النتيجة إلى تجربة المنتج.
لاختبارات الدخان النصية الأولى، يعتبر API محادثات الدردشة المتوافق مع OpenAI هو المسار الرئيسي. لسير عمل الرؤية، يجب على التطبيق إضافة الإدخال البصري فقط بعد أن تكون المصادقة والتوجيه والتسجيل وسلوك المهلة تعمل بالفعل. لسير عمل الأدوات أو JSON، يجب أن يمر إخراج النموذج عبر التحقق الحتمي قبل أي إجراء سفلي.
يمكن للفرق التي تستخدم بالفعل عملاء متوافقين مع OpenAI إعادة استخدام نفس نمط العميل مع عنوان URL الأساسي لـ Novita AI. يجب على الفرق التي تبني تكاملات جديدة أن تبدأ من دليل API LLM لـ Novita AI ومرجع API لمحادثات الدردشة.
الخاتمة
GLM 4.6V على Novita AI يكون منطقيًا أكثر عندما يحتاج تطبيقك إلى فهم اللغة والرؤية عبر API بدون خادم، خاصة لفرز لقطات الشاشة، والتفكير في صور المستندات، وتفسير الرسوم البيانية، والإجابة على الأسئلة البصرية، أو سير عمل الوكيل متعدد الوسائط. يوفر إدراج Novita AI الموثوق معلومات كافية عن النموذج والتسعير والحدود ونقطة النهاية لتبرير تقييم منظم.
اختر نموذجًا آخر إذا كان عبء العمل نصيًا فقط، أو حساسًا للغاية لزمن الوصول، أو تهيمن عليه طلبات منخفضة التكلفة وعالية الحجم حيث لا يغير الإدخال البصري الإجابة بشكل جوهري. في تلك الحالات، قارن GLM 4.6V مع الخيارات المركّزة على النص وقم بتوجيه المهام البصرية فقط إلى النموذج متعدد الوسائط.
الخطوة العملية التالية هي تجربة GLM 4.6V على مجموعة اختبار صغيرة خاصة بعبء العمل، باستخدام معرف النموذج zai-org/glm-4.6v، وتسعير Novita AI الحالي، ومرجع API لبناء الجملة الدقيق للطلب.
الأسئلة الشائعة
ما هو GLM 4.6V؟
GLM 4.6V هو متغير من نموذج GLM متعدد الوسائط لمهام اللغة والرؤية. على Novita AI، يتم إدراجه كنموذج بدون خادم مع مدخلات نص وصورة وفيديو ومخرجات نصية.
هل GLM 4.6V متاح على Novita AI؟
نعم. اعتبارًا من 24 يونيو 2026، تدرج Novita AI GLM 4.6V على صفحة النموذج مع وصول API بدون خادم ومعرف النموذج zai-org/glm-4.6v.
ما هو معرف النموذج لـ GLM 4.6V على Novita AI؟
استخدم zai-org/glm-4.6v كمعرف API للنموذج في طلبات Novita AI وتكوين بوابة النموذج.
كم تكلفة GLM 4.6V على Novita AI؟
اعتبارًا من 24 يونيو 2026، تدرج Novita AI GLM 4.6V بسعر 0.30 دولار لكل مليون رمز إدخال، و0.055 دولار لكل مليون رمز إدخال مقروء من ذاكرة التخزين المؤقت، و0.90 دولار لكل مليون رمز إخراج.
ما هو أفضل استخدام لـ GLM 4.6V؟
أفضل استخدام لـ GLM 4.6V هو لسير عمل API حيث يكون الإدخال البصري مهمًا، بما في ذلك فرز لقطات الشاشة، وتفسير صور المستندات، وتحليل الرسوم البيانية، والإجابة على الأسئلة البصرية، وسير عمل الوكيل متعدد الوسائط الذي يحتاج إلى إخراج نصي من سياق الصورة أو الفيديو.
هل يدعم GLM 4.6V استدعاء الدوال؟
نعم. تدرج صفحة نموذج Novita AI الحالية دعم استدعاء الدوال لـ GLM 4.6V. تحقق من وسيطات الأدوات والأذونات في تطبيقك قبل اتخاذ أي إجراء بناءً على إخراج النموذج.
