GLM-4.6V على Novita AI: ذكاء اصطناعي بصري مع استدعاء أدوات أصلي

جدول المحتويات

ما هو نموذج GLM-4.6V؟
الميزات والقدرات الرئيسية
الأداء والبنية التحتية
كيفية البدء باستخدام GLM-4.6V على منصة Novita AI
الخلاصة

يتوفر نموذج GLM-4.6V الآن على منصة Novita AI، وهو يجلب نموذج اللغة-البصري المتقدم من Zhipu AI مع قدرات متعددة الوسائط مبتكرة. يتميز الإصدار الأساسي منه بـ 106 مليار معامل، ونافذة سياق تبلغ 128 ألف توكن، ويحقق GLM-4.6V أداءً رائداً في الفهم البصري بين النماذج ذات المقاييس المماثلة من حيث عدد المعاملات.

يدمج هذا الإصدار الأخير لأول مرة قدرات استدعاء دوال أصلي، مما يغلق الفجوة بشكل فعال بين الإدراك البصري والإجراءات القابلة للتنفيذ. سواء كنت تبني وكلاء متعددي الوسائط، أو تعالج مستندات معقدة، أو تطور تطبيقات تحرير بصري، يقدم لك GLM-4.6V جميع القدرات التي تحتاجها عبر البنية التحتية الصديقة للمطورين في Novita AI.

جرّب عرض تجريبي لـ GLM-4.6V

ما هو نموذج GLM-4.6V؟

GLM-4.6V هو نموذج اللغة-البصري المتقدم من Zhipu AI، الذي يقدم قدرات شاملة للفهم متعدد الوسائط والتوليد. وهو جزء من عائلة نماذج GLM-V، ويمثل تقدمًا كبيرًا في ربط الإدراك البصري بالذكاء القابل للتنفيذ من خلال دمج استدعاء الدوال الأصلي.

بنية نموذج مزدوجة: يأتي GLM-4.6V في إصدارين: النموذج الأساسي بحجم 106 مليار معامل مصمم للسيناريوهات السحابية ومجموعات الأداء العالي، ونموذج GLM-4.6V-Flash بحجم 9 مليار معامل محسّن للنشر المحلي والتطبيقات منخفضة التأخير. يوفر كلا النموذجين قدرات متعددة الوسائط قوية مصممة لاحتياجات النشر المختلفة.

نافذة سياق ممتدة: يتميز GLM-4.6V بنافذة سياق تبلغ 128 ألف توكن، مما يسمح له بمعالجة مدخلات متعددة المستندات أو المستندات الطويلة مع تفسير الصفحات المنسقة بشكل غني مباشرة كصور. تتيح هذه النافذة السياقية الموسعة التعامل مع المستندات المعقدة الغنية بالصور دون الحاجة إلى تحويلها مسبقًا إلى نص عادي.

استدعاء دوال أصلي: لأول مرة في سلسلة GLM-V، يدمج GLM-4.6V قدرات استدعاء دوال أصلي. يغلق هذا الاختراق الفجوة بشكل فعال بين الإدراك البصري والإجراءات القابلة للتنفيذ، ويوفر أساسًا تقنيًا موحدًا للوكلاء متعددي الوسائط في سيناريوهات الأعمال الواقعية.

أداء رائد (SoTA): يحقق GLM-4.6V أداءً رائدًا في الفهم البصري بين النماذج ذات المقاييس المماثلة من حيث عدد المعاملات عبر جميع معايير متعددة الوسائط الرئيسية، مما يظهر قدرات استثنائية في معالجة وفهم المعلومات البصرية.

الميزات والقدرات الرئيسية

يقدم GLM-4.6V عدة قدرات متخصصة تجعله فعالًا بشكل خاص للتطبيقات متعددة الوسائط.

فهم المستندات متعددة الوسائط

يعالج GLM-4.6V ما يصل إلى 128 ألف توكن من مدخلات متعددة المستندات أو المستندات الطويلة، مع تفسير الصفحات المنسقة بشكل غني مباشرة كصور. يفهم النموذج النص والتخطيط والرسوم البيانية والجداول والأشكال بشكل مشترك، مما يتيح فهمًا دقيقًا للمستندات المعقدة الغنية بالصور. تلغي هذه القدرة الحاجة إلى معالجة مسبقة أو استخراج نص، مما يسمح بتحليل مباشر لملفات PDF والتقارير والعروض التقديمية والمستندات البصرية الأخرى.

نسخ الواجهات الأمامية والتحرير البصري

يعيد النموذج بناء HTML/CSS دقيق البكسل من لقطات شاشة لواجهة المستخدم ويدعم التعديلات التي يتم إجراؤها عبر اللغة الطبيعية. يكتشف GLM-4.6V التخطيط والمكونات والأنماط بصريًا، ويولد كودًا نظيفًا، ويطبق تعديلات بصرية تكرارية من خلال تعليمات المستخدم البسيطة. هذا يجعله ذا قيمة للنماذج الأولية السريعة وسير عمل التصميم إلى الكود وتوليد واجهة المستخدم الآلي.

توليد محتوى نصي-بصري متداخل

يدعم GLM-4.6V إنشاء محتوى وسائط مختلط عالي الجودة من مدخلات متعددة الوسائط المعقدة. يأخذ النموذج سياقًا متعدد الوسائط يشمل المستندات ومدخلات المستخدم والصور التي تم جلبها عبر الأدوات، ثم يركّب محتوى نصي-بصري متداخل متماسك ومصمم خصيصًا للمهمة. أثناء التوليد، يمكنه استدعاء أدوات البحث والاسترجاع بنشاط لجمع وتنسيق نصوص ومرئيات إضافية، مما ينتج محتوى غنيًا ومستندًا إلى المرئيات.

تكامل الأدوات الأصلي

تتيح قدرات استدعاء الدوال المدمجة لـ GLM-4.6V استدعاء أدوات خارجية بشكل مستقل أثناء المعالجة. يسمح هذا للنموذج بجلب معلومات في الوقت الفعلي، والوصول إلى قواعد البيانات، واسترجاع الصور، أو تشغيل إجراءات بناءً على التحليل البصري. يجعل التكامل الأصلي هذا النموذج فعالًا بشكل خاص لبناء أنظمة وكلاء متعددي الوسائط متطورة.

الأداء والبنية التحتية

يظهر GLM-4.6V أداءً قويًا عبر التقييمات الشاملة متعددة الوسائط.

بنية النموذج

يستخدم GLM-4.6V بنية متطورة محسّنة للفهم متعدد الوسائط، مبني على الأسس التقنية لسلسلة GLM-V:

النموذج الأساسي (GLM-4.6V): 106 مليار معامل إجمالي مصمم للنشر السحابي وأقصى قدرة ممكنة
النموذج الخفيف (GLM-4.6V-Flash): 9 مليار معامل محسّن للنشر على الحافة وتقليل التأخير
طول السياق: 128 ألف توكن لمعالجة مدخلات متعددة الوسائط واسعة النطاق
مرمز الرؤية: حجم patch مكاني 14 مع حجم patch زمني 2 لمعالجة بصرية فعالة

كيفية البدء باستخدام GLM-4.6V على منصة Novita AI

تقدم Novita AI طرقًا متعددة للوصول إلى GLM-4.6V، مصممة لمستويات مهارة واحتياجات استخدام مختلفة.

استخدام مساحة التجربة (لا يتطلب برمجة)

سجّل هنا وابدأ التجربة مع GLM-4.6V في ثوانٍ عبر واجهة تفاعلية. ارفع صورًا أو مستندات، واختبر مطالبات متعددة الوسائط، وشاهد المخرجات في الوقت الفعلي مع نافذة السياق الكاملة 128 ألف توكن. مثالي للنماذج الأولية وفهم قدرات النموذج قبل بناء تطبيقات كاملة.

التكامل عبر واجهة برمجة التطبيقات (للمطورين)

اربط GLM-4.6V بتطبيقاتك باستخدام واجهة برمجة التطبيقات REST الموحدة من Novita AI.

تكامل مباشر عبر واجهة برمجة التطبيقات (مثال بلغة بايثون)

from openai import OpenAI

client = OpenAI(
    api_key="<Your API Key>",
    base_url="https://api.novita.ai/openai"
)

response = client.chat.completions.create(
    model="zai-org/glm-4.6v",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello, how are you?"}
    ],
    max_tokens=32768,
    temperature=0.7
)

print(response.choices[0].message.content)

سير عمل الوكلاء المتعددين باستخدام OpenAI Agents SDK

ابنِ أنظمة وكلاء متعددي الوسائط متطورة مع تكامل يعمل بتوصيل وتشغيل، ودعم لنقل المهام، والتوجيه، وتكامل الأدوات مع استدعاء الدوال الأصلي ونافذة السياق الكاملة 128 ألف توكن.

الاتصال بمنصات طرف ثالث

أطر الوكلاء: اربط Novita AI بسهولة بالمنصات الشريكة مثل Continue و AnythingLLM و LangChain و Dify و Langflow عبر موصلات رسمية وأدلة تكامل خطوة بخطوة.
Hugging Face: تعد Novita AI مزود استدلال رسمي لـ Hugging Face، مما يضمن توافقًا واسعًا مع النظام البيئي.
واجهة برمجة تطبيقات متوافقة مع OpenAI: استمتع بالهجرة والتكامل بدون متاعب مع أدوات مثل Cline، و Cursor و Trae و Qwen Code، المصممة لمعيار واجهة برمجة تطبيقات OpenAI.
واجهة برمجة تطبيقات متوافقة مع Anthropic: ادمج بسلاسة مع Claude Code لسير عمل البرمجة بالوكلاء وأدوات أخرى متوافقة مع واجهة برمجة تطبيقات Anthropic.

الخلاصة

يقدم GLM-4.6V على منصة Novita AI نموذج اللغة-البصري المتقدم من Zhipu AI بحجم 106 مليار معامل ونافذة سياق 128 ألف توكن، محققًا أداءً رائدًا في الفهم متعدد الوسائط. مع دمج استدعاء الدوال الأصلي والقدرات المتخصصة لتحليل المستندات ونسخ واجهات المستخدم وتوليد المحتوى الوسائط المختلط، يوفر GLM-4.6V أساسًا موحدًا لبناء تطبيقات ذكاء اصطناعي متعددة الوسائط متطورة.

ابدأ الاستكشاف اليوم عبر مساحة تجربة Novita AI أو واجهة برمجة التطبيقات أو التكاملات مع طرف ثالث لتعزيز تطبيقاتك بقدرات الفهم البصري المتقدم ومعالجة المستندات والاستدلال متعدد الوسائط. ابنِ الجيل التالي من الحلول المدعومة بالذكاء الاصطناعي مع ذكاء اللغة-البصري المبتكر لـ GLM-4.6V.

Novita AI هي منصة سحابية رائدة للذكاء الاصطناعي توفر للمطورين واجهات برمجة تطبيقات سهلة الاستخدام وبنية تحتية لـ GPU موثوقة وبأسعار معقولة لبناء وتوسيع نطاق تطبيقات الذكاء الاصطناعي.

GLM-4.6V على Novita AI: ذكاء اصطناعي بصري مع استدعاء أدوات أصلي

ما هو نموذج GLM-4.6V؟