Qwen2.5-VL-72B: نموذج رؤية-لغة قوي لكنه شره للذاكرة

Qwen2.5-VL-72B: نموذج رؤية-لغة قوي لكنه شره للذاكرة

النقاط الرئيسية

تحليل النص من الصور: يتفوق Qwen2.5-VL في استخراج وتحليل النصوص والرسوم البيانية والأيقونات والتخطيطات من الصور.

قدرات وكيل: يعمل كعامل بصري، ويدعم مهام مثل إدارة الهواتف الذكية وأجهزة الكمبيوتر.

فهم الفيديو: يعالج مقاطع فيديو طويلة (أكثر من ساعة) مع تحديد دقيق للأحداث.

وصول فعال: توفر Novita AI خيار API اقتصادي لتجنب تكاليف الأجهزة المرتفعة.

Qwen2.5-VL هو أحدث نموذج رائد في سلسلة Qwen للرؤية واللغة، ويمثل قفزة كبيرة إلى الأمام مقارنة بسابقه Qwen2-VL. نموذج Qwen2.5-VL-72B-Instruct هو نسخة معدلة بالتعليمات تحتوي على 72 مليار معامل، ومصممة لتكون نموذج رؤية-لغة أكثر فعالية وعملية بناءً على ملاحظات قيمة من المطورين.

ما هو Qwen2.5-VL-72B-Instruct؟

Qwen2.5-VL-72B-Instruct هو نموذج رؤية-لغة كبير (LVLM) يحتوي على 72 مليار معامل، ومضبوط بدقة للمهام القائمة على التعليمات. وهو قادر على فهم وتحليل المدخلات البصرية (صور/فيديو) والنصية لأداء مجموعة واسعة من المهام. تشمل التحسينات الرئيسية مقارنة بـ Qwen2-VL:

  • فهم بصري محسّن: بارع في التعرف على الأشياء الشائعة، وتحليل النصوص والرسوم البيانية والأيقونات والرسومات والتخطيطات داخل الصور.

تحديد المنتجات عبر Qwen2.5-VL

من Qwen

  • قدرات وكيل: يعمل كعامل بصري قادر على التفكير وتوجيه الأدوات ديناميكياً لاستخدام الكمبيوتر والهاتف.

استخدام الهاتف المحمول عبر Qwen2.5-VL

من Qwen

  • فهم فيديو محسّن: يمكنه فهم مقاطع فيديو أطول من ساعة، وتحديد أجزاء الفيديو ذات الصلة، ويدعم التدريب الديناميكي لمعدل الإطارات و تشفير الوقت المطلق لفهم زمني أفضل.

فهم فيديو محسّن عبر Qwen2.5-VL

من Qwen

  • تحديد دقيق للأشياء: يكتشف بدقة الأشياء في الصورة باستخدام مربعات/نقاط حدود ويوفر مخرجات JSON مستقرة للإحداثيات والسمات.
  • توليد مخرجات منظمة: يدعم المخرجات المنظمة للفواتير والجداول الممسوحة ضوئياً، مما يفيد تطبيقات المالية والتجارة.

تثبيت الكائنات عبر Qwen2.5-VL

من Qwen

معايير Qwen2-VL-72B-Instruct

معيار Qwen2.5-VL

من Qwen

أظهر Qwen2.5-VL-72B-Instruct أداءً تنافسياً أو متفوقاً عبر العديد من المعايير، متفوقاً في مهام الصور (مثل MMMUval, MathVista_MINI, DocVQA_VAL)، ومهام الفيديو (مثل VideoMME, MVBench, EgoSchema)، والمهام القائمة على الوكيل (مثل ScreenSpot, Android Control, MobileMiniWob++_SR). غالباً ما يتفوق على Qwen2-VL-72B وينافس النماذج الرائدة مثل GPT4o وClaude3.5 Sonnet وGemini 2.0. بالإضافة إلى ذلك، يتفوق Qwen2.5-VL-7B على GPT-4o-mini في عدة مهام، بينما يتفوق Qwen2.5-VL-3B على إصدار 7B من Qwen2-VL.

متطلبات الأجهزة لـ Qwen2-VL-72B-Instruct

طراز GPU VRAM لكل GPU عدد GPUs المستخدمة إجمالي VRAM التكلفة التقديرية
Nvidia A100 (80 GB) 80 GB 8 GPUs 640 GB حوالي $205,496
Nvidia H100 (80 GB) 80 GB 8 GPUs 640 GB حوالي $200,000 - $320,000
Nvidia RTX 4090 24 GB 24 GPUs 576 GB حوالي $57,600 - $66,120
Nvidia L40S 48 GB 8 GPUs 384 GB حوالي $46,799.60 - $83,712.80

لتشغيل Qwen2-VL-72B-Instruct، فإن Nvidia A100 (80 GB) هو الخيار الأفضل الشامل، موازناً بين التكلفة وVRAM والأداء. H100 (80 GB) مناسب للمؤسسات التي تعطي الأولوية للأداء، بينما RTX 4090 و L40S مناسبان للإعدادات المحدودة الميزانية، رغم أنها تأتي مع مقايضات في التعقيد وVRAM.

اختبار Qwen2-VL-72B-Instruct

المدخل: أعط الاستعلام: “المستخدم يختبر ميزة توليد الصور”، متى يحدث المحتوى الموصوف في الفيديو؟ استخدم الثواني كتنسيق للوقت.

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

المخرج: يحدث المحتوى الموصوف من الثانية 28 إلى الثانية 50 في الفيديو. خلال هذا المقطع، يتفاعل المستخدم مع ميزة توليد الصور، ويطلب ويستلم لوحة فنية مزدوجة المشهد لجبل خلال النهار والليل. ثم يضيف المستخدم طائراً إلى الصورة المولدة، مما يوضح وظيفة أداة توليد الصور.

كيفية الوصول إلى Qwen2-VL-72B-Instruct؟

Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج AI باستخدام API بسيط، مع توفير سحابة GPU ميسورة التكلفة وموثوقة للبناء والتوسع.

الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج

سجل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

تسجيل الدخول والوصول إلى مكتبة النماذج

جرب نموذج Qwen2-VL-72B-Instruct الآن!

الخطوة 2: ابدأ النسخة التجريبية المجانية

ابدأ نسختك التجريبية المجانية لاستكشاف قدرات النموذج المحدد.

الخطوة 3: احصل على مفتاح API الخاص بك

لمصادقة API، سنزودك بمفتاح API جديد. بالدخول إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

احصل على مفتاح API

الخطوة 4: تثبيت API

قم بتثبيت API باستخدام مدير الحزم الخاص بلغتك البرمجية.

بعد التثبيت، قم باستيراد المكتبات اللازمة إلى بيئة التطوير الخاصة بك. قم بتهيئة API باستخدام مفتاح API الخاص بك لبدء التفاعل مع Novita AI LLM. هذا مثال على استخدام API chat completions لمستخدمي Python.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """Be a helpful assistant"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)
  
  

يمثل Qwen2.5-VL-72B-Instruct تقدماً كبيراً في نماذج الرؤية واللغة، مما يعزز الفهم البصري، وفهم الفيديو، وقدرات الوكيل، والتوطين، وتوليد المخرجات المنظمة. مع التدريب الديناميكي للدقة ومشفّر بصري فعال، يحقق أداءً فائقاً في المعايير عبر مهام الصور والفيديو والوكيل.

الأسئلة الشائعة

كيف يحسّن Qwen2.5-VL-instruct الفهم البصري؟

يحلل النصوص (متعددة اللغات، عمودية)، والرسوم البيانية، والأيقونات، والتخطيطات مع استخراج المعلومات الرئيسية وتحويل المستندات إلى تنسيقات منظمة مثل HTML.

ما هي قدرات الفيديو الجديدة لـ Qwen2.5-VL-instruct؟

يعالج مقاطع فيديو أطول من ساعة، ويحدد الأحداث بدقة الثانية، ويقوم بالتثبيت الزمني، ويولد تسميات توضيحية منظمة، ويلخص المحتوى.

ما هي الأجهزة الموصى بها لتشغيل Qwen2.5-VL-instruct؟

للاستخدام المحلي، يوصى باستخدام GPU بسعة VRAM لا تقل عن 384GB. أو يمكنك اختيار API فعال مثل Novita AI لاستخدامه!

Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج AI باستخدام API بسيط، مع توفير سحابة GPU ميسورة التكلفة وموثوقة للبناء والتوسع.

قراءة موصى بها