دليل تعليمي: كيفية الوصول إلى Qwen2.5-VL-72B محليًا، عبر API، على GPU سحابي

جدول المحتويات

ما هو Qwen2.5-VL-72B؟
كيفية الوصول إلى Qwen2.5-VL-72B محليًا؟
كيفية الوصول إلى Qwen2.5-VL-72B عبر Novita API؟
استخدام Qwen2.5-VL-72B عبر GPU سحابي
الأسئلة المتكررة
واجهات برمجة تطبيقات بسيطة وGPU قابل للتوسع

النقاط الرئيسية

متعدد الوسائط + فهم الفيديو الطويل
يدعم الصور والمستندات ومقاطع الفيديو الطويلة
مناسب للتعليم والإعلام والمراقبة

تحديد المواقع بدقة + إخراج منظم
يكتشف الكائنات بدقة
يستخرج البيانات المنظمة من الفواتير والنماذج والرسوم البيانية
مفيد في المالية والقانون والخدمات اللوجستية

يمكنك بدء نسخة تجريبية مجانية على Novita AI API بطريقة مريحة للغاية!

Qwen2.5-VL-72B-Instruct هو نموذج رؤية-لغة كبير بقوة 72 مليار معلمة (LVLM) مضبوط بدقة لمهام اتباع التعليمات. يدعم المدخلات النصية والمرئية (الصور والفيديو)، مما يجعله مثاليًا للاستدلال متعدد الوسائط، وفهم المستندات، وتحليل الفيديو، والتفاعل الوكيل.

ما هو Qwen2.5-VL-72B؟

مثال يوضح قدرة Qwen2.5-VL-72B

المدخل: أعط الاستعلام: ‘المستخدم يجرب ميزة توليد الصور’، متى يحدث المحتوى الموصوف في الفيديو؟ استخدم الثواني لتنسيق الوقت.

https://videopress.com/v/jVcvFOlu?resizeToParent=true&cover=true&preloadContent=metadata&useAverageColor=true

المخرجات: يحدث المحتوى الموصوف من الثانية 28 إلى الثانية 50 في الفيديو. خلال هذا المقطع، يتفاعل المستخدم مع ميزة توليد الصور، ويطلب ويتلقى لوحة فنية مزدوجة المشهد لجبل أثناء النهار والليل. ثم يضيف المستخدم طائرًا إلى الصورة المولدة، مما يوضح وظيفة أداة توليد الصور.

نظرة عامة على Qwen2.5-VL-72B

الفئة	العنصر	التفاصيل
المعلومات الأساسية	تاريخ الإصدار	28 يناير 2025
	حجم النموذج	73.4 مليار معلمة
	مفتوح المصدر	نعم (تم إصداره بواسطة Qwen)
البنية	المكونات الأساسية	الدقة الديناميكية وتدريب معدل الإطارات\SwiGLU + RMSNorm + انتباه النافذة\أخذ عينات FPS ديناميكي
دعم اللغات	اللغات المدعومة	يتفوق في المستندات متعددة اللغات والتعرف على النصوص في المشاهد
متعدد الوسائط	القدرات	مدخلات بصرية (صور وفيديوهات) ونصية
السياق	نافذة السياق	قابلة للتكوين حتى 64 ألف رمز لمقاطع الفيديو الطويلة
الدقة	نوع الموتر	BF16
المعايير	MMMU (صورة)	70.2 (Qwen2.5-VL-72B) مقابل 70.3 (GPT-4o)
	MVBench (فيديو)	70.4 (Qwen2.5-VL-72B) مقابل 64.6 (GPT-4o)
	AITZ_EM (وكيل)	83.2 (Qwen2.5-VL-72B) مقابل 35.3 (GPT-4o)

كيفية الوصول إلى Qwen2.5-VL-72B محليًا؟

متطلبات الأجهزة لـ Qwen2.5-VL-72B

الفئة	العنصر	التفاصيل
الأجهزة	Nvidia A100 (80 جيجابايت)	8 وحدات GPU × 80 جيجابايت = 640 جيجابايت إجمالي VRAM
	Nvidia H100 (80 جيجابايت)	8 وحدات GPU × 80 جيجابايت = 640 جيجابايت إجمالي VRAM
	RTX 4090 (24 جيجابايت)	24 وحدة GPU × 24 جيجابايت = 576 جيجابايت إجمالي VRAM
	Nvidia L40S (48 جيجابايت)	8 وحدات GPU × 48 جيجابايت = 384 جيجابايت إجمالي VRAM

تثبيت Qwen2.5-VL-72B محليًا

1. تثبيت التبعيات

bashCopyEdit<code># تثبيت أحدث إصدار من Hugging Face Transformers من المصدر (مطلوب لـ Qwen2.5-VL)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># تثبيت مجموعة أدوات الرؤية (موصى به مع decord لتحميل الفيديو السريع)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>

2. استخدام Qwen2.5-VL للإجابة على الأسئلة البصرية

import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs

# 🔧 اسم النموذج (يمكن استخدام مسار محلي أيضًا)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"

# تحميل المحلل اللغوي والنموذج
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()

# تحميل صورة (يمكن أن تكون مسارًا محليًا أو رابط URL أو base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")

# تحديد الاستعلام
query = "ماذا يحدث في الصورة؟"

# بناء المدخلات للنموذج
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])

# الاستدلال
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

# فك الترميز وطباعة الرد
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("الإجابة:", response)

3. مثال على إدخال فيديو

video = load_video("path_or_url_to_video.mp4")
query = "لخص محتوى الفيديو."

inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=128)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("الإجابة:", response)

كيفية الوصول إلى Qwen2.5-VL-72B عبر Novita API؟

الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج

قم بتسجيل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

جرب Qwen2-VL-72B-Instruct Demo الآن!

الخطوة 2: ابدأ نسختك التجريبية المجانية

ابدأ نسختك التجريبية المجانية لاستكشاف قدرات النموذج المحدد.

الخطوة 3: احصل على مفتاح API الخاص بك

للمصادقة مع API، سنقدم لك مفتاح API جديد. ادخل إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

الخطوة 4: تثبيت API

قم بتثبيت API باستخدام مدير الحزم الخاص بلغة البرمجة التي تستخدمها.

بعد التثبيت، قم باستيراد المكتبات اللازمة إلى بيئة التطوير الخاصة بك. قم بتهيئة API باستخدام مفتاح API الخاص بك لبدء التفاعل مع Novita AI LLM. هذا مثال لاستخدام chat completions API لمستخدمي بايثون.

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/v3/openai",
    api_key="<YOUR Novita AI API Key>",
)

model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """كن مساعدًا مفيدًا"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "مرحبًا!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

استخدام Qwen2.5-VL-72B عبر GPU سحابي

الخطوة 1: إنشاء حساب

إذا كنت جديدًا في Novita AI، ابدأ بإنشاء حساب على موقعنا الإلكتروني. بمجرد التسجيل، انتقل إلى علامة التبويب “GPUs” لاستكشاف الموارد المتاحة وبدء رحلتك.

الخطوة 2: استكشاف القوالب وخوادم GPU

ابدأ باختيار قالب يتوافق مع احتياجات مشروعك، مثل PyTorch أو TensorFlow أو CUDA. اختر الإصدار الذي يناسب متطلباتك، مثل PyTorch 2.2.1 أو CUDA 11.8.0. ثم حدد تكوين خادم GPU A100، الذي يوفر أداءً قويًا للتعامل مع أعباء العمل الثقيلة بسعة VRAM وRAM وقرص كافية.

جرب وحدات GPU عالية الأداء من Novita AI

الخطوة 3: تخصيص النشر

بعد اختيار القالب وGPU، قم بتخصيص إعدادات النشر عن طريق ضبط المعاملات مثل إصدار نظام التشغيل (مثل CUDA 11.8). يمكنك أيضًا تعديل التكوينات الأخرى لتكييف البيئة مع متطلبات مشروعك المحددة.

الخطوة 4: تشغيل مثيل

بمجرد الانتهاء من تحديد القالب وإعدادات النشر، انقر على “Launch Instance” لإعداد مثيل GPU الخاص بك. سيؤدي هذا إلى بدء إعداد البيئة، مما يمكنك من بدء استخدام موارد GPU لمهام الذكاء الاصطناعي الخاصة بك.

يقدم Qwen2.5-VL-72B-Instruct أداءً متطورًا عبر مجموعة واسعة من مهام الرؤية واللغة. سواء كنت تقوم بأتمتة سير العمل في المالية أو تحليل مقاطع الفيديو في الوقت الفعلي، فهو يجمع بين العمق والحجم والمرونة. مع الوصول مفتوح المصدر ومسارات النشر المتعددة - GPU محلي، أو مثيلات سحابية، أو API - يمكّن Qwen2.5-VL المطورين والمؤسسات من بناء أنظمة ذكاء اصطناعي أكثر ذكاءً وقدرة.

الأسئلة المتكررة

هل يمكنني نشر Qwen2.5-VL-72B-Instruct محليًا؟

نعم. يمكنك تشغيله على أجهزة ذات سعة VRAM كافية (مثل 8×A100 أو 24×4090 GPU).

كيف يمكنني استخدام Qwen2.5-VL-72B-Instruct عبر API؟

يمكنك الوصول إلى Qwen2.5-VL-72B-Instruct عبر مكتبة نماذج Novita AI، وبدء نسخة تجريبية مجانية، والحصول على مفتاح API للتكامل السريع.

ما الفرق بين Qwen2.5-VL-72B و Qwen2.5-VL-72B-Instruct؟

يتعامل النموذج الأساسي مع مهام الرؤية واللغة العامة؛ أما إصدار “Instruct” فهو مضبوط بدقة لاتباع تعليمات المستخدم بدقة أكبر.

Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام API بسيط، مع توفير GPU سحابي بأسعار معقولة وموثوق للبناء والتوسع.

قراءة موصى بها

واجهات برمجة تطبيقات بسيطة وGPU قابل للتوسع

Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام API بسيط، مع توفير GPU سحابي بأسعار معقولة وموثوق للبناء والتوسع.

تسجيل الدخول / إنشاء حساب

دليل تعليمي: كيفية الوصول إلى Qwen2.5-VL-72B محليًا، عبر API، على GPU سحابي

النقاط الرئيسية

ما هو Qwen2.5-VL-72B؟

مثال يوضح قدرة Qwen2.5-VL-72B

نظرة عامة على Qwen2.5-VL-72B

كيفية الوصول إلى Qwen2.5-VL-72B محليًا؟

متطلبات الأجهزة لـ Qwen2.5-VL-72B

تثبيت Qwen2.5-VL-72B محليًا

1. تثبيت التبعيات

2. استخدام Qwen2.5-VL للإجابة على الأسئلة البصرية

3. مثال على إدخال فيديو

كيفية الوصول إلى Qwen2.5-VL-72B عبر Novita API؟

الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج

الخطوة 2: ابدأ نسختك التجريبية المجانية

الخطوة 3: احصل على مفتاح API الخاص بك

الخطوة 4: تثبيت API

استخدام Qwen2.5-VL-72B عبر GPU سحابي

الخطوة 1: إنشاء حساب

الخطوة 2: استكشاف القوالب وخوادم GPU

الخطوة 3: تخصيص النشر

الخطوة 4: تشغيل مثيل

الأسئلة المتكررة

قراءة موصى بها

واجهات برمجة تطبيقات بسيطة وGPU قابل للتوسع

Product

RESOURCES

Partners

Company

النقاط الرئيسية

ما هو Qwen2.5-VL-72B؟

مثال يوضح قدرة Qwen2.5-VL-72B

نظرة عامة على Qwen2.5-VL-72B

كيفية الوصول إلى Qwen2.5-VL-72B محليًا؟

متطلبات الأجهزة لـ Qwen2.5-VL-72B

تثبيت Qwen2.5-VL-72B محليًا

1. تثبيت التبعيات

2. استخدام Qwen2.5-VL للإجابة على الأسئلة البصرية

3. مثال على إدخال فيديو

كيفية الوصول إلى Qwen2.5-VL-72B عبر Novita API؟

الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج

الخطوة 2: ابدأ نسختك التجريبية المجانية

الخطوة 3: احصل على مفتاح API الخاص بك

الخطوة 4: تثبيت API

استخدام Qwen2.5-VL-72B عبر GPU سحابي

الخطوة 1: إنشاء حساب

الخطوة 2: استكشاف القوالب وخوادم GPU

الخطوة 3: تخصيص النشر

الخطوة 4: تشغيل مثيل

الأسئلة المتكررة

قراءة موصى بها

واجهات برمجة تطبيقات بسيطة وGPU قابل للتوسع

مقالات ذات صلة

Product

RESOURCES

Partners

Company