النقاط الرئيسية
متعدد الوسائط + فهم الفيديو الطويل
يدعم الصور والمستندات ومقاطع الفيديو الطويلة
مناسب للتعليم والإعلام والمراقبة
تحديد المواقع بدقة + إخراج منظم
يكتشف الكائنات بدقة
يستخرج البيانات المنظمة من الفواتير والنماذج والرسوم البيانية
مفيد في المالية والقانون والخدمات اللوجستية
يمكنك بدء نسخة تجريبية مجانية على Novita AI API بطريقة مريحة للغاية!
Qwen2.5-VL-72B-Instruct هو نموذج رؤية-لغة كبير بقوة 72 مليار معلمة (LVLM) مضبوط بدقة لمهام اتباع التعليمات. يدعم المدخلات النصية والمرئية (الصور والفيديو)، مما يجعله مثاليًا للاستدلال متعدد الوسائط، وفهم المستندات، وتحليل الفيديو، والتفاعل الوكيل.
ما هو Qwen2.5-VL-72B؟
مثال يوضح قدرة Qwen2.5-VL-72B
المدخل: أعط الاستعلام: ‘المستخدم يجرب ميزة توليد الصور’، متى يحدث المحتوى الموصوف في الفيديو؟ استخدم الثواني لتنسيق الوقت.
المخرجات: يحدث المحتوى الموصوف من الثانية 28 إلى الثانية 50 في الفيديو. خلال هذا المقطع، يتفاعل المستخدم مع ميزة توليد الصور، ويطلب ويتلقى لوحة فنية مزدوجة المشهد لجبل أثناء النهار والليل. ثم يضيف المستخدم طائرًا إلى الصورة المولدة، مما يوضح وظيفة أداة توليد الصور.
نظرة عامة على Qwen2.5-VL-72B
| الفئة | العنصر | التفاصيل |
|---|---|---|
| المعلومات الأساسية | تاريخ الإصدار | 28 يناير 2025 |
| حجم النموذج | 73.4 مليار معلمة | |
| مفتوح المصدر | نعم (تم إصداره بواسطة Qwen) | |
| البنية | المكونات الأساسية | الدقة الديناميكية وتدريب معدل الإطارات\SwiGLU + RMSNorm + انتباه النافذة\أخذ عينات FPS ديناميكي |
| دعم اللغات | اللغات المدعومة | يتفوق في المستندات متعددة اللغات والتعرف على النصوص في المشاهد |
| متعدد الوسائط | القدرات | مدخلات بصرية (صور وفيديوهات) ونصية |
| السياق | نافذة السياق | قابلة للتكوين حتى 64 ألف رمز لمقاطع الفيديو الطويلة |
| الدقة | نوع الموتر | BF16 |
| المعايير | MMMU (صورة) | 70.2 (Qwen2.5-VL-72B) مقابل 70.3 (GPT-4o) |
| MVBench (فيديو) | 70.4 (Qwen2.5-VL-72B) مقابل 64.6 (GPT-4o) | |
| AITZ_EM (وكيل) | 83.2 (Qwen2.5-VL-72B) مقابل 35.3 (GPT-4o) |
كيفية الوصول إلى Qwen2.5-VL-72B محليًا؟
متطلبات الأجهزة لـ Qwen2.5-VL-72B
| الفئة | العنصر | التفاصيل |
|---|---|---|
| الأجهزة | Nvidia A100 (80 جيجابايت) | 8 وحدات GPU × 80 جيجابايت = 640 جيجابايت إجمالي VRAM |
| Nvidia H100 (80 جيجابايت) | 8 وحدات GPU × 80 جيجابايت = 640 جيجابايت إجمالي VRAM | |
| RTX 4090 (24 جيجابايت) | 24 وحدة GPU × 24 جيجابايت = 576 جيجابايت إجمالي VRAM | |
| Nvidia L40S (48 جيجابايت) | 8 وحدات GPU × 48 جيجابايت = 384 جيجابايت إجمالي VRAM |
تثبيت Qwen2.5-VL-72B محليًا
1. تثبيت التبعيات
bashCopyEdit<code># تثبيت أحدث إصدار من Hugging Face Transformers من المصدر (مطلوب لـ Qwen2.5-VL)<br>pip install git+https://github.com/huggingface/transformers accelerate<br><br># تثبيت مجموعة أدوات الرؤية (موصى به مع decord لتحميل الفيديو السريع)<br>pip install 'qwen-vl-utils[decord]==0.0.8'</code>
2. استخدام Qwen2.5-VL للإجابة على الأسئلة البصرية
import torch
from transformers import AutoTokenizer, AutoModelForVision2Seq
from qwen_vl_utils import load_image, load_video, build_multimodal_inputs
# 🔧 اسم النموذج (يمكن استخدام مسار محلي أيضًا)
model_name = "Qwen/Qwen2.5-VL-7B-Instruct"
# تحميل المحلل اللغوي والنموذج
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(model_name, trust_remote_code=True).eval()
# تحميل صورة (يمكن أن تكون مسارًا محليًا أو رابط URL أو base64)
image = load_image("https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg")
# تحديد الاستعلام
query = "ماذا يحدث في الصورة؟"
# بناء المدخلات للنموذج
inputs = build_multimodal_inputs(tokenizer, query=query, images=[image])
# الاستدلال
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=128)
# فك الترميز وطباعة الرد
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("الإجابة:", response)
3. مثال على إدخال فيديو
video = load_video("path_or_url_to_video.mp4")
query = "لخص محتوى الفيديو."
inputs = build_multimodal_inputs(tokenizer, query=query, videos=[video])
with torch.no_grad():
outputs = model.generate(**inputs, max_new_tokens=128)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("الإجابة:", response)
كيفية الوصول إلى Qwen2.5-VL-72B عبر Novita API؟
الخطوة 1: تسجيل الدخول والوصول إلى مكتبة النماذج
قم بتسجيل الدخول إلى حسابك وانقر على زر مكتبة النماذج.

جرب Qwen2-VL-72B-Instruct Demo الآن!
الخطوة 2: ابدأ نسختك التجريبية المجانية
ابدأ نسختك التجريبية المجانية لاستكشاف قدرات النموذج المحدد.

الخطوة 3: احصل على مفتاح API الخاص بك
للمصادقة مع API، سنقدم لك مفتاح API جديد. ادخل إلى صفحة “الإعدادات”، يمكنك نسخ مفتاح API كما هو موضح في الصورة.

الخطوة 4: تثبيت API
قم بتثبيت API باستخدام مدير الحزم الخاص بلغة البرمجة التي تستخدمها.

بعد التثبيت، قم باستيراد المكتبات اللازمة إلى بيئة التطوير الخاصة بك. قم بتهيئة API باستخدام مفتاح API الخاص بك لبدء التفاعل مع Novita AI LLM. هذا مثال لاستخدام chat completions API لمستخدمي بايثون.
from openai import OpenAI
client = OpenAI(
base_url="https://api.novita.ai/v3/openai",
api_key="<YOUR Novita AI API Key>",
)
model = "qwen/qwen2.5-vl-72b-instruct"
stream = True # or False
max_tokens = 2048
system_content = """كن مساعدًا مفيدًا"""
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }
chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": system_content,
},
{
"role": "user",
"content": "مرحبًا!",
}
],
stream=stream,
max_tokens=max_tokens,
temperature=temperature,
top_p=top_p,
presence_penalty=presence_penalty,
frequency_penalty=frequency_penalty,
response_format=response_format,
extra_body={
"top_k": top_k,
"repetition_penalty": repetition_penalty,
"min_p": min_p
}
)
if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
استخدام Qwen2.5-VL-72B عبر GPU سحابي
الخطوة 1: إنشاء حساب
إذا كنت جديدًا في Novita AI، ابدأ بإنشاء حساب على موقعنا الإلكتروني. بمجرد التسجيل، انتقل إلى علامة التبويب “GPUs” لاستكشاف الموارد المتاحة وبدء رحلتك.

الخطوة 2: استكشاف القوالب وخوادم GPU
ابدأ باختيار قالب يتوافق مع احتياجات مشروعك، مثل PyTorch أو TensorFlow أو CUDA. اختر الإصدار الذي يناسب متطلباتك، مثل PyTorch 2.2.1 أو CUDA 11.8.0. ثم حدد تكوين خادم GPU A100، الذي يوفر أداءً قويًا للتعامل مع أعباء العمل الثقيلة بسعة VRAM وRAM وقرص كافية.

جرب وحدات GPU عالية الأداء من Novita AI
الخطوة 3: تخصيص النشر
بعد اختيار القالب وGPU، قم بتخصيص إعدادات النشر عن طريق ضبط المعاملات مثل إصدار نظام التشغيل (مثل CUDA 11.8). يمكنك أيضًا تعديل التكوينات الأخرى لتكييف البيئة مع متطلبات مشروعك المحددة.

الخطوة 4: تشغيل مثيل
بمجرد الانتهاء من تحديد القالب وإعدادات النشر، انقر على “Launch Instance” لإعداد مثيل GPU الخاص بك. سيؤدي هذا إلى بدء إعداد البيئة، مما يمكنك من بدء استخدام موارد GPU لمهام الذكاء الاصطناعي الخاصة بك.

يقدم Qwen2.5-VL-72B-Instruct أداءً متطورًا عبر مجموعة واسعة من مهام الرؤية واللغة. سواء كنت تقوم بأتمتة سير العمل في المالية أو تحليل مقاطع الفيديو في الوقت الفعلي، فهو يجمع بين العمق والحجم والمرونة. مع الوصول مفتوح المصدر ومسارات النشر المتعددة - GPU محلي، أو مثيلات سحابية، أو API - يمكّن Qwen2.5-VL المطورين والمؤسسات من بناء أنظمة ذكاء اصطناعي أكثر ذكاءً وقدرة.
الأسئلة المتكررة
هل يمكنني نشر Qwen2.5-VL-72B-Instruct محليًا؟
نعم. يمكنك تشغيله على أجهزة ذات سعة VRAM كافية (مثل 8×A100 أو 24×4090 GPU).
كيف يمكنني استخدام Qwen2.5-VL-72B-Instruct عبر API؟
يمكنك الوصول إلى Qwen2.5-VL-72B-Instruct عبر مكتبة نماذج Novita AI، وبدء نسخة تجريبية مجانية، والحصول على مفتاح API للتكامل السريع.
ما الفرق بين Qwen2.5-VL-72B و Qwen2.5-VL-72B-Instruct؟
يتعامل النموذج الأساسي مع مهام الرؤية واللغة العامة؛ أما إصدار “Instruct” فهو مضبوط بدقة لاتباع تعليمات المستخدم بدقة أكبر.
Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام API بسيط، مع توفير GPU سحابي بأسعار معقولة وموثوق للبناء والتوسع.
قراءة موصى بها
- Qwen2.5-VL: نموذج رؤية-لغة قوي لكنه شره للذاكرة
- Qwen 2.5 72b مقابل Llama 3.3 70b: أي النموذجين يناسب احتياجاتك؟
- Qwen 2.5 مقابل Llama 3.2 90B: تحليل مقارن لقدرات البرمجة واستدلال الصور
واجهات برمجة تطبيقات بسيطة وGPU قابل للتوسع
Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام API بسيط، مع توفير GPU سحابي بأسعار معقولة وموثوق للبناء والتوسع.
