اكتشف vLLM llama3، المساعد الأمثل لتحقيق الكفاءة، خفض التكاليف، والمزيد. تعرف على كيف يمكنه إحداث ثورة في سير عملك.
النقاط الرئيسية
- يوفر vLLM Llama3 دقة عالية ويوفر التكاليف عند استخدام نماذج اللغة الكبيرة.
- تركز بنيته على الحصول على أفضل أداء. يتضمن أجزاء أساسية مثل حاويات Docker، وخوادم API، وخوادم GPU.
- تظهر الاختبارات مكاسب كبيرة في سرعة الاستدلال والإنتاجية مقارنة بالإصدارات السابقة.
- يتضمن Llama3 تحديثات لتحسين الكفاءة، وتحسينات في البرامج، وتكامل تقنيات جديدة.
مقدمة
يتغير عالم نماذج اللغة الكبيرة الافتراضية (LLMs) باستمرار. Llama 3 هو نموذج جيد يظهر قابلية التوسع والكفاءة. هناك حاجة إلى سرعة أفضل وطرق أسهل لإعدادها. vLLM Llama3 هو إجابة قوية على هذه الاحتياجات. يعطي دقة عالية ويوفر المال أيضًا. تبحث هذه المقالة في vLLM Llama3. سنستكشف تصميمه، وكيف يحسن الأداء، وما هي الميزات الجديدة المضمنة.
فهم vLLM Llama3
في مركز vLLM Llama3 يوجد تصميم مبني بعناية يهدف إلى أداء رائع ونمو. يستخدم تصميم نظام موزع، مما يحقق أقصى استفادة من العديد من موارد الحوسبة، خاصة GPUs.
أيضًا، يركز إعداد vLLM Llama3 على المرونة وسهولة التوسع. هذا يساعد على الاتصال بسلاسة مع الأدوات والأنظمة الأخرى. بهذه الطريقة، يمكن للمطورين ضبط النشر لتلبية احتياجاتهم الخاصة.
ما هو VLLM؟
vLLM هي مكتبة عالية الأداء مصممة خصيصًا لتسهيل استدلال وتقديم LLMs. تتميز بتركيزها على تقديم السرعة والكفاءة والفعالية من حيث التكلفة، مما يجعلها حلاً متاحًا لمجموعة واسعة من المطورين.

لماذا استخدام VLLM؟
- إنتاجية عالية: يحقق vLLM إنتاجية تقديم حديثة، مما يجعله قادرًا على التعامل مع حجم كبير من الطلبات.
- إدارة الذاكرة: يقدم PagedAttention، وهي آلية متقدمة لإدارة ذاكرة مفتاح وقيمة الانتباه بكفاءة.
- التجميع المستمر: يدعم vLLM التجميع المستمر للطلبات الواردة، مما يعزز الإنتاجية والكفاءة الإجمالية للنموذج.
- تكامل سلس: يقدم vLLM عملية لنشر نماذج LLMs مثل Llama 3، مما يسمح بسهولة التكامل في الأنظمة والتطبيقات الحالية.
- توافق API: يتضمن خادمًا متوافقًا مع OpenAI، مما يضمن سهولة التكامل في الأنظمة الحالية التي تستخدم API من OpenAI.
- دعم التكميم: يستخدم VLLM تقنيات التكميم مثل GPTQ و AWQ و SqueezeLLM و FP8 KV Cache لتمكين النماذج من العمل بكفاءة بدقة أقل دون المساس بالأداء.
- قابلية التوسع: يدعم VLLM نشر التطبيقات لمختلف حالات الاستخدام مثل دعم العملاء والتلخيص، ويتكيف بشكل فعال مع أحجام النشر المختلفة.
ما هو Llama 3؟
LLaMA 3، الذي طورته Meta، هذه السلسلة المتقدمة من نماذج اللغة تهدف إلى تعزيز قدرات الذكاء الاصطناعي في فهم وتوليد النص الشبيه بالبشر. يبني على النسخة السابقة Llama 2، مستفيدًا من مجموعات数据和 كبيرة وهندسات متقدمة لتحقيق دقة أعلى وتوليد نصوص أكثر دقة. تم تصميم Llama 3 ليكون متعدد الاستخدامات، يخدم التطبيقات في مجالات مختلفة مثل البحث، إنشاء المحتوى، والمزيد.
هناك عدة إصدارات من Llama 3: Llama 3 8B، Llama 3 8B-Instruct، Llama 3 70B، Llama 3 70B-Instruct. Llama 3 8B Instruct يتفوق على Gemma 7b-it، Mistral 7B Instruct بينما Llama 3 70B Instruct يظهر أداءً أفضل من Gemini و Claude.

الميزات الرئيسية لـ Llama 3
- دقة محسنة: Llama 3 دقيق مقارنة بالنماذج السابقة، خاصة إصدار 70 مليار معامل (Llama 3 70B). يتفوق في التفاعلات الدردشة، توليد الكود، التلخيص، والتوليد المعزز بالاسترجاع.
- زيادة بيانات التدريب: يستفيد Llama 3 من زيادة بيانات التدريب، بما في ذلك مصادر نصية ولغات متنوعة.
- تقنيات متقدمة: يستخدم النموذج تقنيات مثل tokenizer Tiktoken من OpenAI والتوازي البيانات لتعزيز الكفاءة.
- تخصيص الموارد: يستخدم Llama 3 قوانين تحجيم جديدة لتحسين التنبؤ بالأداء وتخصيص الموارد، مما يزيد من الكفاءة الحسابية ويقلل وقت التشغيل.
- تعدد الاستخدامات: تحسينات Llama 3 تجعله مثاليًا لتطبيقات مختلفة في التجارة الإلكترونية، المالية، الرعاية الصحية، والتعليم.
- قابلية التوسع والصيانة: يتميز Llama 3 بأكوام تدريب متقدمة للكشف التلقائي عن الأخطاء ومعالجتها وصيانتها لضمان قابلية الاستخدام والتوسع.
أداء نماذج Llama 3 وكفاءة التكلفة
الميزات التقنية والأداء
Llama 3 8B
- المعاملات: 8 مليار
- طول السياق: 8 آلاف رمز
- بيانات التدريب: 15 تريليون رمز
Llama 3 70B
- المعاملات: 70 مليار
- طول السياق: 8 آلاف رمز
- بيانات التدريب: 15 تريليون رمز
تم إصدار هذين النموذجين قبل أحدث Llama 3.1 405B.
فيما يلي رسم بياني لأداء النماذج الأساسية المدربة مسبقًا.

وهذا هو أداء النماذج المعدلة بالتعليمات والتي تم ضبطها لفهم واتباع التعليمات البشرية بشكل أفضل.

كفاءة تكلفة Llama 3
بعد تحليل أدائه، نحتاج إلى النظر في تكلفته الفعلية. على سبيل المثال مع llama 3 8b، تكون تكلفة نشر دعم العملاء كما يلي.

كخيار مثالي من حيث التكلفة، توفر Novita AI meta-llama/llama-3–8b-instruct و meta-llama/llama-3–70b-instruct بأقل من 1 دولار لكل مليون رمز للإدخال والإخراج. يمكنك عرض المزيد من النماذج على LLM Model API.

نقدم أيضًا أحدث إصدار meta-llama/llama-3.1–405b-instruct. قمنا مؤخرًا بتخفيض سعر Llama 3.1 405B إلى 2.75 دولار لكل مليون رمز!

ابدأ مع VLLM Llama 3
المتطلبات التقنية المسبقة
تأكد من المتطلبات التالية قبل البدء:
- خادم مع GPU متوافق (مثل NVIDIA A100 المقدم من Novita AI).
- تثبيت Python في نظامك في الدليل الصحيح.
- تأكد من الوصول إلى إنترنت سلس.
نشر vLLM Llama 3
1. تثبيت vLLM: قم بإعداد بيئة vLLM على الخادم الخاص بك. يمكنك استخدام pip لتثبيت vLLM مثل:
pip install vllm
2. تحميل النموذج: قم بتحميل نموذج Llama 3 8B إلى vLLM:
from vllm import LLM
model = LLM("meta-llama/Meta-Llama-3–8B-Instruct")
3. تشغيل استدلال LLM: استخدم النموذج للاستدلال:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3–8B-Instruct")
messages = [{"role": "user", "content": "What is the capital of France?"}]
formatted_prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
output = model.generate(formatted_prompt)
print(output)
نصائح متقدمة
- تخصيص خدمة Llama3 ضروري لتلبية الاحتياجات المختلفة. يسمح الإطار بالمرونة في التكوين، مثل تخصيص الموارد ومعلمات النموذج.
- من خلال تعديل معلمات API، يمكن للمطورين تخصيص سلوك النموذج ومخرجاته لحالات استخدام متنوعة.
- الضبط التلقائي أمر حاسم في التعلم الآلي. يستفيد vLLM Llama3 من هذه التقنية لتعزيز الأداء عن طريق ضبط الإعدادات باستخدام خوارزميات AI و ML. تعمل حلقة التغذية الراجعة هذه باستمرار على تحسين عوامل مثل زمن الوصول والإنتاجية لتحقيق أداء مثالي للمستخدم دون تدخل يدوي.
- يمكنك أيضًا استخدام صورة Docker لتحقيق الكفاءة. تحسين الأداء باستخدام تقنيات مثل التكميم.
دليل المطور لاستخدام Llama 3: LLM API
نشر Llama 3 معقد. لاستخدام Llama 3 بشكل فعال، يمكن للمطورين فهم وظائفه و APIs. نوصي بـ Novita AI للتكامل الفعال من حيث التكلفة مع LLM API، حيث أن منصة AI API هذه مجهزة بنماذج مميزة وحلول LLM بأسعار معقولة.
ابدأ مع Novita AI API
- الخطوة 1: الدخول إلى Novita AI وإنشاء حساب. يمكنك تسجيل الدخول باستخدام Google أو GitHub. أول تسجيل دخول لك سينشئ حسابًا جديدًا. لا بأس بالتسجيل باستخدام عنوان بريدك الإلكتروني.

- الخطوة 2: إدارة مفتاح API. يتحقق Novita AI من الوصول إلى API باستخدام مصادقة Bearer مع مفتاح API في رأس الطلب. اذهب إلى “إدارة المفاتيح” لإدارة مفاتيحك. بمجرد تسجيل الدخول لأول مرة، يتم إنشاء مفتاح افتراضي تلقائيًا. يمكنك أيضًا النقر على “+ إضافة مفتاح جديد”.

- الخطوة 3: إجراء استدعاء API. أدخل مفتاح API الخاص بك في الواجهة الخلفية لمتابعة المهام التالية.
هذا مثال مع عميل Python باستخدام Novita AI Chat Completions API.
pip install 'openai>=1.0.0'
from openai import OpenAIclient = OpenAI(
base_url="https://api.novita.ai/v3/openai",
# احصل على مفتاح Novita AI API عن طريق الرجوع: https://novita.ai/docs/get-started/quickstart.html#_2-manage-api-key.
api_key="<مفتاح Novita AI API الخاص بك>",
)model = "Nous-Hermes-2-Mixtral-8x7B-DPO"
stream = True # أو False
max_tokens = 512chat_completion_res = client.chat.completions.create(
model=model,
messages=[
{
"role": "system",
"content": "تصرف وكأنك مساعد مفيد.",
},
{
"role": "user",
"content": "مرحبًا!",
}
],
stream=stream,
max_tokens=max_tokens,
)if stream:
for chunk in chat_completion_res:
print(chunk.choices[0].delta.content or "", end="")
else:
print(chat_completion_res.choices[0].message.content)
لمزيد من المعلومات، يمكنك زيارة مرجع API النموذج.

- الخطوة 4. شحن الرصيد. كما ذكرنا في الخطوة الأولى، لديك قسيمة بأرصدة لتجربة منتجاتنا، لكنها محدودة. لإضافة المزيد من الرصيد، يرجى زيارة الفواتير والمدفوعات واتباع الدليل حول طرق الدفع.
الخاتمة
باختصار، vLLM Llama3 هو حل رائع يجعل العمل أسهل ويقلل التكاليف. من خلال معرفة كيفية عمله، وتحسين الأداء، ومواكبة التغييرات في متطلبات الإعداد، يمكن للمطورين الحصول على أقصى استفادة منه. يستمر نموذج Llama3 في التحسن، مما يظهر التزامًا قويًا بالجودة. مع خطط تتطلع إلى الأمام وطرق ضبط متقدمة، يقود vLLM Llama3 الطريق للابتكارات في تقنيات AI و ML. ترقبوا الميزات الجديدة والخطط طويلة المدى التي ستساعد في تشكيل مستقبل خدمة النماذج.
الأسئلة الشائعة
ما هو vLLM مقابل TGI؟
VLLM هو محرك استدلال وتقديم LLM مفتوح المصدر يستخدم خوارزمية تخصيص الذاكرة PagedAttention. يقدم إنتاجية تصل إلى 24 مرة أعلى من Hugging Face Transformers وتصل إلى 3.5 مرة أعلى من Hugging Face Text Generation Inference.
كيف يعمل تجميع vLLM؟
وفقًا لوثائق vLLM، يستخدمون التجميع المستمر، مما يسمح لحجم الدفعة بالتعديل ديناميكيًا أثناء توليد الرموز.
هل Llama 3 مجاني؟
Llama 3 مفتوح المصدر ومتاح مجانًا. ومع ذلك، لاستخدام API الخاص به، قد يكلف حوالي 0.1 دولار لكل مليون رمز للإدخال والإخراج.
هل يمكنني استخدام Llama 3 للأعمال؟
يغطي أحدث إصدار Llama 3 “رخصة مجتمع Meta Llama 3”، مما يسمح بجميع الأغراض التجارية تقريبًا. تستخدم الشركات Llama3 لتوليد محتوى تعليمي، تقديم تفاصيل طبية والمزيد.
Novita AI هي المنصة السحابية الشاملة التي تمكن طموحاتك في الذكاء الاصطناعي. واجهات برمجة تطبيقات متكاملة، بدون خادم، مثيلات GPU — الأدوات الفعالة من حيث التكلفة التي تحتاجها. تخلص من البنية التحتية، ابدأ مجانًا، وحقق رؤيتك في الذكاء الاصطناعي.
قراءة موصى بها
1*.*تقديم Llama3 405B: إصدارات LLM متاحة علنًا
