إطلاق من OpenAI - GPT-4o: حالات الاستخدام، كيفية عمله وكيفية الحصول على الوصول

إطلاق من OpenAI - GPT-4o: حالات الاستخدام، كيفية عمله وكيفية الحصول على الوصول

كشفت OpenAI عن أحدث نموذج لغوي كبير لديها، GPT-4o، يوم الاثنين، مما يمثل تقدمًا عن سابقه GPT-4 Turbo. استكشف ميزاته وكفاءته وتطبيقاته المحتملة في الأقسام التالية.

ما هو GPT-4o من OpenAI؟

يمثل GPT-4o أحدث نموذج لغوي كبير من OpenAI. يشير حرف “o” في اسمه إلى “omni” (الشامل)، المشتق من اللاتينية بمعنى “كل”، مما يدل على قدرته على معالجة الاستعلامات التي تحتوي على مزيج من النصوص والصوت والصور والفيديو. في الماضي، كانت تُستخدم نماذج منفصلة لأنواع المحتوى المختلفة داخل واجهة ChatGPT.

على سبيل المثال، في تفاعلات وضع الصوت مع ChatGPT، كان يتم تحويل الكلام إلى نص باستخدام Whisper، ثم صياغة رد نصي باستخدام GPT-4 Turbo، ثم تحويل النص مرة أخرى إلى كلام باستخدام TTS.

وبالمثل، فإن دمج الصور في تفاعلات ChatGPT يتطلب مزيجًا من GPT-4 Turbo وDALL-E 3. إن دمج هذه الوظائف في نموذج واحد لمختلف تنسيقات المحتوى يوفر إمكانية معالجة أسرع وجودة نتائج محسّنة وواجهة مبسّطة واستكشاف حالات استخدام جديدة.

ما الذي يميز GPT-4o عن GPT-4 Turbo؟

من خلال اعتماد استراتيجية النموذج الكل في واحد، يتجاوز GPT-4o العديد من القيود المرتبطة بوظائف التفاعل الصوتي السابقة.

1. تُؤخذ نبرة الصوت في الاعتبار الآن، مما يسهل الاستجابات العاطفية

في نظام OpenAI السابق، الذي تضمن الجمع بين Whisper وGPT-4 Turbo وTTS في عملية متسلسلة، كان محرك التفكير GPT-4 يصل فقط إلى الكلمات المنطوقة المنقولة كتابيًا. أدى هذا النهج إلى حذف عناصر حاسمة مثل نبرة الصوت والضوضاء الخلفية والتمييز بين المتحدثين المتعددين. وبالتالي، كان GPT-4 Turbo محدودًا في قدرته على توليد استجابات بمشاعر أو أنماط كلام متنوعة.

ومع ذلك، مع وجود نموذج موحد قادر على معالجة كل من النص والصوت، يمكن الآن الاستفادة من هذه المعلومات الصوتية القيمة لتقديم استجابات عالية الجودة، بمجموعة أوسع من أساليب التحدث.

في الفيديو التالي الذي نشرته OpenAI، يُظهر GPT-4o قدرته على توليد مخرجات ساخرة.

2. زمن استجابة أقل يتيح محادثات في الوقت الفعلي

أدى خط الأنابيب المكون من ثلاثة نماذج سابقًا إلى تأخير بسيط، أو “زمن استجابة”، بين التفاعل مع ChatGPT وتلقي الرد.

كشفت OpenAI أن متوسط زمن الاستجابة لوضع الصوت هو 2.8 ثانية مع GPT-3.5 و5.4 ثانية مع GPT-4. في المقابل، يبلغ متوسط زمن الاستجابة لـ GPT-4o 0.32 ثانية، مما يجعله أسرع بتسع مرات من GPT-3.5 و17 مرة أسرع من GPT-4.

يقترب زمن الاستجابة المنخفض هذا من متوسط وقت الاستجابة البشرية البالغ 0.21 ثانية، وهو أمر بالغ الأهمية بشكل خاص لسيناريوهات المحادثة، حيث تحدث تبادلات متكررة بين البشر والذكاء الاصطناعي، وتتراكم التأخيرات بين الاستجابات.

تستحضر هذه الوظيفة ذكريات إطلاق Google لـ Instant، وهي ميزة الإكمال التلقائي لاستعلامات البحث، في عام 2010. على الرغم من أن البحث لا يستغرق عادةً الكثير من الوقت، فإن توفير بضع ثوانٍ مع كل استخدام يعزز تجربة المنتج الإجمالية.

أحد حالات الاستخدام الواعدة التي أصبحت أكثر جدوى بفضل زمن الاستجابة المنخفض لـ GPT-4o هي الترجمة الفورية للكلام. أوضحت OpenAI سيناريو حيث يتواصل زميلان، أحدهما يتحدث الإنجليزية والآخر يتحدث الإسبانية، مع قيام GPT-4o بتسهيل الترجمة الفورية لمحادثتهما.

https://youtu.be/WzUnEfiIqP4?si=dnnqaNxT4ncX7cfJ

3. الرؤية المتكاملة تتيح وصف تغذية الكاميرا

إلى جانب دمج قدرات الصوت والنص، يتضمن GPT-4o أيضًا ميزات للصور والفيديو. هذا يعني أنه عند منحه إمكانية الوصول إلى شاشة الكمبيوتر، يمكنه تقديم أوصاف للمحتوى المعروض على الشاشة، أو الإجابة على أسئلة حول الصور المعروضة، أو حتى العمل كرفيق داعم في مهامك.

في فيديو نشرته OpenAI يظهر فيه Sal Khan من Khan Academy، يساعد GPT-4o ابن Sal في واجباته المنزلية في الرياضيات.

https://youtu.be/_nSmkyDNulk?si=sFvBOgk9hznhqf4f

توسعًا إلى ما هو أبعد من التفاعل مع الشاشة، إذا منحت GPT-4o إمكانية الوصول إلى كاميرا، مثل الموجودة في هاتفك الذكي، فيمكنه تقديم أوصاف لمحيطه البصري.

في عرض توضيحي شامل من OpenAI، يتم الجمع بين كل هذه القدرات. هاتفان ذكيان مزودان بـ GPT-4o يجريان محادثة. أحد النماذج GPT لديه إمكانية الوصول إلى كاميرات الهاتف الذكي ويصف ملاحظاته البصرية لنموذج GPT آخر ليس لديه قدرات بصرية.

النتيجة هي محادثة ثلاثية تشمل إنسانًا وذكاءين اصطناعيين. يتضمن الفيديو أيضًا مقطعًا يغني فيه الذكاء الاصطناعي، وهي قدرة لم تكن ممكنة مع النماذج السابقة.

https://youtu.be/MirzFk_DSiI?si=Dv7HoVcNliXD3lJg

4. تحسين التقسيم إلى رموز للأبجديات غير الرومانية يوفر سرعة أكبر وقيمة أفضل مقابل المال

تتضمن خطوة حاسمة في سير عمل نماذج اللغة الكبيرة (LLMs) تحويل نص الاستعلام إلى رموز (tokens)، وهي وحدات نصية يمكن للنموذج فهمها.

في اللغة الإنجليزية، يتوافق الرمز عادةً مع كلمة واحدة أو علامة ترقيم، على الرغم من أن بعض الكلمات قد تنقسم إلى رموز متعددة. في المتوسط، يتم تمثيل حوالي ثلاث كلمات إنجليزية بحوالي أربعة رموز.

يؤدي تقليل عدد الرموز المطلوبة لتمثيل اللغة في النموذج إلى حسابات حسابية أقل وتوليد نصوص أسرع.

علاوة على ذلك، نظرًا لأن OpenAI تفرض رسومًا على مستخدمي API الخاص بها بناءً على عدد الرموز المدخلة أو المخرجة، فإن عدد الرموز الأقل يترجم إلى تكاليف أقل لمستخدمي API.

يتميز GPT-4o بنموذج تقسيم إلى رموز محسّن يتطلب رموزًا أقل لكل نص. هذا التحسين ملحوظ بشكل خاص في اللغات التي لا تستخدم الأبجدية الرومانية.

على سبيل المثال، شهدت اللغات الهندية، بما في ذلك الهندية والماراثية والتاميلية والتيلجو والغوجاراتية، انخفاضًا في الرموز يتراوح من 2.9 إلى 4.4 مرة. شهدت اللغة العربية انخفاضًا في الرموز بمقدار مرتين، بينما شهدت لغات شرق آسيا مثل الصينية واليابانية والكورية والفيتنامية انخفاضًا في الرموز يتراوح من 1.4 إلى 1.7 مرة.

5. الطرح للخطة المجانية

يتطلب هيكل التسعير الحالي لـ ChatGPT من المستخدمين الدفع للوصول إلى النموذج الأعلى مستوى: كان GPT-4 Turbo متاحًا حصريًا على خطط Plus وEnterprise المدفوعة.

ومع ذلك، هذا في طور التحول، حيث تعهدت OpenAI بتقديم GPT-4o على الخطة المجانية أيضًا. سيحصل مستخدمو Plus على حصة رسائل أكبر بخمس مرات مقارنة بالمستخدمين على الخطة المجانية.

سيتم النشر تدريجيًا، بدءًا من أعضاء الفريق الأحمر (المختبرين المكلفين بتحديد نقاط ضعف النموذج) الذين سيحصلون على وصول فوري، يليه وصول أوسع للمستخدمين على مر الزمن.

6. إطلاق تطبيق ChatGPT لسطح المكتب

على الرغم من أنه ليس مرتبطًا بشكل خاص بـ GPT-4o، إلا أن OpenAI قدمت أيضًا تطبيق ChatGPT لسطح المكتب. بالنظر إلى التحسينات في زمن الاستجابة وتعدد الوسائط التي تمت مناقشتها سابقًا، إلى جانب إطلاق التطبيق، فمن الواضح أن ديناميكيات التفاعل مع ChatGPT على وشك التحول. على سبيل المثال، عرضت OpenAI عرضًا توضيحيًا لسير عمل برمجة محسّن باستخدام الصوت وتطبيق ChatGPT لسطح المكتب. قم بالتمرير لأسفل في قسم حالات الاستخدام لمشاهدة هذا المثال أثناء العمل!

كيف يعمل GPT-4o؟

أنواع محتوى متعددة، شبكة عصبية واحدة

لا تزال التفاصيل المتعلقة بكيفية عمل GPT-4o محدودة. الرؤية الوحيدة التي قدمتها OpenAI في إعلانها هي أن GPT-4o عبارة عن شبكة عصبية موحدة تم تدريبها على مدخلات النص والرؤية والصوت.

يمثل هذا النهج الجديد انحرافًا عن الطريقة السابقة لاستخدام نماذج منفصلة مدربة على أنواع بيانات متميزة.

ومع ذلك، فإن GPT-4o ليس النموذج الأول الذي يتبنى نهجًا متعدد الوسائط. في عام 2022، قدم مختبر TenCent نموذج SkillNet، وهو نموذج يجمع ميزات المحول (Transformer) لنماذج اللغة الكبيرة مع تقنيات الرؤية الحاسوبية لتحسين التعرف على الأحرف الصينية.

وبالمثل، في عام 2023، أسفر التعاون بين ETH Zurich وMIT وجامعة Stanford عن WhisBERT، وهو متغير ضمن سلسلة BERT من نماذج اللغة الكبيرة. على الرغم من أنه ليس رائدًا، إلا أن GPT-4o يتميز بطموحه الملحوظ وقوته مقارنة بهذه الجهود السابقة.

هل GPT-4o تغيير جذري عن GPT-4 Turbo؟

يبدو أن مدى التعديلات التي تم إجراؤها على بنية GPT-4o مقارنة بـ GPT-4 Turbo يخضع للتفسير، اعتمادًا على ما إذا كان المرء يرجع إلى فرق الهندسة أو التسويق في OpenAI. في أبريل، ظهر روبوت باسم “im-also-a-good-gpt2-chatbot” على Chatbot Arena من LMSYS، وهو لوحة متصدرة تصنف أفضل نماذج الذكاء الاصطناعي التوليدية. تم الكشف الآن عن أن هذا الذكاء الاصطناعي الغامض هو GPT-4o.

إن تضمين “gpt2” في الاسم له دلالة. إنه يميز GPT-4o عن GPT-2، وهو سابق لكل من GPT-3.5 وGPT-4. تم تفسير اللاحقة “2” على نطاق واسع على أنها تشير إلى بنية جديدة تمامًا داخل سلسلة نماذج GPT.

على ما يبدو، يرى الأفراد داخل فرق البحث أو الهندسة في OpenAI أن دمج أنواع محتوى النص والرؤية والصوت في نموذج واحد هو تغيير كافٍ لتبرير أول زيادة في رقم الإصدار منذ ست سنوات.

على العكس من ذلك، اختار فريق التسويق اتباع نهج مقيد نسبيًا في التسمية، مع الاستمرار في اصطلاح “GPT-4”.

أداء GPT-4o مقارنة بالنماذج الأخرى

أصدرت OpenAI أرقامًا قياسية لمقارنة GPT-4o مع العديد من النماذج الأخرى عالية المستوى:

  1. GPT-4 Turbo
  2. GPT-4 (الإصدار الأولي)
  3. Claude 3 Opus
  4. Gemini Pro 1.5
  5. Gemini Ultra 1.0
  6. Llama 3 400B

من بين هذه، فقط ثلاثة نماذج لها أهمية كبيرة للمقارنة: GPT-4 Turbo وClaude 3 Opus وGemini Pro 1.5. تنافست هذه النماذج على المركز الأول في لوحة متصدرة Chatbot Arena من LMSYS في الأشهر الأخيرة.

بينما قد يصبح Llama 3 400B منافسًا في المستقبل، إلا أنه لا يزال قيد التطوير. لذلك، تركز نتائج المعيار القياسي المقدمة هنا فقط على هذه النماذج الثلاثة وGPT-4o.

تم استخدام ستة معايير للتقييم:

  1. فهم اللغة المتعددة المهام الهائلة (MMLU): يغطي مهامًا تمتد من الرياضيات الابتدائية إلى تاريخ الولايات المتحدة وعلوم الكمبيوتر والقانون والمزيد. يجب أن تمتلك النماذج معرفة عالمية واسعة وقدرات على حل المشكلات لتحقيق دقة عالية في هذا الاختبار.
  2. أسئلة وأجوبة على مستوى الخريجين مقاومة لجوجل (GPQA): يتميز بأسئلة متعددة الخيارات صممها خبراء في مجالات الأحياء والفيزياء والكيمياء. الأسئلة عالية الجودة وصعبة للغاية، حيث يحقق الخبراء الحاصلون على أو الذين يسعون للحصول على درجات الدكتوراه في المجالات المقابلة دقة 74%.
  3. الرياضيات (MATH): يتضمن مسائل رياضيات للمرحلة الإعدادية والثانوية.
  4. HumanEval: يقيم الصحة الوظيفية لكود الكمبيوتر، ويستخدم لتقييم توليد الكود.
  5. الرياضيات المدرسية متعددة اللغات (MSGM): يتكون من مسائل رياضيات للمرحلة الابتدائية مترجمة إلى عشر لغات، بما في ذلك اللغات غير الممثلة تمثيلاً كافيًا مثل البنغالية والسواحيلية.
  6. الاستدلال المنفصل عبر الفقرات (DROP): يركز على الأسئلة التي تتطلب فهم فقرات كاملة، والتي تتضمن مهامًا مثل الجمع أو العد أو فرز القيم الموزعة عبر جمل متعددة.

أداء GPT-4o وGPT-4 Turbo وGemini Pro 1.5 وClaude 3 Opus مقابل ستة معايير لنماذج اللغة الكبيرة. تتراوح درجات كل معيار من 0 إلى 100. أعيد إنشاؤها من البيانات المقدمة من OpenAI. لم يتم تقديم أي بيانات لـ Gemini Pro 1.5 بالنسبة لمعيار GPQA.

يتفوق GPT-4o على النماذج الأخرى في أربعة معايير، على الرغم من تفوق Claude 3 Opus عليه في معيار MSGM وGPT-4 Turbo في معيار DROP. على الرغم من هذه النتائج المحددة، فإن الأداء العام لـ GPT-4o مثير للإعجاب، مما يشير إلى إمكانات نهج التدريب متعدد الوسائط الجديد.

عند الفحص الدقيق لأرقام GPT-4o مقارنة بـ GPT-4 Turbo، تكون زيادات الأداء متواضعة نسبيًا، مع اختلاف بضع نقاط مئوية فقط. بينما يشير هذا إلى تقدم ملحوظ في غضون عام، إلا أنه لا يرقى إلى القفزات الهائلة في الأداء التي شوهدت من GPT-1 إلى GPT-2 أو من GPT-2 إلى GPT-3.

أصبح من الواضح أن تحقيق تحسن بنسبة 10% في التفكير النصي سنويًا قد يصبح المعيار الجديد. تمت معالجة التحديات الأسهل، وأصبح إحراز تقدم كبير في التفكير النصي صعبًا بشكل متزايد.

ومع ذلك، فإن هذه المعايير لنماذج اللغة الكبيرة لا تلتقط بشكل كامل أداء الذكاء الاصطناعي في المشكلات متعددة الوسائط. لا يزال مفهوم التدريب متعدد الوسائط جديدًا نسبيًا، وهناك نقص في الطرق الفعالة لقياس كفاءة النموذج عبر النصوص والصوت والرؤية.

بشكل عام، أداء GPT-4o مثير للإعجاب ويظهر إمكانات النهج المبتكر للتدريب متعدد الوسائط.

حالات استخدام GPT-4o

1. GPT-4o لتحليل البيانات ومهام البرمجة

نماذج GPT الحديثة ومشتقاتها، مثل GitHub Copilot، مجهزة بالفعل لتقديم المساعدة في الكود، بما في ذلك كتابة الكود وشرح الأخطاء وإصلاح الأخطاء. تقدم القدرات متعددة الوسائط لـ GPT-4o إمكانيات مثيرة للاهتمام.

في فيديو ترويجي يضم Mira Murati، المديرة التقنية لـ OpenAI، أظهر باحثان من OpenAI، Mark Chen وBarret Zoph، استخدام GPT-4o للتفاعل مع كود Python.

يتم تقديم الكود إلى GPT كنص، ويتم استخدام ميزة التفاعل الصوتي لطلب شروحات من GPT حول الكود. بعد ذلك، بعد تنفيذ الكود، يتم الاستفادة من قدرة الرؤية لـ GPT-4o لتقديم شروحات حول المخطط.

بشكل عام، فإن عملية إظهار شاشتك لـ ChatGPT وطرح سؤال شفهيًا تقدم سير عمل أبسط محتمل مقارنة بحفظ مخطط كملف صورة، ثم تحميله إلى ChatGPT، ثم كتابة سؤال.

2. GPT-4o للترجمة الفورية

استعد لإحضار GPT-4o معك في إجازتك. بفضل قدراته الصوتية منخفضة زمن الاستجابة، يتيح GPT-4o الترجمة الفورية، مما يجعل ذلك ممكنًا (بافتراض أن لديك بيانات تجوال في خطة هاتفك!). هذا يجعل السفر إلى البلدان التي لا تتحدث لغتها أكثر سهولة.

3. لعب الأدوار مع GPT-4o

أثبت ChatGPT أنه مورد قيم لسيناريوهات لعب الأدوار، سواء كنت تحاكي مقابلة عمل لوظيفة أحلامك في مجال البيانات أو تدرب فريق المبيعات لديك لتعزيز مبيعات المنتجات.

في السابق، كان يدعم بشكل أساسي لعب الأدوار النصية فقط، والذي قد لا يكون مثاليًا لبعض حالات الاستخدام. ومع ذلك، مع تحسين قدرات الكلام، أصبح لعب الأدوار المنطوق خيارًا ممكنًا الآن.

ومع ذلك، إذا كنت تفضل لعب الشخصيات النصية التقليدية، فيمكنك اختيار novita.ai LLM API:

4. GPT-4o لمساعدة المستخدمين ضعاف البصر

تمتلك قدرة GPT-4o على تفسير مدخلات الفيديو من الكاميرا وسرد المشهد شفهيًا إمكانات كبيرة كميزة حاسمة للأفراد ذوي الإعاقات البصرية. إنها تعكس بشكل أساسي وظيفة الوصف الصوتي الموجودة في أجهزة التلفزيون ولكنها تمتد إلى مواقف الحياة الواقعية.

الحصول على وصول إلى GPT-4o في ChatGPT

انتقل عنوان ChatGPT من chat.openai.com إلى chatgpt.com، مما يشير إلى التزام كبير بالذكاء الاصطناعي كمنتج وليس مجرد تجربة. إذا كان لديك إمكانية الوصول إلى GPT-4o على حسابك، فسيكون متاحًا في كل من تطبيق الهاتف المحمول وعبر الإنترنت.

بالإضافة إلى ذلك، بدأ توزيع تطبيق Mac على بعض المستخدمين. ومع ذلك، يُنصح بالحذر بشأن الروابط، حيث يستغل المحتالون هذا الإطلاق لتوزيع برامج ضارة على أجهزة الكمبيوتر. النهج الأكثر أمانًا هو انتظار بريد إلكتروني أو إشعار يحتوي على رابط مباشر من OpenAI.

حتى إذا كان لديك رابط فعال للتطبيق، فلن يتم منح الوصول حتى يتم تفويضه لحسابك في OpenAI. ستواجه رسالة خطأ تقول “ليس لديك حق الوصول” إذا حاولت استخدامه قبل الأوان.

تسجيل الدخول إلى ChatGPT

بغض النظر عما إذا اخترت الإصدار المدفوع أو المجاني من ChatGPT، فإن الخطوة الأولى هي تسجيل الدخول. قم بزيارة الموقع الإلكتروني أو قم بتنزيل التطبيق وربطه بحسابك. إذا لم يكن لديك حساب بعد، فما عليك سوى الاشتراك.

التحقق من خيارات النموذج الخاصة بك

بالقرب من أعلى الشاشة، ستجد قائمة منسدلة تحتوي على قائمة النماذج. على موقع الويب، قد يعرض بالفعل “GPT-4o” كمحدد، ولكن قد يعرض أيضًا خيارات مثل “GPT-4” أو “GPT-3.5”. إذا لم يظهر “GPT-4o”، فهذا يعني أنه ليس لديك حق الوصول إلى النموذج بعد.

على الأجهزة المحمولة، إذا كان لديك حق الوصول، فسترى “ChatGPT 4o” معروضًا في منتصف شريط التنقل في أعلى الشاشة.

بدء الدردشة

إذا كان لديك حق الوصول، فابدأ في الدردشة مع GPT-4o تمامًا كما تفعل مع GPT-4. ومع ذلك، كن على علم بأن حدود المعدل مفروضة، وهي أقل بكثير في الخطة المجانية. نتيجة لذلك، ستتمكن فقط من إرسال عدد محدد مسبقًا من الرسائل يوميًا. إذا وصلت إلى هذا الحد، يمكنك متابعة المحادثة مع GPT-4 أو GPT-3.5.

تغيير النموذج في محادثة

لديك أيضًا خيار تبديل نموذج الذكاء الاصطناعي الذي تستخدمه أثناء جلسة الدردشة. على سبيل المثال، إذا كنت ترغب في تنظيم عدد الرسائل التي ترسلها باستخدام GPT-4o، فيمكنك بدء الدردشة مع GPT-3.5. ثم حدد أيقونة البريق الموجودة في نهاية الرد.

يفتح هذا الإجراء قائمة النماذج، ومن خلال تحديد GPT-4o، والذي قد يكون ضروريًا لمعالجة استعلام رياضي أكثر تعقيدًا، سيتم إنشاء الرد التالي باستخدام GPT-4o.

تحميل الملفات

إذا كان لديك إمكانية الوصول إلى GPT-4o وكنت على الخطة المجانية، فيمكنك الآن تحميل الملفات للتحليل. يمكن أن تتضمن هذه الملفات الصور أو مقاطع الفيديو أو حتى ملفات PDF. بعد ذلك، يمكنك طرح أي أسئلة حول المحتوى على GPT-4o.

قيود GPT-4o ومخاطره

لا تزال تنظيمات الذكاء الاصطناعي التوليدي في مراحلها الأولى، حيث يمثل قانون الاتحاد الأوروبي للذكاء الاصطناعي الإطار القانوني الأساسي المطبق حاليًا. وبالتالي، يجب على الشركات التي تطور الذكاء الاصطناعي أن تقوم بتحديداتها الخاصة بشأن ما يشكل ذكاءً اصطناعيًا آمنًا.

تستخدم OpenAI إطار استعداد لتقييم ما إذا كان النموذج الجديد مناسبًا للإصدار للجمهور. يقيم هذا الإطار أربعة مجالات رئيسية للقلق:

  1. الأمن السيبراني: تقييم ما إذا كان الذكاء الاصطناعي يمكن أن يعزز إنتاجية مجرمي الإنترنت أو يسهل إنشاء الثغرات الأمنية.
  2. BCRN: فحص ما إذا كان الذكاء الاصطناعي يمكن أن يساعد الخبراء في ابتكار تهديدات بيولوجية أو كيميائية أو إشعاعية أو نووية.
  3. الإقناع: تقييم إمكانية قيام الذكاء الاصطناعي بتوليد محتوى مقنع (تفاعلي محتمل) يؤثر على الأفراد لتغيير معتقداتهم.
  4. استقلالية النموذج: التحقق مما إذا كان الذكاء الاصطناعي يمكنه العمل كعامل مستقل، وتنفيذ الإجراءات بالاقتران مع برامج أخرى.

يتم تصنيف كل مجال من مجالات القلق على أنه منخفض أو متوسط أو مرتفع أو خطير، وتتوافق درجة النموذج الإجمالية مع أعلى درجة بين الفئات الأربع.

تتعهد OpenAI بعدم إطلاق نموذج يشكل مصدر قلق خطير. ومع ذلك، فإن عتبة الأمان هذه منخفضة نسبيًا، حيث يتم تعريف القلق الخطير على أنه شيء قادر على تعطيل الحضارة البشرية بشكل كبير. يتجنب GPT-4o هذا بسهولة، حيث حصل على تصنيف قلق متوسط.

مخرجات غير مثالية

كما هو شائع مع جميع نماذج الذكاء الاصطناعي التوليدية، قد لا يتصرف النموذج دائمًا كما هو متوقع. تكنولوجيا الرؤية الحاسوبية ليست خالية من العيوب، مما يعني أن تفسيرات الصور أو مقاطع الفيديو ليست مضمونة لتكون دقيقة.

وبالمثل، نادرًا ما تكون نصوص الكلام المنقولة دقيقة بنسبة 100٪، خاصةً عندما يكون للمتحدث لهجة قوية أو يستخدم مصطلحات فنية.

أصدرت OpenAI مقطع فيديو يعرض بعض اللقطات المحذوفة حيث لم يعمل GPT-4o كما هو مقصود. تضمنت حالات الفشل البارزة الترجمة غير الناجحة بين لغتين غير الإنجليزية، ونبرة الصوت غير المناسبة (مثل أن تكون متعالية)، والتحدث باللغة الخطأ.

خطر متزايد للتزييف الصوتي العميق

يعترف إعلان OpenAI بأن “أنماط الصوت في GPT-4o تقدم العديد من المخاطر الجديدة.” من نواح عديدة، لدى GPT-4o القدرة على تسريع انتشار مكالمات الاحتيال بالتزييف العميق، حيث ينتحل الذكاء الاصطناعي شخصية المشاهير والسياسيين ومعارف الأفراد. هذا تحدٍ من المحتمل أن يزداد سوءًا قبل معالجته بفعالية، ويمتلك GPT-4o القدرة على تعزيز إقناع مكالمات الاحتيال بالتزييف العميق بشكل كبير.

لمعالجة هذا الخطر، يقتصر الإخراج الصوتي على مجموعة مختارة من الأصوات المحددة مسبقًا.

من المعقول أن المحتالين الماهرين تقنيًا يمكنهم استخدام GPT-4o لتوليد مخرجات نصية ثم استخدام نموذج تحويل النص إلى كلام الخاص بهم. ومع ذلك، لا يزال من غير المؤكد ما إذا كان هذا النهج سيحتفظ بمزايا زمن الاستجابة ونبرة الصوت التي يوفرها GPT-4o.

كم تبلغ تكلفة GPT-4o؟

على الرغم من سرعته الفائقة مقارنة بـ GPT-4 Turbo وقدراته المحسّنة على الرؤية، سيكون GPT-4o أرخص بنسبة 50٪ تقريبًا من سابقه. كما هو مذكور على موقع OpenAI الإلكتروني، سيكلف استخدام النموذج 5 دولارات لكل مليون رمز للإدخال و15 دولارًا لكل مليون رمز للإخراج.

الخلاصة

يمثل GPT-4o تقدمًا كبيرًا في الذكاء الاصطناعي التوليدي، حيث يدمج معالجة النصوص والصوت والمرئيات في نموذج واحد فعال. يعد هذا الابتكار باستجابات أسرع وتفاعلات أكثر غامرة ومجموعة أوسع من التطبيقات، بدءًا من الترجمة الفورية إلى تحليل البيانات المحسّن وتحسين إمكانية الوصول للأفراد ضعاف البصر.

novita.ai، المنصة الشاملة للإبداع غير المحدود التي تمنحك الوصول إلى أكثر من 100 واجهة API. من توليد الصور ومعالجة اللغة إلى تحسين الصوت ومعالجة الفيديو، بنظام الدفع حسب الاستخدام الرخيص، يحررك من متاعب صيانة GPU أثناء بناء منتجاتك الخاصة. جربه مجانًا.

قراءة موصى بها

ما الفرق بين LLM و GPT

الكشف عن توقعات لوحة متصدرة LLM 2024

محرك استدلال Novita AI LLM: أعلى إنتاجية وأرخص استدلال متاح