PaddleOCR على Novita AI: نموذج رؤية-لغة فائق الضغط 0.9B لتحليل المستندات

جدول المحتويات

ما هو PaddleOCR-VL؟
الميزات الأساسية
بنية النموذج
معايير الأداء
حالات الاستخدام والتطبيقات
ابدأ استخدام PaddleOCR على منصة Novita AI
الخاتمة

يتوفر نموذج PaddleOCR-VL الآن على منصة Novita AI، ليقدم قدرات تحليل مستندات متعددة اللغات رائدة عالميًا (SOTA) من خلال نموذج رؤية-لغة فائق الضغط بحجم 0.9B. تجمع هذه الحل المبتكر بين مشفر بصري دقيق الديناميكي بأسلوب NaViT ونموذج اللغة ERNIE-4.5-0.3B لتمكين التعرف الدقيق على العناصر عبر 109 لغة.

يعد نموذج PaddleOCR-VL-0.9B نموذج رؤية-لغة مضغوط ولكنه قوي، يتفوق في التعرف على العناصر المعقدة مثل النصوص والجداول والمعادلات والرسوم البيانية، مع الحفاظ على استهلاك موارد ضئيل. من خلال التقييمات الشاملة على معايير عامة مستخدمة على نطاق واسع ومعايير داخلية، يحقق PaddleOCR-VL أداءً رائدًا عالميًا (SOTA) في كل من تحليل المستندات على مستوى الصفحة والتعرف على مستوى العناصر.

يتفوق بشكل كبير على الحلول الموجودة حاليًا، ويظهر قدرة تنافسية قوية ضد أفضل نماذج الرؤية-اللغة، ويوفر سرعات استدلال سريعة مناسبة للنشر العملي في سيناريوهات العالم الحقيقي.

جرب PaddleOCR الآن

ما هو PaddleOCR-VL؟

يعد PaddleOCR-VL نموذجًا رائدًا عالميًا (SOTA) وموفرًا للموارد، مصمم خصيصًا لتحليل المستندات. مكونه الأساسي هو PaddleOCR-VL-0.9B، وهو نموذج رؤية-لغة مضغوط ولكنه قوي، يدمج مشفرًا بصريًا دقيق الديناميكي بأسلوب NaViT مع نموذج اللغة ERNIE-4.5-0.3B لتمكين التعرف الدقيق على العناصر.

يدعم هذا النموذج المبتكر 109 لغة بكفاءة، ويتفوق في التعرف على العناصر المعقدة بما في ذلك النصوص والجداول والمعادلات والرسوم البيانية، مع الحفاظ على استهلاك موارد ضئيل. من خلال التقييمات الشاملة على معايير عامة مستخدمة على نطاق واسع ومعايير داخلية، يحقق PaddleOCR-VL أداءً رائدًا عالميًا (SOTA) في كل من تحليل المستندات على مستوى الصفحة والتعرف على مستوى العناصر.

يتفوق هذا النموذج بشكل كبير على الحلول الموجودة حاليًا، ويظهر قدرة تنافسية قوية ضد أفضل نماذج الرؤية-اللغة، ويوفر سرعات استدلال سريعة. تجعل هذه النقاط القوية النموذج مناسبًا جدًا للنشر العملي في سيناريوهات العالم الحقيقي.

الميزات الأساسية

بنية نموذج رؤية-لغة مضغوط وقوي في آن واحد

يقدم PaddleOCR-VL نموذج رؤية-لغة جديد مصمم خصيصًا للاستدلال الموفر للموارد، محققًا أداءً متميزًا في التعرف على العناصر. من خلال دمج مشفر بصري دقيق الديناميكي عالي الدقة بأسلوب NaViT مع نموذج اللغة خفيف الوزن ERNIE-4.5-0.3B، يعزز النظام بشكل كبير قدرات التعرف للنموذج وكفاءة فك التشفير. يحافظ هذا الدمج على دقة عالية مع تقليل الطلبات الحسابية، مما يجعله مناسبًا جدًا لتطبيقات معالجة المستندات الفعالة والعملية.

أداء رائد عالميًا (SOTA) في تحليل المستندات

يحقق PaddleOCR-VL أداءً رائدًا عالميًا في كل من تحليل المستندات على مستوى الصفحة والتعرف على مستوى العناصر. يتفوق بشكل كبير على الحلول القائمة على خطوط الأنابيب الموجودة حاليًا، ويظهر قدرة تنافسية قوية ضد أفضل نماذج الرؤية-اللغة في مجال تحليل المستندات. علاوة على ذلك، يتفوق PaddleOCR-VL في التعرف على عناصر المستندات المعقدة، مثل النصوص والجداول والمعادلات والرسوم البيانية، مما يجعله مناسبًا لمجموعة واسعة من أنواع المحتوى الصعبة، بما في ذلك النصوص اليدوية والمستندات التاريخية. هذا يجعله متعدد الاستخدامات للغاية ومناسبًا لمجموعة واسعة من أنواع المستندات والسيناريوهات.

دعم متعدد اللغات

يدعم PaddleOCR-VL 109 لغة، ويغطي اللغات العالمية الرئيسية، بما في ذلك على سبيل المثال لا الحصر الصينية والإنجليزية واليابانية واللاتينية والكورية. كما يدعم لغات ذات نصوص وتراكيب مختلفة، مثل الروسية (نص سيريلي)، والعربية، والهندية (نص ديفاناغاري)، والتايلاندية.

يعزز هذا التغطية اللغوية الواسعة بشكل كبير قابلية تطبيق النظام على سيناريوهات معالجة المستندات متعددة اللغات والعالمية.

بنية النموذج

يتيح المشفر البصري دقيق الديناميكي عالي الدقة بأسلوب NaViT للنموذج معالجة المستندات ذات الدقات المختلفة بكفاءة، مع الحفاظ على استخراج ميزات عالية الجودة عبر أنواع وتخطيطات المستندات المختلفة. يوفر نموذج اللغة خفيف الوزن ERNIE-4.5-0.3B قدرات قوية لفهم اللغة وتوليد المحتوى، حيث يعالج الميزات البصرية لتوليد مخرجات منظمة.

تحقق هذه التصميم المعماري توازنًا مثاليًا بين حجم النموذج وسرعة الاستدلال ودقة التعرف، مما يجعل PaddleOCR-VL-0.9B مثاليًا للنشر العملي حيث يكون الأداء والكفاءة متطلبات حرجة.

معايير الأداء

يظهر PaddleOCR-VL أداءً استثنائيًا عبر أبعاد تقييم متعددة، مما يرسخ مكانته كحل رائد عالميًا لتحليل المستندات والتعرف على العناصر.

تحليل المستندات على مستوى الصفحة

OmniDocBench v1.5: يحقق PaddleOCR-VL أداءً رائدًا عالميًا (SOTA) في المقاييس العامة والنصوص والمعادلات والجداول وترتيب القراءة على معيار OmniDocBench v1.5.

يتفوق النموذج باستمرار على الحلول المنافسة عبر جميع الفئات التي تم تقييمها، مما يظهر قدراته الشاملة لفهم المستندات.

OmniDocBench v1.0: يحقق PaddleOCR-VL أداءً رائدًا عالميًا (SOTA) في جميع المقاييس تقريبًا للمقاييس العامة والنصوص والمعادلات والجداول وترتيب القراءة على معيار OmniDocBench v1.0.

تؤكد هذه النتائج قدرات النموذج القوية عبر أنواع ومستويات تعقيد مختلفة للمستندات.

ملاحظة: تأتي المقاييس من MinerU و OmniDocBench والتقييمات الداخلية.

التعرف على مستوى العناصر

التعرف على النصوص: تؤسس القدرة القوية والمتعددة الاستخدامات لـ PaddleOCR-VL في التعامل مع أنواع مستندات متنوعة مكانته كأفضل طريقة في تقييم أداء كتلة التعرف الضوئي على الحروف (OCR) في معيار OmniDocBench.

يوفر تقييم التعرف الضوئي على الحروف (OCR) الداخلي تقييمًا للأداء عبر لغات وأنواع نصوص متعددة. يظهر PaddleOCR-VL دقة استثنائية مع أقل مسافات تعديل في جميع النصوص التي تم تقييمها.

التعرف على الجداول: تحتوي مجموعة التقييم المبنية ذاتيًا على أنواع متنوعة من صور الجداول، مثل الجداول باللغة الصينية والإنجليزية والمختلطة بينهما، والجداول ذات الحدود الكاملة أو الجزئية أو بدون حدود، وتنسيقات الكتب/الأدلة، والقوائم، والأوراق الأكاديمية، والجداول ذات الخلايا المدمجة، بالإضافة إلى الجداول منخفضة الجودة والجداول المطبوعة عليها علامات مائية.

يحقق PaddleOCR-VL أداءً متميزًا عبر جميع الفئات.

التعرف على المعادلات: تحتوي مجموعة التقييم على مطبوعات بسيطة، ومطبوعات معقدة، ومسوحات بالكاميرا، ومعادلات مكتوبة بخط اليد.

يظهر PaddleOCR-VL أفضل أداء في كل فئة.

التعرف على الرسوم البيانية: تم تصنيف مجموعة التقييم بشكل عام إلى 11 فئة من الرسوم البيانية، بما في ذلك المختلط من أعمدة وخطوط، والدائري، والأعمدة المكدسة بنسبة 100٪، والمنطقة، والأعمدة، والفقاعي، والهيستوجرام، والخطي، والمنتشر، والمنطقة المكدسة، والأعمدة المكدسة.

لا يتفوق PaddleOCR-VL فقط على نماذج الرؤية-اللغة (VLMs) المتخصصة في التعرف الضوئي على الحروف (OCR)، بل يتجاوز أيضًا بعض نماذج اللغة متعددة الوسائط من فئة 72B.

حالات الاستخدام والتطبيقات

رقمنة المستندات

حول المستندات الورقية إلى تنسيقات رقمية قابلة للبحث باستخدام قدرة التعرف على النصوص القوية لـ PaddleOCR-VL عبر 109 لغة. معالجة الفواتير والإيصالات والعقود والمستندات التجارية بكفاءة مع الحفاظ على دقة عالية حتى مع المسوحات منخفضة الجودة أو المحتوى المطبع عليه علامات مائية.

البحث الأكاديمي

استخرج المعادلات الرياضية والجداول والنصوص من الأوراق البحثية والنشرات العلمية. تتعامل قدرة التعرف الاستثنائية على المعادلات لـ PaddleOCR-VL مع التعبيرات الرياضية البسيطة والمعقدة، مما يجعله مثاليًا لمراجعة الأدبيات واستخراج البيانات من المحتوى الأكاديمي.

معالجة المستندات المالية

أتمتة استخراج البيانات من القوائم المالية وموازين الحسابات والتقارير. يتعرف نموذج التعرف المتقدم على الجداول بدقة على الجداول المعقدة ذات الخلايا المدمجة واللغات المتعددة وأنماط التنسيق المختلفة الشائعة في المستندات المالية.

رقمنة الأرشيفات التاريخية

احفظ المستندات التاريخية والمخطوطات باستخدام قدرة PaddleOCR-VL القوية على التعامل مع المحتوى الصعب بما في ذلك النصوص اليدوية والخطوط القديمة والحبر الباهت والورق المتآكل. يحافظ النموذج على الدقة حتى مع المستندات التاريخية ذات النصوص واللغات المختلفة.

تحليل الرسوم البيانية والبيانات

استخرج الرؤى من التمثيلات البصرية للبيانات عبر 11 نوعًا من الرسوم البيانية بما في ذلك الرسوم البيانية بالأعمدة والدائرية والرسوم الخطية والتصورات المختلطة المعقدة. مثالي لتطبيقات ذكاء الأعمال وأنظمة التقارير الآلية.

ابدأ استخدام PaddleOCR على منصة Novita AI

يوفر الوصول إلى PaddleOCR-VL عبر Novita AI مسارات متعددة مصممة خصيصًا لمستويات الخبرة التقنية المختلفة وحالات الاستخدام. سواء كنت مستخدمًا تجاريًا يستكشف قدرات الذكاء الاصطناعي أو مطورًا يبني تطبيقات إنتاجية، توفر Novita AI الأدوات التي تحتاجها.

استخدم مساحة التجربة (متاحة الآن – لا تتطلب برمجة)

وصول فوري: سجل الدخول وابدأ التجربة مع PaddleOCR-VL في ثوانٍ
واجهة تفاعلية: اختبر تحليل المستندات واعرض المخرجات في الوقت الفعلي
مقارنة النماذج: قارن بين PaddleOCR-VL والنماذج الرائدة الأخرى لحالة الاستخدام الخاصة بك

تتيح لك مساحة التجربة اختبار أنواع مختلفة من المستندات ورؤية النتائج الفورية دون أي إعداد تقني. مثالية للنماذج الأولية، واختبار الأفكار، وفهم قدرات النموذج قبل التنفيذ الكامل.

التكامل عبر واجهة برمجة التطبيقات (API) (متاحة الآن وجاهزة – للمطورين)

اربط PaddleOCR-VL بتطبيقاتك باستخدام واجهة برمجة التطبيقات REST الموحدة من Novita AI.

الخيار 1: التكامل المباشر عبر واجهة برمجة التطبيقات (مثال بلغة Python)

from openai import OpenAI
  
client = OpenAI(
    base_url="https://api.novita.ai/openai",
    api_key="",
)

model = "paddlepaddle/paddleocr-vl"
stream = True # or False
max_tokens = 8192
system_content = "Be a helpful assistant"
temperature = 1
top_p = 1
min_p = 0
top_k = 50
presence_penalty = 0
frequency_penalty = 0
repetition_penalty = 1
response_format = { "type": "text" }

chat_completion_res = client.chat.completions.create(
    model=model,
    messages=[
        {
            "role": "system",
            "content": system_content,
        },
        {
            "role": "user",
            "content": "Hi there!",
        }
    ],
    stream=stream,
    max_tokens=max_tokens,
    temperature=temperature,
    top_p=top_p,
    presence_penalty=presence_penalty,
    frequency_penalty=frequency_penalty,
    response_format=response_format,
    extra_body={
      "top_k": top_k,
      "repetition_penalty": repetition_penalty,
      "min_p": min_p
    }
  )

if stream:
    for chunk in chat_completion_res:
        print(chunk.choices[0].delta.content or "", end="")
else:
    print(chat_completion_res.choices[0].message.content)

الخيار 2: سير عمل متعدد الوكلاء باستخدام حزمة SDK لوكلاء OpenAI

ابنِ أنظمة متعددة الوكلاء متطورة تستفيد من قدرات تحليل المستندات المتقدمة لـ PaddleOCR-VL:

تكامل يعمل فورًا: استخدم PaddleOCR-VL في أي سير عمل لوكلاء OpenAI
قدرات الوكلاء المتقدمة: دعم عمليات التسليم والتوجيه والتكامل مع الأدوات مع فهم المستندات
بنية قابلة للتطوير: صمم وكلاء يستفيدون من قدرات التعرف الضوئي على الحروف (OCR) متعدد اللغات والتعرف على العناصر لـ PaddleOCR-VL

الخيار 3: الاتصال بالمنصات الخارجية

أدوات التطوير: تكامل سلس مع بيئات التطوير المتكاملة (IDEs) الشائعة مثل Cursor و Trae و Cline من خلال واجهات برمجة التطبيقات المتوافقة مع OpenAI وواجهات برمجة التطبيقات المتوافقة مع Anthropic.

أطر تنسيق سير العمل: اتصل بـ LangChain و Dify و CrewAI و Langflow ومنصات تنسيق الذكاء الاصطناعي الأخرى باستخدام موصلات رسمية.

تكامل مع Hugging Face: تعمل Novita AI كمزود استدلال رسمي لـ Hugging Face، مما يضمن توافقًا واسعًا مع النظام البيئي.

الخاتمة

يقدم PaddleOCR على Novita AI قدرات تحليل مستندات متعددة اللغات رائدة عالميًا من خلال نموذج رؤية-لغة فائق الضغط بحجم 0.9B يجمع بين دقة استثنائية وكفاءة متميزة. مع دعم 109 لغة، وأداء رائد عالميًا (SOTA) على معايير OmniDocBench، وتميز في التعرف على عناصر المستندات المعقدة بما في ذلك النصوص والجداول والمعادلات والرسوم البيانية، يمثل PaddleOCR-VL الخيار الأمثل لتطبيقات معالجة المستندات الحديثة.

تجعل البنية المضغوطة للنموذج وسرعات الاستدلال السريعة والكفاءة في استهلاك الموارد منه مناسبًا جدًا للنشر العملي في سيناريوهات العالم الحقيقي. سواء كنت تعالج مستندات متعددة اللغات، أو تستخرج بيانات من جداول معقدة، أو تتعرف على معادلات رياضية، أو تحلل رسومًا بيانية، يوفر PaddleOCR-VL على Novita AI الأداء والموثوقية التي تحتاجها.

ابدأ استكشاف قدرات تحليل المستندات الثورية لـ PaddleOCR-VL على Novita AI اليوم واختبر مستقبل معالجة المستندات الذكية مع منصتنا الصديقة للمطورين وخيارات التكامل السلسة.

Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة التطبيقات البسيطة الخاصة بنا، مع توفير سحابة GPU بأسعار معقولة وموثوقة للبناء والتوسع.

PaddleOCR على Novita AI: نموذج رؤية-لغة فائق الضغط 0.9B لتحليل المستندات

ما هو PaddleOCR-VL؟

الميزات الأساسية

بنية نموذج رؤية-لغة مضغوط وقوي في آن واحد