لم يعد استخراج النص من الصور (OCR) مجرد “استخراج نص” فحسب. تحتاج الفرق الحديثة إلى ذكاء المستندات: ترتيب القراءة، التخطيط، الجداول، والمخرجات المنظمة على نطاق واسع—بدون أسعار OCR للشركات المرتفعة. يدفع DeepSeek OCR2 هذا الاتجاه إلى أبعد من ذلك مع نموذج ترميز بصري جديد، وتجعل Novita AI من العملي إطلاقه في الإنتاج مع واجهة برمجة تطبيقات وتسعير شفاف للرموز المميزة.
ما هو DeepSeek OCR2
مقدمة أساسية
DeepSeek-OCR 2 هو نموذج تعرف على المستندات متعدد الوسائط من DeepSeek AI، مصنف كترقية لـ DeepSeek-OCR (الجيل الأول). التغيير الرئيسي فيه هو DeepEncoder V2، الذي ينتقل بالمعالجة البصرية من “المسح الضوئي النقطي الصارم” (من أعلى اليسار إلى أسفل اليمين) إلى قراءة دلالية مستنيرة بالسببية—أقرب إلى كيفية اتباع البشر للهياكل المنطقية في المستندات المعقدة.
تتعطل خطوط OCR التقليدية غالبًا على ملفات PDF متعددة الأعمدة، وكشوف مالية مكتظة، وجداول مختلطة + هوامش سفلية، ونماذج ذات ترتيب قراءة معقد. صُمم OCR2 لفهم الصفحة، وليس فقط “التعرف على الأحرف”.
| الميزة | DeepSeek OCR2 |
| المنظمة | DeepSeek AI |
| نوع النموذج | التعرف على المستندات متعدد الوسائط (OCR + فهم للتخطيط) |
| الابتكار الرئيسي | يعيد DeepEncoder V2 ترتيب الرموز البصرية بناءً على دلالات الصورة (“المسح الثابت” → “الاستدلال الدلالي”) |
| نافذة السياق / الحد الأقصى للمخرجات | 8192 / 8192 |
| المدخلات / المخرجات | المدخلات: نص، صورة / المخرجات: نص |
| التكميم | bf16 |
| الترخيص | Apache-2.0 |

DeepSeek-OCR 2: التدفق السببي البصري
🔍على مستوى عالٍ:
- جانب المشفر: يمكن لـ DeepEncoder V2 إعادة ترتيب الرموز البصرية بناءً على دلالات الصورة قبل خطوة فك التشفير بنمط LLM.
- تصميم النظام: يُوصف OCR2 بأنه يحتفظ بمفكك تشفير DeepSeek-3B-MoE، بينما يستبدل المشفر القائم على CLIP الأصلي بمكون LLM خفيف (Qwen2-0.5B).
- كفاءة الرموز المميزة: يستهدف OCR2 تغطية المستندات باستخدام ميزانية مقيدة للرموز البصرية المميزة (يتراوح نطاقها المبلغ عنه بين 256 و 1120 حسب التعقيد).
أداء المعايير
تظهر تحسينات OCR2 بشكل أكبر على المعايير المركزة على المستندات:
- على OmniDocBench v1.5، يحقق DeepSeek-OCR 2 نسبة إجمالية تبلغ 91.09%، مكسبًا قدره +3.73% عن سابقه، ويقلل من مسافة تعديل ترتيب القراءة من 0.085 إلى 0.057.
- صُمم OmniDocBench لتقييم تحليل ملفات PDF في العالم الحقيقي عبر أنواع مستندات وتخطيطات ولغات متنوعة.
إذا كنت تبني سير عمل للمستندات (استيعاب الفواتير، معالجة المطالبات، ملفات PDF للامتثال، RAG فوق الأدلة)، فإن هذه المقاييس أهم من “دقة OCR العامة”، لأنها تقيس فهم الهيكل + التخطيط، وليس مجرد التعرف على مستوى الأحرف.
كيفية تقييم مزودي واجهات برمجة تطبيقات الذكاء الاصطناعي: 5 مقاييس رئيسية
اختيار النموذج هو نصف القرار فقط—فإن المزود هو الذي يحدد ما إذا كنت تستطيع التوسع بشكل موثوق.
| المقياس | التركيز الرئيسي | التأثير على العمل | سياق Novita AI / DeepSeek-OCR2 |
| طول السياق | حد الرموز المميزة | قطع أقل → استدعاءات أقل → خطوط أنابيب أبسط | يساعد سياق 8192 رمز مميز على الاحتفاظ بتحليل الصفحات المتعددة في تمرير واحد |
| تكلفة الرموز المميزة | تسعير واجهة برمجة التطبيقات | يؤثر مباشرة على العائد على الاستثمار لعمليات الاستخراج على نطاق واسع | تسعير مُحسّن لأحمال عمل OCR عالية الحجم (التفاصيل أدناه) |
| الاستجابة (TTFT/TPOT) | سرعة الاستجابة | يحسن تجارب OCR الموجهة للمستخدم | استجابة منخفضة لمعاينات أسرع وتطبيقات متجاوبة |
| الإنتاجية | RPS / التزامن | يتيح المعالجة الدفعية والتعامل مع ذروة حركة المرور | سعة تكافؤ عالية لعمليات دفعية + متزامنة |
| التكامل | التوافق | أسرع في الإطلاق عن طريق إعادة استخدام الأدوات الحالية | يعمل مع الأدوات المتوافقة مع OpenAI؛ كما يدعم التكامل بنمط Anthropic |
لماذا يجب أن تختار Novita AI؟
ملاحظة: بالإضافة إلى واجهات برمجة التطبيقات المتوافقة مع OpenAI، توفر Novita AI أيضًا واجهات متوافقة مع Anthropic، مما يسمح للفرق بإعادة استخدام الأدوات وطلبات التشغيل الحالية الخاصة بـ Claude مع تغييرات ضئيلة.
كفاءة التطوير
التكامل الأسرع = وقت أسرع لتحقيق القيمة. تقدم Novita واجهة متوافقة مع OpenAI، لذا يمكن لمعظم الفرق دمج OCR2 بتغيير ما يلي فقط:
- base_url:
https://api.novita.ai/openai - api_key:
<Your API Key> - model name:
deepseek/deepseek-ocr-2
ميزة التكلفة
تدرج Novita OCR2 بتسعير بسيط للغاية: نفس السعر المنخفض للرموز المميزة للمدخلات والمخرجات، مما يبسط التوقعات لأحمال عمل OCR الثقيلة.
وبما أن Novita تشغل نقاط نهاية بدون خوادم (serverless)، فإنك تتجنب عادة العبء التشغيلي لـ:
- توفير وحدات معالجة الرسوميات (GPUs)،
- خوادم الاستدلال ذات التحجيم التلقائي،
- صيانة حزم CUDA + الاستدلال.
سعر واجهة برمجة تطبيقات DeepSeek OCR2
في صفحة تسعير Novita، يُدرج deepseek/deepseek-ocr-2 كالتالي:
- المدخلات: 0.03 دولار لكل 1 مليون رمز مميز
- المخرجات: 0.03 دولار لكل 1 مليون رمز مميز
الوصول إلى واجهة برمجة تطبيقات DeepSeek OCR2
البدء السريع: جرّب DeepSeek OCR2 فورًا في مساحة اللعب الخاصة بـ Novita
أسرع طريقة للتحقق من صحة OCR2 لمستنداتك هي تشغيل بعض العينات الحقيقية في مساحة اللعب الخاصة بـ Novita—لا يتطلب إعدادًا مسبقًا
⚠ ملاحظة: للحصول على مخرجات محددة وثابتة، يرجى تعيين كل من
temperatureوtop_kإلى0. هذا يعطل العشوائية ويضمن أن النموذج ينتج نتائج متسقة عبر عمليات التشغيل.
احصل على مفتاح واجهة برمجة تطبيقات
- الخطوة 1: إنشاء حساب أو تسجيل الدخول إلى حسابك الحالي
زر [**https://novita.ai**](https://novita.ai) و سجّل حسابًا جديدًا أو سجل الدخول إلى حسابك الحالي
- الخطوة 2: الانتقال إلى إدارة المفاتيح
بعد تسجيل الدخول، ابحث عن “مفاتيح واجهة برمجة التطبيقات (API Keys)”

- الخطوة 3: إنشاء مفتاح جديد
انقر على زر “إضافة مفتاح جديد”.

- الخطوة 4: احفظ مفتاحك فورًا
انسخ المفتاح واحفظه فور توليده؛ عادة ما يظهر مرة واحدة فقط ولا يمكن استرداده لاحقًا. احتفظ بالمفتاح في مكان آمن مثل مدير كلمات المرور أو ملاحظات مشفرة.
استخدام واجهة برمجة التطبيقات (Python)
استخدم أمثلة الكود التالية للدمج مع واجهة برمجة التطبيقات الخاصة بنا:
from openai import OpenAI
client = OpenAI(
api_key="<Your API Key>",
base_url="https://api.novita.ai/openai"
)
response = client.chat.completions.create(
model="deepseek/deepseek-ocr-2",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello, how are you?"}
],
max_tokens=8192,
temperature=0.7
)
print(response.choices[0].message.content)
على الرغم من أن المثال أعلاه يستخدم Python، فإن واجهة برمجة التطبيقات الخاصة بـ Novita تعمل بنفس الطريقة في لغات أخرى مثل TypeScript و Java و Go و Shell—فقط مكتبة العميل تتغير.
الخلاصة
يرقي DeepSeek OCR2 من ذكاء المستندات عن طريق تحويل الترميز البصري من المسح الثابت إلى القراءة الدلالية المستنيرة بالسببية—وهو أمر ذو قيمة خاصة للتخطيطات المعقدة مثل الجداول وملفات PDF متعددة الأعمدة والنماذج المكتظة. مع Novita AI كمزود لواجهة برمجة تطبيقات OCR2، تحصل على تكامل متوافق مع OpenAI، وإعداد سريع، وتسعير شفاف بقيمة 0.03 دولار لكل 1 مليون رمز مميز للمدخلات و 0.03 دولار لكل 1 مليون رمز مميز للمخرجات. إذا كنت تبني سير عمل OCR إنتاجية (PDF → Markdown/JSON، استخراج الفواتير، المستند إلى RAG)، فإن Novita هي مسار نظيف وقابل للتوسع من النموذج الأولي إلى الإنتاجية العالية.
Novita AI هي منصة سحابية للذكاء الاصطناعي تقدم للمطورين طريقة سهلة لنشر نماذج الذكاء الاصطناعي باستخدام واجهة برمجة التطبيقات البسيطة الخاصة بنا، بالإضافة إلى توفير سحابة GPUs بأسعار معقولة وموثوقة للبناء والتوسع.
الأسئلة الشائعة
هل تدعم DeepSeek استخراج النص من الصور (OCR)؟
نعم. توفر DeepSeek إمكانيات OCR من خلال DeepSeek OCR2، وهو نموذج OCR من الجيل الثاني مصمم للتعرف على النص في المستندات والصور مع فهم قوي للتخطيط.
هل استخراج النص من الصور (OCR) من DeepSeek مجاني؟
نموذج DeepSeek OCR2 مفتوح المصدر على مستوى النموذج، ولكن استخدام واجهة برمجة التطبيقات ليس مجانيًا.
باستخدام Novita AI، تحصل على تسعير فعال من حيث التكلفة، شفاف، وادفع مقابل ما تستخدمه بدون أي تكاليف بنية تحتية إضافية—مما يجعله أكثر عملية واقتصادية من الاستضافة الذاتية للاستخدام الإنتاجي.
كيفية الوصول إلى استخراج النص من الصور (OCR) من DeepSeek؟
يمكنك الوصول إلى DeepSeek OCR2 إما عن طريق الاستضافة الذاتية للنموذج مفتوح المصدر أو باستخدام مزود واجهة برمجة تطبيقات سحابي مثل Novita AI، الذي يوفر وصول فوري لواجهة برمجة التطبيقات، ومساحة لعب، وتكامل متوافق مع حزم تطوير البرمجيات (SDK).

