المعجم

ما هو OCR لملفّ PDF؟

OCR لملفّ PDF (التعرّف الضوئي على الحروف) هو عملية تحويل النصّ الذي يظهر داخل PDF ممسوح ضوئيًا على هيئة صورة إلى نصّ قابل للتحديد والبحث وقراءة الآلة.

ثمّة نوعان من ملفّات PDF: ملفّات بطبقة نصّية (مولودة رقميًا، مثل تلك المُصدَّرة من Word أو LaTeX)، وفيها يُقرأ النصّ مباشرةً؛ وملفّات ممسوحة ضوئيًا (ورق صُوِّر أو مُرِّر على ماسحة)، حيث ليست الصفحة سوى صورة من حروف. دون OCR لا يمكن البحث في النوع الثاني، ولا نسخه، ولا تلخيصه.

يُحلِّل محرّك OCR صورة الصفحة، فيُحدِّد الأسطر والحروف، ويتعرَّف على الأشكال (الجلِيفات)، ويُعيد بناء الكلمات والفقرات، ثم يُضيف طبقة نصّ إلى PDF أو يُخرج ملفًّا نصّيًّا منفصلًا. تستعين محرّكات OCR الحديثة بشبكات عصبية عميقة بدل خوارزميات المطابقة القديمة، وقد بلغت دقّتها على النصوص المطبوعة النظيفة في اللغات الرئيسية ما يفوق 99٪.

تتراجع جودة OCR على المسوحات الرديئة (الميل، الدقّة المنخفضة، الحبر الباهت)، وعلى المعادلات الكثيفة، والتنضيد المتعدِّد الأعمدة، وعلى أنظمة الكتابة التي تشحُّ لها بيانات التدريب. وأفضل ممارسة للوثائق المهمّة: المسح بدقّة 300 dpi وبالألوان، وتشغيل محرّك حديث، ومراجعة المُخرَجات قبل الاستشهاد بها.

موقع Summio

حين ترفع ملفّ PDF إلى Summio، يكتشف التطبيق تلقائيًا ما إذا كان يحتاج إلى OCR ويُشغِّله قبل التلخيص. يبقى الملفّ الأصلي ونصّ OCR داخل حسابك — ولا يُستخدمان في تدريب أيّ نموذج ذكاء اصطناعي.

اقرأ المزيد عن Summio ←

الأسئلة الشائعة

هل OCR لـ PDF مجّاني؟

يأتي PDFKit المدمج من Apple وAdobe Acrobat Reader ومعظم أدوات PDF الحديثة بميزة OCR مجّانًا أو بتكلفة زهيدة. ويُدمج Summio OCR ضمن تلخيص PDF نفسه، فلا حاجة إلى خطوة منفصلة.

إلى أي مدى تكون دقّة OCR في الكتب الممسوحة؟

في الصفحات المطبوعة الممسوحة جيّدًا وباللغات الرئيسية، يتجاوز OCR الحديث دقّةَ 99٪ على مستوى الحرف. أمّا المسوحات المائلة والنسخ الباهتة والخطوط النادرة فقد تهبط دون 90٪ وتستوجب تنظيفًا يدويًّا.

هل يعمل OCR على ملفّات PDF بخطّ اليد؟

تتعثَّر محرّكات OCR القديمة في خطّ اليد. أمّا الأحدث القائمة على التعلُّم الآلي (إطار Vision من Apple، وGoogle Document AI) فتتعامل بصورة معقولة مع الكتابة الواضحة شبه الطباعية، وأقلّ كفاءةً مع الخطّ المتّصل.