Glosaryo

Ano ang PDF OCR?

Ang PDF OCR (optical character recognition) ay ang proseso ng pag-convert ng teksto na sa isang scanned PDF ay nasa anyo lamang ng larawan tungo sa tekstong maaaring i-select, hanapin, at basahin ng makina.

May dalawang uri ng PDF: may text layer (isinilang nang digital, halimbawa, na-export mula sa Word o LaTeX) — direktang nababasa ang teksto; at scanned (litrato ng papel o pinadaan sa scanner) — ang pahina ay binubuo lamang ng mga larawan ng mga letra. Kung walang OCR, hindi mahahanap, makokopya, o maibubuod ang pangalawang uri.

Sinusuri ng OCR engine ang larawan ng pahina: tinutukoy ang mga linya at karakter, kinikilala ang mga hugis (glyphs), binubuo muli ang mga salita at talata, at pagkatapos ay nagdaragdag ng text layer sa PDF o nag-e-export ng hiwalay na text file. Gumagamit ang mga makabagong engine ng deep neural networks sa halip na mga lumang template-matching algorithms; sa malilinis na print sa mga pangunahing wika, ang accuracy ay lumalampas sa 99%.

Bumababa ang kalidad ng OCR sa masamang scans (pagkakahilig, mababang resolusyon, kupas na tinta), masinsinang formula, multi-column typesetting, at sa mga sistemang pampanitikan na may kaunting training data. Para sa mahahalagang dokumento, pinakamagandang gawi: kulay scan sa 300 dpi, modernong engine, at pagrepaso ng resulta bago sumipi.

Saan papasok ang Summio

Kapag nag-upload ka ng PDF sa Summio, awtomatikong nadi-detect ng app kung kinakailangan ang OCR at pinapatakbo ito bago ang buod. Parehong nananatili sa account mo ang orihinal na file at ang OCR text — at hindi ginagamit upang sanayin ang anumang AI model.

Alamin pa ang tungkol sa Summio →

Madalas itanong

Libre ba ang PDF OCR?

Ang built-in na PDFKit ng Apple, ang Adobe Acrobat Reader, at karamihan sa makabagong PDF tools ay nag-aalok ng OCR nang libre o sa simbolikong halaga. Isinasama ng Summio ang OCR direkta sa daloy ng pagbubuod ng PDF, kaya hindi kailangan ng hiwalay na hakbang.

Gaano katumpak ang OCR sa mga scanned na libro?

Sa mga pangunahing wika sa maayos na na-scan na print pages, ang modernong OCR ay naghahatid ng mahigit 99% na accuracy sa antas ng karakter. Ang mga nakahilig na scans, kupas na kopya, at hindi karaniwang fonts ay maaaring bumaba sa 90% at mangailangan ng manu-manong pagwawasto.

Gumagana ba ang OCR sa mga PDF na sulat-kamay?

Nahihirapan ang mga lumang engine sa handwriting. Ang mga bagong machine learning-based engine (Apple Vision, Google Document AI) ay maayos sa malinis at malapit-print na handwriting; sa magulong sulat-kamay, hindi sila kasing-epektibo.