Summio

Glosari

Apakah PDF OCR?

PDF OCR (optical character recognition) ialah proses menukar teks yang dalam PDF terimbas hanya wujud sebagai imej menjadi teks yang boleh dipilih, dicari dan dibaca mesin.

Fail PDF terdapat dalam dua jenis: dengan lapisan teks (lahir digital, contohnya dieksport daripada Word atau LaTeX) — teks boleh dibaca terus; dan terimbas (foto kertas atau melalui pengimbas) — halaman hanya terdiri daripada imej huruf. Tanpa OCR, jenis kedua tidak boleh dicari, disalin atau diringkaskan.

Enjin OCR menganalisis imej halaman: mengesan baris dan aksara, mengenali bentuk (glif), membina semula perkataan dan perenggan, kemudian menambah lapisan teks pada PDF atau mengeksport fail teks berasingan. Enjin moden menggunakan rangkaian neural dalam, bukan algoritma padanan templat lama; pada cetakan bersih dalam bahasa utama, ketepatan melebihi 99%.

Kualiti OCR menurun pada imbasan lemah (kecondongan, resolusi rendah, dakwat pudar), formula padat, susunan berbilang lajur dan sistem tulisan dengan data latihan yang sedikit. Untuk dokumen penting, amalan terbaik: imbasan warna pada 300 dpi, enjin moden dan semak hasil sebelum memetik.

Di mana Summio sesuai

Apabila anda memuat naik PDF ke Summio, aplikasi mengesan secara automatik sama ada OCR diperlukan dan menjalankannya sebelum ringkasan. Fail asal dan teks OCR kekal dalam akaun anda — dan tidak digunakan untuk melatih mana-mana model AI.

Ketahui lebih lanjut tentang Summio →

Soalan lazim

Adakah PDF OCR percuma?

PDFKit terbina dalam Apple, Adobe Acrobat Reader dan kebanyakan alat PDF moden menawarkan OCR secara percuma atau dengan kos simbolik. Summio menyepadukan OCR terus ke dalam aliran ringkasan PDF, jadi langkah berasingan tidak diperlukan.

Sejauh manakah tepat OCR pada buku terimbas?

Pada bahasa utama dengan halaman cetak yang diimbas baik, OCR moden memberikan ketepatan melebihi 99% pada peringkat aksara. Imbasan condong, salinan pudar dan fon jarang boleh jatuh di bawah 90% dan memerlukan pembetulan manual.

Adakah OCR berfungsi pada PDF tulisan tangan?

Enjin lama bergelut dengan tulisan tangan. Enjin baharu berasaskan pembelajaran mesin (Apple Vision, Google Document AI) berprestasi baik pada tulisan yang kemas dan hampir cetakan; pada tulisan tangan tidak teratur, ia kurang berkesan.