Sözlük

PDF OCR nedir?

PDF OCR (optik karakter tanıma), taranmış PDF içinde yalnızca görüntü olarak görünen metni seçilebilir, aranabilir ve makinece okunabilir metne dönüştürme sürecidir.

PDF dosyaları iki türlüdür: metin katmanlı (dijital doğmuş, örneğin Word veya LaTeX’ten dışa aktarılmış) — metin doğrudan okunabilir; ve taranmış (kâğıdın fotoğrafı veya tarayıcıdan geçmiş) — sayfa yalnızca harf resimlerinden oluşur. OCR olmadan ikinci tipte aramak, kopyalamak veya özetlemek mümkün değildir.

OCR motoru sayfa görüntüsünü analiz eder: satırları ve karakterleri belirler, biçimleri (glifler) tanır, sözcükleri ve paragrafları yeniden kurar; ardından PDF’ye metin katmanı ekler veya ayrı bir metin dosyası çıkarır. Modern motorlar eski şablon eşleşmesi yerine derin sinir ağları kullanır; başlıca dillerde temiz baskı metninde doğruluk %99’u aşar.

OCR kalitesi kötü taramalarda (eğrilik, düşük çözünürlük, soluk mürekkep), yoğun formüllerde, çok sütunlu dizgide ve eğitim verisi az olan yazı sistemlerinde düşer. Önemli belgeler için en iyi uygulama: 300 dpi’da renkli tarama, modern motor ve sonucu alıntılamadan önce gözden geçirme.

Summio buraya nereden giriyor

PDF’i Summio’ya yüklediğinizde uygulama OCR gerekip gerekmediğini otomatik algılar ve özetten önce çalıştırır. Hem orijinal dosya hem OCR metni hesabınızda kalır — ve hiçbir AI modelini eğitmek için kullanılmaz.

Summio hakkında daha fazlası →

Sık sorulan sorular

PDF OCR ücretsiz mi?

Apple’ın yerleşik PDFKit’i, Adobe Acrobat Reader ve çoğu modern PDF aracı OCR’ı ücretsiz veya sembolik ücretle sunar. Summio OCR’ı doğrudan PDF özetleme akışına yerleştirir, yani ayrı bir adım gerekmez.

Taranmış kitaplarda OCR ne kadar doğru?

Başlıca dillerde iyi taranmış baskı sayfalarında modern OCR karakter düzeyinde %99’un üzerinde doğruluk verir. Eğri taramalar, soluk kopyalar ve nadir yazı tipleri %90’ın altına düşebilir ve elle düzeltme gerektirebilir.

OCR el yazısı PDF’lerinde çalışır mı?

Eski motorlar el yazısıyla zorlanır. Makine öğrenmesine dayalı yeniler (Apple Vision, Google Document AI) düzgün, baskıya yakın yazıda mantıklı sonuç verir; karışık el yazısında daha az verimlidir.