Aranabilir PDF Nedir ?
Aranabilir PDF içerisinde arama, düzenleme yapılabilen, sayfa, paragraf veya
metin seçilerek kopyalanabilen pdf dosyalarıdır.
Scanner ile taranan belgeler bilgisayar ortamına grafik olarak aktarılır
ve bu grafik üzerinde arama, düzenleme ve kopyalama yapılamaz. Taranan belge,
doküman veya kitap sayfalarının üzerinde arama, düzenleme veya kopyalama
yapılmak isteniyorsa dijital ortama dosya olarak aktarılmış sayfaların OCR
işlemine tabi tutulması gerekmektedir.
OCR işlevi yapan bu iş için geliştirilmiş programların yanında Adobe firmasıda
PDF oluşturabilen Acrobat versiyonlarına OCR işlevini entegre etmiştir. Bu
sayede kısa süre içerisinde grafik dosyalardan oluşturulmuş PDF dosyaları
aranabilir, düzenlenebilir ve kopyalanabilir hale dönüştürülebilmektedir.
Acrobat programında OCR işlemi menüden tıklayarak yapılan ve herhangi bir bilgi
veya beceri gerektirmeyen bir işlemdir, bunun yanında Acrobat programının
Microsoft Word gibi bir kelime işlem veya OCR için geliştirilmiş bir program
olmamasından dolayı karaktere dönüştürülen metinlerin düzenlenmesi ve OCR
esnasından yanlış tanıma sonucunda oluşan hataların düzeltilmesi diğer
yazılımlara oranla çok zordur.
Aranabilir PDF dosyalarında karakter tanıma hatalarının düzeltilmesi çok zor
olduğu için oluşturulan dosya içerisinde yapılan aramalar büyük oranda eksik
bilgi getirecektir.
PDF Nedir ?
PDF Portable Document Format kelimelerinin kısaltmasıdır.
Türkçe karşılığı Taşınabilir Doküman Biçimi'dir. Genellikle tanıtım, katalog,
kullanım kılavuzu, e-kitap gibi amaçlarla kullanılır. Küçük dosya boyutları,
yaygın olarak kullanılan her tür bilgisayar ve taşınabilir cihazlarla
uyumluluğu, değiştirilme, yazdırma ve kopyalamaya karşı koruması,
internette arama motorlarının PDF dosyalarının içerisinde arama yapabilmesi gibi
özellikler PDF'lerin yaygın halde kullanılmasını sağlamaktadır.
PDF dosya tipleri
Grafik dosyalardan oluşturulmuş PDF dosyaları
Scanner ile taranmış kitap, dergi, evrak, doküman, belge gibi basılı
malzemeler, fotoğraf makinası ile çekilmiş fotoğraflar ve bilgisayar
ekranlarından alınan görüntülerle oluşturulan PDF dosyalarıdır.
Bu tipteki pdf dosyaları grafiklerden oluşması sebebi ile içerisindeki
görüntülerin kalitelerine bağlı olarak çok büyük dosya boyutlarında oluşabilir.
Grafik dosyalardan oluşturulmuş PDF'lerde arama, düzenleme ve kopyalama
yapılamaz bunların yanında, dosyaların bilgisayarda yavaş açılması, internette
upload ve download esnasındaki uzun süre alması ve disklerde çok yer tutması
gibi ciddi dezavantajları vardır. Avantajları ise taradıktan sonra çok fazla
işlem gerektirmemesi sebebi ile zaman ve paradan tasarruf sağlaması. Daha çok
resmi belgeler, görsel sunumlar, katologlar için uygundur.
Grafik PDF dosyalarında OCR işlemi yapılarak oluşturulmuş dosyalar
Grafik dosyalar ile oluşturulmuş PDF dosyaları üzerinde Acrobat programı
ile OCR işlemi yapılarak aranabilir PDF'e dönüştürülmüş dosyalardır.
Bu tip dosyalarda
arama, düzenleme ve kopyalama yapılabilir ama hata düzeltmesi yapılamadığı için
arama sonuçları güvenilir olmaktan uzak olacaktır. Kopyalanarak başka bir
programa yapıştırılan metinler mutlaka kontrol edilerek hataların düzeltilmesi
gerekmektedir. Maliyet açısından OCR işlemine oranla daha cazip bir seçenektir.
OCR yapılarak oluşturulmuş PDF dosyaları
Microsoft Word (.doc, .docx) dosyaları, Metin (.txt) dosyaları,
Microsoft Excel veya OCR işlemi yapılmış dosyalar gibi metin tabanlı dosyalardan
oluşturulmuş PDF dosyalarıdır. Diğer tipteki PDF dosyalarına nispeten
taşınabilirlik, paylaşılabilirlik ve düzenlenebilirlik açısından en kullanışlı
PDF dosya tipidir. Oluşturulan dosyalar grafik PDF dosyalarına oranla yüzlerce
kat daha küçük olabilir. İnternette kolayca paylaşılabilir mail ile gönderilip
alınabilir ve taşınabilir cihazlarda kolayca okunabilir. Ayrıca yaygın olarak
kullanılan E-Kitap formatlarına kolayca dönüştürülebilir. İçerisinde OCR
işleminden sonra hata düzeltmesi yapılabildiği için yapılacak kelime ve kelime
grupları aramaları birebir sonuç verecektir. Bu dosyalardan kopyalanacak
metinler başka programlara yapıştırılarak düzeltme yapmadan kullanılabilir.
Örnek PDF dosyalar