Optical Character Recognition (OCR)

Apa itu OCR? OCR atau Optical Character Recognition adalah proses mengubah karakter huruf yang tercantum pada file image (gambar) menjadi karakter huruf yang bisa di-edit dalam format teks pada komputer.  File gambar yang akan diubah dengan OCR biasanya adalah hasil scan dari naskah cetak (buku, majalah, ketikan, dll) yang diambil dengan menggunakan scanner. Hasil akhir dari proses OCR ini adalah format teks yang bisa di-edit dan disimpan ke dalam aplikasi pengolah kata seperti Ms. Word, Notepad, LibreOffice, dll atau aplikasi lainnya yang bisa menyimpan teks seperti Ms. Excel dsb.

Optical character recognition (OCR) is the mechanical or electronic conversion of images of typewritten or printed text into machine-encoded text. It is widely used as a form of data entry from printed paper data records, whether passport documents, invoices, bank statements, computerized receipts, business cards, mail, printouts of static-data, or any suitable documentation. It is a common method of digitizing printed texts so that it can be electronically edited, searched, stored more compactly, displayed on-line, and used in machine processes such as machine translation, text-to-speech, key data and text mining.

Wikipedia

Teknologi OCR ini bisa kita manfaatkan misalnya jika kita memerlukan format digital dari makalah yang sudah hilang file-nya, atau sekedar perlu meng-copy teks dari selembar pamflet. Untuk penggunaan yang lebih kompleks misalnya digitalisasi dokumen perusahaan yang jumlahnya bisa sangat banyak. Saya sering juga menggunakan proses OCR ini untuk memasukkan artikel pada website klien yang diberikan dalam format print.

Penggunaan teknologi OCR tentu sangat memudahkan dan menghemat waktu, karena waktu dan tenaga yang dibutuhkan untuk proses OCR ini jauh lebih sedikit dibandingkan jika kita mengetik ulang suatu naskah cetak ke dalam format digital. Bisa dibayangkan berapa lama waktu yang kita perlukan jika kita harus mengetik ulang dokumen cetak sebanyak ratusan halaman ke dalam Ms. Word misalnya, belum lagi ditambah pegalnya jari-jari tangan dan perihnya mata yang pastinya bisa bikin stres. 😀 Dengan OCR kita hanya perlu men-scan dokumen-dokumen tersebut, dan proses selanjutnya (mengubah gambar hasil scan menjadi teks) akan dilakukan oleh aplikasi OCR, dan kita tinggal menyimpannya ke dalam format teks. Adapun proses tambahan hanya dilakukan jika terdapat karakter yang salah dikenali oleh aplikasi OCR dan kita hanya perlu sedikit mengubahnya. Biasanya kesalahan pengenalan karakter ini terjadi pada dokumen yang memiliki latar belakang gambar yang rumit sehingga ‘mengganggu’ hasil tangkapan OCR, atau bisa juga terjadi pada dokumen yang kualitas cetaknya buruk (misalnya sudah beberapa kali difotokopi sehingga tampilan huruf-hurufnya menjadi kurang jelas).

Untuk melakukan OCR yang diperlukan adalah scanner untuk menangkap gambar dokumen dan tentu saja aplikasi OCR untuk memprosesnya. Selain aplikasi OCR yang harus di-install ke dalam komputer kita seperti OmniPage dan ABBYY FineReader (keduanya aplikasi berbayar), juga terdapat beberapa layanan OCR secara online antara lain onlineOCR.net dan Google Drive / Google Docs yang bisa kita gunakan secara gratis.

Scanner - peripheral komputer untuk Optical Character Recognition (OCR)

Scanner – peripheral komputer yang dibutuhkan untuk proses Optical Character Recognition (OCR)

Secara umum proses OCR ini adalah sebagai berikut:

Aplikasi OCR pada komputer:

Scan dokumen → Proses OCR → Copy teks / Save ke file teks

Layanan OCR online:

Scan dokumen → Upload file gambar → Proses OCR → Copy teks / Download file teks

 


Respons

Beri Respons