Ano ang Optical Character Recognition (OCR)?

Ang Pagkilala sa Optical Character (OCR) ay tumutukoy sa software na lumilikha ng isang digital na bersyon ng isang naka-print na, na-type, o sulat-kamay na dokumento na maaaring basahin ng mga computer nang hindi na kailangang manu-manong i-type o ipasok ang teksto. Ang OCR ay karaniwang ginagamit sa mga na-scan na dokumento sa format na PDF , ngunit maaari ring lumikha ng isang computer na nababasa na bersyon ng teksto sa loob ng isang file ng imahe.

Ano ang OCR?

Ang OCR, tinutukoy din bilang pagkilala ng teksto, ay isang teknolohiyang software na nagbabago ng mga character tulad ng mga numero, mga titik, at bantas (tinatawag ding mga glyphs) mula sa mga nakalimbag o nakasulat na mga dokumento sa isang elektronikong anyo na mas madaling nakilala at binabasa ng mga computer at iba pang mga program ng software. Ginagawa ito ng ilang mga programa ng OCR bilang isang dokumento na na-scan o nakuhanan ng litrato gamit ang isang digital camera at maaaring ilapat ng iba ang prosesong ito sa mga dokumento na naunang na-scan o nakuhanan ng litrato nang walang OCR. Pinapayagan ng OCR ang mga user na maghanap sa loob ng mga dokumentong PDF, mag-edit ng teksto, at mag-format muli ng mga dokumento.

Ano ang Ginamit ng OCR?

Para sa mabilis, araw-araw na pag-scan ng mga pangangailangan, OCR ay maaaring hindi isang malaking pakikitungo. Kung gagawin mo ang isang malaking halaga ng pag-scan, ang pag-search sa loob ng mga PDF upang mahanap ang eksaktong isa na kailangan mo ay maaaring i-save medyo isang oras at ginagawang mas mahalaga ang pag-andar ng OCR sa iyong scanner program. Narito ang ilang iba pang mga bagay na tumutulong sa OCR sa:

Bakit Gamitin ang OCR?

Bakit hindi lang kumuha ng litrato, tama ba? Dahil hindi mo ma-edit ang anumang bagay o maghanap sa teksto dahil ito ay magiging isang imahe lamang. Ang pag-scan sa dokumento at pagpapatakbo ng software ng OCR ay maaaring magpalit ng file na iyon sa isang bagay na maaari mong i-edit at ma-search.

Kasaysayan ng OCR

Habang ang pinakamaagang paggamit ng mga petsa ng pagkilala ng teksto ay nagsimula noong 1914, ang malawak na pag-unlad at paggamit ng mga teknolohiya na may kaugnayan sa OCR ay nagsimula nang maigting noong 1950s, partikular na sa paglikha ng mga pinasimple na mga font na mas madaling i-convert sa digital na nababasa na teksto. Ang una sa mga pinasimpleng mga font ay nilikha ni David Shepard at karaniwang kilala bilang OCR-7B. Ginagamit pa rin ang OCR-7B ngayon sa industriya ng pananalapi para sa standard na font na ginagamit sa mga credit card at debit card. Noong dekada ng 1960, nagsimula ang paggamit ng mga serbisyo sa koreo sa ilang bansa sa teknolohiya ng OCR upang mapabilis ang pagpapabilis ng pag-uuri ng mail, kabilang ang Estados Unidos, Great Britain, Canada, at Alemanya. Ang OCR ay pa rin ang pangunahing teknolohiya na ginagamit upang mag-uri-uriin ang mail para sa mga serbisyong postal sa buong mundo. Noong 2000, ang pangunahing kaalaman sa mga limitasyon at kakayahan ng teknolohiya ng OCR ay ginamit upang bumuo ng mga programang CAPTCHA na ginagamit upang itigil ang mga bot at mga spammer.

Sa paglipas ng mga dekada, ang OCR ay naging mas tumpak at mas sopistikadong dahil sa mga pagsulong sa mga kaugnay na lugar ng teknolohiya tulad ng artificial intelligence , pag- aaral ng makina , at pangitain ng computer. Sa ngayon, ang software ng OCR ay gumagamit ng pagkilala sa pagkilala, pagtukoy sa tampok, at pagmimina ng teksto upang baguhin ang mga dokumento nang mas mabilis at mas tumpak kaysa sa dati.