Ang optical character recognition (OCR) ay ang pagsasalin ng optically scan bitmaps ng naka-print o nakasulat na teksto character sa character na code, tulad ng ASCII. Ito ay isang mahusay na paraan upang i-materyales hard-kopya sa mga file ng data na maaaring ma-edit at kung hindi man ay manipulahin sa isang computer. Ito ang teknolohiya matagal na ginagamit ng mga aklatan at mga ahensya ng gobyerno upang gumawa ng mabilis na magagamit sa elektronikong paraan napakahabang mga dokumento. Paglago sa OCR teknolohiya na spurred nito pagtaas ng paggamit ng mga enterprise. Para sa maraming mga dokumento-input mga gawain, OCR ay ang pinaka cost-effective at available mabilis na pamamaraan. At bawat taon, ang teknolohiya pinakakawalan nito isang ektaryang espasyo ng storage sa sandaling naibigay na sa paglipas sa cabinet file at mga kahon na puno ng mga dokumento papel. Bago OCR ay maaaring gamitin, dapat ma-scan ang pinagmulan ng materyal na gamit ang isang optical scanner (at kung minsan sa isang espesyal na circuit board sa PC) upang basahin sa pahina bilang isang bitmap (isang pattern ng tuldok). Software upang makilala ang mga imahe ay kinakailangan din.
Ang aming software package ay nagmumungkahi na malutas ang pag-uuri ng nakahiwalay na sulat-kamay na mga character at numero ng Udyi, Kyoto Panulat Character Set ng Data gamit Neural Network. Binubuo ang data ng sample ng 26 mga character at 10 digit na isinulat ng mga 11 manunulat sa isang tablet PC. Ang mga character (sa karaniwang UNIPEN format) ay nakasulat sa parehong upper at lower case at mayroong isang buong dalawang hanay ng mga character sa bawat manunulat. Kaya dapat maging sa isa sa mga 35 na mga klase ng output. Ang pangwakas na layunin ay pagbuo ng isang manunulat malayang modelo para sa bawat character.
Ang pagpili ng mga mahalagang mga tampok ay mahalaga sa character recognition, sa makatuwid ang isang bago at makabuluhang mga hanay ng mga tampok, ang mga Uniform Differential Normalized na Coordinate (UDNC), ipinakilala sa pamamagitan ng C. Agell, ay pinagtibay. Ang mga tampok na ipinapakita ang upang mapabuti ang rate ng pagkilala gamit ang simpleng algorithm pag-uuri kaya sila ay ginagamit upang sanayin ang isang Neural Network at subukan ang pagganap nito sa Udyi, Kyoto Panulat Character Set ng Data.
Mga Tuntunin Index:. MATLAB, pinagmulan, code, OCR, optical character recognition,-scan ng teksto, nakasulat na teksto, ascii, nakahiwalay na character
Mga Kinakailangan :
MATLAB
Mga Komento hindi natagpuan