? Optical Character Recognition (OCR ) er en data -entry teknik, der bruger en bestemt skrifttype og en OCR scanner til at læse tegnsæt og sende den til din computer. American National Standards Institute eller ANSI definerer skrifttypen som et sæt af tegn 0-9 , A til Z , og et par specialtegn , der hver indeholder en defineret størrelse og form. OCR fonte er reproducerbare , og mennesker, samt OCR scannere kan læse og skelne dem . Kategorier
OCR scannere er enten Text Input eller Data Capture -scannere. Tekstindtastning scannere læse hele dokumentet , eller i det mindste store dele af det. Datainput kan være hånd -fodres eller scanneren kan have automatiske data fodring , læsning , sortering og stabling kapaciteter. Når du bruger en Text Input scanner , redigering foregår enten under eller efter scanningen. Datafangst scannere opsamling og formatere data under scanningen , og ingen menneskelig redigering af data finder sted. På grund af dette, skal datafangst scannere være mere præcis.
Typer
Scanner typer kan være stationær eller håndholdt . Stationære scannere , såsom fladvogn , ark -fed og tromme scannere primært bruger Text Input til at læse , proces og lagring af data billeder på din computer, hvor du kan redigere eller på anden måde formatere erobrede tekst. Håndholdte scannere, såsom digitale penne eller stregkodescannere , bruge enten Text Input eller Data Capture til at læse og bearbejde data oplysninger og derefter gemme det til senere redigering eller "låse" data for at forhindre redigering.
Metoder
kort fortalt en OCR scanner tager et billede af dokumentet , og derefter OCR scanner software ser på OCR font billedet indeholder og læser og konverterer det til tekst ved hjælp af enten en Matrix Matching eller Feature Extraction metode. Matrix Matching er en form for mønstergenkendelse , hvor scanneren ser på en karakter og matcher det med et i sit bibliotek af tegn eller tegn skabeloner . Feature Extraction ikke stole på en foruddefineret bibliotek , men på generelle træk såsom åbne områder , lukkede former og krydsende linjer, når tyde tegn. Feature Extraction også går under navnet Intelligent Character Recognition eller ICR .
Fordele
Den væsentligste fordel ved at bruge et OCR -scanner er afskaffelsen af menneskelige indtastningsfejl . OCR scannere læse data i hastigheder, der kan nå over 200 tegn pr sekund. Den nøjagtighed på en OCR- scanner er 99,9975 procent , eller et tegn fejllæsning i 40.000 , sammenlignet med en menneskelig fejllæsning på en i 300 tegn. Automatisk kontrolciffer validering kan bringe OCR nøjagtighed til færre end én ud af 3.000.000 .
Overvejelser
Dårlig kvalitet originaler vil resultere i mindre nøjagtige OCR dokumenter. Håndskrevne dokumenter , behøver dokumenter, der indeholder formateret tekst, gamle dokumenter , fotokopier og mest faxede dokumenter, der ikke fungerer godt sammen med OCR -scannere. Anbefalinger til acceptable dokumenter omfatter trykt tekst i en skriftstørrelse mindre end 72 point, laser-og inkjet printer tekst, fax dokumenter med 200 dots per inch ( dpi) eller højere opløsning og kommercielt trykte materialer såsom bøger , brochurer og magasiner. < br >