The US Postal Service bruger optisk tegngenkendelse ( OCR) teknologi til at læse adresserne på forsendelser . For mail læses af en OCR mail sorteringsanlæg imidlertid adresser og skrifttyper skal formateres på en bestemt måde . OCR-software er nyttigt til at konvertere scannede billeder af indtastede eller håndskrevne dokumenter til søgbare elektronisk tekst , men det har ulemper , der begrænser dens anvendelsesmuligheder. Begrænsede Dokumenter
OCR fungerer bedst med god kvalitet maskinskrevne dokumenter. Håndskrevne dokumenter kan ikke let læses af OCR-software . Ligeledes maskinskrevne skrifttyper , der ligner håndskrift - samt ikke-latinske skrifttyper - skabe mange fejl under OCR-processen . Hvis dokumentet har dårlig kontrast er krøllet eller snavset , eller teksten og baggrunden er ens i mørke, så OCR måske ikke fungerer godt. OCR har vanskeligheder med dokumenter, der har både billeder og tekst . Regneark vil også producere flere fejl .
Nøjagtighed
Ingen OCR-software er 100 procent korrekte . Antallet af fejl afhænger af kvaliteten og typen af dokument, herunder den anvendte skrifttype. Fejl, der opstår i løbet af OCR inkluderer fejllæsning breve , der springes over bogstaver, der er ulæselige , eller at blande tekst fra tilstødende kolonner eller billedfiler billedtekster. Hvis stor nøjagtighed er nødvendig - som med konvertering af digitale bøger til elektronisk format - derefter en oprydning af elektronisk tekst vil være behov
work-arounds
< br . >
OCR har svært ved at skelne mellem tegn , såsom antallet nul og et stort " O. " At arbejde omkring dette, kan en speciel OCR font skal anvendes, såsom at skrive nul. Men dette virker kun for dokumenter, der er oprettet med OCR i tankerne , såsom spørgeskemaer. Når du opretter spørgeskemaer , der vil være skrevet i hånden , forskerne også bruge kasser for hvert bogstav .
Ekstra arbejde
Selv hvis det scannede billede af det originale dokument er high- kvalitet, yderligere skridt skal ske at rydde op i OCR tekst. Det er meget arbejdskrævende at korrigere fejl skabt af OCR . En person har til manuelt at sammenligne det originale dokument og den elektroniske tekst. Mennesker også gøre fejl når du skriver tekst fra et dokument , men nogle gange er det hurtigere at springe OCR trin.