Fejl kan ske under dataindsamlingen og integration og analytikere har brug for at vide, hvordan at identificere og rette op på disse fejl. Dette kaldes data rengøring eller data skrubning. Dette er ikke en eksakt videnskab , og nogle gange beslutning om hvad man skal gøre , er baseret på analytikerens dom , men hun ved, at ikke alene er det vigtigt at have en tilstrækkelig mængde data - det skal være af en velrenommeret kvalitet , også . Semantik og formatering
En fælles data rengøring Opgaven indebærer fjerne fejl i formateringen . Dette kunne være noget så simpelt som stavefejl foretaget under dataindsamling eller indrejse, op til problemer med symbol, der bruges til at adskille poster. For eksempel forestille sig følgende stykke data er inde i et datasæt , hvor en apostrof bruges til at adskille indgange :
Bird Watchers ' Club'42 Beacon Street'Boston
Dette ville blive læst som: Salg
Bird WatchersClub42 Beacon StreetBoston
Automatiserede forespørgsler og programmer er ofte bruges til at rense data for denne fejl.
Integration
Nogle datasæt er fint alene, men bliver problematisk , når de er integreret i et større arkiv eller et data warehouse . For eksempel kan alder være gemt som fødselsdato : Hej
dd /mm /yymm /dd /yyyy
Eller ved rækkevidde : Hej
20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45
i nogle tilfælde , såsom fødselsdato formatering , det er forholdsvis enkelt at identificere semantiske strukturer og standardisere posterne. I sager som de aldersgrupper dog skal antagelser foretages. For eksempel, er antallet af personer i alderen 25-35 gennemsnittet af de mennesker i alderen 20-30 og 30-40
Outliers
Outliers er? datapunkter , der ligger langt fra resten af dataene. For eksempel en alder på 600 , eller et testresultat flere gange højere end gennemsnittet . I førstnævnte tilfælde kan du roligt antage det var en tastefejl , men i sidstnævnte er det ikke så indlysende. Når du ikke ved, om en outlier er en fejl eller en legitim datapunkt , det er din vurdering, om at fjerne det eller ej, idet der tages hensyn til formålet med de pågældende data.
Manglende data < br >
Du skal også beslutte, hvad de skal gøre , hvis nogen mangler data . Først skal mønstre identificeres ved hjælp af forespørgsler og statistiske analyser - fordeling af manglende data bestemmer, hvad du skal gøre. For eksempel, hvis en online-undersøgelse har to sider, men kun spørgsmål om den første side blev besvaret kan denne information bruges til at hjælpe forfine formularerne. Hvis manglende data tilfældigt fordelt og er på den samme variabel , er det nogle gange muligt at foretage skøn baseret på, hvad der allerede er kendt .