Når analysere data , er det ikke kun nødvendigt at have en tilstrækkelig stor mængde , men det er også afgørende , at kvaliteten af data er af høj standard . Data kan gøres " dirty" på en række måder - fejl under indsamling, fejl foretages, når integrere flere datasæt og utilsigtet sletning er blot et par af sådanne måder. På grund af dette , er det vigtigt, at data bliver rengjort før brug . Manglende data
Automatiserede procedurer er ofte bruges til at finde forsvundne data. Disse kan være SQL-forespørgsler i en database , eller statistiske analyser. Som en analytiker du kigge efter mønstre i udbredelsen af manglende data. Du kan derefter træffe beslutninger om, hvad de skal gøre, som kan være at udelukke bestemte variabler helt eller udskifte deres værdier med gennemsnit . Sommetider manglende data kan indikere fejl, når integrere flere datasæt , og et worst-case scenario hele processen skal muligvis gentages for at indhente alle data.
Outliers
< p > en outlier er en dataværdi , der er langt uden for det generelle mønster af data . De kan identificeres med grafer, såsom kassegraferne , eller ved at søge efter værdier et vist antal standardafvigelser væk fra middelværdien . Når identificeret , skal du beslutte, om at fjerne dem , eller ikke - som indebærer at afgøre, om de var fejl i dataindsamlingen eller sande værdier . Nogle gange, kan du vælge at køre visse procedurer med og uden outliers for at sammenligne resultaterne .
Formateringsfejl
mere verdslige fejl i et datasæt kan være stavefejl eller andre lignende fejl. Forespørgsler kan bruges til at finde og erstatte åbenlyse fejl såsom stavefejl af navne eller steder , men de kan også bruges til at fremhæve datapunkter, der måske har brug for rengøring. For eksempel kan du køre en søgning efter efternavne eller telefonnumre over og under en vis længde , for at lokalisere fejl, der opstod et eller andet sted langs den dataindsamling og integrationsproces.
Datakodning
< br >
Det er almindeligt for data i første omgang at være i et format, der er uegnet til analyse. For eksempel kan besvarelserne skal konverteres til en numerisk tilsvarende , for eksempel fra " Meget enig " til " 7 " eller kategoriske variabler som køn muligvis omdannes til binære indikatorvariabler . Dette kaldes kodning eller omkodning , og det er god praksis at skabe nye variabler med de nyligt kodede data snarere end overskrive de gamle, så fejl kan være tilbage kontrolleret .
< br >