Data rengøring Teorier

Fejl kan ske under dataindsamlingen og integration og analytikere har brug for at vide, hvordan at identificere og rette op på disse fejl. Dette kaldes data rengøring eller data skrubning. Dette er ikke en eksakt videnskab , og nogle gange beslutning om hvad man skal gøre , er baseret på analytikerens dom , men hun ved, at ikke alene er det vigtigt at have en tilstrækkelig mængde data - det skal være af en velrenommeret kvalitet , også . Semantik og formatering

En fælles data rengøring Opgaven indebærer fjerne fejl i formateringen . Dette kunne være noget så simpelt som stavefejl foretaget under dataindsamling eller indrejse, op til problemer med symbol, der bruges til at adskille poster. For eksempel forestille sig følgende stykke data er inde i et datasæt , hvor en apostrof bruges til at adskille indgange :

Bird Watchers ' Club'42 Beacon Street'Boston

Dette ville blive læst som: Salg

Bird WatchersClub42 Beacon StreetBoston

Automatiserede forespørgsler og programmer er ofte bruges til at rense data for denne fejl.
Integration

Nogle datasæt er fint alene, men bliver problematisk , når de er integreret i et større arkiv eller et data warehouse . For eksempel kan alder være gemt som fødselsdato : Hej

dd /mm /yymm /dd /yyyy

Eller ved rækkevidde : Hej

20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45

i nogle tilfælde , såsom fødselsdato formatering , det er forholdsvis enkelt at identificere semantiske strukturer og standardisere posterne. I sager som de aldersgrupper dog skal antagelser foretages. For eksempel, er antallet af personer i alderen 25-35 gennemsnittet af de mennesker i alderen 20-30 og 30-40

Outliers

Outliers er? datapunkter , der ligger langt fra resten af dataene. For eksempel en alder på 600 , eller et testresultat flere gange højere end gennemsnittet . I førstnævnte tilfælde kan du roligt antage det var en tastefejl , men i sidstnævnte er det ikke så indlysende. Når du ikke ved, om en outlier er en fejl eller en legitim datapunkt , det er din vurdering, om at fjerne det eller ej, idet der tages hensyn til formålet med de pågældende data.
Manglende data < br >

Du skal også beslutte, hvad de skal gøre , hvis nogen mangler data . Først skal mønstre identificeres ved hjælp af forespørgsler og statistiske analyser - fordeling af manglende data bestemmer, hvad du skal gøre. For eksempel, hvis en online-undersøgelse har to sider, men kun spørgsmål om den første side blev besvaret kan denne information bruges til at hjælpe forfine formularerne. Hvis manglende data tilfældigt fordelt og er på den samme variabel , er det nogle gange muligt at foretage skøn baseret på, hvad der allerede er kendt .

Forrige ： Tilføjelse Evernote til iCal

næste ： Analytiske funktioner SQLite

Relaterede artikler

·	SQLite Datatyper
·	Min ODBC Forbindelse mislykkedes i Oracle
·	Sådan oprettes en MS Access-rapport med en tekstboks B…
·	Sådan Konverter datoer til heltal i SQL
·	Sådan får du adgang et hyperlink Query
·	Sådan bruges Access 2007 at oprette forbindelse til Or…
·	Sådan gør du: Tabeloprettelsesforespørgsel i Access
·	Sådan Trim alle data på venstre side af Value
·	Sådan kører Stored Procedure & Get Data i SSIS
·	Sådan oprettes en fyldbar Order Form

Anbefalede Artikler

·	Top Multiplayer PC Games
·	Sådan Embed en PDF-fil i en webside
·	Sådan bruges eHome Infrarød Med en mobiltelefon
·	Gratis PC Download spil for Kids
·	Hvordan du opgraderer til Limewire Pro
·	Sådan får du vist Skjult tekst i et Word- dokument
·	Sådan oprettes Evil Eyes Brug GIMP
·	Hvordan man laver en guitar Diploma
·	Sådan bruges Multisim
·	Hvad Er JPX File Extension