Data kan blive beskadiget i en række forskellige måder , fra brugernes indtastningsfejl til formatering uoverensstemmelser. Dubletter er en af de mest almindelige dataproblemer i de fleste virksomheders databaser. Den bedste måde at sikre data nøjagtighed er at forebygge korruption, men det er klogt at have en plan til at håndtere dataproblemer der skulle opstå problemer . Dobbeltarbejde
dubletter kan være en frustrerende ting at se som en data revisor. Ofte kan en front-end data skærmen ikke fange visse typer dubletter , for eksempel, i en adresse tabel, kan 123 Main Street og Bredgade 123 synes at være to separate adresser, når de i virkeligheden er den samme adresse < . br >
Dette kan løses ved hjælp af en af to metoder : data fjernelse eller data korrektion. Data fjernelse vil betyde at slette alle, men en instans af et sæt dubletter , mens data korrektion opdatere alle forekomster af dobbeltarbejde til en enkelt aftalte værdi. Software pakker er tilgængelige , der bruger en algoritme til at identificere outliers baseret på standardafvigelse , klynger eller andre kriterier , så outliers vurderes af et emne ekspert, der afgør skæbnen for den uventede post.
Uddrag , Transform , Load
Uddrag , transformere, indlæse, eller ETF , er en almindeligt anvendt metode til at flytte og rengøre data. Mens ingen manuel udrensning opstår, er der automatiserede opgaver i translate fase . For eksempel, " , kvinde ", hvis kildetabellen stores " M " og " F" og destinationen bordet gemmer "mandlige " og et script køres til at oversætte data til de nye værdier.
Når dataene renses og valideret , kan det blive importeret til destinationen bordet . Det kan også indføres i de gamle data at overskrive data . Det fungerer godt, når en hel kolonne af data i et skema, som skal ændres.
Opdatering Legacy Systems
Opdatering af en nedarvede system involverer typisk flytter data til en mellemliggende placering eller iscenesættelse område , hvor det gennemgår derefter en automatiseret samt manuelle data udrensning rundt. Dette gøres for at undgå at gøre nogen uigenkaldelige fejltagelser til gamle data , før du importerer den ind i det nye system. Det skal bemærkes, at de oprindelige data ikke skal opdateres , ifølge oplysninger - management.com , for at undgå at opretholde to forskellige datasæt . Det bør pensioneret i stedet og det nye system skulle være den eneste i brug fremadrettet.