Data udrensning - ellers kendt som data rengøring eller skrubbe - er processen opdage og korrigere fejl, uoverensstemmelser og mangler i data. Umådelige mængder af data er indsamlet og analyseret af politikere, økonomer og forskere , men fejl i data - som kan påvirke dens behandling og konklusionerne fra det - er fælles og kan forventes. Der findes flere metoder til data udrensning , både traditionelle og automatiseret. Statistiske metoder
Statistiske metoder kan bruges til at revidere data og korrigere selv komplekse datafejl. En statistiker kan analysere middelværdi, standardafvigelse og interval af dataværdier og dermed identificere individuelle databaseposter ( tuples ) , der er ugyldige . Disse poster kan slettes , eller erstattes med et gennemsnitligt eller andre statistiske værdi. Statistiske metoder til data udrensning kan også indikere manglende værdier , som kan udfyldes med plausible værdier baseret på den resterende del af datasættet.
Data Cleansing Tools
data udrensning værktøjer har eksisteret i en årrække. Automatiserede datarensning værktøjer typisk fokusere på en bestemt database -domæne - som definerer de mulige værdier , end der kan indgås hvert felt eller en attribut - såsom navn og adressedata. De bruger typisk et sæt matchende regler fra et bibliotek , eller leveret interaktivt af brugeren , at validere gadenavne , bynavne og postnumre og omdanne de eksisterende data i individuelle , standard elementer. De bruger rekord matching at afgøre, om to poster repræsentere data om samme emne og er i stand til at kombinere enkeltpersoner poster, der har , siger, samme adresse. Data Cleansing redskaber kan variere i niveauet af raffinement med hensyn til data revision, rengøring og migration.
ETL værktøjer
ETL står for " Extract , Transform , Load ", og der er mange kommercielle software-værktøjer til hjælp for ETL -processen af data udrensning. De vigtigste kendetegn ved et effektivt ETL værktøj er dets evne til at læse kildedata direkte at rense og transformere data , sammen med sin støtte til metadata . Metadata er dokumentation eller oplysninger om en bestemt stykke data og kan hjælpe en bruger til at opdage fejl og uoverensstemmelser i data, som ikke kan , nødvendigvis blive identificeret af ETL værktøjet selv . ETL værktøjer typisk give et bibliotek af funktioner og skemaer for at omdanne data - data typekonverteringer , aritmetiske funktioner, string funktioner, etc - og kan udtrække data fra free-form datakilder med visse begrænsninger , samt via standard ODBC ( " Open Database Connectivity " ) og EDA ( " Electronic Design Automation " ) grænseflader.