regnekraft af computere giver forskere og virksomheder til at analysere data på mere komplekse måder end nogensinde før . Data mining er processen med at forsøge at finde nyttige oplysninger i store datasæt . Data mining er ETL proces henviser til de skridt, hvorved data er registreret , kodet og skrives til en database til senere analyse . Definitioner
Data mining er defineret som processen med at analysere data og samle det ind oplysninger, der kan blive sat til et nyttigt formål. De data mining proces indebærer at finde mønstre i datasæt , der giver kategorisk oplysninger om, hvordan datasættet er organiseret. Data mining kan bruges til at analysere forholdet mellem næsten alle målelige variabler et par virkelige verden applikationer af data mining omfatte en analyse af strategier for markedsføring , produktionsprocesser og menneskelige adfærdsmæssige tendenser. Udtrykket ETL er en forkortelse for ekstrakt, transformere og indlæse. Uddrag , transformere og indlæse henviser til de tre processer, hvorved en database system er skabt til analyse.
Extraction
Det første skridt i at skabe et data warehouse , som kan være udvundet i analysen er at udtrække data fra dens oprindelige kilde. Ekstraktionsprocedurer varierer afhængigt af typen af data, der udvindes . Sommetider udvinding indebærer lokalisering og hente en delmængde af data fra en eller flere eksisterende databaser. I andre tilfælde kræver udvindingsprocessen original forskning , såsom at søge på internettet for websteder , der indeholder relevant information.
Transform
Når relevante data er placeret under udvindingsprocessen så at data skal manipuleres , så det kan gemmes i en database til senere analyse . Processen med at ændre dataene fra sin oprindelige form til en legaliseret form kaldes transformation. Transformation kan involvere et vilkårligt antal ændringer til dataene , herunder relativt simple funktioner såsom konvertering af bogstaver til små og fjerne tegnsætning fra tegnstrenge . Omstillingsprocessen kan også omfatte mere komplekse procedurer, såsom at udføre aritmetiske funktioner på kildeværdier , sortering af data og kontrollere gyldigheden af kildedata . Målet med omdannelsen fase er at tage uraffinerede udvinding data og gøre det til data, der er nyttige for målene for data mining -projekt.
Load
Når dataene er omdannet til et passende format , skal den opbevares i et data warehouse . Belastningen fase refererer til den proces, hvorved transformerede data logges til en computerdatabase . Når oplysningerne er gemt i databasen , kan det blive udsat for kvalitativ og kvantitativ analyse for at søge efter mønstre af interesse.