Data mining er processen med at analysere og opsummere data fra forskellige perspektiver. Det bestræber sig på at definere data mønstre og sammenhænge i store puljer af oplysninger ved hjælp af algoritmer --- regelsæt , der løser et problem over en række konkrete skridt (tror den euklidiske algoritmen i algebra, som finder to tal ' største fælles divisor ) . 2006 IEEE International Conference on Data Mining rangeret top 10 algoritmer i marken. Afgørelse træer
Afgørelsestræ algoritmer til formål at organisere data på konkurrerende valg til filialer af indflydelse efter en indledende beslutning. Stammen af træet repræsenterer den oprindelige beslutning, og det starter med et ja - eller -nej spørgsmål , såsom hvorvidt eller ikke at spise morgenmad. Spise morgenmad og ikke spiser morgenmad ville være de første to divergerende grene af træet , og ethvert valg derefter ville have sine egne divergerende grene fører op til et slutpunkt .
K- Midler algoritme < br >
k- middel algoritmen er baseret på cluster analyse. Det sigter mod at bryde de indsamlede data i separate "klynger" grupperet efter lignende karakteristika .
Support Vector Machines
Support vektor maskine algoritmer tage inputdata og forudsige hvilken af to mulige kategorier , der omfatter input-data. Et eksempel ville være at indsamle de postnumre i en pulje af vælgerne og forsøger at forudsige, om en giver vælgere er en demokrat eller republikaner .
Apriori algoritme
Apriori algoritme typisk sporer transaktionsdata . For eksempel, i en tøjbutik kan algoritmen spore, hvilke skjorter kunder køber typisk sammen.
EM Algoritme
Denne algoritme definerer parametre ved at analysere data og forudsiger sandsynligheden for fremtidige resultater eller tilfældig begivenhed inden for parametrene for data. For eksempel kunne EM algoritmen forsøger at forudsige tidspunktet for den næste udbruddet af en gejser baseret på den tid data fra tidligere udbrud.
PageRank algoritme
PageRank algoritme er et fundament algoritme for søgemaskiner. Det rangerer og skøn relevansen af et enkelt stykke data inden for et større sæt af data, såsom et enkelt websted i større sæt af alle websteder på internettet.
AdaBoost Algoritme
< br >
Adaboost algoritme arbejder inden andre learning algoritmer, der forventer adfærd baseret på observerede data for at gøre dem mere følsomme over for statistiske outliers . Selvom EM algoritmen kan være skæv af en gejser har to udbrud i mindre end et minut, når det typisk bryder en gang om dagen , ville Adaboost algoritme tweak EM algoritmen output ved at analysere relevansen af outlier .
< br > K- Nærmeste nabo algoritme
Denne algoritme genkender mønstre i data placering og associerede at data med en større identifier . For eksempel, hvis du ønsker at tildele et posthus til ethvert hjem geografiske placering og havde data pulje af alle hjem geografiske placering ville k- nærmeste nabo algoritmen tildeler hjem til det nærmeste posthus baseret på deres nærhed til hinanden.
Naive Baye
Naive Bayes -algoritme forudsiger en identitet resultat baseret på data fra kendte observationer . For eksempel, hvis en person er g fødder seks inches høj og iført str. 14 sko ville Naive Bayes -algoritme forudsige med en vis sandsynlighed for, at personen er en mand .
CART Algoritme
< br >
" indkøbskurv" står for " Klassifikation og Regressive Tree " analyse. Ligesom beslutningstræ analyse organiserer det data baseret på konkurrerende valg, såsom hvorvidt en person har overlevet et jordskælv ? I modsætning til beslutning træet algoritmer, som kun kan klassificere et resultat eller give en regression baseret numerisk resultat , kan CART algoritmen bruge både til at forudsige sandsynligheden for en hændelse .