Afgørelse træer er genstand for en intens akademisk studie inden for områderne operationer forskning og datalogi. Selvom det ikke nødvendigvis den bedste måde at strukturere information er nødvendig for at nå frem til en konklusion , beslutning træer arbejde godt sammen med standard computer algoritmer til beslutningsstøtte. Derudover giver de en metode til at udtrykke forretningsregler på en måde , at mennesker med nogen forudgående erfaring med beslutning træer er i stand til at følge. En beslutning træ er en der ligner et flowchart , der giver navigation gennem en sti af valg , indtil en endelig konklusion er nået . Ting du skal
datasæt for "læring" træstrukturen
Datasæt til test resulterer træ
Vis Flere Instruktioner
1
Anskaf datasæt , at vil blive anvendt til analyse og verifikation af den endelige træet . Flere data, der anvendes i analysen vil give en mere nøjagtig træ repræsentation af beslutningsprocessen. Der er mange forskellige måder at skabe og strukturere en beslutning træ. ID3 -algoritmen er en tidlig fremgangsmåde, der mere avancerede variationer er baseret på.
2
Liste af alle de attributter , der anvendes af datasættet. For eksempel, i et sæt af bank låneansøgning data vil rekorden for hver ansøger indeholde attributter såsom navn , adresse, telefonnummer , indkomst, hjem værdi , realkredit , bank-og kreditkortoplysninger balancer.
P Hvis manuel oprettelse en beslutning træ , naturligvis udelukke attributter såsom navn, som du ikke ville forvente at påvirke beslutningen om at yde et lån . Når du bruger edb-data mining teknikker , er alle egenskaber i betragtning, forlader computerprogram til at bestemme , hvilke der ikke har nogen relevans for det endelige resultat .
3
Angiv hvilken attribut er målet attribut. I eksemplet med en låneansøgning , er målattributten den ene, der angiver, om lånet blev ydet eller afvist.
4
Vælg attribut til at yde den størst information gain til brug som roden node. Træet består af beslutningstagere noder og blade noder . Ved beslutning noder er en filial oprettes for hver mulig værdi af målet attribut. Hver gren repræsenterer dataposter , der deler den samme værdi for målattributten .
Et blad node er nået, når alle de poster , der overvejes på det nuværende node har samme resultat for målattributten . I lånet eksempel, hvis alle, der ansøger om et lån er godkendt , at hele beslutningen træet er den trivielle tilfælde af en enkelt blad node uden grene. Det er mere sandsynligt , at data vil blive opdelt i to grene: . Godkendt og nægtet
Beregningsmetoder vælge den attribut til brug på noget træ node er ekstremt komplekst. Kig efter den attribut, der stærkest forudsiger målet resultat. Intuitivt "indtægt " ville være en bedre kandidat til roden node end " fornavn ".
5
Fjern roden attribut fra listen over potentielle egenskaber til brug for branchen noder. Vælg den resterende attribut med størst information gain tildele branchen noder.
I den nuværende eksempel under branche lymfeknuder på hvert punkt i træet skaber grene af godkendte og nægtet lån. Der kan være flere afdelinger stammer fra en beslutning træknude , afhængigt af hvor mange mulige værdier kan henføres til målattributten .
6
Gentag processen sammen hver gren , indtil du har nået et blad knudepunkt, hvor alle data deler den samme værdi for målet attribut. Den maksimale dybde af træet på noget tidspunkt vil være det totale antal af attributter identificeret ved starten .
Det er sandsynligt , at ikke alle attribut er relevant for afgørelsen i hver gren , og så nogle grene vil blive kortere . Når du har udfyldt træet , gå igennem for at finde de regler , den har afledt . For eksempel kan du finde , at " et lån vil blive godkendt , hvis du har en høj indkomst , højt opsparing og ingen gæld. "
7
bruge testen datasæt til at validere den skabte træet. Træet skal præcist forudsige resultaterne i de nye data.