Bioinformatik er anvendelsen af datalogi teknikker inden for biologi . Målene for bioinformatik er at hjælpe biovidenskabelige forskere i at organisere biologiske data og udvikle de nødvendige edb-værktøjer for opdagelsen af nye videnskabelige hypoteser. Klassifikation teknikker , også kendt som klyngedannelse teknikker , er vigtige i bioinformatik da de tillader adskillelse af forskellige biologiske data med lignende egenskaber i forskellige sæt . Historie
Størrelsen af biologiske data er blevet vokser eksponentielt med en fordobling af oplysninger observerede hver 15 måneder. Som et resultat, er datalogi og informatik teknikker, der anvendes intensivt i forarbejdning og forvaltning af biologiske data. Den mest grundlæggende begreb i bioinformatik er, at de fleste biologiske data , har ensartede karakteristika , og kan adskilles i klynger. For eksempel kan en organismes gener klassificeres i deres funktionelle grupper eller metaboliske veje . Proteiner kan også klassificeres baseret på de gener, der er udtrykt . Klassifikation eller clustering teknikker er nødvendige i forvaltningen af store databaser af genetiske og biologiske data. Der er to primære typer af klassificering teknikker i bioinformatik : . De hierarkiske og k- Midler klassificering teknikker
hierarkisk klassifikation
hierarkisk klassifikation teknik organiserer biologiske data i en træ datastruktur . Generne udtrykkes som knudepunkter i træet , mens hver sub -tree knudepunkter repræsenterer en klynge eller en gruppering af gener . Træet kan enten rodede eller stiklinger uden . En rodfæstet træ er defineret som et træ med blot en enkelt node på toppen. I modsætning hertil har en urodede tree flere øverste noder.
K- Betyder Klassifikation
mere kompliceret klassifikation teknik er den k- Midler klassificering, som forsøger at finde et sæt af centre , der minimerer den firkantede fejl forvrængning blandt datasæt i flerdimensionale rum . En klynge er klassificeret ved at gruppere relaterede punkter til deres nærmeste center. Lloyd algoritme bruges ofte i k -means klassificering teknik . I denne algoritme , er datapunkter tilfældigt arrangeret i separate klynger, som efterfølgende optimeret til at producere de minimale lokale firkantede fejl fordrejninger.
Betydning
Efter beslægtede proteiner har været klassificeres i lignende grupper , kan livet forskerne bruge oplysningerne til at forudsige egenskaberne af visse ugunstigt undersøgte proteiner. Dette gælder også for andre aspekter af strukturen af proteiner . En anden anvendelse af klassificering teknikker er at løse problemet med at bestemme den evolutionære træ af visse organismer baseret på deres genetiske sekvenser . Den evolutionære træ er konstrueret ud fra DNA-sekvensen af organismen ved hjælp af enten hierarkisk eller k- Betyder klassificering teknikker.
Overvejelser
hierarkisk klassifikation teknik er en forholdsvis enkel og effektiv måde klyngedannelse biologiske data . Derimod findes der ingen effektiv algoritme på i skrivende stund , der er i stand til at udføre k -means klassificering teknik effektivt som størrelsen af de biologiske data stiger. Dette tyder på , at en stor regnekraft ofte er forpligtet til at udføre k- Midler klassificering, som er en vigtig faktor til at overveje , når du vælger klassifikationen teknik til at bruge i bioinformatik applikationer .