Clustering er organiseringen af datapunkter i klynger, hvor datapunkter i en klynge minder mere om hinanden end datapunkter i andre klynger. Den generelle idé bag klyngedannelse er, at lignende dataelementer skal grupperes sammen. Dataclustering er uovervåget læring, hvilket betyder, at det ikke kræver mærkede data.
Clustering kan være gavnligt til at forstå strukturen af et datasæt, finde ligheder mellem dataelementer, identificere outliers og reducere dimensionaliteten af data. Det er almindeligt anvendt inden for forskellige områder såsom maskinlæring, datamining, bioinformatik og billedbehandling.
Trin:
1. Dataforberedelse
2. Valg af afstandsmål
3. Valg af antal klynger
4. Klynger
5. Evaluering af klyngningen