Unüberwachtes maschinelles Lernen ist ein Zweig des maschinellen Lernens, bei dem Modelle auf Daten ohne markierte Ergebnisse trainiert werden. Im Gegensatz zum überwachten Lernen, bei dem das Ziel darin besteht, ein bekanntes Ziel vorherzusagen, konzentriert sich das unüberwachte Lernen auf das Entdecken versteckter Muster, Strukturen oder Beziehungen innerhalb der Daten.
Clustering
Clustering ist der Prozess des Gruppierens von Datenpunkten, sodass Punkte innerhalb desselben Clusters ähnlich sind und Punkte in verschiedenen Clustern unterschiedlich sind. Die Ähnlichkeit wird in der Regel mithilfe von Distanzmetriken wie der euklidischen Distanz, der Manhattan-Distanz oder der Kosinus-Ähnlichkeit gemessen.
K-Means-Clustering
K-Means ist ein partitioniertes Clustering-Algorithmus, der die Daten in K distinkte Cluster unterteilt, wobei K vorher definiert ist. Das Ziel ist es, die Varianz innerhalb der Cluster, auch bekannt als Trägheit, zu minimieren.
Funktionsweise von K-Means
- Wählen Sie K (Anzahl der Cluster) - Beispiel: K = 3
- Initialisieren Sie die Zentroide zufällig - Diese sind K Punkte, die die Clusterzentren darstellen.
- Weisen Sie Datenpunkte dem nächstgelegenen Zentroid zu - Jeder Punkt wird dem Cluster mit dem nächstgelegenen Zentroid (unter Verwendung der Distanz, in der Regel euklidisch) zugewiesen.
- Aktualisieren Sie die Zentroide - Berechnen Sie das neue Zentroid als Mittelwert aller Punkte in diesem Cluster. Wiederholen Sie die Schritte 3 und 4, bis die Zentroide nicht mehr geändert werden oder die maximale Anzahl von Iterationen erreicht ist.
Hierarchisches Clustering
Hierarchisches Clustering erstellt eine baumartige Struktur von Clustern, die als Dendrogramm bezeichnet wird. Im Gegensatz zu K-Means muss die Anzahl der Cluster nicht im Voraus angegeben werden.
Es gibt zwei Arten:
- Agglomeratives (bottom-up) – am häufigsten verwendet
- Divisives (top-down)
Schritte des agglomerativen Clusterings
- Beginnen Sie mit allen Punkten getrennt: Behandeln Sie jeden Datenpunkt als eigenes Cluster wie A, B, C, ... Zunächst haben Sie n Cluster für n Datenpunkte.
- Berechnen Sie die Paardistanzen: Berechnen Sie die Distanz zwischen jedem Paar von Clustern. Häufige Auswahlmöglichkeiten sind euklidische, Manhattan- oder Kosinus-Distanz. Speichern Sie diese Werte in einer Distanzmatrix.
- Vereinen Sie die nächstgelegenen Cluster: Identifizieren Sie die beiden Cluster, die auf der Grundlage der gewählten Verknüpfungsmethode wie einfacher, vollständiger, durchschnittlicher oder Ward-Verknüpfung am nächsten beieinander liegen. Kombinieren Sie sie zu einem einzigen neuen Cluster.
- Aktualisieren Sie die Distanzen: Berechnen Sie die Distanzen zwischen dem neu gebildeten Cluster und allen verbleibenden Clustern neu. Verwenden Sie die gleiche Verknüpfungsregel, um Konsistenz zu gewährleisten.
- Wiederholen Sie den Prozess: Fahren Sie fort, Cluster zu vereinen und Distanzen zu aktualisieren, bis ein vordefinierter Cluster oder eine Distanzschwelle erreicht ist.
- Visualisieren Sie die Ergebnisse: Erstellen Sie ein Dendrogramm, um zu visualisieren, wie Cluster bei jedem Schritt zusammengeführt werden. Wählen Sie eine geeignete Schnittstelle im Dendrogramm, um die endgültigen Clusterguppen zu erhalten.
Fazit
Unüberwachtes maschinelles Lernen ist ein leistungsfähiges Werkzeug, um versteckte Muster und Strukturen in Daten zu erkennen. K-Means und hierarchisches Clustering sind zwei beliebte Algorithmen, die für die Gruppierung von Datenpunkten verwendet werden können. Durch die Auswahl des richtigen Algorithmus und die Anpassung der Parameter können Sie die Genauigkeit und Effizienz Ihres maschinellen Lernmodells verbessern.
KI-Zusammenfassung
Compare K-Means and hierarchical clustering for unsupervised ML. Learn how each works, their pros and cons, and which to choose for your data analysis project.