Clustering – Übersicht
Clustering ist eine Methode des unüberwachten maschinellen Lernens, mit der ähnliche Datensätze gruppiert werden können. Dieser Ansatz ist nützlich, wenn Sie wissen möchten, welche Gruppen oder Cluster in Ihren Daten vorhanden sind, aber keine beschrifteten Daten zum Trainieren eines Modells haben. Wenn Sie beispielsweise unbeschriftete Daten zu U-Bahn-Ticketkäufen haben, können Sie diese Daten nach dem Zeitpunkt des Ticketkaufs gruppieren, um besser nachvollziehen zu können, in welchen Zeiträumen die U-Bahn am stärksten genutzt wird. Weitere Informationen finden Sie unter Was ist Clustering?
K-Means-Modelle werden häufig für das Clustering verwendet. Sie können K-Means-Modelle mit der ML.PREDICT
-Funktion verwenden, um Daten zu clustern, oder mit der ML.DETECT_ANOMALIES
-Funktion, um Anomalien zu erkennen.
Bei K-Means-Modellen werden Daten mithilfe von schwerpunktbasiertem Clustering in Clustern organisiert.
Mit der Funktion ML.CENTROIDS
können Sie Informationen zu den Schwerpunkten eines K-Means-Modells abrufen.