Dimensionalitätsreduktion – Übersicht
Die Dimensionsreduktion ist der gebräuchliche Begriff für eine Reihe von mathematischen Verfahren, mit denen die Form und Beziehungen von Daten in einem hochdimensionalen Raum erfasst und diese Informationen in einen niedrigdimensionalen Raum übertragen werden.
Die Dimensionalitätsreduktion ist wichtig, wenn Sie mit großen Datasets arbeiten, die Tausende von Merkmalen enthalten können. In einem so großen Datenraum kann die größere Bandbreite der Entfernungen zwischen Datenpunkten die Modellausgabe erschweren. So ist es beispielsweise schwierig zu erkennen, welche Datenpunkte näher beieinander liegen und daher ähnlichere Daten darstellen. Mit der Dimensionalitätsreduktion können Sie die Anzahl der Merkmale reduzieren und gleichzeitig die wichtigsten Merkmale des Datensatzes beibehalten. Wenn Sie die Anzahl der Funktionen reduzieren, wird auch die Trainingszeit aller Modelle verkürzt, die die Daten als Eingabe verwenden.
BigQuery ML bietet die folgenden Modelle zur Dimensionsreduzierung:
Sie können PCA- und Autoencoder-Modelle mit den Funktionen ML.PREDICT
oder ML.GENERATE_EMBEDDING
verwenden, um Daten in einen Raum mit weniger Dimensionen einzubetten, und mit der Funktion ML.DETECT_ANOMALIES
die Anomalieerkennung durchführen.
Sie können die Ausgabe von Modellen zur Dimensionsreduzierung für Aufgaben wie die folgenden verwenden:
- Ähnlichkeitssuche: Hiermit können Sie Datenpunkte finden, die sich anhand ihrer Einbettungen ähneln. So lassen sich ähnliche Produkte finden, ähnliche Inhalte empfehlen oder doppelte oder anormale Elemente identifizieren.
- Clustering: Verwenden Sie Einbettungen als Eingabemerkmale für K-Means-Modelle, um Datenpunkte basierend auf ihren Ähnlichkeiten zu gruppieren. So können Sie versteckte Muster und Erkenntnisse in Ihren Daten entdecken.
- Maschinelles Lernen: Verwenden Sie Einbettungen als Eingabefeatures für Klassifizierungs- oder Regressionsmodelle.