Manuelle Vorverarbeitung von Features
Sie können die TRANSFORM
-Klausel der CREATE MODEL
-Anweisung in Kombination mit manuellen Vorverarbeitungsfunktionen verwenden, um eine benutzerdefinierte Datenvorverarbeitung zu definieren. Diese manuellen Vorverarbeitungsfunktionen können auch außerhalb der TRANSFORM
-Klausel genutzt werden.
Wenn Sie die Datenvorverarbeitung vom Modelltraining entkoppeln möchten, können Sie ein Nur-Transformationsmodell erstellen, das nur mithilfe der TRANSFORM
-Klausel Datentransformationen ausführt.
Mit der Funktion ML.TRANSFORM
können Sie die Transparenz der Feature-Vorverarbeitung erhöhen. Mit dieser Funktion können Sie die vorverarbeiteten Daten aus der TRANSFORM
-Klausel eines Modells zurückgeben. Damit sehen Sie die tatsächlichen Trainingsdaten, die in das Modelltraining und die tatsächlichen Vorhersagedaten, die in die Modellbereitstellung einfließen.
Informationen zur Unterstützung der Vorverarbeitung von Features in BigQuery ML finden Sie unter Übersicht über die Feature-Vorverarbeitung.
Informationen zu den unterstützten SQL-Anweisungen und -Funktionen für die einzelnen Modelltypen erhalten Sie unter End-to-End-Nutzerpfad für jedes Modell.
Arten von Vorverarbeitungsfunktionen
Es gibt mehrere Arten von manuellen Vorverarbeitungsfunktionen:
- Skalare Funktionen werden für eine einzige Zeile ausgeführt (z. B.
ML.BUCKETIZE
). - Tabellenwertfunktionen arbeiten mit allen Zeilen und geben eine Tabelle aus. Beispiel:
ML.FEATURES_AT_TIME
. Analysefunktionen werden für alle Zeilen ausgeführt und geben das Ergebnis für jede Zeile anhand der erfassten Statistiken für alle Zeilen aus. Beispiel:
ML.QUANTILE_BUCKETIZE
.Sie müssen immer eine leere
OVER()
-Klausel mit ML-Analysefunktionen verwenden.Wenn Sie während des Trainings ML-Analysefunktionen innerhalb der
TRANSFORM
-Klausel verwenden, werden dieselben Statistiken automatisch auf die Eingabe in der Vorhersage angewendet.
In den folgenden Abschnitten werden die verfügbaren Vorverarbeitungsfunktionen erläutert.
Allgemeine Funktionen
Verwenden Sie die folgende Funktion für String- oder numerische Ausdrücke, um eine Datenbereinigung durchzuführen:
Numerische Funktionen
Verwenden Sie die folgenden Funktionen für numerische Ausdrücke, um Daten zu normalisieren:
ML.BUCKETIZE
ML.MAX_ABS_SCALER
ML.MIN_MAX_SCALER
ML.NORMALIZER
ML.POLYNOMIAL_EXPAND
ML.QUANTILE_BUCKETIZE
ML.ROBUST_SCALER
ML.STANDARD_SCALER
Kategoriale Funktionen
Verwenden Sie die folgenden Funktionen zum Kategorisieren von Daten:
Textfunktionen
Verwenden Sie die folgenden Funktionen für Textstringausdrücke:
Bildfunktionen
Verwenden Sie die folgenden Funktionen für Bilddaten:
Bekannte Einschränkungen
- BigQuery ML unterstützt sowohl die automatische Vorverarbeitung als auch die manuelle Vorverarbeitung beim Modellexport. Weitere Informationen finden Sie unter Unterstützte Datentypen und Funktionen zum Exportieren von Modellen, die mit der BigQuery ML-
TRANSFORM
-Klausel trainiert wurden.