Manuelle Vorverarbeitung von Features

Sie können die TRANSFORM-Klausel der CREATE MODEL-Anweisung in Kombination mit manuellen Vorverarbeitungsfunktionen verwenden, um eine benutzerdefinierte Datenvorverarbeitung zu definieren. Diese manuellen Vorverarbeitungsfunktionen können auch außerhalb der TRANSFORM-Klausel genutzt werden.

Wenn Sie die Datenvorverarbeitung vom Modelltraining entkoppeln möchten, können Sie ein Nur-Transformationsmodell erstellen, das nur mithilfe der TRANSFORM-Klausel Datentransformationen ausführt.

Mit der Funktion ML.TRANSFORM können Sie die Transparenz der Feature-Vorverarbeitung erhöhen. Mit dieser Funktion können Sie die vorverarbeiteten Daten aus der TRANSFORM-Klausel eines Modells zurückgeben. Damit sehen Sie die tatsächlichen Trainingsdaten, die in das Modelltraining und die tatsächlichen Vorhersagedaten, die in die Modellbereitstellung einfließen.

Informationen zur Unterstützung der Vorverarbeitung von Features in BigQuery ML finden Sie unter Übersicht über die Feature-Vorverarbeitung.

Informationen zu den unterstützten SQL-Anweisungen und -Funktionen für die einzelnen Modelltypen erhalten Sie unter End-to-End-Nutzerpfad für jedes Modell.

Arten von Vorverarbeitungsfunktionen

Es gibt mehrere Arten von manuellen Vorverarbeitungsfunktionen:

  • Skalare Funktionen werden für eine einzige Zeile ausgeführt (z. B. ML.BUCKETIZE).
  • Tabellenwertfunktionen arbeiten mit allen Zeilen und geben eine Tabelle aus. Beispiel: ML.FEATURES_AT_TIME.
  • Analysefunktionen werden für alle Zeilen ausgeführt und geben das Ergebnis für jede Zeile anhand der erfassten Statistiken für alle Zeilen aus. Beispiel: ML.QUANTILE_BUCKETIZE.

    Sie müssen immer eine leere OVER()-Klausel mit ML-Analysefunktionen verwenden.

    Wenn Sie während des Trainings ML-Analysefunktionen innerhalb der TRANSFORM-Klausel verwenden, werden dieselben Statistiken automatisch auf die Eingabe in der Vorhersage angewendet.

In den folgenden Abschnitten werden die verfügbaren Vorverarbeitungsfunktionen erläutert.

Allgemeine Funktionen

Verwenden Sie die folgende Funktion für String- oder numerische Ausdrücke, um eine Datenbereinigung durchzuführen:

Numerische Funktionen

Verwenden Sie die folgenden Funktionen für numerische Ausdrücke, um Daten zu normalisieren:

Kategoriale Funktionen

Verwenden Sie die folgenden Funktionen zum Kategorisieren von Daten:

Textfunktionen

Verwenden Sie die folgenden Funktionen für Textstringausdrücke:

Bildfunktionen

Verwenden Sie die folgenden Funktionen für Bilddaten:

Bekannte Einschränkungen