Automatische Feature-Vorverarbeitung

BigQuery ML führt während des Trainings eine automatische Vorverarbeitung aus. Dazu wird die Anweisung CREATE MODEL verwendet. Die automatische Vorverarbeitung besteht aus fehlenden Wertberechnungen und Featuretransformationen.

Informationen zur Unterstützung der Vorverarbeitung von Features in BigQuery ML finden Sie unter Übersicht über die Feature-Vorverarbeitung.

Informationen zu den unterstützten SQL-Anweisungen und -Funktionen für die einzelnen Modelltypen erhalten Sie unter End-to-End-Nutzerpfad für jedes Modell.

Fehlende Datenberechnung

In der Statistik wird die Imputation verwendet, um fehlende Daten durch Ersatzwerte zu ersetzen. Wenn Sie ein Modell in BigQuery ML trainieren, werden NULL-Werte als fehlende Daten behandelt. Beim Vorhersagen von Ergebnissen in BigQuery ML können Werte fehlen, wenn BigQuery ML auf einen NULL-Wert oder einen bisher unbekannten Wert stößt. Je nach Datentyp der Spalte werden die fehlenden Daten von BigQuery ML unterschiedlich behandelt.

Spaltentyp	Imputationsmethode
Numerisch	Beim Training und bei der Vorhersage werden `NULL`-Werte in numerischen Spalten durch den Mittelwert der angegebenen Spalte ersetzt, wie durch die Featurespalte in den ursprünglichen Eingabedaten berechnet.
One-Hot- und Multi-Hot-codiert	Beim Training und bei der Vorhersage werden `NULL`-Werte in den codierten Spalten einer zusätzlichen Kategorie zugeordnet, die den Daten hinzugefügt wird. Bisher unbekannten Daten wird während der Vorhersage eine Gewichtung von 0 zugewiesen.
`TIMESTAMP`	`TIMESTAMP`-Spalten verwenden einen Mix von Imputationsmethoden aus standardisierten und One-Hot-codierten Spalten. In der generierten Unix-Zeitspalte ersetzt BigQuery ML Werte durch die mittlere Unix-Zeit aus den ursprünglichen Spalten. Andere generierte Werte werden von BigQuery ML der jeweiligen `NULL`-Kategorie für jedes extrahierte Feature zugewiesen.
`STRUCT`	Beim Training und bei der Vorhersage wird jedes `STRUCT`-Feld seinem Typ entsprechend hinzugefügt.

Featuretransformationen

Standardmäßig wandelt BigQuery ML Eingabefeatures so um:

Datentyp der Eingabe	Transformationsmethode	Details
`INT64` `NUMERIC` `BIGNUMERIC` `FLOAT64`	Standardisierung	Bei den meisten Modellen standardisiert und zentriert BigQuery ML numerische Spalten bei null, bevor er an das Training übergeben wird. Die Ausnahmen sind Boosted Tree- und Random-Gesamtstrukturmodelle, für die keine Standardisierung erfolgt, und k-Means-Modelle, wobei die Option `STANDARDIZE_FEATURES` steuert, ob numerische Features standardisiert sind.
`BOOL` `STRING` `BYTES` `DATE` `DATETIME` `TIME`	One-Hot-Codierung	Bei allen nicht numerischen Nicht-Array-Spalten außer `TIMESTAMP` führt BigQuery ML eine One-Hot-Codierungstransformation für alle Modelle außer Boosted Tree- und Random-Gesamtstrukturmodellen durch. Diese Transformation generiert ein separates Feature für jeden eindeutigen Wert in der Spalte. Die Transformation der Labelcodierung wird so auf trainierte Baumstrukturen und zufällige Gesamtstrukturmodelle angewendet, dass jeder eindeutige Wert in einen numerischen Wert umgewandelt wird.
`ARRAY`	Multi-Hot-codiert	Für alle nicht numerischen Spalten außer `ARRAY` führt BigQuery ML eine One-Hot-Codierungstransformation durch. Diese Transformation generiert ein separates Feature für jedes spezifische Element im `ARRAY`.
`TIMESTAMP`	Zeitstempeltransformation	Wenn ein lineares oder logistisches Regressionsmodell eine Spalte `TIMESTAMP` erkennt, extrahiert es eine Reihe von Komponenten aus `TIMESTAMP` und führt einen Mix aus Standardisierung und One-Hot-Codierung für den extrahierten Code aus. Komponenten: Für die Komponente der Unix-Zeit in Sekunden verwendet BigQuery ML die Standardisierung. Für alle anderen Komponenten wird die One-Hot-Codierung verwendet. Weitere Informationen finden Sie in der Tabelle zur Transformation von Zeitstempelfunktionen weiter unten.
`STRUCT`	Struct-Erweiterung	Wenn BigQuery ML eine Spalte `STRUCT` erkennt, werden die Felder in `STRUCT` erweitert, um eine einzelne Spalte zu erstellen. Alle `STRUCT`-Felder müssen benannt werden. Verschachtelte `STRUCT`s sind nicht zulässig. Nach der Erweiterung haben die Spaltennamen das Format `{struct_name}_{field_name}`.
`ARRAY` von `STRUCT`	Keine Transformation
`ARRAY` von `NUMERIC`	Keine Transformation

`TIMESTAMP` Featuretransformation

Die folgende Tabelle enthält die aus TIMESTAMP-Spalten extrahierten Komponenten und die entsprechende Transformationsmethode.

`TIMESTAMP`-Komponente	`processed_input` Ergebnis	Transformationsmethode
Unix-Zeit in Sekunden	`[COLUMN_NAME]`	Standardisierung
Tag des Monats	`_TS_DOM_[COLUMN_NAME]`	One-Hot-Codierung
Wochentag	`_TS_DOW_[COLUMN_NAME]`	One-Hot-Codierung
Monat des Jahres	`_TS_MOY_[COLUMN_NAME]`	One-Hot-Codierung
Tageszeit	`_TS_HOD_[COLUMN_NAME]`	One-Hot-Codierung
Minute	`_TS_MOH_[COLUMN_NAME]`	One-Hot-Codierung
Woche des Jahres (Wochen beginnen am Sonntag)	`_TS_WOY_[COLUMN_NAME]`	One-Hot-Codierung
Jahr	`_TS_YEAR_[COLUMN_NAME]`	One-Hot-Codierung

Codierung von Kategorie-Features

Für One-Hot-codierte Merkmale können Sie mit der Modelloption CATEGORY_ENCODING_METHOD eine andere Standardcodierungsmethode angeben. Bei generalisierten linearen Modellen (GLM) können Sie für CATEGORY_ENCODING_METHOD einen der folgenden Werte festlegen:

ONE_HOT_ENCODING
DUMMY_ENCODING
LABEL_ENCODING
TARGET_ENCODING

One-Hot-Codierung

Die One-Hot-Codierung ordnet jede Kategorie einem eigenen Merkmal zu. Dabei gilt:0 steht für das Fehlen der Funktion und 1 steht für die Präsenz (alsDummy-Variable). Durch diese Zuordnung werden N neue Featurespalten erstellt, wobei N die Anzahl der eindeutigen Kategorien für das Feature in der Trainingstabelle ist.

Angenommen, Ihre Trainingstabelle enthält eine Featurespalte mit dem Namen fruit und den Kategorien Apple, Banana und Cranberry, zum Beispiel:

Zeile	fruit
1	Apple
2	Banane
3	Cranberry

In diesem Fall wandelt die Option CATEGORY_ENCODING_METHOD='ONE_HOT_ENCODING' die Tabelle in die folgende interne Darstellung um:

Zeile	fruit_Apple	fruit_Banana	fruit_Cranberry
1	1	0	0
2	0	1	0
3	0	0	1

Die One-Hot-Codierung wird von linearen und logistischen Regressionsmodellen sowie von Boosted Tree-Modellen unterstützt.

Dummy-Codierung

Die Dummy-Codierung ähnelt der One-Hot-Codierung. Dabei wird ein kategoriales Merkmal in eine Reihe von Platzhaltervariablen umgewandelt. Für die Dummy-Codierung werden N-1-Platzhaltervariablen anstelle von N-Platzhaltervariablen verwendet, um N-Kategorien für ein Feature darzustellen. Beispiel: CATEGORY_ENCODING_METHOD in 'DUMMY_ENCODING' für das gleiche fruit-Feature, wie im vorherigen One-Hot-Codierungsbeispiel dargestellt, wird die Tabelle in die folgende interne Darstellung umgewandelt:

Zeile	fruit_Apple	fruit_Banana
1	1	0
2	0	1
3	0	0

Die Kategorie mit den meisten Vorkommen im Trainings-Dataset wird gelöscht. Wenn mehrere Kategorien die meisten Vorkommen haben, wird eine zufällige Kategorie innerhalb dieser Gruppe gelöscht.

Der letzte Gewichtungssatz von ML.WEIGHTS enthält weiterhin die verworfene Kategorie, aber die Gewichtung ist immer 0.0. Bei ML.ADVANCED_WEIGHTS sind der Standardfehler und der p-Wert für die verworfene Variable NaN.

Wenn warm_start für ein Modell verwendet wird, das ursprünglich mit 'DUMMY_ENCODING' trainiert wurde, wird dieselbe Platzhaltervariable aus dem ersten Trainingslauf gelöscht. Modelle können zwischen Codierungsläufen keine Codierungsmethoden ändern.

Die Dummy-Codierung wird von linearen und logistischen Regressionsmodellen unterstützt.

Labelcodierung

Die Labelcodierung transformiert den Wert eines kategorialen Features in einen INT64-Wert in [0, <number of categories>].

Angenommen, Sie haben ein Buch-Dataset wie das folgende:

Titel	Genre
Buch 1	Fantasy
Buch 2	Kochen
Buch 3	Verlauf
Buch 4	Kochen

Die Label-codierten Werte können in etwa so aussehen:

Titel	Genre (Text)	Genre (numerisch)
Buch 1	Fantasy	1
Buch 2	Kochen	2
Buch 3	Verlauf	3
Buch 4	Kochen	2

Das Codierungsvokabular ist alphabetisch angeordnet. NULL-Werte und Kategorien, die nicht im Vokabular enthalten sind, werden mit 0 codiert.

Die Labelcodierung wird von Boosted Tree-Modellen unterstützt.

Zielcodierung

Die Zielcodierung ersetzt den kategorialen Merkmalswert durch die Wahrscheinlichkeit des Ziels für Klassifizierungsmodelle oder durch den erwarteten Wert des Ziels bei Regressionsmodellen.

Zielcodierte Features können in etwa wie im folgenden Beispiel aussehen:

# Classification model
+------------------------+----------------------+
| original value         | target encoded value |
+------------------------+----------------------+
| (category_1, target_1) |     0.5              |
| (category_1, target_2) |     0.5              |
| (category_2, target_1) |     0.0              |
+------------------------+----------------------+

# Regression model
+------------------------+----------------------+
| original value         | target encoded value |
+------------------------+----------------------+
| (category_1, 2)        |     2.5              |
| (category_1, 3)        |     2.5              |
| (category_2, 1)        |     1.5              |
| (category_2, 2)        |     1.5              |
+------------------------+----------------------+

Die Zielcodierung wird von Boosted Tree-Modellen unterstützt.