手動預先處理特徵

您可以搭配手動前處理函式,使用 CREATE MODEL 陳述式的 TRANSFORM 子句定義自訂資料前處理作業。您也可以在 TRANSFORM 子句以外使用這些手動前置處理函式。

如要將資料預先處理作業與模型訓練作業分離,可以使用 TRANSFORM 子句建立僅轉換模型,只執行資料轉換作業。

您可以使用 ML.TRANSFORM 函式,提高特徵前處理的透明度。這個函式可讓您從模型的 TRANSFORM 子句傳回預先處理的資料,以便查看模型訓練的實際訓練資料,以及模型服務的實際預測資料。

如要瞭解 BigQuery ML 的特徵預先處理支援,請參閱特徵預先處理總覽

預先處理函式類型

手動預先處理函式分為以下幾種:

  • 純量函式會在單一資料列上運作。例如:ML.BUCKETIZE
  • 資料表值函式會處理所有資料列,並輸出資料表。例如:ML.FEATURES_AT_TIME
  • 分析函式會對所有資料列執行運算,並根據所有資料列收集的統計資料,輸出每個資料列的結果。例如:ML.QUANTILE_BUCKETIZE

    使用 ML 分析函式時,一律須搭配空白的 OVER() 子句。

    在訓練期間,如果您在 TRANSFORM 子句中使用 ML 分析函式,系統會自動將相同的統計資料套用至預測中的輸入內容。

以下各節說明可用的前處理函式。

一般功能

對字串或數值運算式使用下列函式,即可清除資料:

數值函式

您可以在數值運算式中使用下列函式,將資料正規化:

類別函式

您可以使用下列函式分類資料:

文字函式

您可以在文字字串運算式中使用下列函式:

圖片功能

在圖片資料上使用下列函式:

已知限制

後續步驟

如要進一步瞭解支援手動特徵前處理的模型適用的 SQL 陳述式和函式,請參閱下列文件: