避免過度配適

訓練 BigQuery ML 模型時,常見的陷阱是過度擬合。當模型過度貼近訓練資料,導致在處理新資料時成效不佳,即會發生過度配適的情形。BigQuery ML 支援兩種避免過度擬合的方法:提早停止正規化

如要瞭解如何修改下文所述的選項,請參閱 CREATE MODEL 陳述式

提早中止訓練

在 BigQuery ML 中,提早停止是預設的過度擬合預防選項。啟用提早中止訓練功能後,系統會在訓練期間監控保留資料損失,並在最新疊代中的損失改善率低於閾值時停止訓練。由於訓練期間不會使用保留資料,因此這項資料可用於估算模型在新資料上的損失。early_stopmin_rel_progressdata_split_methoddata_split_eval_fraction 選項會控制提早停止的行為。

正則化

規則化可避免模型權重過大,防止模型過度貼近訓練資料。BigQuery ML 支援兩種方法來控制模型權重大小:L1 正則化L2 正則化

根據預設,l1_regl2_reg 的值為零,這會停用規則化。在某些資料集中,為 l1_regl2_reg 設定正值,可改善訓練模型在新資料上的效能。一般來說,我們會透過反覆嘗試來找出最佳規則化參數值,而實驗時通常會嘗試不同數量級的值 (例如 0.01、0.1、1、10 和 100)。

以下提供一些使用正規化的一般建議:

  • 如果您正在嘗試使用正則化參數,請嘗試停用提早停止功能,以便清楚顯示正則化的效果。

  • 如果特徵數量相較於訓練集大小偏多,請嘗試使用較大的正規化參數值。如果每個特徵只有少數觀察值,過度擬合風險就會提高。

  • 如果您擔心許多特徵可能與預測標籤無關,請嘗試將 l1_reg 設為大於 l2_reg,反之亦然。有理論證據顯示,在許多特徵不相關的情況下,L1 正規化效果會更好。

L1 正則化的另一個好處是,它傾向將許多模型權重設為零,這有助於識別最相關的特徵,並訓練精簡模型。

後續步驟