特徴量の前処理の概要
特徴量の前処理は ML ライフサイクルにおいて最も重要なステップの一つで、特徴量の作成とトレーニング データのクリーニングで構成されます。特徴量の作成は特徴量エンジニアリングとも呼ばれます。
BigQuery ML では、次の手法で特徴量を前処理できます。
自動前処理。トレーニング中に BigQuery ML が自動前処理を行います。詳しくは、自動特徴前処理をご覧ください。
手動前処理。手動前処理関数を使ってカスタム前処理を定義するには、
CREATE MODEL
ステートメントのTRANSFORM
句を使用します。また、これらの関数をTRANSFORM
句の外部で使用して、モデルを作成する前にトレーニング データを処理することもできます。
特徴量の情報を取得する
ML.FEATURE_INFO
関数を使用して、すべての入力特徴量列の統計情報を取得できます。
推奨される知識
CREATE MODEL
ステートメントと推論関数のデフォルト設定を使用すると、ML の知識がなくても BigQuery ML モデルを作成して使用できます。ただし、特徴量エンジニアリングやモデル トレーニングなど、ML 開発ライフサイクルに関する基本的な知識があれば、データとモデルの両方を最適化して、より良い結果を得るのに役立ちます。ML の手法とプロセスに習熟するために、次のリソースの活用をおすすめします。
次のステップ
BigQuery ML における特徴のサービングについて確認する。