このドキュメントでは、特徴変換エンジンがどのように特徴量エンジニアリングを実行するかを説明します。特徴変換エンジンは、特徴選択と特徴変換を実行します。特徴選択が有効になっている場合、特徴変換エンジンはランク付けされた重要な特徴のセットを作成します。特徴変換が有効になっている場合、特徴変換エンジンは特徴を処理して、モデルのトレーニングとモデルの提供の入力が一貫性を持つようにします。特徴変換エンジンは単独で使用することも、表形式のトレーニング ワークフローと組み合わせて使用することもできます。TensorFlow と TensorFlow 以外のフレームワークの両方をサポートしています。
入力
特徴変換エンジンに次の入力を指定する必要があります。
- 元データ(BigQuery または CSV データセット)。
- データ分割の構成。
- 特徴選択の構成。
- 特徴変換の構成。
出力
特徴変換エンジンは次の出力を生成します。
dataset_stats
: 生のデータセットを記述する統計。たとえば、dataset_stats
はデータセット内の行数を返します。feature_importance
: 特徴の重要度スコア。この出力は、特徴選択が有効な場合に生成されます。materialized_data
。トレーニング分割、評価分割、テスト分割を含むデータ分割グループの変換バージョンです。training_schema
: OpenAPI 仕様のトレーニング データスキーマで、トレーニング データのデータ型を記述します。instance_schema
: 予測データのデータ型を記述する、OpenAPI 仕様のインスタンス スキーマ。transform_output
: 変換のメタデータ。変換に TensorFlow を使用している場合、メタデータには TensorFlow グラフが含まれます。
処理手順
特徴変換エンジンは、次の手順を実行します。
- トレーニング、評価、テスト用にデータセット分割を生成します。
- 生のデータセットを記述する入力データセット統計
dataset_stats
を生成します。 - 特徴選択を実施する。
- データセットの統計情報を使用して変換構成を処理し、自動変換パラメータを手動変換パラメータに解決します。
- 未加工の特徴をエンジニアリングされた特徴に変換します。特徴のタイプごとに異なる変換が実行されます。
特徴選択
特徴選択の主な目的は、モデルで使用する特徴の数を減らすことです。数を減らした機能セットの場合、ラベルのほとんどの情報をよりコンパクトな方法でキャプチャできることが期待されます。特徴選択により、モデルの品質に大きな影響を与えることなく、モデルのトレーニングやモデルのサービスのコストを削減できます。
特徴選択が有効になっている場合、特徴変換エンジンによって各特徴に重要度スコアが割り当てられます。特徴全体の重要度スコア、または最も重要な特徴の縮小されたサブセットの重要度スコアを出力できます。
Vertex AI には、次の特徴選択アルゴリズムが用意されています。
すべてのデータセットで、すべての目的に対して、常に最適に機能する特徴選択アルゴリズムは存在しません。可能であれば、すべてのアルゴリズムを実行し、結果を結合します。
調整された相互情報(AMI)
AMI は、偶然を考慮した相互情報(MI)スコアの調整です。実際に共有されている情報が多いかどうかにかかわらず、クラスタ数の多い 2 つのクラスタリングでは、MI が一般的に高くなるという事実が考慮されます。
AMI は特徴とラベルの関連性の検出は得意ですが、特徴の冗長性を捉えることができません。多数の特徴(たとえば 2,000 を超える)があり、特徴の冗長性がそれほど多くない場合は、AMI を検討します。ここで説明する他のアルゴリズムよりも高速ですが、冗長な機能が捉えられる可能性があります。
条件付き相互情報最大化(CMIM)
CMIM は貪欲なアルゴリズムであり、選択した特徴に関する候補特徴の条件付き相互情報に基づいて、特徴を繰り返し選択します。繰り返しごとに、選択した特徴でまだキャプチャされていないラベルとの最小相互情報量を最大化する特徴が選択されます。
CMIM は特徴の冗長性の処理に関して堅牢であり、一般的なケースで適切に機能します。
共同相互情報量最大化(JMIM)
JMIM は、CMIM に似た貪欲なアルゴリズムです。JMIM は、新しい特徴とラベル付きの事前に選択された特徴の共同相互情報を最大化する特徴を選択します。一方で、CMIM では冗長性がより考慮されます。
JMIM は高品質の特徴選択アルゴリズムです。
最大関連性最小冗長性(MRMR)
MRMR は、貪欲なアルゴリズムで反復的に動作します。CMIM に似ています。繰り返しごとに、前のイテレーションで選択された特徴に関してペアごとの冗長性を最小限に抑えつつ、ラベルに関して関連性を最大化する特徴を選択します。
MRMR は、高品質の特徴選択アルゴリズムです。
次のステップ
特徴量エンジニアリングを実行した後、分類または回帰のモデルをトレーニングできます。
- エンドツーエンドの AutoML でモデルをトレーニングする
- TabNet でモデルをトレーニングする。
- ワイド & ディープでモデルをトレーニングする。