次元削減の概要

次元削減は、高次元空間のデータの形状と関係をキャプチャし、この情報を低次元空間に変換するために使用される一連の数学的手法を表す一般的な用語です。

次元削減は、数千の特徴を含む大規模なデータセットを扱う場合に重要です。このような大規模なデータ空間では、データポイント間の距離の範囲が広くなると、モデルの出力を解釈しにくくなる可能性があります。たとえば、どのデータポイントがより近接していて、したがってより類似したデータを表しているかを把握することが難しくなります。次元削減は、データセットの最も重要な特性を保持しながら特徴の数を減らすのに役立ちます。特徴の数を減らすと、データを入力として使用するモデルのトレーニング時間も短縮できます。

BigQuery ML には、次のようなモデルが用意されています。

PCA モデルやオートエンコーダモデルと ML.PREDICT 関数または ML.GENERATE_EMBEDDING 関数を使用してデータを低次元空間にエンベディングし、ML.DETECT_ANOMALIES 関数で異常検出を行うことができます。

次のようなタスクに、次元削減モデルの出力を使用できます。

類似検索: エンベディングに基づいて、互いに類似するデータポイントを見つけます。これは、関連する商品の検索、類似コンテンツのおすすめ、重複または異常なアイテムの特定に役立ちます。
クラスタリング: エンベディングを K 平均法モデルの入力特徴として使用し、類似性に基づいてデータポイントをグループ化します。これにより、データの隠れたパターンや分析情報を発見できます。
ML: エンベディングを分類モデルまたは回帰モデルの入力特徴として使用します。