クラスタリングの概要

クラスタリングは、類似したレコードをグループ化するために使用できる教師なし ML 手法です。これは、データにどのようなグループやクラスタがあるかを把握する必要があるものの、モデルをトレーニングするためのラベル付きデータがない場合に活用できるアプローチです。たとえば、地下鉄のチケット購入に関するラベルなしデータがある場合、そのデータをチケット購入時間別にクラスタリングすると、地下鉄の利用が最も多い時間帯を把握できます。詳細については、クラスタリングとはをご覧ください。

クラスタリングには K 平均法モデルが広く使用されています。k 平均法モデルを ML.PREDICT 関数で使用してデータをクラスタリング、または ML.DETECT_ANOMALIES 関数で異常検出を実行できます。

K 平均法モデルは、重心ベースのクラスタリングを使用してデータをクラスタに編成します。K 平均法モデルの重心に関する情報を取得するには、ML.CENTROIDS 関数を使用します。

推奨される知識

CREATE MODEL ステートメントと推論関数をデフォルト設定にすると、ML の知識がなくてもクラスタリングモデルを作成して使用できます。ただし、ML 開発、特にクラスタリングモデルに関する基本的な知識があれば、データとモデルの両方を最適化して、より良い結果を得るのに役立ちます。ML の手法とプロセスに習熟するために、次のリソースの活用をおすすめします。