AI における教師なし学習は、人間の監督なしでデータから学習する機械学習の一種です。教師あり学習とは異なり、教師なし機械学習モデルにはラベルのないデータが与えられ、明示的なガイダンスや指示がなくてもパターンと分析情報を発見できます。
自覚しているかどうかにかかわらず、AI と機械学習は日常生活のあらゆる側面に影響を与えており、効率の向上、費用の削減、情報に基づくより良い意思決定を行うことができるインサイトにデータを変換するのに役立ちます。現在、企業は機械学習アルゴリズムを使用して、パーソナライズされた推奨事項やリアルタイム翻訳、さらにはテキストや画像などのコンテンツの自動生成を実現しています。
ここでは、教師なし機械学習の基本、その仕組み、一般的な実際の適用について説明します。
新規のお客様には、Vertex AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。
名前が示すように、教師なし学習は自己学習アルゴリズムを使用します。つまり、ラベルや事前トレーニングなしで学習します。ラベルのない元データをモデルに提供します。各データの処理方法に関する明示的な指示なしに、独自のルールを推測し、類似性、相違点、パターンに基づいて情報を構造化します。
教師なし学習アルゴリズムは、大規模なデータセットをクラスタに編成するなど、より複雑な処理タスクに適しています。以前は検出されなかったデータパターンを特定するのに役立ち、データの分類に役立つ特徴を特定するのに役立ちます。
気象に関する大規模なデータセットがあるとします。教師なし学習アルゴリズムは、データを調べてデータポイントのパターンを特定します。たとえば、気温や同様の気象パターンでデータをグループ化できます。
アルゴリズム自体は、ユーザーが過去に提供した情報に基づいてこれらのパターンを理解しませんが、データグループ化を行い、データセットの理解に基づいて分類を試みることができます。たとえば、さまざまな気温グループが 4 つの季節をすべて表している、気象パターンが雨、みぞれ、雪など、さまざまな天候タイプに分かれている、といった場合です。
一般的に、教師なし学習のタスクには、クラスタリング、関連付けルール、次元削減の 3 種類があります。
以下では、教師なし学習の手法のそれぞれのタイプをもう少し深く掘り下げます。
クラスタ化は、ラベルのない元データを探索し、類似性や相違性に基づいてグループ(またはクラスタ)に分解する手法です。顧客セグメンテーション、不正行為の検出、画像分析など、さまざまなアプリケーションで使用されています。クラスタリング アルゴリズムは、分類されていないデータの類似した構造やパターンを見つけることで、データを自然のグループに分割します。
クラスタリングは、最も一般的な教師なし機械学習アプローチの一つです。クラスタリングに使用される教師なし学習アルゴリズムには、排他的、重複、階層的、確率的など、いくつかの種類があります。
関連付けルール マイニングは、大規模なデータセット内のデータポイント間の興味深い関係を明らかにするルールベースのアプローチです。教師なし学習アルゴリズムは、if-then 関連付け(ルールとも呼ばれる)を頻繁に検索して、データ内の相関関係と共起、およびデータ オブジェクト間のさまざまなつながりを見つけます。
小売かごやトランザクション データセットを分析して、特定のアイテムが一緒に購入される頻度を表す場合によく使用されます。これらのアルゴリズムは、顧客の購入パターンや以前は隠れていた商品間の関係を明らかにして、レコメンデーション エンジンやその他のクロスセルの機会の通知に活用できます。ルールについては、お気に入りのオンライン小売店の「よく一緒に購入されている商品」と「この商品を購入した人は他の人も買っている」のセクションに記載されていることでおなじみだと思います。
関連付けのルールは、臨床診断のために医療データセットを整理するためにもよく使用されます。教師なし機械学習と関連付けルールを使用すると、医師は過去の患者の症状間の関係を比較することで、特定の診断の確率を特定できます。
通常、Apriori アルゴリズムが、関連するアイテムのコレクションまたはアイテムのセットを識別するための関連付けルール学習に最も広く使用されています。ただし、Eclat アルゴリズムや FP 成長アルゴリズムなど、他の種類のアルゴリズムも使用されます。
次元削減は、データセット内の特徴(または次元)の数を減らす教師なし学習の手法です。一般的に、データが多いほど機械学習には役立ちますが、データの可視化はさらに難しくなります。
次元削減では、重要な特徴をデータセットから抽出して、無関係な特徴やランダムな特徴の数を減らします。この方法では、主成分分析(PCA)アルゴリズムと特異値分解(SVD)アルゴリズムを使用して、元データのプロパティの完全性を損なうことなく、データ入力の数を減らすことができます。
教師なし学習の仕組みの基本を理解したところで、次は企業が大量のデータをすばやく探索する際に役立つ最も一般的なユースケースを見ていきましょう。
実際の教師なし学習の例をいくつか示します。
教師なし学習は、大量のラベルなしデータを探索する必要があるタスクに適しています。このアプローチにより、企業はラベルが存在しない場合にデータから分析情報を簡単に得ることができ、人間が教えなくてもデータセットの基礎となる構造を理解し、データセット間のパターンと関係を特定できます。
教師あり学習と教師なし学習の主な違いは、使用する入力データの種類です。教師なし機械学習のアルゴリズムとは異なり、教師あり学習はラベル付きトレーニング データに基づいて、データセット内のパターン認識が正確かどうかを判断します。
教師あり学習モデルの目標も事前に決められています。つまり、モデルの出力の種類は、アルゴリズムが適用される前にすでにわかっているということです。つまり、トレーニング データに基づいて入力が出力にマッピングされます。