教師なし学習とは

AI における教師なし学習は、人間の監督なしでデータから学習する機械学習の一種です。教師あり学習とは異なり、教師なし機械学習モデルにはラベルのないデータが与えられ、明示的なガイダンスや指示がなくてもパターンと分析情報を発見できます。

自覚しているかどうかにかかわらず、AI機械学習は日常生活のあらゆる側面に影響を与えており、効率の向上、費用の削減、情報に基づくより良い意思決定を行うことができるインサイトにデータを変換するのに役立ちます。現在、企業は機械学習アルゴリズムを使用して、パーソナライズされた推奨事項やリアルタイム翻訳、さらにはテキストや画像などのコンテンツの自動生成を実現しています。

ここでは、教師なし機械学習の基本、その仕組み、一般的な実際の適用について説明します。

新規のお客様には、Vertex AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。

教師なし学習の仕組み

名前が示すように、教師なし学習は自己学習アルゴリズムを使用します。つまり、ラベルや事前トレーニングなしで学習します。ラベルのない元データをモデルに提供します。各データの処理方法に関する明示的な指示なしに、独自のルールを推測し、類似性、相違点、パターンに基づいて情報を構造化します。

教師なし学習アルゴリズムは、大規模なデータセットをクラスタに編成するなど、より複雑な処理タスクに適しています。以前は検出されなかったデータパターンを特定するのに役立ち、データの分類に役立つ特徴を特定するのに役立ちます。

気象に関する大規模なデータセットがあるとします。教師なし学習アルゴリズムは、データを調べてデータポイントのパターンを特定します。たとえば、気温や同様の気象パターンでデータをグループ化できます。

アルゴリズム自体は、ユーザーが過去に提供した情報に基づいてこれらのパターンを理解しませんが、データグループ化を行い、データセットの理解に基づいて分類を試みることができます。たとえば、さまざまな気温グループが 4 つの季節をすべて表している、気象パターンが雨、みぞれ、雪など、さまざまな天候タイプに分かれている、といった場合です。

教師なし機械学習の手法

一般的に、教師なし学習のタスクには、クラスタリング、関連付けルール、次元削減の 3 種類があります。

以下では、教師なし学習の手法のそれぞれのタイプをもう少し深く掘り下げます。

クラスタリング

クラスタ化は、ラベルのない元データを探索し、類似性や相違性に基づいてグループ(またはクラスタ)に分解する手法です。顧客セグメンテーション、不正行為の検出、画像分析など、さまざまなアプリケーションで使用されています。クラスタリング アルゴリズムは、分類されていないデータの類似した構造やパターンを見つけることで、データを自然のグループに分割します。

クラスタリングは、最も一般的な教師なし機械学習アプローチの一つです。クラスタリングに使用される教師なし学習アルゴリズムには、排他的、重複、階層的、確率的など、いくつかの種類があります。  

  • 排他的クラスタリング: 1 つのデータポイントが 1 つのクラスタにしか存在しないように、データがグループ化されます。これは「ハード」クラスタリングとも呼ばれます。排他的クラスタリングの一般的な例は、K 平均法クラスタリング アルゴリズムです。これは、データポイントをユーザー定義の K 個のクラスタに分割します。
  • 重複するクラスタリング: データは、1 つのデータポイントがメンバーシップの異なる 2 つ以上のクラスタに存在できる方法でグループ化されます。これは「ソフト」クラスタリングとも呼ばれます。
  • 階層的クラスタリング: データは類似性に基づいて個別のクラスタに分割されます。これらのクラスタは、階層関係に基づいて繰り返しマージされ、整理されます。階層型クラスタリングには、主に集計クラスタリングと分割クラスタリングの 2 種類があります。この方法は、HAC(階層型クラスタ分析)とも呼ばれます。
  • 確率的クラスタリング: 各データポイントが各クラスタに属する確率に基づいて、データがクラスタにグループ化されます。この方法は、クラスタ内の他のものとの類似性に基づいてデータポイントをグループ化する他の方法とは異なります。

関連付け

関連付けルール マイニングは、大規模なデータセット内のデータポイント間の興味深い関係を明らかにするルールベースのアプローチです。教師なし学習アルゴリズムは、if-then 関連付け(ルールとも呼ばれる)を頻繁に検索して、データ内の相関関係と共起、およびデータ オブジェクト間のさまざまなつながりを見つけます。

小売かごやトランザクション データセットを分析して、特定のアイテムが一緒に購入される頻度を表す場合によく使用されます。これらのアルゴリズムは、顧客の購入パターンや以前は隠れていた商品間の関係を明らかにして、レコメンデーション エンジンやその他のクロスセルの機会の通知に活用できます。ルールについては、お気に入りのオンライン小売店の「よく一緒に購入されている商品」と「この商品を購入した人は他の人も買っている」のセクションに記載されていることでおなじみだと思います。

関連付けのルールは、臨床診断のために医療データセットを整理するためにもよく使用されます。教師なし機械学習と関連付けルールを使用すると、医師は過去の患者の症状間の関係を比較することで、特定の診断の確率を特定できます。

通常、Apriori アルゴリズムが、関連するアイテムのコレクションまたはアイテムのセットを識別するための関連付けルール学習に最も広く使用されています。ただし、Eclat アルゴリズムや FP 成長アルゴリズムなど、他の種類のアルゴリズムも使用されます。

次元数の削減

次元削減は、データセット内の特徴(または次元)の数を減らす教師なし学習の手法です。一般的に、データが多いほど機械学習には役立ちますが、データの可視化はさらに難しくなります。

次元削減では、重要な特徴をデータセットから抽出して、無関係な特徴やランダムな特徴の数を減らします。この方法では、主成分分析(PCA)アルゴリズムと特異値分解(SVD)アルゴリズムを使用して、元データのプロパティの完全性を損なうことなく、データ入力の数を減らすことができます。

実世界の教師なし学習の例

教師なし学習の仕組みの基本を理解したところで、次は企業が大量のデータをすばやく探索する際に役立つ最も一般的なユースケースを見ていきましょう。

  

実際の教師なし学習の例をいくつか示します。

  • 異常検出: 教師なしクラスタリングは、大規模なデータセットを処理し、データセット内で非定型的なデータポイントを検出できます。
  • レコメンデーション エンジン: 関連付けルールを使用すると、教師なし ML でトランザクション データを探索してパターンや傾向を発見し、オンライン小売店用のパーソナライズされたおすすめ情報を提供できるようになります。
  • 顧客セグメンテーション: 教師なし学習は、顧客の共通の特徴や購入行動をクラスタ化することで、購入者のペルソナ プロファイルを生成する場合にもよく使用されます。このプロファイルは、マーケティングやその他のビジネス戦略の指針として使用できます。
  • 不正行為の検出: 教師なし学習は異常検出に有用で、データセット内の異常なデータポイントを明らかにします。これらの分析情報は、データの通常のパターンから逸脱したイベントや行動を明らかにし、不正なトランザクションや、bot アクティビティなどの異常な動作を明らかにするのに役立ちます。
  • 自然言語処理(NLP): 教師なし学習は、ニュース セクションでの記事の分類、テキストの翻訳と分類、会話インターフェースにおける音声認識など、さまざまな NLP アプリケーションに広く使用されています。
  • 遺伝子研究: 遺伝子クラスタリングも、教師なし学習の一般的な例です。階層的クラスタリング アルゴリズムは、DNA パターンを分析して進化の関係を明らかにするためによく使用されます。

教師なし学習は、大量のラベルなしデータを探索する必要があるタスクに適しています。このアプローチにより、企業はラベルが存在しない場合にデータから分析情報を簡単に得ることができ、人間が教えなくてもデータセットの基礎となる構造を理解し、データセット間のパターンと関係を特定できます。

教師あり学習と教師なし学習

教師あり学習と教師なし学習の主な違いは、使用する入力データの種類です。教師なし機械学習のアルゴリズムとは異なり、教師あり学習はラベル付きトレーニング データに基づいて、データセット内のパターン認識が正確かどうかを判断します。

教師あり学習モデルの目標も事前に決められています。つまり、モデルの出力の種類は、アルゴリズムが適用される前にすでにわかっているということです。つまり、トレーニング データに基づいて入力が出力にマッピングされます。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。
お客様独自の課題を詳細に検討するには、Google Cloud のセールス スペシャリストまでご相談ください。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud