教師あり学習は ML の一種で、ラベル付きデータセットを使用して、結果を予測してパターンを認識するアルゴリズムをトレーニングします。教師なし学習とは異なり、教師あり学習のアルゴリズムにはラベル付きのトレーニングが与えられ、入力と出力の関係を学習します。
教師あり ML アルゴリズムを使用すると、正確な予測が可能な複雑なモデルを簡単に作成できます。そのため、医療、マーケティング、金融サービスなど、さまざまな業界や分野で広く使用されています。
ここでは、AI における教師あり学習の基礎、教師あり学習アルゴリズムの仕組み、最も一般的なユースケースについて説明します。
新規のお客様には、Vertex AI やその他の Google Cloud プロダクトをお試しいただける無料クレジット最大 $300 分を差し上げます。
教師あり学習で使用されるデータにはラベルが付けられています。つまり、データには入力(特徴量と呼ばれる)と正しい出力(ラベル)の両方の例が含まれています。アルゴリズムはこれらのトレーニング ペアの大規模なデータセットを分析し、新しいデータについて予測するよう求められたときに望ましい出力値を推測します。
たとえば、木の写真を識別するようにモデルに学習させるとします。あなたは、さまざまな種類の木の例とそれぞれの種の名前を含むラベル付きデータセットを用意します。ラベル付きの出力に基づいて、各ツリーに属する特徴のセットをアルゴリズムに定義させようとします。次に、モデルに樹木の画像を表示して、その種を推測してテストします。モデルからの回答が不適切だった場合は、引き続きトレーニングを行い、サンプル数を増やしてパラメータを調整することで、精度を高めてエラーを最小限に抑えることができます。
モデルのトレーニングとテストが済んだら、そのモデルを使用して、学習した過去の知識に基づいて未知のデータに対する予測を行うことができます。
教師あり学習で使用されるデータにはラベルが付けられています。つまり、データには入力(特徴量と呼ばれる)と正しい出力(ラベル)の両方の例が含まれています。アルゴリズムはこれらのトレーニング ペアの大規模なデータセットを分析し、新しいデータについて予測するよう求められたときに望ましい出力値を推測します。
たとえば、木の写真を識別するようにモデルに学習させるとします。あなたは、さまざまな種類の木の例とそれぞれの種の名前を含むラベル付きデータセットを用意します。ラベル付きの出力に基づいて、各ツリーに属する特徴のセットをアルゴリズムに定義させようとします。次に、モデルに樹木の画像を表示して、その種を推測してテストします。モデルからの回答が不適切だった場合は、引き続きトレーニングを行い、サンプル数を増やしてパラメータを調整することで、精度を高めてエラーを最小限に抑えることができます。
モデルのトレーニングとテストが済んだら、そのモデルを使用して、学習した過去の知識に基づいて未知のデータに対する予測を行うことができます。
ML の教師あり学習は、一般に分類と回帰の 2 つのカテゴリに分けられます。
分類アルゴリズムは、入力データに基づいてカテゴリラベルや出力変数を予測することでデータをグループ化するために使用します。分類は、出力変数がカテゴリ別、つまり 2 つ以上のクラスがある場合に使用されます。
使用されている分類アルゴリズムの最も一般的な例に、受信トレイの迷惑メールフィルタがあります。ここでは、迷惑メールと正当なメールの両方のラベル付きサンプルを含むデータセットを使用して、メールが迷惑メールかどうかを予測するように教師あり学習モデルがトレーニングされています。このアルゴリズムにより、送信者、件名、本文など、各メールに関する情報が抽出されます。次に、これらの機能と対応する出力ラベルを使用してパターンを学習し、メールが本物か迷惑メールかを示すスコアを割り当てます。
回帰アルゴリズムは、実数または連続値を予測するために使用され、アルゴリズムは 2 つ以上の変数間の関係を検出します。
回帰タスクの一般的な例としては、実務経験に基づく給与の予測が挙げられます。たとえば、教師あり学習アルゴリズムでは、実務経験(期間、業界や分野、場所など)とそれに対応する割り当てられた給与額に関連する入力が供給されます。モデルをトレーニングした後、実務経験に基づいて平均給与を予測するために使用できます。
教師あり学習モデルは、さまざまなビジネス ユースケースに使用でき、幅広い問題に対処できます。教師あり学習の一般的な例は次のとおりです。
レコメンデーション システム: オンライン プラットフォームやストリーミング サービスでは、過去の顧客の行動やショッピング履歴に基づいておすすめを生成するために教師あり学習アルゴリズムが使用されます。これらのモデルは、ユーザーの行動に関する重要な情報を抽出し、類似の商品やコンテンツを提案します。
教師あり学習と教師なし学習の違いを理解するうえでの主な違いは、モデルのトレーニングに使用される入力データの種類です。教師あり学習では、ラベル付けされたトレーニング データセットを使用して、事前に定義された特定の目標をモデルに学習させます。
一方、教師なし学習はラベルなしデータを使用し、明示的な指示がなくてもデータの構造の学習を自律的に試行します。