Hello 表形式データ: データセットの作成と AutoML 分類モデルのトレーニング

Google Cloud Console を使用して表形式のデータセットを作成し、分類モデルをトレーニングします。

表形式データセットを作成する

  1. Google Cloud Console の Vertex AI セクションで、[データセット] ページに移動します。

    [データセット] ページに移動

  2. ボタンバーの [作成] をクリックして、新しいデータセットを作成します。

  3. データセット名として「Structured_AutoML_Tutorial」と入力し、[表形式] タブを選択します。

  4. 目標に [回帰 / 分類] を選択します。

    [リージョン] は us-central1 のままにします。

  5. [作成] をクリックして、データセットを作成します。

    このチュートリアルでは、一般公開されており Cloud Storage にホストされている銀行データセットを使用します。

  6. [データソースの選択] で [Cloud Storage から CSV ファイルを選択] をクリックします。

  7. [インポート ファイルのパス] に「cloud-ml-tables-data/bank-marketing.csv」と入力します。

  8. [次へ] をクリックします。

データセットの分析

分析セクションでは、欠損値や NULL 値など、データセットに関する詳細情報を確認できます。

データセットは、このチュートリアルに対して正しい形式になっているので、このページでは特に何もする必要はありません。このセクションをスキップすることもできます。

  1. (省略可)[統計情報を生成] をクリックして、データセット内の欠損値や NULL 値の数を表示します。この処理には 10 分以上かかることがあります。

  2. (省略可)特徴列の 1 つをクリックして、データ値の詳細を確認します。

AutoML 分類モデルをトレーニングする

  1. [新しいモデルをトレーニング] をクリックします。

  2. [トレーニング方法] ペインの [データセット] フィールドで、以前に作成したデータセットが選択されていることを確認します。

  3. [目的] で [分類] を選択します。

  4. AutoML トレーニング メソッドが選択されていることを確認します。

  5. [次へ] をクリックします。

  6. [モデルの詳細] ペインで、ターゲット列として [Deposit] を選択し、[続行] をクリックします。

    ターゲット列は、モデルをトレーニングして予測する対象です。bank-marketing.csv データセットの Deposit 列には、顧客が定期預金を契約したかどうか(2 = した、1 = しない)が示されます。

    [トレーニング オプション] ペインでは、特徴の追加や列データの変換を行えます。デフォルトでは、列が選択されていない場合、ターゲット以外の列はすべてトレーニング用の特徴として使用されます。このデータセットは、使用する準備が整っているため、変換を適用する必要はありません。

  7. [次へ] をクリックします。

  8. [コンピューティングと料金] ペインで、トレーニング予算として「1」を入力します。

    トレーニング予算により実際のトレーニング時間が決まりますが、トレーニング完了までの時間には他のアクティビティも含まれるため、プロセス全体が 1 時間以上かかる場合があります。モデルのトレーニングが終了すると、[モデル] ペインにライブリンクとして緑色のチェックマーク ステータス アイコンが表示されます。

  9. [トレーニングを開始] をクリックします。

次のステップ

モデルのトレーニングが行われています。完了には 1 時間以上かかる場合があります。トレーニングが完了すると、メールが届きます。モデルのトレーニングが完了したら、このチュートリアルの次のページに進み、モデルをデプロイして予測をリクエストします。

このチュートリアルでは、AutoML のトレーニング用にクリーンアップされ、フォーマットされたデータセットを使用しますが、たいていのデータは、使用できるようになる前になんらかの作業が必要です。トレーニング データの品質は、作成するモデルの有効性に影響します。データの準備についての詳細をご覧ください。

データの収集と準備は、正確な機械学習モデルの実現に不可欠です。ベスト プラクティスの詳細をご覧ください。

表形式のデータセットの作成に関する詳細をご覧ください。

Vertex AI には、2 つのモデル トレーニング メソッド(AutoML とカスタム トレーニング)が用意されています。AutoML では最小限の労力と機械学習の経験でトレーニングを行え、カスタム トレーニングではトレーニング機能をすべて操作できます。トレーニング メソッドの詳細をご覧ください。

Vertex AI は、ソースのデータ型と特徴値を調べ、モデル トレーニングでその特徴をどのように使用するかを推測します。各列のデータ型を調べて、正しく解釈されているか確認することをおすすめします。必要に応じて、サポートされている他の変換を特徴ごとに指定できます。変換に関する詳細をご覧ください。

分類または回帰に関する AutoML のトレーニングに関する詳細をご覧ください。