Google Cloud Console を使用して表形式のデータセットを作成し、分類モデルをトレーニングします。
表形式データセットを作成する
Google Cloud Console の Vertex AI セクションで、[データセット] ページに移動します。
ボタンバーの [作成] をクリックして、新しいデータセットを作成します。
データセット名として「
Structured_AutoML_Tutorial
」と入力し、[表形式] タブを選択します。目標に [回帰 / 分類] を選択します。
[リージョン] は us-central1 のままにします。
[作成] をクリックして、データセットを作成します。
このチュートリアルでは、一般公開されており Cloud Storage にホストされている銀行データセットを使用します。
[データソースの選択] で [Cloud Storage から CSV ファイルを選択] をクリックします。
[インポート ファイルのパス] に「
cloud-ml-tables-data/bank-marketing.csv
」と入力します。[次へ] をクリックします。
データセットの分析
分析セクションでは、欠損値や NULL 値など、データセットに関する詳細情報を確認できます。
データセットは、このチュートリアルに対して正しい形式になっているので、このページでは特に何もする必要はありません。このセクションをスキップすることもできます。
(省略可)[統計情報を生成] をクリックして、データセット内の欠損値や NULL 値の数を表示します。この処理には 10 分以上かかることがあります。
(省略可)特徴列の 1 つをクリックして、データ値の詳細を確認します。
AutoML 分類モデルをトレーニングする
[新しいモデルのトレーニング] をクリックします。
[その他] を選択します。
[トレーニング方法] ペインの [データセット] フィールドで、以前に作成したデータセットが選択されていることを確認します。
[目的] で [分類] を選択します。
AutoML トレーニング メソッドが選択されていることを確認します。
[次へ] をクリックします。
[モデルの詳細] ペインで、ターゲット列として [Deposit] を選択し、[続行] をクリックします。
ターゲット列は、モデルをトレーニングして予測する対象です。
bank-marketing.csv
データセットのDeposit
列には、顧客が定期預金を契約したかどうか(2 = した、1 = しない)が示されます。[トレーニング オプション] ペインでは、特徴の追加や列データの変換を行えます。デフォルトでは、列が選択されていない場合、ターゲット以外の列はすべてトレーニング用の特徴として使用されます。このデータセットは、使用する準備が整っているため、変換を適用する必要はありません。
[次へ] をクリックします。
[コンピューティングと料金] ペインで、トレーニング予算として「
1
」を入力します。トレーニング予算により実際のトレーニング時間が決まりますが、トレーニング完了までの時間には他のアクティビティも含まれるため、プロセス全体が 1 時間以上かかる場合があります。モデルのトレーニングが終了すると、[モデル] ペインにライブリンクとして緑色のチェックマーク ステータス アイコンが表示されます。
[トレーニングを開始] をクリックします。
次のステップ
モデルのトレーニングが行われています。完了には 1 時間以上かかる場合があります。トレーニングが完了すると、メールが届きます。モデルのトレーニングが完了したら、このチュートリアルの次のページに進み、モデルをデプロイして予測をリクエストします。
このチュートリアルでは、AutoML のトレーニング用にクリーンアップされ、フォーマットされたデータセットを使用しますが、たいていのデータは、使用できるようになる前になんらかの作業が必要です。トレーニング データの品質は、作成するモデルの有効性に影響します。データの準備についての詳細をご覧ください。
データの収集と準備は、正確な機械学習モデルの実現に不可欠です。ベスト プラクティスの詳細をご覧ください。
表形式のデータセットの作成に関する詳細をご覧ください。
Vertex AI には、2 つのモデル トレーニング メソッド(AutoML とカスタム トレーニング)が用意されています。AutoML では最小限の労力と機械学習の経験でトレーニングを行え、カスタム トレーニングではトレーニング機能をすべて操作できます。トレーニング メソッドの詳細をご覧ください。
Vertex AI は、ソースのデータ型と特徴値を調べ、モデル トレーニングでその特徴をどのように使用するかを推測します。各列のデータ型を調べて、正しく解釈されているか確認することをおすすめします。必要に応じて、サポートされている他の変換を特徴ごとに指定できます。変換に関する詳細をご覧ください。
分類または回帰に関する AutoML のトレーニングに関する詳細をご覧ください。