この古いバージョンの AI Platform Training は非推奨になりました。2025 年 1 月 31 日を過ぎると Google Cloud で使用できなくなります。リソースを Vertex AI カスタムトレーニングに移行することで、AI Platform にはない新しい機械学習機能を利用できます。

ワイド＆ディープ組み込みアルゴリズムスタートガイド

AI Platform Training の組み込みアルゴリズムを使用すると、トレーニングアプリケーションのコードを一切作成せずに、トレーニングデータの送信とアルゴリズムの選択を行い、AI Platform Training による前処理とトレーニングを実施できます。

概要

このチュートリアルでは、コードを一切作成せずにワイド＆ディープモデルをトレーニングします。国勢調査所得データセットを AI Platform Training に送信して前処理とトレーニングを実施し、次にモデルを AI Platform Training にデプロイして予測を取得します。作成したモデルで、個人の年収が $50,000 を超える確率を予測します。

始める前に

コマンドラインでこのチュートリアルを実行するには、Cloud Shell を使用するか、Google Cloud CLI がインストールされている環境を使用します。

次の手順に沿って GCP アカウントの設定、必要な API の有効化、Google Cloud CLI のインストールと有効化を行います。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

Google Cloud Console の [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動

Google Cloud プロジェクトで課金が有効になっていることを確認します。

AI Platform Training & Prediction and Compute Engine API を有効にします。

API を有効にする

Google Cloud CLI をインストールします。

gcloud CLI を初期化するには:

gcloud init

Google Cloud Console の [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動

Google Cloud プロジェクトで課金が有効になっていることを確認します。

AI Platform Training & Prediction and Compute Engine API を有効にします。

API を有効にする

Google Cloud CLI をインストールします。

gcloud CLI を初期化するには:

gcloud init

設定

表形式の組み込みアルゴリズムを使用するには、CSV ファイルからヘッダー行を削除し、ターゲット値を最初の列に移動する必要があります。このチュートリアルで使用するため、元の国勢調査データセットに変更を加えて、Cloud Storage の公開バケット gs://cloud-samples-data/ai-platform/census/algorithms/data/ に追加しました。

Console

トレーニングジョブを開始する前に、Cloud Storage の公開バケットからご使用の Cloud Storage バケットにデータをコピーする必要があります。

サンプルデータを Cloud Storage バケットにコピーする

注: この手順はコマンドラインから行うほうが簡単です。詳しい手順については、[gcloud] タブをご覧ください。

まず、Cloud Storage の公開バケットからトレーニングデータとテストデータをダウンロードします。
1. Cloud Storage の公開バケットに移動します。
  
  サンプルデータを取得する
2. test.csv と train.csv の両方をダウンロードします。
  1. ファイル名をクリックします。
  2. [オブジェクトの詳細] ページで、[ダウンロード] をクリックします。これらのファイルは、それぞれ ai-platform_census_algorithms_data_test.csv と ai-platform_census_algorithms_data_train.csv としてローカル環境にダウンロードされます。
次に、トレーニングデータとテストデータをご使用の Cloud Storage バケットにアップロードします。
1. Cloud Storage バケットの [ブラウザ] ページに移動します。[プロジェクトを選択] プルダウンリストからプロジェクトを選択するか、新しいタブでプロジェクトを開きます。
  
  Cloud Storage の [ブラウザ] ページ
2. 使用するバケットの名前をクリックします。バケットが存在しない場合は、新しいバケットを作成します（新しいバケットを作成する場合は、リージョンバケットであることを確認してください。また、AI Platform Training のトレーニングジョブを実行しているリージョンと同じリージョンを選択してください）。
3. （省略可）[フォルダを作成] をクリックし、ファイルをアップロードするフォルダを作成します。フォルダの名前（「data」など）を入力して、[作成] をクリックします。次に、フォルダ名をクリックして新しいフォルダに移動します。
4. [ファイルをアップロード] をクリックして、トレーニングファイルとテストファイル（ai-platform_census_algorithms_data_train.csv と ai-platform_census_algorithms_data_test.csv）の両方をバケットにアップロードします。

これでデータがバケットにコピーされたので、使用するアルゴリズムの種類を選択してトレーニングジョブを開始できます。

アルゴリズムを選択する

Google Cloud コンソールで AI Platform Training の [ジョブ] ページに移動します。

AI Platform Training の [ジョブ] ページ
[新規トレーニングジョブ] ボタンをクリックします。下に表示されたオプションから、[組み込みアルゴリズムによるトレーニング] をクリックします。[新しいトレーニングジョブの作成] ページが表示されます。
トレーニングジョブの作成は 4 つのステップに分かれています。最初のステップはトレーニングアルゴリズムです。[ワイド＆ディープ] を選択して [次へ] をクリックします。

gcloud

プロジェクト ID、Cloud Storage バケット、Cloud Storage 上のトレーニングデータへのパス、使用するアルゴリズムのそれぞれを格納する環境変数を設定します。

AI Platform Training の組み込みアルゴリズムは、Container Registry でホストされている Docker コンテナにあります。

PROJECT_ID=YOUR_PROJECT_ID
BUCKET_NAME=YOUR_BUCKET_NAME
REGION="us-central1"
gcloud config set project $PROJECT_ID
gcloud config set compute/region $REGION

# Copy the training data into your Cloud Storage bucket, and set the path
# to your copy of the training data.
TRAINING_DATA_SOURCE=gs://cloud-samples-data/ai-platform/census/algorithms/data/train.csv
TRAINING_DATA_PATH=gs://$BUCKET_NAME/algorithms-demo/data/train.csv
gsutil cp $TRAINING_DATA_SOURCE $TRAINING_DATA_PATH

# Specify the Docker container URI specific to the algorithm.
IMAGE_URI="gcr.io/cloud-ml-algos/wide_deep_learner_cpu:latest"

トレーニングジョブを送信する

ジョブを送信するには、基本的なトレーニング引数と、ワイド＆ディープアルゴリズムに関する基本的な引数を指定する必要があります。

トレーニングジョブの一般的な引数:

トレーニングジョブの引数
引数	説明
`job-id`	トレーニングジョブの一意の ID。トレーニングジョブを送信した後、この ID を使用してログを検索しトレーニングジョブのステータスを確認できます。
`job-dir`	トレーニングジョブが正常に完了した後に AI Platform Training がトレーニングファイルを保存する Cloud Storage のパス。
`scale-tier`	トレーニング用のマシンタイプを指定します。単一マシン構成を選択するには、`BASIC` を使用します。
`master-image-uri`	トレーニングジョブに使用する Docker コンテナを指定するための Container Registry URI。すでに `IMAGE_URI` として定義されているワイド＆ディープ組み込みアルゴリズムのコンテナを使用します。
`region`	トレーニングジョブを実行するために利用可能なリージョンを指定します。このチュートリアルでは、`us-central1` リージョンを使用できます。

ワイド＆ディープ組み込みアルゴリズムに固有の引数を、次に示します。

アルゴリズムの引数
引数	説明
`preprocess`	AI Platform Training にデータの前処理を行わせるかどうかを示すブール引数。
`model_type`	トレーニングするモデルのタイプ（分類または回帰）を示します。
`training_data_path`	Cloud Storage 上のトレーニングデータの場所。トレーニングデータは CSV ファイルでなければなりません。
`learning_rate`	線形オプティマイザーによって使用される学習率。
`max_steps`	トレーニングを実行するステップの数。
`batch_size`	トレーニングステップあたりの使用するサンプル数。
`dnn_learning_rate`	モデルの DNN 部分によって使用される学習率。
`dnn_dropout`	ドロップアウトの確率。
`hidden_units`	各レイヤの隠しユニットの数を表すカンマ区切りの文字列。
`use_wide`	設定した場合、DNN モデルのワイド部分でカテゴリ列が使用されます。
`embed_categories`	設定した場合、カテゴリ列が埋め込んで使用され、モデルのディープ部分で使用されます。

ワイド＆ディープアルゴリズムのその他すべてのフラグの詳細なリストについては、ワイド＆ディープ組み込みアルゴリズムのリファレンスをご覧ください。

Console

[自動データ前処理を有効にする] をオンのままにします。
[トレーニングデータパス] の [参照] をクリックします。右パネルで、トレーニングデータをアップロードしたバケットの名前をクリックし、ai-platform_census_algorithms_data_train.csv ファイルに移動します。
[検証データ] と [テストデータ] のフィールドはデフォルト設定のままにします。
[出力ディレクトリ] に、AI Platform Training がトレーニングジョブの出力を保存する Cloud Storage バケットのパスを入力します。Cloud Storage バケットのパスを直接入力するか、[参照] ボタンをクリックしてパスを選択します。

ストレージを整理するため、このトレーニングジョブ用の新しいディレクトリを Cloud Storage バケットに作成します。これは [参照] パネルで行うことができます。

[次へ] をクリックします。
[モデルタイプ] として [分類] を選択します。
他のフィールドはすべてデフォルト設定のままにして、[次へ] をクリックします。
[ジョブの設定] ページで次のことを行います。
1. [ジョブ ID] に一意の ID（「wide_deep_example」など）を入力します。
2. [リージョン] に使用可能なリージョン（「us-central1」など）を入力します。
3. [スケール階層] で [BASIC] を選択します。
[完了] をクリックしてトレーニングジョブを送信します。

gcloud

gcloud でジョブを送信する前に、トレーニングジョブとアルゴリズムのすべての引数を設定します。

DATASET_NAME="census"
ALGORITHM="wide_deep"
MODEL_TYPE="classification"
MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_${MODEL_TYPE}"

# Give a unique name to your training job.
DATE="$(date '+%Y%m%d_%H%M%S')"
JOB_ID="${MODEL_NAME}_${DATE}"

# Make sure you have access to this Cloud Storage bucket.
JOB_DIR="gs://${BUCKET_NAME}/algorithms_training/${MODEL_NAME}/${DATE}"

ジョブを送信します。

gcloud ai-platform jobs submit training $JOB_ID \
  --master-image-uri=$IMAGE_URI --scale-tier=BASIC --job-dir=$JOB_DIR \
  -- \
  --preprocess --model_type=$MODEL_TYPE --batch_size=250 --learning_rate=0.1 \
  --dnn_learning_rate=0.005 --dnn_dropout=0.1 --hidden_units=10,10,10 \
  --use_wide --embed_categories \
  --max_steps=1000 --training_data_path=$TRAINING_DATA_PATH

ジョブが正常に送信されたら、次の gcloud コマンドを使用してログを表示できます。
```
gcloud ai-platform jobs describe $JOB_ID
gcloud ai-platform jobs stream-logs $JOB_ID
```
注: トレーニングジョブが完了するまで数分かかることがあります。トレーニングジョブが正常に完了したことは、ログの「Estimator learning finished」というメッセージで確認できます。

ジョブディレクトリについて

トレーニングジョブが正常に完了すると、AI Platform Training によってトレーニング済みモデルとその他のアーティファクトが Cloud Storage バケットに作成されます。JOB_DIR 内のディレクトリ構造は次のようになっています。

artifacts/
- metadata.json
model/（TensorFlow SavedModel ディレクトリ。deployment_config.yaml ファイルも格納します）
- saved_model.pb
- deployment_config.yaml
processed_data/
- test.csv
- training.csv
- validation.csv

ジョブディレクトリには、experiment ディレクトリ内のさまざまなモデルチェックポイントファイルも格納されます。

JOB_DIR のディレクトリ構造が上記と一致していることを確認します。

gsutil ls -a $JOB_DIR/*

トレーニング済みモデルをデプロイする

AI Platform Prediction は、モデルリソースとバージョンリソースを使用してトレーニング済みモデルを整理します。AI Platform Prediction モデルは、機械学習モデルの複数のバージョンを格納するコンテナに相当します。

モデルをデプロイするには、AI Platform Prediction でモデルリソースを作成し、そのモデルのバージョンを作成してから、そのモデルとバージョンを使用してオンライン予測をリクエストします。

詳しくは、AI Platform Prediction にモデルをデプロイする方法をご覧ください。

Console

[ジョブ] ページには、すべてのトレーニングジョブが一覧表示されます。先ほど送信したトレーニングジョブの名前（「wide_deep_example」または実際に使用したジョブ名）をクリックします。
[ジョブの詳細] ページでは、ジョブの全般的な進行状況を確認できます。[ログを表示] をクリックすると、進行状況の詳細が表示されます。
ジョブが成功すると、[モデルをデプロイ] ボタンが上部に表示されます。[モデルをデプロイ] をクリックします。
[新しいモデルとしてデプロイ] を選択し、モデル名を入力します（例: wide_deep_model）。次に、[確認] をクリックします。
[バージョンの作成] ページでバージョン名（「v1」など）を入力します。他のフィールドはすべてデフォルト設定のままにします。[保存] をクリックします。
[モデルの詳細] ページにバージョン名が表示されます。バージョンの作成には数分かかります。バージョンの準備ができると、バージョン名の横にチェックマークのアイコンが表示されます。
バージョン名（v1）をクリックして、[バージョンの詳細] ページに移動します。このチュートリアルの次のステップでは、予測リクエストを送信します。

gcloud

ワイド＆ディープ組み込みアルゴリズムを使用するトレーニングプロセスでは、deployment_config.yaml ファイルが生成されます。これを使用して、予測用のモデルを AI Platform Prediction に簡単にデプロイできます。

ファイルをローカルディレクトリにコピーし、その内容を表示します。

gsutil cp $JOB_DIR/model/deployment_config.yaml .
cat deployment_config.yaml

deployment_config.yaml ファイルの内容は次のようになっているはずです。

deploymentUri: gs://YOUR_BUCKET_NAME/algorithms_training/census_wide_deep_classification/20190227060114/model
framework: TENSORFLOW
labels:
  global_step: '1000'
  job_id: census_wide_deep_classification_20190227060114
  accuracy: '86'
runtimeVersion: '1.14'
pythonVersion: '2.7'

AI Platform Training でモデルとバージョンを作成します。

MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_${MODEL_TYPE}"
gcloud ai-platform models create $MODEL_NAME --regions $REGION

# Create a model and a version using the file above.
VERSION_NAME="v_${DATE}"

gcloud ai-platform versions create $VERSION_NAME \
  --model $MODEL_NAME \
  --config deployment_config.yaml

バージョンの作成には数分かかります。

オンライン予測を取得する

予測をリクエストするときは、入力データをトレーニングデータと同じような形式にする必要があります。トレーニングの前に、AI Platform Training はデータの前処理を行って、metadata.json で示されるコーパスに変換します。

ワイド＆ディープモデルは、予測を行う前に同様の前処理を入力データに適用します。

Console

作成したバージョン（v1）の [バージョンの詳細] ページで、サンプル予測リクエストを送信できます。

[テストと使用] タブを選択します。

次のサンプルを入力フィールドにコピーします。

 {
   "instances": [
     {"csv_row": "44, Private, 160323, Some-college, 10, Married-civ-spouse, Machine-op-inspct, Husband, Black, Male, 7688, 0, 40, United-States", "key": "dummy-key"}
   ]
 }

[テスト] をクリックします。

サンプル予測結果にはいくつかのフィールドがあります。classes リストには、予測されたクラス >50K' が表示されます。
```
{
   "predictions": [
     {
       ...
       "classes": [
         ">50K"
       ],
       ...
     }
   ]
 }
```
この場合、デプロイされたモデルは、情報を入力した個人が $50,000 を超える年収を得ると予測しています（トレーニングは非決定論的であるため、モデルが異なる予測をする可能性もあります）。

gcloud

metadata.json の最後の数行を確認します。

gsutil cat $JOB_DIR/artifacts/metadata.json | tail

target_column.mapping オブジェクトは、予測結果で予測クラスがどのように表示されるかを示します。

    "target_algorithm": "TensorFlow",
    "target_column": {
      "mapping": {
        "0": "<=50K",
        "1": ">50K"
      },
    "num_category": 2,
    "type": "classification"
  }
}

1 つのデータインスタンスについて予測入力を準備します。個々のデータインスタンスは、次のフィールドを持つ JSON オブジェクトとして準備する必要があります。
- csv_row。トレーニング中に使用されたインスタンスと同じ形式のカンマ区切り行を含む文字列です。
- key。各インスタンスに固有の文字列識別子です。これは、予測出力の一部として示されるインスタンスキーの役割を持つため、各予測を対応する入力インスタンスと照合するために使用できます。
  
  バッチ予測では、予測不能な順序で入力を処理して出力を保存するので、このキーが必要になります。
  
  オンライン予測では、指定された入力と同じ順序で出力を生成するので、インスタンスキーはそれほど重要ではありません。この例では、1 つのインスタンスにのみ予測を実行するため、インスタンスキーの値は不要です。
Google Cloud CLI を使用してオンライン予測リクエストを送信するには、次の例のように、改行で区切られた JSON ファイルの行に各インスタンスを書き込みます。
注: gcloud CLI を使用しない場合は、予測リクエスト本文の instances フィールド内の配列としてインスタンスを指定する必要があります。
ターミナルで次のコマンドを実行して、AI Platform Prediction に送信できる単一インスタンスの入力を作成します。
```
 # A sample record from census dataset. Ground truth is >50K
RAW_DATA_POINT='44, Private, 160323, Some-college, 10, Married-civ-spouse, Machine-op-inspct, Husband, Black, Male, 7688, 0, 40, United-States'

 # Create a prediction request file
echo "{\"csv_row\": \"$RAW_DATA_POINT\", \"key\": \"dummy-key\"}" > sample_input.json

# Check the prediction request file.
cat sample_input.json
```

予測リクエストを送信します。

gcloud ai-platform predict \
  --model $MODEL_NAME \
  --version $VERSION_NAME \
  --json-instances sample_input.json \
  --format "value(predictions[0].classes[0])" \
  --signature-name "predict"

この予測出力は、予測されたクラスのみを表示するようにフィルタリングされています。

>50K

ほとんどの場合、予測出力は >50K です。デプロイされたモデルは、情報を入力した個人が $50,000 を超える年収を得ると予測しています（トレーニングは非決定論的であるため、モデルが異なる予測をする可能性もあります）。

データの概要

このサンプルでトレーニングに使用している国勢調査所得データセットは、UC Irvine Machine Learning Repository で管理されています。

国勢調査データ転載元: Lichman, M.2013。UCI Machine Learning Repository http://archive.ics.uci.edu/ml。Irvine, CA: University of California, School of Information and Computer Science。

次のステップ

ワイド＆ディープ組み込みアルゴリズムの使用方法について学ぶ。

ワイド＆ディープ組み込みアルゴリズム スタートガイド

概要

始める前に

設定

Console

gcloud

トレーニング ジョブを送信する

Console

gcloud

ジョブ ディレクトリについて

トレーニング済みモデルをデプロイする

Console

gcloud

オンライン予測を取得する

Console

gcloud

データの概要

次のステップ

ワイド＆ディープ組み込みアルゴリズムスタートガイド

トレーニングジョブを送信する

ジョブディレクトリについて