この古いバージョンの AI Platform Training は非推奨になりました。2025 年 1 月 31 日を過ぎると Google Cloud で使用できなくなります。リソースを Vertex AI カスタムトレーニングに移行することで、AI Platform にはない新しい機械学習機能を利用できます。

組み込み画像オブジェクト検出アルゴリズムスタートガイド

AI Platform Training の組み込みアルゴリズムを使用すると、トレーニングアプリケーションのコードを一切作成せずに、トレーニングデータの送信とアルゴリズムの選択を行い、AI Platform Training による前処理とトレーニングを実施できます。画像組み込みアルゴリズムを使用すると、最小限の構成を使用し TPU 上でトレーニングできます。結果として生成される TensorFlow SavedModel は、CPU と GPU での処理に対応しています。

概要

このチュートリアルでは、コードを記述せずに画像オブジェクト検出モデルをトレーニングします。COCO データセットを AI Platform Training に送信してトレーニングを行い、AI Platform Training にモデルをデプロイして予測を取得します。結果として得られるモデルにより、複雑な日常のシーンの画像内にある一般的なオブジェクトが分類されます。

始める前に

コマンドラインでこのチュートリアルを実行するには、Cloud Shell を使用するか、Google Cloud CLI がインストールされている環境を使用します。

次の手順で GCP アカウントの設定、必要な API の有効化、Google Cloud CLI のインストールと有効化を行います。

Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。

Google Cloud Console の [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動

Google Cloud プロジェクトで課金が有効になっていることを確認します。

AI Platform Training & Prediction and Compute Engine API を有効にします。

API を有効にする

Google Cloud CLI をインストールします。

gcloud CLI を初期化するには:

gcloud init

Google Cloud Console の [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動

Google Cloud プロジェクトで課金が有効になっていることを確認します。

AI Platform Training & Prediction and Compute Engine API を有効にします。

API を有効にする

Google Cloud CLI をインストールします。

gcloud CLI を初期化するには:

gcloud init

Cloud TPU にプロジェクトへのアクセスを許可する

Google Cloud プロジェクトに関連付けられた Cloud TPU サービスアカウント名を承認する手順は次のとおりです。

projects.getConfig を呼び出して、Cloud TPU サービスアカウント名を取得します。例:

PROJECT_ID=PROJECT_ID

curl -H "Authorization: Bearer $(gcloud auth print-access-token)"  \
    https://ml.googleapis.com/v1/projects/$PROJECT_ID:getConfig

API から返された serviceAccountProject と tpuServiceAccount フィールドの値を保存します。

Cloud TPU サービスアカウントを初期化します。

curl -H "Authorization: Bearer $(gcloud auth print-access-token)"  \
  -H "Content-Type: application/json" -d '{}'  \
  https://serviceusage.googleapis.com/v1beta1/projects/<serviceAccountProject>/services/tpu.googleapis.com:generateServiceIdentity

Cloud ML サービスエージェントのロールを使用して、Cloud TPU サービスアカウントをプロジェクト内のメンバーとして追加します。Google Cloud Console または gcloud コマンドを使用して、次の手順を行います。

コンソール

Google Cloud Console にログインし、TPU を使用しているプロジェクトを選択します。
[IAM と管理] > [IAM] を選択します。
[追加] ボタンをクリックして、プロジェクトにメンバーを追加します。
[メンバー] テキストボックスに TPU サービスアカウントを入力します。
[ロール] プルダウンリストをクリックします。
Cloud ML サービスエージェントのロールを有効にします（[サービスエージェント] > [Cloud ML サービスエージェント]）。

gcloud

プロジェクト ID と Cloud TPU サービスアカウントが格納されている環境変数を設定します。
```
PROJECT_ID=PROJECT_ID
SVC_ACCOUNT=your-tpu-sa-123@your-tpu-sa.google.com.iam.gserviceaccount.com
```

Cloud TPU サービスアカウントに ml.serviceAgent ロールを付与します。

gcloud projects add-iam-policy-binding $PROJECT_ID \
    --member serviceAccount:$SVC_ACCOUNT --role roles/ml.serviceAgent

サービスアカウントへのロールの付与については、IAM のドキュメントをご覧ください。

設定

このチュートリアルで使用するため、COCO データセットに変更を加えて、Cloud Storage の公開バケット gs://cloud-samples-data/ai-platform/built-in/image/coco/ に置きました。

Console

アルゴリズムを選択する

Google Cloud コンソールで AI Platform Training の [ジョブ] ページに移動します。

AI Platform Training の [ジョブ] ページ
[新規トレーニングジョブ] ボタンをクリックします。下に表示されたオプションから、[組み込みアルゴリズムによるトレーニング] をクリックします。[新しいトレーニングジョブの作成] ページが表示されます。
トレーニングジョブの作成は 4 つのステップに分かれています。最初のステップはトレーニングアルゴリズムです。[Image Object Detection] を選択し、[次へ] をクリックします。

トレーニングデータ

[トレーニングデータ] セクションで、一般公開の Cloud Storage バケットに置かれているサンプルデータセット用のトレーニングデータを選択します。
1. [1 つの Cloud Storage ディレクトリに保存されている複数のファイルを使用する] を選択します。
2. [ディレクトリパス] に、「cloud-samples-data/ai-platform/built-in/image/coco/」と入力します。
3. ディレクトリ内のすべてのトレーニングファイルを選択するため、[ワイルドカードの名前] には「train*」と入力します。
4. [Complete GCS path] に、"gs://cloud-samples-data/ai-platform/built-in/image/coco/train*" と表示されます。
[検証データ] セクションで、一般公開の Cloud Storage バケットでホストされているサンプルデータセット用の検証データを選択します。
1. [1 つの Cloud Storage ディレクトリに保存されている複数のファイルを使用する] を選択します。
2. [ディレクトリパス] に、「cloud-samples-data/ai-platform/built-in/image/coco/」と入力します。
3. ディレクトリ内のすべての検証ファイルを選択するため、[ワイルドカードの名前] には「val *」を入力します。
4. [Complete GCS path] に "gs://cloud-samples-data/ai-platform/built-in/image/coco/val*" と表示されます。
AI Platform Training がトレーニングしたモデル、チェックポイント、その他のトレーニングジョブ出力を保管する Cloud Storage バケットの出力ディレクトリを指定します。バケット内の正確なパスを入力するか、[BROWSE] ボタンをクリックしてパスを選択します。

gcloud

プロジェクト ID、Cloud Storage バケット、Cloud Storage 上のトレーニングデータへのパス、使用するアルゴリズムのそれぞれを格納する環境変数を設定します。

AI Platform Training の組み込みアルゴリズムは、Container Registry でホストされている Docker コンテナにあります。

PROJECT_ID="YOUR_PROJECT_ID"
BUCKET_NAME="YOUR_BUCKET_NAME"
REGION="us-central1"

gcloud config set project $PROJECT_ID
gcloud config set compute/region $REGION

# Set paths to the training and validation data.
TRAINING_DATA_PATH="gs://cloud-samples-data/ai-platform/built-in/image/coco/train*"
VALIDATION_DATA_PATH="gs://cloud-samples-data/ai-platform/built-in/image/coco/val*"

# Specify the Docker container for your built-in algorithm selection.
IMAGE_URI="gcr.io/cloud-ml-algos/image_object_detection:latest"

トレーニングジョブを送信する

ジョブを送信するには、基本的なトレーニング引数と、画像オブジェクト検出アルゴリズムに関する基本的な引数を指定する必要があります。

トレーニングジョブの一般的な引数:

トレーニングジョブの引数
引数	説明
`job-id`	トレーニングジョブの一意の ID。トレーニングジョブを送信した後、この ID を使用してログを検索しトレーニングジョブのステータスを確認できます。
`job-dir`	トレーニングジョブが正常に完了した後に AI Platform Training がトレーニングファイルを保存する Cloud Storage のパス。
`scale-tier`	トレーニング用のマシンタイプを指定します。単一マシン構成を選択するには、`BASIC` を使用します。
`master-image-uri`	トレーニングジョブに使用する Docker コンテナを指定するための Container Registry URI。すでに `IMAGE_URI` として定義されている組み込みオブジェクト検出アルゴリズムのコンテナを使用します。
`region`	トレーニングジョブを実行するために利用可能なリージョンを指定します。このチュートリアルでは、`us-central1` リージョンを使用できます。

組み込み画像オブジェクト検出アルゴリズムに固有の引数:

アルゴリズムの引数
引数	説明
`training_data_path`	トレーニングに使用される TFRecord パスパターンのパス。
`validation_data_path`	検証に使用される TFRecord パスパターンのパス。
`pretrained_checkpoint_path`	事前にトレーニングされたチェックポイントのパス。パブリッシュされたチェックポイントを使用できます。
`num_classes`	トレーニング / 検証データ内のクラスの数。
`max_steps`	トレーニングジョブを実行するステップの数。
`train_batch_size`	トレーニングステップごとに使用する画像の数。
`num_eval_images`	評価に使用される画像の合計数。これが 0 の場合、`validation_data_path` 内のすべての画像が評価に使用されます。
`learning_rate_decay_type`	トレーニング中に学習率を減衰させる方法。
`warmup_learning_rate`	ウォームアップフェーズの開始時の学習率。
`warmup_steps`	ウォームアップフェーズで実行するステップの数、またはステップ内のウォームアップフェーズの長さ。トレーニングジョブはウォームアップフェーズで `warmup_learning_rate` を使用します。ウォームアップフェーズが終了すると、トレーニングジョブは `initial_learning_rate` を使用します。
`initial_learning_rate`	ウォームアップフェーズ完了後の初期学習率。
`stepwise_learning_rate_steps`	段階的学習率減衰型の学習率を減衰または変化させるステップ。たとえば、100,200 は学習率がステップ 100 とステップ 200 で（`stepwise_learning_rate_levels` に関して）変わることを意味します。これは `learning_rate_decay_type` が段階的に設定されている場合にのみ使用されます。
`stepwise_learning_rate_levels`	段階的学習率減衰型の各ステップの学習率値。これは `learning_rate_decay_type` が段階的に設定されている場合にのみ使用されます。
`image_size`	トレーニングに使用される画像サイズ（幅と高さ）。
`optimizer_type`	トレーニングに使用されるオプティマイザ。次のいずれかになります。 `{momentum, adam, adadelta, adagrad, rmsprop}`
`optimizer_arguments`	オプティマイザの引数。「name=value」ペアのカンマ区切りのリストです。`optimizer_type` と互換性がある必要があります。例: Momentum オプティマイザの場合、`momentum=0.9` を受け入れます。詳細については、tf.train.MomentumOptimizer をご覧ください。 Adam オプティマイザの場合、`beta1=0.9,beta2=0.999` にすることが可能です。詳細については、tf.train.AdamOptimizer をご覧ください。 RMSProp オプティマイザの場合、`decay=0.9,momentum=0.1,epsilon=1e-10` にすることが可能です。詳細については、RMSPropOptimizer をご覧ください。
`fpn_type`	マルチレベルの Feature Pyramid Network（FPN）タイプ。`{fpn, nasfpn}` のいずれかにする必要があります。
`resnet_depth`	ResNet バックボーンの深度。`{18,34,50,101,152,200}` のいずれかにする必要があります。
`max_num_bboxes_in_training`	トレーニングに使用するように提案された境界ボックスの最大数。
`max_num_bboxes_in_prediction`	予測出力で使用するように提案された境界ボックスの最大数。
`bbox_aspect_ratios`	各レベルに追加されたアスペクト比のアンカーを表す基本アンカーのサイズ。数値は、幅と高さの比を示します。たとえば、「1.0,2.0,0.5」では、各スケールレベルに 3 つのアンカーが追加されます。
`nms_iou_threshold`	非最大抑制のために IOU に対して境界ボックスが重なるかどうかを決定するしきい値。
`nms_score_threshold`	スコアに基づいて境界ボックスを削除するタイミングを決定するしきい値。
`focal_loss_alpha`	フォーカルロスアルファ（バランシングパラメータ）値。
`focal_loss_gamma`	フォーカルロスガンマ（フォーカシングパラメータ）値。
`aug_scale_min`	画像の拡大中に適用される最小縮尺。値は、`[0, 1.0]` の間です。
`aug_scale_max`	画像の拡大中に適用される最大縮尺。値は、`[1.0, inf]` の間です。
`aug_rand_hflip`	ブール値。True に設定すると、ランダム水平フリップでトレーニングが強化されます。

画像オブジェクト検出アルゴリズムに関する他のフラグすべての詳細リストについては、画像オブジェクト検出組み込みアルゴリズムのリファレンスをご覧ください。

Console

アルゴリズムの引数

[アルゴリズムの引数] タブの最初の部分に、次の値を入力します。

クラス数: 91
最大ステップ数: 15000
トレーニングのバッチサイズ: 64
評価画像の数: 5000

[アルゴリズムの引数] タブの [モデルセクション] 内:

[Pretrained checkpoint path] に、gs://cloud-samples-data/ai-platform/built-in/image/pretrained_checkpoints/detection/ を入力します。
他のフィールドはすべてデフォルト設定のままにして、[次へ] をクリックします。

ジョブの設定

[ジョブの設定] タブで次の操作を行います。

[ジョブ ID] に一意の ID（「object_detection_example」など）を入力します。
[リージョン] に使用可能なリージョン（「us-central1」など）を入力します。
マシンタイプを選択するには、[スケール階層] で [CUSTOM] を選択します。カスタムクラスタ仕様を指定するためのセクションが表示されます。
1. [マスタータイプ] には、[complex_model_m] を選択します。
2. [ワーカータイプ] には、[cloud_tpu] を選択します。[ワーカー数] はデフォルトで 1 に設定されます。

[完了] をクリックしてトレーニングジョブを送信します。

gcloud

gcloud でジョブを送信する前に、トレーニングジョブとアルゴリズムのすべての引数を設定します。

DATASET_NAME="coco"
ALGORITHM="object_detection"
MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_model"

# Give a unique name to your training job.
DATE="$(date '+%Y%m%d_%H%M%S')"
JOB_ID="${MODEL_NAME}_${DATE}"

# Make sure you have access to this Cloud Storage bucket.
JOB_DIR="gs://${BUCKET_NAME}/algorithms_training/${MODEL_NAME}/${DATE}"

ジョブを送信します。

gcloud ai-platform jobs submit training $JOB_ID \
  --region=$REGION \
  --config=config.yaml \
  --job-dir=$JOB_DIR \
  -- \
  --training_data_path=$TRAINING_DATA_PATH \
  --validation_data_path=$VALIDATION_DATA_PATH \
  --train_batch_size=64 \
  --num_eval_images=500 \
  --train_steps_per_eval=2000 \
  --max_steps=15000 \
  --num_classes=90 \
  --warmup_steps=500 \
  --initial_learning_rate=0.08 \
  --fpn_type="nasfpn" \
  --aug_scale_min=0.8 \
  --aug_scale_max=1.2

ジョブが正常に送信されたら、次の gcloud コマンドを使用してログを表示できます。
```
gcloud ai-platform jobs describe $JOB_ID
gcloud ai-platform jobs stream-logs $JOB_ID
```
注: トレーニングジョブの完了まで、2 時間程度かかることがあります。トレーニングジョブが正常に完了したことは、ログの「Job completed successfully」というメッセージで確認できます。

ジョブディレクトリについて

トレーニングジョブが正常に完了すると、AI Platform Training によってトレーニング済みモデルとその他のアーティファクトが Cloud Storage バケットに作成されます。JOB_DIR 内のディレクトリ構造は次のようになっています。

model/（TensorFlow SavedModel ディレクトリ。deployment_config.yaml ファイルも格納します）
- saved_model.pb
- deployment_config.yaml
eval/
- events.out.tfevents.[timestamp].cmle-training-[timestamp]
- events.out.tfevents...
- ...
variables/
- variables.data-00000-of-00001
- variables.index

ジョブディレクトリには、さまざまなモデルチェックポイントファイルも格納されます。

JOB_DIR のディレクトリ構造が上記と一致していることを確認します。

gsutil ls -a $JOB_DIR/*

トレーニング済みモデルをデプロイする

AI Platform Training は、モデルリソースとバージョンリソースを使用してトレーニング済みモデルを整理します。AI Platform Training モデルは、機械学習モデルの複数のバージョンを格納するコンテナに相当します。

モデルをデプロイするには、AI Platform Training でモデルリソースを作成し、そのモデルのバージョンを作成してから、そのモデルとバージョンを使用してオンライン予測をリクエストします。

モデルを AI Platform Training にデプロイする方法については、TensorFlow モデルをデプロイする方法をご覧ください。

Console

[ジョブ] ページには、すべてのトレーニングジョブが一覧表示されます。先ほど送信したトレーニングジョブの名前（「object_detection」または実際に使用したジョブ名）をクリックします。
[ジョブの詳細] ページでは、ジョブの全般的な進行状況を確認できます。[ログを表示] をクリックすると、進行状況の詳細が表示されます。
ジョブが成功すると、[モデルをデプロイ] ボタンが上部に表示されます。[モデルをデプロイ] をクリックします。
[新しいモデルとしてデプロイ] を選択し、「algorithms_object_detection_model」などのモデル名を入力します。次に、[確認] をクリックします。
[バージョンの作成] ページでバージョン名（「v1」など）を入力します。他のフィールドはすべてデフォルト設定のままにします。[保存] をクリックします。

gcloud

組み込み画像オブジェクト検出アルゴリズムを使用するトレーニングプロセスでは、deployment_config.yaml ファイルが生成されます。これを使用して、予測用のモデルを AI Platform Training に簡単にデプロイできます。

ファイルをローカルディレクトリにコピーし、その内容を表示します。

gsutil cp $JOB_DIR/model/deployment_config.yaml .
cat deployment_config.yaml

deployment_config.yaml ファイルの内容は次のようになっているはずです。

deploymentUri: gs://BUCKET_NAME/algorithms_training/coco_object_detection/model
framework: TENSORFLOW
labels:
  global_step: '1000'
  job_id: coco_object_detection_20190227060114
runtimeVersion: '1.14'

AI Platform Training でモデルとバージョンを作成します。

gcloud ai-platform models create $MODEL_NAME --regions $REGION

# Create a model and a version using the file above.
VERSION_NAME="v_${DATE}"

gcloud ai-platform versions create $VERSION_NAME \
  --model $MODEL_NAME \
  --config deployment_config.yaml

バージョンの作成には数分かかります。

オンライン予測を取得する

予測をリクエストするときは、入力データが JSON 形式であることを確認する必要があります。

トレーニングアーティファクトファイルをダウンロードします。
```
gsutil cp $JOB_DIR/artifacts/* .
```
1 つの画像の予測入力を準備します。

Google Cloud CLI を使用してオンライン予測リクエストを送信するには、次の例のように、改行で区切られた JSON ファイルの行に各インスタンスを書き込みます。
注: gcloud CLI を使用しない場合は、予測リクエスト本文の instances フィールド内の配列としてインスタンスを指定する必要があります。
ターミナルで次のコマンドを実行して、AI Platform Prediction に送信できる単一インスタンスの入力を作成します。

次の Python スクリプトは、base64 を使用して単一の画像をエンコードし、予測用に形式設定します。また、インスタンスキーを追加して、prediction_instances.json という名前のファイルに結果を書き込みます。
```
import json
import base64
import tensorflow as tf

IMAGE_URI='gs://cloud-samples-data/ai-platform/built-in/image/tutorial_examples/coco_sample.jpeg'

with tf.gfile.Open(IMAGE_URI, 'rb') as image_file:
  encoded_string = base64.b64encode(image_file.read()).decode('utf-8')

image_bytes = {'b64': str(encoded_string)}
instances = {'image_bytes': image_bytes, 'key': '1'}
with open("prediction_instances.json","w") as f:
  f.write(json.dumps(instances))
```
注: オンライン予測の場合、インスタンスキーの追加は省略できます。バッチ予測リクエストの場合、インスタンスキーは入力データに正しい順序で予測をマッピングするのに役立ちます。

予測リクエストを送信します。

gcloud ai-platform predict --model $MODEL_NAME \
 --version $VERSION_NAME \
 --json-instances prediction_instances.json

画像内で検出される各オブジェクトについて、予測出力にはクラス、スコア、境界ボックスの位置が含まれます。

データについて

Microsoft Common Objects in Context（COCO）データセットは、大規模なオブジェクト検出、セグメンテーション、キャプション生成用データセットです。

次のステップ

組み込みの画像オブジェクト検出アルゴリズムの使用方法について詳細を確認する。

組み込みの画像オブジェクト検出アルゴリズムを使用したトレーニング

組み込み画像オブジェクト検出アルゴリズム スタートガイド

概要

始める前に

Cloud TPU にプロジェクトへのアクセスを許可する

コンソール

gcloud

設定

Console

gcloud

トレーニング ジョブを送信する

Console

アルゴリズムの引数

ジョブの設定

gcloud

ジョブ ディレクトリについて

トレーニング済みモデルをデプロイする

Console

gcloud

オンライン予測を取得する

データについて

次のステップ

組み込み画像オブジェクト検出アルゴリズムスタートガイド

トレーニングジョブを送信する

ジョブディレクトリについて