この古いバージョンの AI Platform Training は非推奨になりました。2025 年 1 月 31 日を過ぎると Google Cloud で使用できなくなります。リソースを Vertex AI カスタムトレーニングに移行することで、AI Platform にはない新しい機械学習機能を利用できます。

画像分類組み込みアルゴリズムスタートガイド

AI Platform Training の組み込みアルゴリズムを使用すると、トレーニングアプリケーションのコードを一切作成せずに、トレーニングデータの送信とアルゴリズムの選択を行い、AI Platform Training による前処理とトレーニングを実施できます。画像組み込みアルゴリズムを使用すると、最小限の構成を使用し TPU 上でトレーニングできます。結果として生成される TensorFlow SavedModel は、CPU と GPU での処理に対応しています。

概要

このチュートリアルでは、コードを一切作成せずに画像分類モデルをトレーニングします。Flowers データセットを AI Platform Training に送信してトレーニングを行い、AI Platform Prediction にモデルをデプロイして予測を取得します。結果のモデルでは、花の画像がデイジー、チューリップ、バラ、ヒマワリ、タンポラなどの種に基づいて分類されます。

始める前に

コマンドラインでこのチュートリアルを実行するには、Cloud Shell を使用するか、Google Cloud CLI がインストールされている環境を使用します。

次の手順で GCP アカウントの設定、必要な API の有効化、Google Cloud CLI のインストールと有効化を行います。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the AI Platform Training & Prediction and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Install the Google Cloud CLI.

If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

To initialize the gcloud CLI, run the following command:

gcloud init

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the AI Platform Training & Prediction and Compute Engine APIs.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Install the Google Cloud CLI.

If you're using an external identity provider (IdP), you must first sign in to the gcloud CLI with your federated identity.

To initialize the gcloud CLI, run the following command:

gcloud init

Cloud TPU にプロジェクトへのアクセスを許可する

設定

このチュートリアルで使用するため、TensorFlow Flowers データセットに変更を加えて、Cloud Storage の公開バケット gs://cloud-samples-data/ai-platform/built-in/image/flowers/ でホストしました。

Console

アルゴリズムを選択する

Google Cloud コンソールで AI Platform Training の [ジョブ] ページに移動します。

AI Platform Training の [ジョブ] ページ
[新規トレーニングジョブ] ボタンをクリックします。下に表示されたオプションから、[組み込みアルゴリズムによるトレーニング] をクリックします。[新しいトレーニングジョブの作成] ページが表示されます。
トレーニングジョブの作成は 4 つのステップに分かれています。最初のステップはトレーニングアルゴリズムです。[画像分類] を選択し、[次へ] をクリックします。

トレーニングデータ

[トレーニングデータ] セクションで、一般公開の Cloud Storage バケットに置かれているサンプルデータセット用のトレーニングデータを選択します。
1. [1 つの Cloud Storage ディレクトリに保存されている複数のファイルを使用する] を選択します。
2. [ディレクトリパス] に、「cloud-samples-data/ai-platform/built-in/image/flowers/」と入力します。
3. [ワイルドカードの名前] には、「flowers_train*」と入力して、ディレクトリ内のすべてのトレーニングファイルを選択します。
4. [完全な GCS パス] に次のように表示されます。"gs://cloud-samples-data/ai-platform/built-in/image/flowers/flowers_train*"
[検証データ] セクションで、一般公開の Cloud Storage バケットでホストされているサンプルデータセット用の検証データを選択します。
1. [1 つの Cloud Storage ディレクトリに保存されている複数のファイルを使用する] を選択します。
2. [ディレクトリパス] に、「cloud-samples-data/ai-platform/built-in/image/flowers/」と入力します。
3. [ワイルドカードの名前] には、「flowers_validation*」と入力して、ディレクトリ内のすべての検証ファイルを選択します。
4. [完全な GCS パス] に次のように表示されます。"gs://cloud-samples-data/ai-platform/built-in/image/flowers/flowers_validation*"
AI Platform Training がトレーニングしたモデル、チェックポイント、その他のトレーニングジョブ出力を保管する Cloud Storage バケットの出力ディレクトリを指定します。バケット内の正確なパスを入力するか、[BROWSE] ボタンをクリックしてパスを選択します。

gcloud

プロジェクト ID、Cloud Storage バケット、Cloud Storage 上のトレーニングデータへのパス、使用するアルゴリズムのそれぞれを格納する環境変数を設定します。

AI Platform Training の組み込みアルゴリズムは、Container Registry でホストされている Docker コンテナにあります。

PROJECT_ID="YOUR_PROJECT_ID"
BUCKET_NAME="YOUR_BUCKET_NAME"
REGION="us-central1"

gcloud config set project $PROJECT_ID
gcloud config set compute/region $REGION

# Set paths to the training and validation data.
TRAINING_DATA_PATH="gs://cloud-samples-data/ai-platform/built-in/image/flowers/flowers_train*"
VALIDATION_DATA_PATH="gs://cloud-samples-data/ai-platform/built-in/image/flowers/flowers_validation*"

# Specify the Docker container for your built-in algorithm selection.
IMAGE_URI="gcr.io/cloud-ml-algos/image_classification:latest"

トレーニングジョブを送信する

ジョブを送信するには、基本的なトレーニング引数と、画像分類アルゴリズムに関する基本的な引数を指定する必要があります。

トレーニングジョブの一般的な引数:

トレーニングジョブの引数
引数	説明
`job-id`	トレーニングジョブの一意の ID。トレーニングジョブを送信した後、この ID を使用してログを検索しトレーニングジョブのステータスを確認できます。
`job-dir`	トレーニングジョブが正常に完了した後に AI Platform Training がトレーニングファイルを保存する Cloud Storage のパス。
`scale-tier`	トレーニング用のマシンタイプを指定します。単一マシン構成を選択するには、`BASIC` を使用します。
`master-image-uri`	トレーニングジョブに使用する Docker コンテナを指定するための Container Registry URI。すでに `IMAGE_URI` として定義されている画像分類組み込みアルゴリズムのコンテナを使用します。
`region`	トレーニングジョブを実行するために利用可能なリージョンを指定します。このチュートリアルでは、`us-central1` リージョンを使用できます。

画像分類組み込みアルゴリズムに固有の引数:

アルゴリズムの引数
引数	説明
`training_data_path`	トレーニングに使用される TFRecord パスパターンのパス。
`validation_data_path`	検証に使用される TFRecord パスパターンのパス。
`pretrained_checkpoint_path`	事前にトレーニングされたチェックポイントのパス。パブリッシュされたチェックポイントを使用できます。
`num_classes`	トレーニング / 検証データ内のクラスの数。
`max_steps`	トレーニングジョブを実行するステップの数。
`train_batch_size`	トレーニングステップごとに使用する画像の数。
`num_eval_images`	評価に使用される画像の合計数。これが 0 の場合、`validation_data_path` 内のすべての画像が評価に使用されます。
`learning_rate_decay_type`	トレーニング中に学習率を減衰させる方法。
`warmup_learning_rate`	ウォームアップフェーズの開始時の学習率。
`warmup_steps`	ウォームアップフェーズで実行するステップの数、またはステップ内のウォームアップフェーズの長さ。トレーニングジョブはウォームアップフェーズで `warmup_learning_rate` を使用します。ウォームアップフェーズが終了すると、トレーニングジョブは `initial_learning_rate` を使用します。
`initial_learning_rate`	ウォームアップフェーズ完了後の初期学習率。
`stepwise_learning_rate_steps`	段階的学習率減衰型の学習率を減衰または変化させるステップ。たとえば、100,200 は学習率がステップ 100 とステップ 200 で（`stepwise_learning_rate_levels` に関して）変わることを意味します。これは `learning_rate_decay_type` が段階的に設定されている場合にのみ使用されます。
`stepwise_learning_rate_levels`	段階的学習率減衰型の各ステップの学習率値。これは `learning_rate_decay_type` が段階的に設定されている場合にのみ使用されます。
`image_size`	トレーニングに使用される画像サイズ（幅と高さ）。
`optimizer_type`	トレーニングに使用されるオプティマイザ。次のいずれかになります。 `{momentum, adam, rmsprop}`
`optimizer_arguments`	オプティマイザの引数。「name=value」ペアのカンマ区切りのリストです。`optimizer_type` と互換性がある必要があります。例: Momentum オプティマイザの場合、`momentum=0.9` を受け入れます。詳細については、 tf.train.MomentumOptimizer をご覧ください。 Adam オプティマイザの場合、`beta1=0.9,beta2=0.999` にすることが可能です。詳細については、 tf.train.AdamOptimizer をご覧ください。 RMSProp オプティマイザの場合、`decay=0.9,momentum=0.1,epsilon=1e-10` にすることが可能です。詳しくは、RMSPropOptimizer をご覧ください。
`model_type`	モデルをトレーニングするために使用されるモデルアーキテクチャのタイプ。次のいずれかになります。 `resnet-(18\|34\|50\|101\|152\|200)` `efficientnet-(b0\|b1\|b2\|b3\|b4\|b5\|b6\|b7)`
`label_smoothing`	`softmax_cross_entropy` で使用されるラベルスムージングパラメータ。
`weight_decay`	L2 正則化のための重み減衰係数。 `loss = cross_entropy + params['weight_decay'] * l2_loss`

画像分類アルゴリズムに関するほかのあらゆるフラグの詳細リストについては、画像分類組み込みアルゴリズムのリファレンスをご覧ください。

Console

アルゴリズムの引数

[アルゴリズムの引数] タブの最初の部分に、次の値を入力します。

クラス数: 5
最大ステップ数: 15,000
トレーニングのバッチサイズ: 128
評価画像の数: 1

[アルゴリズムの引数] タブの [モデルセクション] 内:

[モデルタイプ] には、[Efficientnet-b4] を選択します。
[Pretrained checkpoint path] は空白のままにします。
[Label smoothing] と [Weight Decay] はデフォルト値のままにします。

ジョブの設定

[ジョブの設定] タブで次の操作を行います。

[ジョブ ID] に一意の ID（「image_classification_example」など）を入力します。
[リージョン] に使用可能なリージョン（「us-central1」など）を入力します。
マシンタイプを選択するには、[スケール階層] で [CUSTOM] を選択します。カスタムクラスタ仕様を指定するためのセクションが表示されます。
1. [マスタータイプ] には、[complex_model_m] を選択します。
2. [ワーカータイプ] には、[cloud_tpu] を選択します。[ワーカー数] はデフォルトで 1 に設定されます。

[完了] をクリックしてトレーニングジョブを送信します。

gcloud

gcloud でジョブを送信する前に、トレーニングジョブとアルゴリズムのすべての引数を設定します。

DATASET_NAME="flowers"
ALGORITHM="image_classification"
MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_model"

# Give a unique name to your training job.
DATE="$(date '+%Y%m%d_%H%M%S')"
JOB_ID="${MODEL_NAME}_${DATE}"

# Make sure you have access to this Cloud Storage bucket.
JOB_DIR="gs://${BUCKET_NAME}/algorithms_training/${MODEL_NAME}/${DATE}"

ジョブを送信します。

gcloud ai-platform jobs submit training $JOB_ID \
  --region=$REGION \
  --config=config.yaml \
  --master-image-uri=$IMAGE_URI \
  -- \
  --training_data_path=$TRAINING_DATA_PATH \
  --validation_data_path=$VALIDATION_DATA_PATH \
  --job-dir=$JOB_DIR \
  --max_steps=30000 \
  --train_batch_size=128 \
  --num_classes=5 \
  --num_eval_images=100 \
  --initial_learning_rate=0.128 \
  --warmup_steps=1000 \
  --model_type='efficientnet-b4'

ジョブが正常に送信されたら、次の gcloud コマンドを使用してログを表示できます。
```
gcloud ai-platform jobs describe $JOB_ID
gcloud ai-platform jobs stream-logs $JOB_ID
```
注: トレーニングジョブが完了するまで 1.5 時間かかることがあります。ログに「Job completed successfully」というメッセージが見つかれば、トレーニングジョブは正常に完了しています。

ジョブディレクトリについて

トレーニングジョブが正常に完了すると、AI Platform Training によってトレーニング済みモデルとその他のアーティファクトが Cloud Storage バケットに作成されます。JOB_DIR 内のディレクトリ構造は次のようになっています。

model/（TensorFlow SavedModel ディレクトリ。deployment_config.yaml ファイルも格納します）
- saved_model.pb
- deployment_config.yaml
eval/
- events.out.tfevents.[timestamp].cmle-training-[timestamp]
- events.out.tfevents...
- ...
variables/
- variables.data-00000-of-00001
- variables.index

ジョブディレクトリには、さまざまなモデルチェックポイントファイルも格納されます。

JOB_DIR のディレクトリ構造が上記と一致していることを確認します。

gcloud storage ls $JOB_DIR/* --all-versions

トレーニング済みモデルをデプロイする

AI Platform Training は、モデルリソースとバージョンリソースを使用してトレーニング済みモデルを整理します。AI Platform Training モデルは、機械学習モデルの複数のバージョンを格納するコンテナに相当します。

モデルをデプロイするには、AI Platform Training でモデルリソースを作成し、そのモデルのバージョンを作成してから、そのモデルとバージョンを使用してオンライン予測をリクエストします。

モデルを AI Platform Training にデプロイする方法については、TensorFlow モデルをデプロイする方法をご覧ください。

Console

[ジョブ] ページには、すべてのトレーニングジョブが一覧表示されます。先ほど送信したトレーニングジョブの名前（「image_classification」または実際に使用したジョブ名）をクリックします。
[ジョブの詳細] ページでは、ジョブの全般的な進行状況を確認できます。[ログを表示] をクリックすると、進行状況の詳細が表示されます。
ジョブが成功すると、[モデルをデプロイ] ボタンが上部に表示されます。[モデルをデプロイ] をクリックします。
[新しいモデルとしてデプロイ] を選択し、モデル名（「algorithms_image_classification_model」など）を入力します。次に、[確認] をクリックします。
[バージョンの作成] ページでバージョン名（「v1」など）を入力します。他のフィールドはすべてデフォルト設定のままにします。[保存] をクリックします。

gcloud

画像分類組み込みアルゴリズムを使用するトレーニングプロセスでは、deployment_config.yaml ファイルが生成されます。これを使用して、予測用のモデルを AI Platform Training に簡単にデプロイできます。

ファイルをローカルディレクトリにコピーし、その内容を表示します。

gcloud storage cp $JOB_DIR/model/deployment_config.yaml .
cat deployment_config.yaml

deployment_config.yaml ファイルの内容は次のようになっているはずです。

deploymentUri: gs://BUCKET_NAME/algorithms_training/flowers_image_classification/model
framework: TENSORFLOW
labels:
  global_step: '1000'
  job_id: flowers_image_classification_20190227060114
runtimeVersion: '1.14'

AI Platform Training でモデルとバージョンを作成します。

gcloud ai-platform models create $MODEL_NAME --regions $REGION

# Create a model and a version using the file above.
VERSION_NAME="v_${DATE}"

gcloud ai-platform versions create $VERSION_NAME \
  --model $MODEL_NAME \
  --config deployment_config.yaml

バージョンの作成には数分かかります。

オンライン予測を取得する

予測をリクエストするときは、入力データが JSON 形式であることを確認する必要があります。

トレーニングアーティファクトファイルをダウンロードします。
```
gcloud storage cp $JOB_DIR/artifacts/* .
```
1 つの画像の予測入力を準備します。

Google Cloud CLI を使用してオンライン予測リクエストを送信するには、次の例のように、改行で区切られた JSON ファイルの行に各インスタンスを書き込みます。
注: gcloud CLI を使用しない場合は、予測リクエスト本文の instances フィールド内の配列としてインスタンスを指定する必要があります。
ターミナルで次のコマンドを実行して、AI Platform Prediction に送信できる単一インスタンスの入力を作成します。

次の Python スクリプトは、base64 を使用して単一の画像をエンコードし、予測用に形式設定します。また、インスタンスキーを追加して、prediction_instances.json という名前のファイルに結果を書き込みます。
```
import json
import base64
import tensorflow as tf

IMAGE_URI='gs://cloud-samples-data/ai-platform/built-in/image/tutorial_examples/daisy.jpg'

with tf.gfile.Open(IMAGE_URI, 'rb') as image_file:
  encoded_string = base64.b64encode(image_file.read()).decode('utf-8')

image_bytes = {'b64': str(encoded_string)}
instances = {'image_bytes': image_bytes, 'key': '1'}
with open("prediction_instances.json","w") as f:
  f.write(json.dumps(instances))
```
注: オンライン予測の場合、インスタンスキーの追加は省略できます。バッチ予測リクエストの場合、インスタンスキーは入力データに正しい順序で予測をマッピングするのに役立ちます。

予測リクエストを送信します。

gcloud ai-platform predict --model $MODEL_NAME \
 --version $VERSION_NAME \
 --json-instances prediction_instances.json

予測出力には、高い確率でクラス daisy が含まれます。これは、デプロイされたモデルが、入力画像をデイジーと分類したことを示します（トレーニングは非決定論的であるため、モデルが異なる予測をする可能性もあります）。

データについて

このサンプルでトレーニングに使用している花データセットは、TensorFlow チームが提供しています。

次のステップ

画像分類組み込みアルゴリズムの使用方法について詳しく学ぶ。

組み込みの画像分類アルゴリズムを使用したトレーニング

画像分類組み込みアルゴリズム スタートガイド コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

始める前に

Cloud TPU にプロジェクトへのアクセスを許可する

設定

Console

gcloud

トレーニング ジョブを送信する

Console

アルゴリズムの引数

ジョブの設定

gcloud

ジョブ ディレクトリについて

トレーニング済みモデルをデプロイする

Console

gcloud

オンライン予測を取得する

データについて

次のステップ

画像分類組み込みアルゴリズムスタートガイド

トレーニングジョブを送信する

ジョブディレクトリについて