Cloud TPU（TF 2.x）での Mask RCNN のトレーニング

概要

このチュートリアルでは、COCO データセットで Cloud TPU を使用して Mask RCNN モデルを実行する方法を示します。

Mask RCNN は、コンピュータビジョンの難しい課題の 1 つであるオブジェクト検出と画像セグメンテーションに対応するように設計されたディープニューラルネットワークです。

Mask RCNN モデルは、画像内の個々のオブジェクトそれぞれのインスタンスに対し、境界ボックスとセグメンテーションマスクを生成します。このモデルは、Feature Pyramid Network（FPN）および ResNet50 バックボーンに基づいています。

このチュートリアルでは Tensorflow Keras APIs を使用してモデルをトレーニングします。Keras API は上位の TensorFlow API であり、Cloud TPU で機械学習モデルを作成して実行するのに使用できます。この API を使用すると、低レベルの実装の大部分が隠されることで、モデル開発プロセスが簡素化され、TPU と他のプラットフォーム（GPU や CPU など）の切り替えが簡単になります。

以下の手順では、Cloud TPU でモデルをトレーニングする方法をすでに理解していることを前提としています。Cloud TPU を初めて使用する場合は、クイックスタートで基本的な概要をご確認ください。

目標

COCO データセットを準備する
データセットとモデルの出力を格納する Cloud Storage バケットを作成する
トレーニングと評価のための TPU リソースを設定する
単一の Cloud TPU または Cloud TPU Pod でトレーニングと評価を実行する

費用

このドキュメントでは、Google Cloud の次の課金対象のコンポーネントを使用します。

Compute Engine
Cloud TPU
Cloud Storage

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。新しい Google Cloud ユーザーは無料トライアルをご利用いただける場合があります。

始める前に

このチュートリアルを開始する前に、Google Cloud プロジェクトが正しく設定されていることを確認します。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

Google Cloud Console の [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動

Google Cloud プロジェクトで課金が有効になっていることを確認します。

Google Cloud Console の [プロジェクトセレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

プロジェクトセレクタに移動

Google Cloud プロジェクトで課金が有効になっていることを確認します。

このチュートリアルでは、Google Cloud の課金対象となるコンポーネントを使用します。費用を見積もるには、Cloud TPU の料金ページを確認してください。不要な課金を回避するために、このチュートリアルを完了したら、作成したリソースを必ずクリーンアップしてください。

COCO データセットを準備する

このチュートリアルでは、COCO データセットを使用します。トレーニングに使用するデータセットは、Cloud Storage バケットの TFRecord 形式である必要があります。

モデルのトレーニングに使用するゾーンにある Cloud Storage バケットで、すでに COCO データセットを準備している場合、直接単一デバイスのトレーニングに移行することができます。それ以外の場合は、次の手順でデータセットを準備します。

Cloud Shell ウィンドウを開きます。

Cloud Shell を開く

Cloud Shell で、gcloud をプロジェクト ID で構成します。

export PROJECT_ID=project-id
gcloud config set project ${PROJECT_ID}

Cloud Shell で、次のコマンドを使用して Cloud Storage バケットを作成します。
注: 次のコマンドの bucket-name は、バケットに割り当てる名前に置き換えてください。
```
gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name
```
Compute Engine VM インスタンスを起動します。

この VM インスタンスは、COCO データセットのダウンロードと前処理にのみ使用されます。instance-name に選択した名前を入力します。
```
$ gcloud compute tpus execution-groups create \
 --vm-only \
 --name=instance-name \
 --zone=europe-west4-a \
 --disk-size=300 \
 --machine-type=n1-standard-16 \
 --tf-version=2.12.0
```
コマンドフラグの説明

vm-only

VM のみを作成します。デフォルトでは、gcloud compute tpus execution-groups コマンドは VM と Cloud TPU を作成します。

name
作成する Cloud TPU の名前。
zone
Cloud TPU を作成するゾーン。
disk-size
gcloud compute tpus execution-groups コマンドで作成された VM のハードディスクのサイズ（GB）。
machine-type
作成する Compute Engine VM のマシンタイプ。
tf-version
Tensorflow gcloud compute tpus execution-groups のバージョンが VM にインストールされます。
自動的に Compute Engine インスタンスにログインしない場合は、次の ssh コマンドを実行してログインします。VM にログインすると、シェルプロンプトが username@projectname から username@vm-name に変わります。
```
  $ gcloud compute ssh instance-name --zone=europe-west4-a
  
```
2 つの変数を設定します。1 つは以前に作成したストレージバケット用であり、もう 1 つはストレージバケット上のトレーニングデータ（DATA_DIR）を保持するディレクトリ用です。
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```
```
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
```

データの前処理に必要なパッケージをインストールします。

(vm)$ sudo apt-get install -y python3-tk && \
  pip3 install --user Cython matplotlib opencv-python-headless pyyaml Pillow && \
  pip3 install --user "git+https://github.com/cocodataset/cocoapi#egg=pycocotools&subdirectory=PythonAPI"

download_and_preprocess_coco.sh スクリプトを実行して、COCO データセットを、トレーニングアプリケーションで想定される一連の TFRecord（*.tfrecord）に変換します。
```
(vm)$ git clone https://github.com/tensorflow/tpu.git
(vm)$ sudo bash tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco
```
これにより、必要なライブラリがインストールされ、前処理スクリプトが実行されます。ローカルのデータディレクトリにいくつかの *.tfrecord ファイルが出力されます。COCO のダウンロードと変換スクリプトが完了するまでには約 1 時間かかります。
データを Cloud Storage バケットにコピーする

データを TFRecord に変換した後、gsutil コマンドを使用して、ローカルストレージから Cloud Storage バケットに変換後のデータをコピーします。アノテーションファイルもコピーする必要があります。アノテーションファイルは、モデルのパフォーマンスの検証に利用できます。
```
(vm)$ gsutil -m cp ./data/dir/coco/*.tfrecord ${DATA_DIR}
(vm)$ gsutil cp ./data/dir/coco/raw-data/annotations/*.json ${DATA_DIR}
```
VM リソースをクリーンアップする

COCO データセットが TFRecord に変換され、Cloud Storage バケットの DATA_DIR にコピーされたら、Compute Engine インスタンスを削除できます。

Compute Engine インスタンスから接続を切断します。
```
(vm)$ exit
```
プロンプトが username@projectname に変わります。これは、現在、Cloud Shell 内にいることを示しています。

Compute Engine インスタンスを削除します。

  $ gcloud compute instances delete instance-name
    --zone=europe-west4-a

Cloud TPU 単一デバイスのトレーニング

Cloud Shell ウィンドウを開きます。

Cloud Shell を開く
プロジェクト ID の環境変数を作成します。
```
export PROJECT_ID=project-id
```
Cloud TPU を作成するプロジェクトを使用するように Google Cloud CLI を構成します。
```
gcloud config set project ${PROJECT_ID}
```
このコマンドを新しい Cloud Shell VM で初めて実行すると、Authorize Cloud Shell ページが表示されます。ページの下部にある [Authorize] をクリックして、gcloud に認証情報を使用した Google Cloud API の呼び出しを許可します。
Cloud TPU プロジェクトのサービスアカウントを作成します。
```
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
```
このコマンドでは、Cloud TPU サービスアカウントを次の形式で返します。
```
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
```
TPU の設定変数をエクスポートする

プロジェクト ID、TPU リソースに使用する名前、モデルをトレーニングしてトレーニング関連のデータを保存するためのゾーンをエクスポートします。
```
$ export TPU_NAME=mask-rcnn-tutorial
$ export ZONE=europe-west4-a
```
gcloud コマンドを使用して Compute Engine VM と Cloud TPU を起動します。使用するコマンドは、TPU VM を使用するか TPU ノードを使用するかによって異なります。2 つの VM アーキテクチャの詳細については、システムアーキテクチャをご覧ください。

注: 複数のプロジェクトがある場合は、--project フラグでプロジェクト ID を指定する必要があります。
TPU VM
```
$ gcloud compute tpus tpu-vm create mask-rcnn-tutorial \
--zone=europe-west4-a \
--accelerator-type=v3-8 \
--version=tpu-vm-tf-2.16.1-pjrt
```
コマンドフラグの説明

zone

Cloud TPU を作成するゾーン。

accelerator-type

アクセラレータタイプでは、作成する Cloud TPU のバージョンとサイズを指定します。TPU のバージョンごとにサポートされているアクセラレータタイプの詳細については、TPU のバージョンをご覧ください。

version

Cloud TPU ソフトウェアのバージョン。

注: プロジェクトで初めて TPU VM を作成する場合、SSH 認証鍵の伝搬や API の開始などの起動タスクの実行に数分かかります。
TPU ノード
重要: TensorFlow 2.12.0 以降を使用してください。
```
$ gcloud compute tpus execution-groups create  \
 --zone=europe-west4-a \
 --name=mask-rcnn-tutorial \
 --accelerator-type=v3-8 \
 --machine-type=n1-standard-8 \
 --disk-size=300 \
 --tf-version=2.12.0
```
コマンドフラグの説明

zone
Cloud TPU を作成するゾーン。
name

TPU 名。指定しない場合、デフォルトでユーザー名が使用されます。

accelerator-type

作成する Cloud TPU のタイプ。

machine-type
作成する Compute Engine VM のマシンタイプ。
disk-size

Compute Engine VM のルートボリュームサイズ（GB）。

tf-version

Tensorflow gcloud のバージョンが VM にインストールされます。
gcloud コマンドの詳細については、gcloud リファレンスをご覧ください。
自動的に Compute Engine インスタンスにログインしない場合は、次の ssh コマンドを実行してログインします。VM にログインすると、シェルプロンプトが username@projectname から username@vm-name に変わります。
TPU VM
```
gcloud compute tpus tpu-vm ssh mask-rcnn-tutorial --zone=europe-west4-a
```
TPU ノード
```
gcloud compute tpus execution-groups ssh mask-rcnn-tutorial --zone=europe-west4-a
```
重要なポイント: これ以降、接頭辞 (vm) $ は Compute Engine VM インスタンスでコマンドを実行する必要があることを意味します。
TensorFlow の要件をインストールします。

使用するコマンドは、TPU VM を使用するか TPU ノードを使用するかによって異なります。
TPU VM
```
(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt 
```
TPU ノード
```
(vm)$ pip3 install --user -r /usr/share/models/official/requirements.txt
```

Cloud TPU 名の変数を設定します。

TPU VM

(vm)$ export TPU_NAME=local

TPU ノード

(vm)$ export TPU_NAME=mask-rcnn-tutorial

次の環境変数を設定します。bucket-name は、COCO データセットを格納する Cloud Storage バケットの名前に置き換えます。
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```

データディレクトリとモデルディレクトリの環境変数を追加します。

(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mask-rcnn

他に必要な環境変数を追加します。

(vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
(vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
(vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
(vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json

PYTHONPATH 環境変数を設定します。

TPU VM

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"

TPU ノード

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

TPU を作成するときに、--version パラメータを -pjrt で終わるバージョンに設定した場合は、次の環境変数を設定して PJRT ランタイムを有効にします。
```
  (vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true
  (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
```

モデルが保存されているディレクトリに移動します。

TPU VM

(vm)$ cd /usr/share/tpu/models/official/vision

TPU ノード

(vm)$ cd /usr/share/models/official/legacy/detection

次のスクリプトは、10 のトレーニングステップと 10 の評価ステップでトレーニングするサンプルトレーニングを実行します。v3-8 TPU で完了するまでに約 6 分かかります。収束するようにトレーニングするには、v3-8 TPU では約 22,500 ステップ、約 6 時間かかります。

次のコマンドを実行して Mask-RCNN モデルをトレーニングします。
```
(vm)$ python3 train.py \
  --tpu=${TPU_NAME} \
  --experiment=maskrcnn_resnetfpn_coco \
  --mode=train_and_eval \
  --config_file=configs/experiments/maskrcnn/r50fpn_640_coco_scratch_tpu4x4.yaml \
  --model_dir=${MODEL_DIR} \
  --params_override="task.train_data.input_path=${TRAIN_FILE_PATTERN},task.validation_data.input_path=${EVAL_FILE_PATTERN},task.annotation_file=${VAL_JSON_FILE},runtime.distribution_strategy=tpu,trainer.train_steps=10,trainer.validation_steps=10,task.train_data.global_batch_size=8,task.validation_data.global_batch_size=8"
```
コマンドフラグの説明

strategy_type

配信戦略。

tpu

TPU の名前。
model_dir
は、モデルのトレーニングの際にチェックポイントとサマリーが保存されるディレクトリを指定します。該当するフォルダがない場合は、プログラムによって作成されます。Cloud TPU を使用する場合、model_dir は Cloud Storage パスにする必要があります（`gs://...`）。以前のチェックポイントが、同じサイズの TPU と TensorFlow バージョンを使用して作成されていれば、既存のフォルダを再利用して現在のチェックポイントデータを読み込んで追加のチェックポイントを保存できます。

トレーニングが完了すると、次のようなメッセージが表示されます。
```
{'frcnn_box_loss': 0.033865165,
 'frcnn_cls_loss': 1.2535654,
 'learning_rate': 0.008266499,
 'mask_loss': 1.2039567,
 'model_loss': 2.821458,
 'rpn_box_loss': 0.034982488,
 'rpn_score_loss': 0.2950886,
 'total_loss': 4.340171,
 'training_loss': 4.340171}
train | step:     10 | steps/sec:    0.1 | output:
{'frcnn_box_loss': 0.033865165,
 'frcnn_cls_loss': 1.2535654,
 'learning_rate': 0.008266499,
 'mask_loss': 1.2039567,
 'model_loss': 2.821458,
 'rpn_box_loss': 0.034982488,
 'rpn_score_loss': 0.2950886,
 'total_loss': 4.340171,
 'training_loss': 4.340171}
```
その後に、評価ステップからの出力が続きます。

これで、単一デバイスのトレーニングと評価が完了しました。現在の単一デバイスの TPU リソースを削除するには、次の手順を使用します。
Compute Engine インスタンスから接続を切断します。
```
(vm)$ exit
```
プロンプトが username@projectname に変わります。これは、現在、Cloud Shell 内にいることを示しています。
TPU リソースを削除します。
TPU VM
```
$ gcloud compute tpus tpu-vm delete mask-rcnn-tutorial \
--zone=europe-west4-a
```
コマンドフラグの説明

zone

Cloud TPU が存在するゾーン。
TPU ノード
```
$ gcloud compute tpus execution-groups delete mask-rcnn-tutorial \
--tpu-only \
--zone=europe-west4-a
```
コマンドフラグの説明

tpu-only

Cloud TPU のみを削除します。VM は引き続き使用できます。

zone

削除する TPU を含むゾーン。

この時点で、このチュートリアルを終了してクリーンアップすることも、Cloud TPU Pod でのモデルの実行を続行して調べることもできます。

Cloud TPU Pod を使用したモデルのスケーリング

Cloud TPU Pod でモデルをトレーニングするには、トレーニングスクリプトに変更を加える必要がある場合があります。詳細については、TPU Pod でのトレーニングをご覧ください。

TPU Pod のトレーニング

Cloud Shell ウィンドウを開きます。

Cloud Shell を開く
プロジェクト ID の変数を作成します。
```
export PROJECT_ID=project-id
```
Cloud TPU を作成するプロジェクトを使用するように Google Cloud CLI を構成します。
```
gcloud config set project ${PROJECT_ID}
```
このコマンドを新しい Cloud Shell VM で初めて実行すると、Authorize Cloud Shell ページが表示されます。ページの下部にある [Authorize] をクリックして、gcloud に認証情報を使用した Google Cloud API の呼び出しを許可します。
Cloud TPU プロジェクトのサービスアカウントを作成します。

サービスアカウントにより、Cloud TPU サービスが他の Google Cloud サービスにアクセスできるようになります。
```
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
```
このコマンドでは、Cloud TPU サービスアカウントを次の形式で返します。
```
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
```
以前に COCO データセットを準備してストレージバケットに移動した場合は、これを再び Pod トレーニングに使用できます。COCO データセットをまだ準備していない場合は、今すぐ準備し、ここに戻ってトレーニングを設定してください。
Cloud TPU Pod を起動する

このチュートリアルでは、v3-32 Pod を指定します。他の Pod オプションについては、TPU のバージョンをご覧ください。
TPU VM
注: 現在 TPU Pod を作成するのに十分な容量がない場合は、キューに格納されたリソースを使用してリクエストをキューに入れることができます。キューに格納されたリソースを使用すると、利用可能になったときに容量を受信できます。Cloud TPU リソースをキューに登録されたリソースとしてリクエストするには、代わりに gcloud alpha compute tpus queued-resources create コマンドを使用します。詳細については、キューに格納されたリソースの管理をご覧ください。
```
$ gcloud compute tpus tpu-vm create mask-rcnn-tutorial \
--zone=europe-west4-a \
--accelerator-type=v3-32 \
--version=tpu-vm-tf-2.16.1-pod-pjrt
```
コマンドフラグの説明

zone

Cloud TPU を作成するゾーン。

accelerator-type

アクセラレータタイプでは、作成する Cloud TPU のバージョンとサイズを指定します。TPU のバージョンごとにサポートされているアクセラレータタイプの詳細については、TPU のバージョンをご覧ください。

version

Cloud TPU ソフトウェアのバージョン。

注: プロジェクトで初めて gcloud を実行する場合は、SSH 認証鍵の伝播や API の始動などの起動タスクの実行に約 5 分を要します。
TPU ノード
```
(vm)$ gcloud compute tpus execution-groups create \
--zone=europe-west4-a \
--name=mask-rcnn-tutorial \
--accelerator-type=v3-32  \
--tf-version=2.12.0
```
コマンドフラグの説明

zone

Cloud TPU を作成するゾーン。

tpu-only

Cloud TPU のみを作成します。デフォルトでは、gcloud compute tpus execution-groups コマンドは VM と Cloud TPU の両方を作成します。

accelerator-type

作成する Cloud TPU のタイプ。

tf-version

Tensorflow gcloud のバージョンが VM にインストールされます。
自動的に Compute Engine インスタンスにログインしない場合は、次の ssh コマンドを実行してログインします。VM にログインすると、シェルプロンプトが username@projectname から username@vm-name に変わります。
TPU VM
```
gcloud compute tpus tpu-vm ssh mask-rcnn-tutorial --zone=europe-west4-a
```
TPU ノード
```
gcloud compute ssh mask-rcnn-tutorial --zone=europe-west4-a
```
重要なポイント: これ以降、接頭辞 (vm) $ は Compute Engine VM インスタンスでコマンドを実行する必要があることを意味します。
TensorFlow の要件をインストールします。

使用するコマンドは、TPU VM を使用するか TPU ノードを使用するかによって異なります。
TPU VM
```
(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt 
```
TPU ノード
```
(vm)$ pip3 install --user -r /usr/share/models/official/requirements.txt
```
トレーニングスクリプトには、追加のパッケージが必要です。この時点でインストールしておきます。
```
(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3
```

Cloud TPU 名の変数を設定します。

(vm)$ export TPU_NAME=mask-rcnn-tutorial

次の環境変数を設定します。bucket-name を Cloud Storage バケットの名前に置き換えます。
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```

他に必要な環境変数を追加します。

(vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
(vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
(vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
(vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mask-rcnn-pod

PYTHONPATH 環境変数を設定します。

TPU VM

(vm)$ export PYTHONPATH="/usr/share/tpu/models:${PYTHONPATH}"
(vm)$ export TPU_LOAD_LIBRARY=0

TPU ノード

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

モデルが保存されているディレクトリに移動します。

TPU VM

(vm)$ cd /usr/share/tpu/models/official/vision

TPU ノード

(vm)$ cd /usr/share/models/official/legacy/detection

モデルをトレーニングします。

この手順では、COCO データセットで 10 トレーニングステップでモデルをトレーニングします。このトレーニングは、v3-32 Cloud TPU 上で約 10 分かかります。

注: トレーニングが開始されたら、Cloud TPU コンソールで TPU のアクティビティをモニタリングすることで、トレーニングが実行されていることを確認できます。Compute Engine -> TPU で、TPU エントリを選択します。TPU 構成の詳細と [モニタリング] へのリンクが記載されたページが表示されます。[モニタリング] をクリックすると、現在の TPU アクティビティが表示されます。
TPU VM
```
(vm)$ python3 train.py \
--tpu=${TPU_NAME} \
--experiment=maskrcnn_resnetfpn_coco \
--mode=train_and_eval \
--config_file=configs/experiments/maskrcnn/r50fpn_640_coco_scratch_tpu4x4.yaml \
--model_dir=${MODEL_DIR} \
--params_override="task.train_data.input_path=${TRAIN_FILE_PATTERN},task.validation_data.input_path=${EVAL_FILE_PATTERN},task.annotation_file=${VAL_JSON_FILE},runtime.distribution_strategy=tpu,trainer.train_steps=10,trainer.validation_steps=10,task.train_data.global_batch_size=256,task.validation_data.global_batch_size=256" 
```
コマンドフラグの説明

tpu

TPU の名前。

model_dir

は、モデルのトレーニングの際にチェックポイントとサマリーが保存されるディレクトリを指定します。該当するフォルダがない場合は、プログラムによって作成されます。Cloud TPU を使用する場合は、model_dir を Cloud Storage パスにする必要があります（gs://...）。以前のチェックポイントが、同じサイズの Cloud TPU と TensorFlow バージョンを使用して作成されていれば、既存のフォルダを再利用して現在のチェックポイントデータを読み込んで追加のチェックポイントを保存できます。

params_override

デフォルトのスクリプトパラメータをオーバーライドする JSON 文字列。
TPU ノード
```
(vm)$ python3 main.py \
--strategy_type=tpu \
--tpu=${TPU_NAME} \
--model_dir=${MODEL_DIR} \
--mode=train \
--model=mask_rcnn \
--params_override="{train: { batch_size: 128, iterations_per_loop: 500, total_steps: 20, learning_rate: {'learning_rate_levels': [0.008, 0.0008], 'learning_rate_steps': [10000, 13000] }, checkpoint: { path: ${RESNET_CHECKPOINT}, prefix: resnet50/ }, train_file_pattern: ${TRAIN_FILE_PATTERN} }, eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}} }"
```
コマンドフラグの説明

tpu

TPU の名前。

model_dir

は、モデルのトレーニングの際にチェックポイントとサマリーが保存されるディレクトリを指定します。該当するフォルダがない場合は、プログラムによって作成されます。Cloud TPU を使用する場合は、model_dir を Cloud Storage パスにする必要があります（gs://...）。以前のチェックポイントが、同じサイズの Cloud TPU と TensorFlow バージョンを使用して作成されていれば、既存のフォルダを再利用して現在のチェックポイントデータを読み込んで追加のチェックポイントを保存できます。

params_override

デフォルトのスクリプトパラメータをオーバーライドする JSON 文字列。

トレーニングが完了すると、次のようなメッセージが表示されます。

 I0706 19:47:16.108213 139955064548416 controller.py:457] train | step: 10 | steps/sec:    0.1 | output:
    {'frcnn_box_loss': 0.05632668,
     'frcnn_cls_loss': 1.3012192,
     'learning_rate': 0.008266499,
     'mask_loss': 1.2371812,
     'model_loss': 2.9746659,
     'rpn_box_loss': 0.08227444,
     'rpn_score_loss': 0.2976642,
     'total_loss': 4.493513,
     'training_loss': 4.493513}
train | step:     10 | steps/sec:    0.1 | output:
    {'frcnn_box_loss': 0.05632668,
     'frcnn_cls_loss': 1.3012192,
     'learning_rate': 0.008266499,
     'mask_loss': 1.2371812,
     'model_loss': 2.9746659,
     'rpn_box_loss': 0.08227444,
     'rpn_score_loss': 0.2976642,
     'total_loss': 4.493513,
     'training_loss': 4.493513}

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

トレーニングを実施した後、TPU VM を削除し、ストレージバケットを削除します。

Compute Engine インスタンスとの接続を切断していない場合は切断します。
```
(vm)$ exit
```
プロンプトが username@projectname に変わります。これは、現在、Cloud Shell 内にいることを示しています。
Cloud TPU と Compute Engine リソースを削除します。リソースの削除に使用するコマンドは、TPU VM または TPU ノードのどちらを使用するかによって異なります。詳細については、システムアーキテクチャをご覧ください。
TPU VM
```
$ gcloud compute tpus tpu-vm delete mask-rcnn-tutorial \
--zone=europe-west4-a
```
TPU ノード
```
$ gcloud compute tpus execution-groups delete mask-rcnn-tutorial \
--zone=europe-west4-a
```
gcloud compute tpus execution-groups list を実行して、リソースが削除されたことを確認します。削除には数分かかることがあります。次のコマンドの出力には、このチュートリアルで作成したリソースを含めないでください。
```
$ gcloud compute tpus execution-groups list --zone=europe-west4-a
```
次に示すように gsutil を実行します。bucket-name の部分は、このチュートリアルで作成した Cloud Storage バケット名に置き換えてください。
```
$ gsutil rm -r gs://bucket-name
```

次のステップ

TensorFlow Cloud TPU のチュートリアルでは通常、サンプルデータセットを使用してモデルをトレーニングします。このトレーニングの結果は推論に使用できません。モデルを推論に使用するには、一般公開されているデータセットまたは独自のデータセットでデータをトレーニングします。Cloud TPU でトレーニングされた TensorFlow モデルは通常、データセットを TFRecord 形式にする必要があります。

データセット変換ツールのサンプルを使用して、画像分類データセットを TFRecord 形式に変換できます。画像分類モデルを使用しない場合は、自分でデータセットを TFRecord 形式に変換する必要があります。詳細については、TFRecord と tf.Example をご覧ください。

ハイパーパラメータチューニング

データセットでモデルのパフォーマンスを向上させるには、モデルのハイパーパラメータを調整します。すべての TPU でサポートされているモデルに共通のハイパーパラメータに関する情報については、GitHub をご覧ください。モデルに固有のハイパーパラメータに関する情報については、各モデルのソースコードで確認できます。ハイパーパラメータ調整の詳細については、ハイパーパラメータ調整の概要とハイパーパラメータを調整するをご覧ください。

推論

モデルをトレーニングしたら、そのモデルを推論（予測）に使用できます。Cloud TPU 推論コンバータツールを使用して、Cloud TPU v5e での推論用の TensorFlow モデルを準備して最適化できます。Cloud TPU v5e での推論の詳細については、Cloud TPU v5e 推論の概要をご覧ください。

TensorBoard の TPU ツールを確認します。

Cloud TPU（TF 2.x）での Mask RCNN のトレーニング

概要

目標

費用

始める前に

COCO データセットを準備する

コマンドフラグの説明

Cloud TPU 単一デバイスのトレーニング

TPU VM

コマンドフラグの説明

TPU ノード

コマンドフラグの説明

TPU VM

TPU ノード

TPU VM

TPU ノード

TPU VM

TPU ノード

TPU VM

TPU ノード

TPU VM

TPU ノード

コマンドフラグの説明

TPU VM

コマンドフラグの説明

TPU ノード

コマンドフラグの説明

Cloud TPU Pod を使用したモデルのスケーリング

TPU Pod のトレーニング

TPU VM

コマンドフラグの説明

TPU ノード

コマンドフラグの説明

TPU VM

TPU ノード

TPU VM

TPU ノード

TPU VM

TPU ノード

TPU VM

TPU ノード

TPU VM

コマンドフラグの説明

TPU ノード

コマンドフラグの説明

クリーンアップ

TPU VM

TPU ノード

次のステップ

ハイパーパラメータ チューニング

推論

ハイパーパラメータチューニング