Pelatihan Mask RCNN di Cloud TPU (TF 2.x)

Ringkasan

Tutorial ini menunjukkan cara menjalankan model Mask RCNN menggunakan Cloud TPU dengan set data COCO.

Mask RCNN adalah deep neural network yang dirancang untuk mengatasi deteksi objek dan segmentasi gambar, salah satu tantangan computer vision yang lebih sulit.

Model Mask RCNN menghasilkan kotak pembatas dan mask segmentasi untuk setiap instance objek dalam gambar. Model ini didasarkan pada Feature Pyramid Network (FPN) dan backbone ResNet50.

Tutorial ini menggunakan Tensorflow Keras APIs untuk melatih model. Keras API adalah TensorFlow API tingkat tinggi yang dapat digunakan untuk membangun dan menjalankan model machine learning di Cloud TPU. API ini menyederhanakan proses pengembangan model dengan menyembunyikan sebagian besar implementasi level rendah, sehingga mempermudah peralihan antara TPU dan platform lain seperti GPU atau CPU.

Petunjuk ini mengasumsikan bahwa Anda sudah memahami cara melatih model di Cloud TPU. Jika baru menggunakan Cloud TPU, Anda dapat membaca Panduan Memulai untuk mendapatkan pengantar dasar.

Tujuan

Siapkan set data COCO
Membuat bucket Cloud Storage untuk menyimpan set data dan output model
Menyiapkan resource TPU untuk pelatihan dan evaluasi
Menjalankan pelatihan dan evaluasi pada satu Cloud TPU atau Pod Cloud TPU

Biaya

Dalam dokumen ini, Anda menggunakan komponen Google Cloud yang dapat ditagih berikut:

Compute Engine
Cloud TPU
Cloud Storage

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga. Pengguna baru Google Cloud mungkin memenuhi syarat untuk mendapatkan uji coba gratis.

Sebelum memulai

Sebelum memulai tutorial ini, pastikan project Google Cloud Anda sudah disiapkan dengan benar.

Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

Buka pemilih project

Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

Buka pemilih project

Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

Panduan ini menggunakan komponen Google Cloud yang dapat ditagih. Lihat halaman harga Cloud TPU untuk memperkirakan biaya Anda. Pastikan untuk membersihkan resource yang Anda buat setelah selesai menggunakannya untuk menghindari biaya yang tidak perlu.

Siapkan set data COCO

Tutorial ini menggunakan {i>dataset <i}COCO. Set data harus dalam format TFRecord di bucket Cloud Storage agar dapat digunakan untuk pelatihan.

Jika sudah menyiapkan set data COCO di bucket Cloud Storage yang terletak di zona yang akan digunakan untuk melatih model, Anda dapat langsung membuka pelatihan satu perangkat. Jika tidak, gunakan langkah-langkah berikut untuk menyiapkan set data.

Buka jendela Cloud Shell.

Buka Cloud Shell

Di Cloud Shell, konfigurasikan gcloud dengan ID project Anda.

export PROJECT_ID=project-id
gcloud config set project ${PROJECT_ID}

Di Cloud Shell, buat bucket Cloud Storage menggunakan perintah berikut:

Catatan: Di perintah berikut, ganti bucket-name dengan nama yang ingin Anda tetapkan ke bucket.
```
gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name
```
Luncurkan instance VM Compute Engine.

Instance VM ini hanya akan digunakan untuk mendownload dan melakukan prapemrosesan set data COCO. Isi instance-name dengan nama pilihan Anda.
```
$ gcloud compute tpus execution-groups create \
 --vm-only \
 --name=instance-name \
 --zone=europe-west4-a \
 --disk-size=300 \
 --machine-type=n1-standard-16 \
 --tf-version=2.12.0
```
Deskripsi flag perintah

vm-only

Buat VM saja. Secara default, perintah gcloud compute tpus execution-groups akan membuat VM dan Cloud TPU.

name

Nama Cloud TPU yang akan dibuat.

zone

Zona tempat Anda berencana membuat Cloud TPU.

disk-size

Ukuran hard disk dalam GB VM yang dibuat oleh perintah gcloud compute tpus execution-groups.

machine-type

Jenis mesin VM Compute Engine yang akan dibuat.

tf-version

Versi Tensorflow gcloud compute tpus execution-groups dapat diinstal di VM.
Jika Anda tidak login secara otomatis ke instance Compute Engine, login dengan menjalankan perintah ssh berikut. Saat Anda login ke VM, perintah shell Anda akan berubah dari username@projectname menjadi username@vm-name:
```
  $ gcloud compute ssh instance-name --zone=europe-west4-a
  
```
Siapkan dua variabel, satu untuk bucket penyimpanan yang Anda buat sebelumnya, dan satu lagi untuk direktori yang menyimpan data pelatihan (DATA_DIR) di bucket penyimpanan.
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```
```
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
```

Instal paket yang diperlukan untuk melakukan pra-pemrosesan data.

(vm)$ sudo apt-get install -y python3-tk && \
  pip3 install --user Cython matplotlib opencv-python-headless pyyaml Pillow && \
  pip3 install --user "git+https://github.com/cocodataset/cocoapi#egg=pycocotools&subdirectory=PythonAPI"

Jalankan skrip download_and_preprocess_coco.sh untuk mengonversi set data COCO menjadi kumpulan TFRecords (*.tfrecord) yang diharapkan oleh aplikasi pelatihan.
```
(vm)$ git clone https://github.com/tensorflow/tpu.git
(vm)$ sudo bash tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco
```
Tindakan ini akan menginstal library yang diperlukan, lalu menjalankan skrip pra-pemrosesan. Ini menghasilkan sejumlah file *.tfrecord di direktori data lokal Anda. Skrip konversi dan download COCO memerlukan waktu sekitar 1 jam.
Menyalin data ke bucket Cloud Storage

Setelah mengonversi data menjadi TFRecords, salin data tersebut dari penyimpanan lokal ke bucket Cloud Storage menggunakan perintah gsutil. Anda juga harus menyalin file anotasi. File ini membantu memvalidasi performa model.
```
(vm)$ gsutil -m cp ./data/dir/coco/*.tfrecord ${DATA_DIR}
(vm)$ gsutil cp ./data/dir/coco/raw-data/annotations/*.json ${DATA_DIR}
```
Membersihkan resource VM

Setelah set data COCO dikonversi menjadi TFRecords dan disalin ke DATA_DIR di bucket Cloud Storage, Anda dapat menghapus instance Compute Engine.

Putuskan koneksi dari instance Compute Engine:
```
(vm)$ exit
```
Prompt Anda sekarang akan menjadi username@projectname, yang menunjukkan bahwa Anda berada di Cloud Shell.

Hapus instance Compute Engine Anda.

  $ gcloud compute instances delete instance-name
    --zone=europe-west4-a

Pelatihan perangkat tunggal Cloud TPU

Buka jendela Cloud Shell.

Buka Cloud Shell
Buat variabel lingkungan untuk ID project Anda.
```
export PROJECT_ID=project-id
```
Konfigurasikan Google Cloud CLI untuk menggunakan project tempat Anda ingin membuat Cloud TPU.
```
gcloud config set project ${PROJECT_ID}
```
Saat pertama kali menjalankan perintah ini di VM Cloud Shell baru, halaman Authorize Cloud Shell akan ditampilkan. Klik Authorize di bagian bawah halaman untuk mengizinkan gcloud melakukan panggilan Google Cloud API dengan kredensial Anda.

Membuat Akun Layanan untuk project Cloud TPU.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

Perintah akan menampilkan Akun Layanan Cloud TPU dengan format berikut:

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

Mengekspor variabel penyiapan TPU

Ekspor project ID Anda, nama yang ingin digunakan untuk resource TPU, dan zona tempat Anda akan melatih model dan menyimpan semua data terkait pelatihan.
```
$ export TPU_NAME=mask-rcnn-tutorial
$ export ZONE=europe-west4-a
```
Luncurkan VM Compute Engine dan Cloud TPU menggunakan perintah gcloud. Perintah yang digunakan bergantung pada apakah Anda menggunakan VM TPU atau node TPU. Untuk informasi selengkapnya tentang dua arsitektur VM, lihat Arsitektur Sistem.

Catatan: Jika memiliki lebih dari satu project, Anda harus menentukan project ID dengan flag --project.
VM TPU
```
$ gcloud compute tpus tpu-vm create mask-rcnn-tutorial \
--zone=europe-west4-a \
--accelerator-type=v3-8 \
--version=tpu-vm-tf-2.16.1-pjrt
```
Deskripsi flag perintah

zone

Zona tempat Anda berencana membuat Cloud TPU.

accelerator-type

Jenis akselerator menentukan versi dan ukuran Cloud TPU yang ingin Anda buat. Untuk mengetahui informasi selengkapnya tentang jenis akselerator yang didukung untuk setiap versi TPU, lihat versi TPU.

version

Versi software Cloud TPU.

Catatan: Saat pertama kali membuat VM TPU pada project, diperlukan waktu beberapa menit untuk melakukan tugas startup seperti propagasi kunci SSH dan turnup API.
Node TPU
Penting: Anda harus menggunakan TensorFlow 2.12.0 atau yang lebih baru.
```
$ gcloud compute tpus execution-groups create  \
 --zone=europe-west4-a \
 --name=mask-rcnn-tutorial \
 --accelerator-type=v3-8 \
 --machine-type=n1-standard-8 \
 --disk-size=300 \
 --tf-version=2.12.0
```
Deskripsi flag perintah

zone

Zona tempat Anda berencana membuat Cloud TPU.

name

Nama TPU. Jika tidak ditentukan, setelan defaultnya adalah nama pengguna Anda.

accelerator-type

Jenis Cloud TPU yang akan dibuat.

machine-type

Jenis mesin VM Compute Engine yang akan dibuat.

disk-size

Ukuran volume root VM Compute Engine Anda (dalam GB).

tf-version

Versi TensorFlow gcloud diinstal di VM.
Untuk mengetahui informasi lebih lanjut tentang perintah gcloud, lihat Referensi gcloud.
Jika Anda tidak login secara otomatis ke instance Compute Engine, login dengan menjalankan perintah ssh berikut. Saat Anda login ke VM, perintah shell Anda akan berubah dari username@projectname menjadi username@vm-name:
VM TPU
```
gcloud compute tpus tpu-vm ssh mask-rcnn-tutorial --zone=europe-west4-a
```
Node TPU
```
gcloud compute tpus execution-groups ssh mask-rcnn-tutorial --zone=europe-west4-a
```
Poin Penting: Mulai saat ini, awalan (vm) $ berarti Anda harus menjalankan perintah pada instance VM Compute Engine.

Instal persyaratan TensorFlow.

Perintah yang digunakan bergantung pada apakah Anda menggunakan VM TPU atau Node TPU.

VM TPU

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

Node TPU

(vm)$ pip3 install --user -r /usr/share/models/official/requirements.txt

Tetapkan variabel nama Cloud TPU.

VM TPU

(vm)$ export TPU_NAME=local

Node TPU

(vm)$ export TPU_NAME=mask-rcnn-tutorial

Siapkan variabel lingkungan berikut, dengan mengganti bucket-name dengan nama bucket Cloud Storage yang menyimpan set data COCO:
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```

Tambahkan variabel lingkungan untuk direktori data dan model.

(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mask-rcnn

Tambahkan beberapa variabel lingkungan tambahan yang diperlukan:

(vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
(vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
(vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
(vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json

Tetapkan variabel lingkungan PYTHONPATH:

VM TPU

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"

Node TPU

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

Saat membuat TPU, jika Anda menetapkan parameter --version ke versi yang diakhiri dengan -pjrt, tetapkan variabel lingkungan berikut untuk mengaktifkan runtime PJRT:
```
  (vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true
  (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
```

Ubah ke direktori yang menyimpan model:

VM TPU

(vm)$ cd /usr/share/tpu/models/official/vision

Node TPU

(vm)$ cd /usr/share/models/official/legacy/detection

Skrip berikut menjalankan contoh pelatihan yang melatih 10 langkah pelatihan dan 10 langkah evaluasi. Proses ini memerlukan waktu sekitar 6 menit untuk menyelesaikan proses di TPU v3-8. Melatih ke konvergensi memerlukan waktu sekitar 22.500 langkah dan sekitar 6 jam pada TPU v3-8.

Jalankan perintah berikut untuk melatih model Mask-RCNN:

(vm)$ python3 train.py \
  --tpu=${TPU_NAME} \
  --experiment=maskrcnn_resnetfpn_coco \
  --mode=train_and_eval \
  --config_file=configs/experiments/maskrcnn/r50fpn_640_coco_scratch_tpu4x4.yaml \
  --model_dir=${MODEL_DIR} \
  --params_override="task.train_data.input_path=${TRAIN_FILE_PATTERN},task.validation_data.input_path=${EVAL_FILE_PATTERN},task.annotation_file=${VAL_JSON_FILE},runtime.distribution_strategy=tpu,trainer.train_steps=10,trainer.validation_steps=10,task.train_data.global_batch_size=8,task.validation_data.global_batch_size=8"

Deskripsi flag perintah

strategy_type: Strategi distribusi.
tpu: Nama TPU Anda.; Menentukan direktori tempat checkpoint dan ringkasan disimpan selama pelatihan model. Jika foldernya tidak ada, program akan membuat folder tersebut. Saat menggunakan Cloud TPU, model_dir harus berupa jalur Cloud Storage (`gs://...`). Anda dapat menggunakan kembali folder yang ada untuk memuat data checkpoint saat ini dan menyimpan checkpoint tambahan asalkan checkpoint sebelumnya dibuat menggunakan TPU dengan ukuran dan versi TensorFlow yang sama.

Setelah pelatihan selesai, pesan yang mirip dengan yang berikut ini akan muncul:

{'frcnn_box_loss': 0.033865165,
 'frcnn_cls_loss': 1.2535654,
 'learning_rate': 0.008266499,
 'mask_loss': 1.2039567,
 'model_loss': 2.821458,
 'rpn_box_loss': 0.034982488,
 'rpn_score_loss': 0.2950886,
 'total_loss': 4.340171,
 'training_loss': 4.340171}
train | step:     10 | steps/sec:    0.1 | output:
{'frcnn_box_loss': 0.033865165,
 'frcnn_cls_loss': 1.2535654,
 'learning_rate': 0.008266499,
 'mask_loss': 1.2039567,
 'model_loss': 2.821458,
 'rpn_box_loss': 0.034982488,
 'rpn_score_loss': 0.2950886,
 'total_loss': 4.340171,
 'training_loss': 4.340171}

Kemudian diikuti dengan output dari langkah evaluasi.

Sekarang Anda telah menyelesaikan pelatihan dan evaluasi satu perangkat. Gunakan langkah-langkah berikut untuk menghapus resource TPU satu perangkat saat ini.

Putuskan koneksi dari instance Compute Engine:
```
(vm)$ exit
```
Prompt Anda sekarang akan menjadi username@projectname, yang menunjukkan bahwa Anda berada di Cloud Shell.
Hapus resource TPU.
VM TPU
```
$ gcloud compute tpus tpu-vm delete mask-rcnn-tutorial \
--zone=europe-west4-a
```
Deskripsi flag perintah

zone

Zona tempat Cloud TPU Anda berada.
Node TPU
```
$ gcloud compute tpus execution-groups delete mask-rcnn-tutorial \
--tpu-only \
--zone=europe-west4-a
```
Deskripsi flag perintah

tpu-only

Hanya menghapus Cloud TPU. VM tetap tersedia.

zone

Zona yang berisi TPU yang akan dihapus.

Di tahap ini, Anda dapat mengakhiri tutorial ini dan membersihkan, atau melanjutkan dan mempelajari cara menjalankan model di Pod Cloud TPU.

Menskalakan model Anda dengan Pod Cloud TPU

Melatih model Anda di Pod Cloud TPU mungkin memerlukan beberapa perubahan pada skrip pelatihan Anda. Untuk mengetahui informasi selengkapnya, lihat Pelatihan terkait Pod TPU.

Pelatihan Pod TPU

Buka jendela Cloud Shell.

Buka Cloud Shell
Buat variabel untuk ID project Anda.
```
export PROJECT_ID=project-id
```
Konfigurasikan Google Cloud CLI untuk menggunakan project tempat Anda ingin membuat Cloud TPU.
```
gcloud config set project ${PROJECT_ID}
```
Saat pertama kali menjalankan perintah ini di VM Cloud Shell baru, halaman Authorize Cloud Shell akan ditampilkan. Klik Authorize di bagian bawah halaman untuk mengizinkan gcloud melakukan panggilan Google Cloud API dengan kredensial Anda.
Membuat Akun Layanan untuk project Cloud TPU.

Akun layanan memungkinkan layanan Cloud TPU mengakses layanan Google Cloud lainnya.
```
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
```
Perintah akan menampilkan Akun Layanan Cloud TPU dengan format berikut:
```
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
```
Jika sebelumnya Anda telah menyiapkan set data COCO dan memindahkannya ke bucket penyimpanan, Anda dapat menggunakannya lagi untuk pelatihan Pod. Jika Anda belum menyiapkan set data COCO, siapkan sekarang dan kembali ke sini untuk menyiapkan pelatihan.
Meluncurkan Pod Cloud TPU

Tutorial ini menentukan Pod v3-32. Untuk opsi Pod lainnya, lihat versi TPU.
VM TPU
Catatan: Jika saat ini kapasitas yang tersedia tidak cukup untuk membuat Pod TPU, Anda dapat mengantrekan permintaan menggunakan resource dalam antrean. Resource yang diantrekan memungkinkan Anda menerima kapasitas setelah tersedia. Untuk meminta resource Cloud TPU sebagai resource dalam antrean, gunakan perintah gcloud alpha compute tpus queued-resources create. Untuk informasi lebih lanjut, lihat Mengelola Resource yang Antrean.
```
$ gcloud compute tpus tpu-vm create mask-rcnn-tutorial \
--zone=europe-west4-a \
--accelerator-type=v3-32 \
--version=tpu-vm-tf-2.16.1-pod-pjrt
```
Deskripsi flag perintah

zone

Zona tempat Anda berencana membuat Cloud TPU.

accelerator-type

Jenis akselerator menentukan versi dan ukuran Cloud TPU yang ingin Anda buat. Untuk mengetahui informasi selengkapnya tentang jenis akselerator yang didukung untuk setiap versi TPU, lihat versi TPU.

version

Versi software Cloud TPU.

Catatan: Saat pertama kali menjalankan gcloud pada project, diperlukan waktu sekitar 5 menit untuk melakukan tugas startup seperti propagasi kunci SSH dan turnup API.
Node TPU
```
(vm)$ gcloud compute tpus execution-groups create \
--zone=europe-west4-a \
--name=mask-rcnn-tutorial \
--accelerator-type=v3-32  \
--tf-version=2.12.0
```
Deskripsi flag perintah

zone

Zona tempat Anda berencana membuat Cloud TPU.

tpu-only

Membuat Cloud TPU saja. Secara default, perintah gcloud compute tpus execution-groups akan membuat VM dan Cloud TPU.

accelerator-type

Jenis Cloud TPU yang akan dibuat.

tf-version

Versi TensorFlow gcloud diinstal di VM.
Jika Anda tidak login secara otomatis ke instance Compute Engine, login dengan menjalankan perintah ssh berikut. Saat Anda login ke VM, perintah shell Anda akan berubah dari username@projectname menjadi username@vm-name:
VM TPU
```
gcloud compute tpus tpu-vm ssh mask-rcnn-tutorial --zone=europe-west4-a
```
Node TPU
```
gcloud compute ssh mask-rcnn-tutorial --zone=europe-west4-a
```
Poin Penting: Mulai saat ini, awalan (vm) $ berarti Anda harus menjalankan perintah pada instance VM Compute Engine.

Instal persyaratan TensorFlow.

Perintah yang digunakan bergantung pada apakah Anda menggunakan VM TPU atau Node TPU.

VM TPU

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

Node TPU

(vm)$ pip3 install --user -r /usr/share/models/official/requirements.txt

Skrip pelatihan memerlukan paket tambahan. Instal sekarang:

(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3

Tetapkan variabel nama Cloud TPU.

(vm)$ export TPU_NAME=mask-rcnn-tutorial

Siapkan variabel lingkungan berikut, dengan mengganti bucket-name dengan nama bucket Cloud Storage Anda:
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```

Tambahkan beberapa variabel lingkungan tambahan yang diperlukan:

(vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
(vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
(vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
(vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mask-rcnn-pod

Tetapkan variabel lingkungan PYTHONPATH:

VM TPU

(vm)$ export PYTHONPATH="/usr/share/tpu/models:${PYTHONPATH}"
(vm)$ export TPU_LOAD_LIBRARY=0

Node TPU

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

Ubah ke direktori yang menyimpan model:

VM TPU

(vm)$ cd /usr/share/tpu/models/official/vision

Node TPU

(vm)$ cd /usr/share/models/official/legacy/detection

Latih model:

Prosedur ini melatih model pada set data COCO selama 10 langkah pelatihan. Pelatihan ini memerlukan waktu sekitar 10 menit pada Cloud TPU v3-32.

Catatan: Setelah pelatihan dimulai, Anda dapat memverifikasi bahwa pelatihan berjalan dengan memantau aktivitas TPU di konsol Cloud TPU. Dari Compute Engine -> TPU, pilih entri TPU Anda. Tindakan ini akan memunculkan halaman dengan detail konfigurasi TPU Anda dan link ke MONITORING. Klik PEMANTAUAN untuk melihat aktivitas TPU saat ini.
VM TPU
```
(vm)$ python3 train.py \
--tpu=${TPU_NAME} \
--experiment=maskrcnn_resnetfpn_coco \
--mode=train_and_eval \
--config_file=configs/experiments/maskrcnn/r50fpn_640_coco_scratch_tpu4x4.yaml \
--model_dir=${MODEL_DIR} \
--params_override="task.train_data.input_path=${TRAIN_FILE_PATTERN},task.validation_data.input_path=${EVAL_FILE_PATTERN},task.annotation_file=${VAL_JSON_FILE},runtime.distribution_strategy=tpu,trainer.train_steps=10,trainer.validation_steps=10,task.train_data.global_batch_size=256,task.validation_data.global_batch_size=256" 
```
Deskripsi flag perintah

tpu

Nama TPU Anda.

model_dir

Menentukan direktori tempat checkpoint dan ringkasan disimpan selama pelatihan model. Jika foldernya tidak ada, program akan membuat folder tersebut. Saat menggunakan Cloud TPU, model_dir harus berupa jalur Cloud Storage (gs://...). Anda dapat menggunakan kembali folder yang ada untuk memuat data checkpoint saat ini dan menyimpan checkpoint tambahan selama checkpoint sebelumnya dibuat menggunakan Cloud TPU dengan ukuran dan versi TensorFlow yang sama.

params_override

String JSON yang mengganti parameter skrip default.
Node TPU
```
(vm)$ python3 main.py \
--strategy_type=tpu \
--tpu=${TPU_NAME} \
--model_dir=${MODEL_DIR} \
--mode=train \
--model=mask_rcnn \
--params_override="{train: { batch_size: 128, iterations_per_loop: 500, total_steps: 20, learning_rate: {'learning_rate_levels': [0.008, 0.0008], 'learning_rate_steps': [10000, 13000] }, checkpoint: { path: ${RESNET_CHECKPOINT}, prefix: resnet50/ }, train_file_pattern: ${TRAIN_FILE_PATTERN} }, eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}} }"
```
Deskripsi flag perintah

tpu

Nama TPU Anda.

model_dir

Menentukan direktori tempat checkpoint dan ringkasan disimpan selama pelatihan model. Jika foldernya tidak ada, program akan membuat folder tersebut. Saat menggunakan Cloud TPU, model_dir harus berupa jalur Cloud Storage (gs://...). Anda dapat menggunakan kembali folder yang ada untuk memuat data checkpoint saat ini dan menyimpan checkpoint tambahan selama checkpoint sebelumnya dibuat menggunakan Cloud TPU dengan ukuran dan versi TensorFlow yang sama.

params_override

String JSON yang mengganti parameter skrip default.

Setelah pelatihan selesai, pesan yang mirip dengan yang berikut ini akan muncul:

 I0706 19:47:16.108213 139955064548416 controller.py:457] train | step: 10 | steps/sec:    0.1 | output:
    {'frcnn_box_loss': 0.05632668,
     'frcnn_cls_loss': 1.3012192,
     'learning_rate': 0.008266499,
     'mask_loss': 1.2371812,
     'model_loss': 2.9746659,
     'rpn_box_loss': 0.08227444,
     'rpn_score_loss': 0.2976642,
     'total_loss': 4.493513,
     'training_loss': 4.493513}
train | step:     10 | steps/sec:    0.1 | output:
    {'frcnn_box_loss': 0.05632668,
     'frcnn_cls_loss': 1.3012192,
     'learning_rate': 0.008266499,
     'mask_loss': 1.2371812,
     'model_loss': 2.9746659,
     'rpn_box_loss': 0.08227444,
     'rpn_score_loss': 0.2976642,
     'total_loss': 4.493513,
     'training_loss': 4.493513}

Pembersihan

Agar tidak dikenakan biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource-nya.

Setelah menjalankan pelatihan, hapus VM TPU dan hapus bucket penyimpanan Anda.

Putuskan koneksi dari instance Compute Engine jika Anda belum melakukannya:
```
(vm)$ exit
```
Prompt Anda sekarang akan menjadi username@projectname, yang menunjukkan bahwa Anda berada di Cloud Shell.
Hapus resource Cloud TPU dan Compute Engine Anda. Perintah yang digunakan untuk menghapus resource bergantung pada apakah Anda menggunakan VM TPU atau Node TPU. Untuk informasi selengkapnya, lihat Arsitektur Sistem.
VM TPU
```
$ gcloud compute tpus tpu-vm delete mask-rcnn-tutorial \
--zone=europe-west4-a
```
Node TPU
```
$ gcloud compute tpus execution-groups delete mask-rcnn-tutorial \
--zone=europe-west4-a
```
Verifikasi bahwa resource telah dihapus dengan menjalankan gcloud compute tpus execution-groups list. Penghapusan memerlukan waktu beberapa menit. Output dari perintah berikut tidak boleh menyertakan resource TPU apa pun yang dibuat dalam tutorial ini:
```
$ gcloud compute tpus execution-groups list --zone=europe-west4-a
```
Jalankan gsutil seperti yang ditunjukkan, dengan mengganti bucket-name dengan nama bucket Cloud Storage yang Anda buat untuk tutorial ini:
```
$ gsutil rm -r gs://bucket-name
```

Langkah selanjutnya

Tutorial TensorFlow Cloud TPU umumnya melatih model menggunakan sampel set data. Hasil pelatihan ini tidak dapat digunakan untuk inferensi. Agar dapat menggunakan model untuk inferensi, Anda dapat melatih data pada set data yang tersedia untuk publik atau set data Anda sendiri. Model TensorFlow yang dilatih di Cloud TPU umumnya memerlukan set data dalam format TFRecord.

Anda dapat menggunakan contoh alat konversi set data untuk mengonversi set data klasifikasi gambar menjadi format TFRecord. Jika tidak menggunakan model klasifikasi gambar, Anda harus mengonversi set data ke format TFRecord sendiri. Untuk mengetahui informasi selengkapnya, lihat TFRecord dan tf.Example.

Penyesuaian hyperparameter

Untuk meningkatkan performa model dengan set data, Anda dapat menyesuaikan hyperparameter model. Anda dapat menemukan informasi tentang hyperparameter yang umum untuk semua model yang didukung TPU di GitHub. Informasi tentang hyperparameter khusus model dapat ditemukan di kode sumber untuk setiap model. Untuk informasi selengkapnya tentang penyesuaian hyperparameter, lihat Ringkasan penyesuaian hyperparameter dan Menyesuaikan hyperparameter.

Inferensi

Setelah melatih model, Anda dapat menggunakannya untuk inferensi (juga disebut prediksi). Anda dapat menggunakan alat konverter inferensi Cloud TPU untuk menyiapkan dan mengoptimalkan model TensorFlow untuk inferensi di Cloud TPU v5e. Untuk mengetahui informasi selengkapnya tentang inferensi di Cloud TPU v5e, lihat pengantar inferensi Cloud TPU v5e.

Pelajari alat TPU di TensorBoard.