Cloud TPU에서 ShapeMask 학습(TF 2.x)

이 문서에서는 COCO 데이터 세트로 Cloud TPU를 사용하여 ShapeMask 모델을 실행하는 방법을 보여줍니다.

아래에 안내되어 있는 내용은 개발자가 Cloud TPU에서 모델을 익숙하게 실행할 수 있다고 가정합니다. Cloud TPU를 처음 사용한다면 빠른 시작에서 기본적인 정보를 먼저 살펴보세요.

TPU Pod 슬라이스에서 학습시키려면 TPU Pod에서 학습을 살펴보고 포드 슬라이스에 필요한 매개변수 변경을 확인하세요.

목표

COCO 데이터 세트 준비
데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
학습 및 평가에 TPU 리소스 설정
단일 Cloud TPU 또는 Cloud TPU Pod에서 학습 및 평가 실행

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

Compute Engine
Cloud TPU
Cloud Storage

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 튜토리얼을 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

프로젝트 선택기로 이동

Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

프로젝트 선택기로 이동

Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

Cloud TPU 단일 기기 학습

이 섹션에서는 단일 기기 학습을 위한 Cloud Storage, VM, Cloud TPU 리소스를 설정하는 방법을 설명합니다.

TPU Pod 슬라이스로 학습시키려면 TPU Pod에서 학습을 살펴보고 포드 슬라이스에서 학습하는 데 필요한 변경사항을 확인하세요.

Cloud Shell에서 프로젝트 ID의 변수를 만듭니다.
```
export PROJECT_ID=project-id
```
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
```
gcloud config set project ${PROJECT_ID}
```
새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.

Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

COCO 데이터 세트 준비

이 튜토리얼에는 COCO 데이터 세트가 사용됩니다. 데이터 세트는 학습에 사용되기 위해 Cloud Storage 버킷에서 TFRecord 형식이어야 합니다.

버킷 위치는 가상 머신(VM) 및 TPU 노드와 동일한 리전에 있어야 합니다. VM 및 TPU 노드는 리전 내 구획인 특정 영역에 있습니다.

Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는 gcloud compute tpus execution-groups 도구는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

모델을 학습시키는 데 사용할 영역에 있는 Cloud Storage 버킷에 COCO 데이터 세트를 이미 준비한 경우 TPU 리소스를 실행하고 Cloud TPU를 학습에 사용할 수 있도록 준비합니다. 그렇지 않으면 다음 순서에 따라 데이터 세트를 준비합니다.

Cloud Shell에서 프로젝트 ID로 gcloud를 구성합니다.

export PROJECT_ID=project-id
gcloud config set project ${PROJECT_ID}

Cloud Shell에서 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

참고: 다음 명령어에서 bucket-name을 버킷에 할당하려는 이름으로 바꿉니다.
```
gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name
```
Compute Engine VM 인스턴스를 시작합니다.

이 VM 인스턴스는 COCO 데이터 세트를 다운로드하고 사전 처리하기 위해서만 사용됩니다. instance-name에 선택한 이름을 입력합니다.
```
$ gcloud compute tpus execution-groups create \
 --vm-only \
 --name=instance-name \
 --zone=europe-west4-a \
 --disk-size=300 \
 --machine-type=n1-standard-16 \
 --tf-version=2.12.0
```
명령어 플래그 설명

vm-only

VM만 만듭니다. 기본적으로 gcloud compute tpus execution-groups 명령어는 VM과 Cloud TPU를 생성합니다.

name

생성할 Cloud TPU의 이름입니다.

zone

Cloud TPU를 만들려는 영역입니다.

disk-size

gcloud compute tpus execution-groups 명령어로 생성한 VM의 하드 디스크 크기(GB)입니다.

machine-type

생성할 Compute Engine VM의 머신 유형입니다.

tf-version

Tensorflow gcloud compute tpus execution-groups 버전이 VM에 설치됩니다.
Compute Engine 인스턴스에 자동으로 로그인되지 않으면 다음 ssh 명령어를 실행하여 로그인합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.
```
  $ gcloud compute ssh instance-name --zone=europe-west4-a
  
```
앞에서 만든 스토리지 버킷용 변수와 스토리지 버킷에 학습 데이터(DATA_DIR)가 포함된 디렉터리용 변수를 설정합니다.
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```
```
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
```

데이터를 사전 처리하는 데 필요한 패키지를 설치합니다.

(vm)$ sudo apt-get install -y python3-tk && \
  pip3 install --user Cython matplotlib opencv-python-headless pyyaml Pillow && \
  pip3 install --user "git+https://github.com/cocodataset/cocoapi#egg=pycocotools&subdirectory=PythonAPI"

download_and_preprocess_coco.sh 스크립트를 실행하여 COCO 데이터 세트를 학습 애플리케이션에 필요한 TFRecords(*.tfrecord) 집합으로 변환합니다.
```
(vm)$ git clone https://github.com/tensorflow/tpu.git
(vm)$ sudo bash tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco
```
그러면 필수 라이브러리가 설치된 후 사전 처리 스크립트가 실행됩니다. 이 스크립트는 로컬 데이터 디렉터리의 *.tfrecord 파일 수를 출력합니다. COCO 다운로드 및 변환 스크립트는 완료되는 데 약 1시간 정도 걸립니다.
Cloud Storage 버킷에 데이터 복사

데이터를 TFRecord로 변환한 후 gsutil 명령어를 사용하여 로컬 스토리지에서 Cloud Storage 버킷으로 복사합니다. 주석 파일도 복사해야 합니다. 이 파일은 모델의 성능을 검증하는 데 유용합니다.
```
(vm)$ gsutil -m cp ./data/dir/coco/*.tfrecord ${DATA_DIR}
(vm)$ gsutil cp ./data/dir/coco/raw-data/annotations/*.json ${DATA_DIR}
```
VM 리소스 삭제

COCO 데이터 세트가 TFRecords로 변환되고 Cloud Storage 버킷의 DATA_DIR에 복사되면 Compute Engine 인스턴스를 삭제할 수 있습니다.

Compute Engine 인스턴스에서 연결을 해제합니다.
```
(vm)$ exit
```
프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

Compute Engine 인스턴스 삭제

  $ gcloud compute instances delete instance-name
    --zone=europe-west4-a

TPU 리소스 실행 및 모델 학습

gcloud 명령어를 사용하여 TPU 리소스를 시작합니다. 사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다. 두 가지 VM 아키텍처에 관한 자세한 내용은 시스템 아키텍처를 참조하세요.
TPU VM
```
$ gcloud compute tpus tpu-vm create shapemask-tutorial \
--zone=europe-west4-a \
--accelerator-type=v3-8 \
--version=tpu-vm-tf-2.16.1-pjrt
```
명령어 플래그 설명

zone

Cloud TPU를 만들려는 영역입니다.

accelerator-type

가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.

version

Cloud TPU 소프트웨어 버전입니다.
TPU 노드
```
$ gcloud compute tpus execution-groups create  \
 --zone=europe-west4-a \
 --name=shapemask-tutorial \
 --accelerator-type=v3-8 \
 --machine-type=n1-standard-8 \
 --disk-size=300 \
 --tf-version=2.12.0
```
명령어 플래그 설명

zone

Cloud TPU를 만들려는 영역입니다.

name

TPU 이름입니다. 지정하지 않으면 기본적으로 사용자 이름이 사용됩니다.

accelerator-type

생성할 Cloud TPU의 유형입니다.

machine-type

만들 Compute Engine VM의 머신 유형입니다.

disk-size

Compute Engine VM의 루트 볼륨 크기(GB)입니다.

tf-version

Tensorflow gcloud 버전이 VM에 설치됩니다.
참고: 프로젝트가 둘 이상인 경우 --project 플래그를 사용하여 프로젝트 ID를 지정해야 합니다.

gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.
참고: 프로젝트에서 gcloud compute tpus를 처음 실행하는 경우 SSH 키 전파, API 활성화 등의 시작 태스크를 수행하는 데 5분 정도 걸립니다.
Compute Engine 인스턴스에 자동으로 로그인되지 않으면 다음 ssh 명령어를 실행하여 로그인합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.
TPU VM
```
gcloud compute tpus tpu-vm ssh shapemask-tutorial --zone=europe-west4-a
```
TPU 노드
```
gcloud compute ssh shapemask-tutorial --zone=europe-west4-a
```
요점: 이후 내용부터 (vm) $ 프리픽스가 있으면 Compute Engine VM 인스턴스에서 명령어를 실행해야 합니다.
안내를 계속 따르면서 (vm)$으로 시작하는 각 명령어를 VM 세션 창에서 실행합니다.

TensorFlow 요구사항을 설치합니다.

TPU VM

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

TPU 노드

(vm)$ pip3 install -r /usr/share/models/official/requirements.txt

학습 스크립트에는 추가 패키지가 필요합니다. 지금 설치합니다.

TPU VM

(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3

TPU 노드

(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3

스토리지 버킷 이름 변수를 설정합니다. bucket-name을 스토리지 버킷 이름으로 바꿉니다.
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```

Cloud TPU 이름 변수를 설정합니다.

TPU VM

(vm)$ export TPU_NAME=local

TPU 노드

(vm)$ export TPU_NAME=shapemask-tutorial

PYTHONPATH 환경 변수를 설정합니다.

TPU VM

(vm)$ export PYTHONPATH="/usr/share/tpu/models:${PYTHONPATH}"

TPU 노드

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

모델을 저장하는 디렉터리로 변경합니다.

TPU VM

(vm)$ cd /usr/share/tpu/models/official/legacy/detection

TPU 노드

(vm)$ cd /usr/share/models/official/legacy/detection

필요한 환경 변수를 추가합니다.

(vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
(vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
(vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
(vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json
(vm)$ export SHAPE_PRIOR_PATH=gs://cloud-tpu-checkpoints/shapemask/kmeans_class_priors_91x20x32x32.npy
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/shapemask

TPU를 만들 때 --version 매개변수를 -pjrt로 끝나는 버전으로 설정한 경우 다음 환경 변수를 설정하여 PJRT 런타임을 사용 설정합니다.
```
  (vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true
  (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
```

ShapeMask 모델 학습:

다음 스크립트는 v3-8 TPU에서 100단계만 샘플 학습을 실행하며 완료하는 데 약 10분이 소요됩니다. v3-8 TPU에서 수렴을 학습하는 데는 약 22,500단계와 약 6시간이 소요됩니다.

(vm)$ python3 main.py \
  --strategy_type=tpu \
  --tpu=${TPU_NAME} \
  --model_dir=${MODEL_DIR} \
  --mode=train \
  --model=shapemask \
  --params_override="{train: {total_steps: 100, learning_rate: {init_learning_rate: 0.08, learning_rate_levels: [0.008, 0.0008], learning_rate_steps: [15000, 20000], }, checkpoint: { path: ${RESNET_CHECKPOINT},prefix: resnet50}, train_file_pattern: ${TRAIN_FILE_PATTERN}}, shapemask_head: {use_category_for_mask: true, shape_prior_path: ${SHAPE_PRIOR_PATH}}, shapemask_parser: {output_size: [640, 640]}}"

명령어 플래그 설명

strategy_type: TPU에서 Shapemask 모델을 학습시키려면 distribution_strategy를 tpu로 설정해야 합니다.
tpu: Cloud TPU의 이름입니다. TPU_NAME 환경 변수를 사용하여 설정합니다.
model_dir: 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리입니다. 폴더가 없는 경우에는 프로그램에서 생성됩니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
mode: 모델을 학습시키려면 train으로 설정하고 모델을 평가하려면 eval로 설정합니다.
params_override: 기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다. 스크립트 매개변수에 대한 자세한 내용은 /usr/share/models/official/legacy/detection/main.py를 참조하세요.

학습이 완료되면 다음과 유사한 메시지가 표시됩니다.

Train Step: 100/100  / loss = {'total_loss': 10.815635681152344,
'loss': 10.815635681152344, 'retinanet_cls_loss': 1.4915691614151,
'l2_regularization_loss': 4.483549118041992,
'retinanet_box_loss': 0.013074751943349838,
'shapemask_prior_loss': 0.17314358055591583,
'shapemask_coarse_mask_loss': 1.953366756439209,
'shapemask_fine_mask_loss': 2.216097831726074, 'model_loss': 6.332086086273193,
'learning_rate': 0.021359999} / training metric = {'total_loss': 10.815635681152344,
'loss': 10.815635681152344, 'retinanet_cls_loss': 1.4915691614151,
'l2_regularization_loss': 4.483549118041992,
'retinanet_box_loss': 0.013074751943349838,
'shapemask_prior_loss': 0.17314358055591583,
'shapemask_coarse_mask_loss': 1.953366756439209,
'shapemask_fine_mask_loss': 2.216097831726074,
'model_loss': 6.332086086273193, 'learning_rate': 0.021359999}

스크립트를 실행하여 ShapeMask 모델을 평가합니다. v3-8 TPU에서 약 10분 정도 걸립니다.

(vm)$ python3 main.py \
    --strategy_type=tpu \
    --tpu=${TPU_NAME} \
    --model_dir=${MODEL_DIR} \
    --checkpoint_path=${MODEL_DIR} \
    --mode=eval_once \
    --model=shapemask \
    --params_override="{eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}, eval_samples: 5000 }, shapemask_head: {use_category_for_mask: true, shape_prior_path: ${SHAPE_PRIOR_PATH}}, shapemask_parser: {output_size: [640, 640]}}"

명령어 플래그 설명

strategy_type: TPU에서 Shapemask 모델을 학습시키려면 distribution_strategy를 tpu로 설정해야 합니다.
tpu: Cloud TPU의 이름입니다. TPU_NAME 환경 변수를 사용하여 설정합니다.
model_dir: 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리입니다. 폴더가 없는 경우에는 프로그램에서 생성됩니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
mode: 모델을 학습시키려면 train으로 설정하고 모델을 평가하려면 eval로 설정합니다.
params_override: 기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다. 스크립트 매개변수에 대한 자세한 내용은 /usr/share/models/official/legacy/detection/main.py를 참조하세요.

평가가 완료되면 다음과 유사한 메시지가 표시됩니다.

DONE (t=5.47s).
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.000
 Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.000
 Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.000
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.000
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.000
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.000

이제 단일 기기 학습 및 평가가 완료되었습니다. 다음 단계를 수행하여 현재 단일 기기 TPU 리소스를 삭제합니다.

Compute Engine 인스턴스에서 연결을 해제합니다.
```
(vm)$ exit
```
프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.
TPU 리소스를 삭제합니다.
TPU VM
```
$ gcloud compute tpus tpu-vm delete shapemask-tutorial \
--zone=europe-west4-a
```
명령어 플래그 설명

zone

Cloud TPU가 있는 영역입니다.
TPU 노드
```
$ gcloud compute tpus execution-groups delete shapemask-tutorial \
--tpu-only \
--zone=europe-west4-a
```
명령어 플래그 설명

tpu-only

Cloud TPU만 삭제합니다. VM을 계속 사용할 수 있습니다.

zone

삭제할 TPU가 포함된 영역입니다.
여기에서는 이 튜토리얼을 마무리하고 삭제하거나 Cloud TPU 포드에서 모델 실행을 살펴볼 수 있습니다.

Cloud TPU Pod로 모델 확장

Cloud TPU Pod에서 모델을 학습시키려면 학습 스크립트를 변경해야 할 수 있습니다. 자세한 내용은 TPU Pod에서 학습을 참조하세요.

TPU Pod 학습

Cloud Shell 창을 엽니다.

Cloud Shell 열기
프로젝트 ID의 변수를 만듭니다.
```
export PROJECT_ID=project-id
```
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
```
gcloud config set project ${PROJECT_ID}
```
새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.
Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

서비스 계정은 Cloud TPU 서비스가 다른 Google Cloud Platform 서비스에 액세스하도록 허용합니다.
```
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
```
이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.
```
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
```
다음 명령어를 사용하여 Cloud Storage 버킷을 만들거나 앞에서 프로젝트에 만든 버킷을 사용합니다.

중요: 같은 리전/영역에서 Cloud TPU 리소스와 Cloud Storage 버킷을 설정하면 네트워크 지연 시간과 네트워크 비용을 줄일 수 있습니다. Cloud TPU는 리전 내의 하위 그룹인 특정 영역에 위치합니다.
```
gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name
```
이전에 COCO 데이터 세트를 준비하고 스토리지 버킷으로 이동한 경우에는 포드 학습에 다시 사용할 수 있습니다. COCO 데이터 세트를 아직 준비하지 않은 경우 지금 준비하시고 여기로 돌아와 포드 학습을 설정하세요.
Cloud TPU Pod 실행

이 튜토리얼에서는 v3-32 포드를 지정합니다. 다른 포드 옵션은 TPU 버전을 참조하세요.
TPU VM
참고: 현재 TPU Pod를 생성할 수 있는 용량이 충분하지 않으면 큐에 추가된 리소스를 사용하여 요청을 큐에 추가하면 됩니다. 용량을 사용할 수 있게 되면 큐에 추가된 리소스에서 용량을 받을 수 있습니다. Cloud TPU 리소스를 큐에 추가된 리소스로 요청하려면 gcloud alpha compute tpus queued-resources create 명령어를 대신 사용하세요. 자세한 내용은 큐에 추가된 리소스 관리를 참조하세요.
```
$ gcloud compute tpus tpu-vm create shapemask-tutorial \
--zone=europe-west4-a \
--accelerator-type=v3-32 \
--version=tpu-vm-tf-2.16.1-pod-pjrt
```
명령어 플래그 설명

zone

Cloud TPU를 만들려는 영역입니다.

accelerator-type

가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.

version

Cloud TPU 소프트웨어 버전입니다.

참고: 프로젝트에서 gcloud를 처음 실행할 때는 SSH 키 전파, API 활성화 등의 시작 태스크를 수행하는 데 5분 정도 걸립니다.
TPU 노드
```
$ gcloud compute tpus execution-groups create  \
 --zone=europe-west4-a \
 --name=shapemask-tutorial \
 --accelerator-type=v3-32 \
 --machine-type=n1-standard-8 \
 --disk-size=300 \
 --tf-version=2.12.0
```
명령어 플래그 설명

zone

Cloud TPU를 만들려는 영역입니다.

name

TPU 이름입니다. 지정하지 않으면 기본적으로 사용자 이름이 사용됩니다.

accelerator-type

생성할 Cloud TPU의 유형입니다.

machine-type

만들 Compute Engine VM의 머신 유형입니다.

disk-size

Compute Engine VM의 루트 볼륨 크기(GB)입니다.

tf-version

Tensorflow gcloud 버전이 VM에 설치됩니다.

참고: 프로젝트가 둘 이상인 경우 --project 플래그를 사용하여 프로젝트 ID를 지정해야 합니다.
Compute Engine 인스턴스에 자동으로 로그인되지 않으면 다음 ssh 명령어를 실행하여 로그인합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.
TPU VM
```
gcloud compute tpus tpu-vm ssh shapemask-tutorial --zone=europe-west4-a
```
TPU 노드
```
gcloud compute ssh shapemask-tutorial --zone=europe-west4-a
```
요점: 이후 내용부터 (vm) $ 프리픽스가 있으면 Compute Engine VM 인스턴스에서 명령어를 실행해야 합니다.
안내를 계속 따르면서 (vm)$으로 시작하는 각 명령어를 VM 세션 창에서 실행합니다.

TensorFlow 요구사항을 설치합니다.

TPU VM

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

TPU 노드

(vm)$ pip3 install -r /usr/share/models/official/requirements.txt

학습 스크립트에는 추가 패키지가 필요합니다. 지금 설치합니다.

TPU VM

(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3

TPU 노드

(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3

bucket-name을 Cloud Storage 버킷 이름으로 바꿔 다음 환경 변수를 설정합니다.
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```
학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.

필수 학습 변수를 업데이트합니다.

(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/shapemask-pods
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
(vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
(vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
(vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
(vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json
(vm)$ export SHAPE_PRIOR_PATH=gs://cloud-tpu-checkpoints/shapemask/kmeans_class_priors_91x20x32x32.npy

필수 환경 변수를 설정합니다.

TPU VM

(vm)$ export PYTHONPATH="/usr/share/tpu/models:${PYTHONPATH}"
(vm)$ export TPU_LOAD_LIBRARY=0

TPU 노드

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

모델을 저장하는 디렉터리로 변경합니다.

TPU VM

(vm)$ cd /usr/share/tpu/models/official/legacy/detection

TPU 노드

(vm)$ cd /usr/share/models/official/legacy/detection

포드 학습을 시작합니다.

샘플 학습은 20단계만 실행되며 v3-32 TPU 노드에서 완료하는 데 약 10분이 소요됩니다. 수렴 학습은 약 11,250단계로 v3-32 TPU Pod에서 약 2시간이 소요됩니다.
```
(vm)$ python3 main.py \
 --strategy_type=tpu \
 --tpu=${TPU_NAME} \
 --model_dir=${MODEL_DIR} \
 --mode=train \
 --model=shapemask \
 --params_override="{train: { batch_size: 128, iterations_per_loop: 500, total_steps: 20, learning_rate: {'learning_rate_levels': [0.008, 0.0008], 'learning_rate_steps': [10000, 13000] }, checkpoint: { path: ${RESNET_CHECKPOINT}, prefix: resnet50/ }, train_file_pattern: ${TRAIN_FILE_PATTERN} }, eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}}, shapemask_head: {use_category_for_mask: true, shape_prior_path: ${SHAPE_PRIOR_PATH}} }"
```
명령어 플래그 설명

strategy_type
TPU에서 Shapemask 모델을 학습시키려면 distribution_strategy를 tpu로 설정해야 합니다.
tpu

Cloud TPU의 이름입니다. TPU_NAME 환경 변수를 사용하여 설정합니다.

model_dir

모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리입니다. 폴더가 없는 경우에는 프로그램에서 생성됩니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.

mode

모델을 학습시키려면 train으로 설정하고 모델을 평가하려면 eval로 설정합니다.

params_override

기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다. 스크립트 매개변수에 대한 자세한 내용은 /usr/share/models/official/legacy/detection/main.py를 참조하세요.

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

Compute Engine 인스턴스에서 연결을 해제합니다.
```
(vm)$ exit
```
프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.
Cloud TPU 및 Compute Engine 리소스를 삭제합니다. 리소스를 삭제하는 데 사용하는 명령어는 TPU VM 또는 TPU 노드 사용 여부에 따라 다릅니다. 자세한 내용은 시스템 아키텍처를 참조하세요.
TPU VM
```
$ gcloud compute tpus tpu-vm delete shapemask-tutorial \
--zone=europe-west4-a
```
TPU 노드
```
$ gcloud compute tpus execution-groups delete shapemask-tutorial \
--zone=europe-west4-a
```
gcloud compute tpus execution-groups list를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음 명령어의 출력에는 이 튜토리얼에서 만든 TPU 리소스가 포함되어서는 안 됩니다.
```
$ gcloud compute tpus execution-groups list --zone=europe-west4-a
```
아래와 같이 gsutil을 실행하여 bucket-name을 이 튜토리얼에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.

주의: 버킷을 삭제하면 모든 학습 데이터가 손실되므로, 튜토리얼 실행이 완료되었을 때만 이 단계를 수행하세요.
```
$ gsutil rm -r gs://bucket-name
```

다음 단계

다양한 이미지 크기로 학습

더 큰 신경망(예: ResNet-50 대신 ResNet-101)을 사용하는 방법에 대해 알아볼 수 있습니다. 더 큰 입력 이미지나 더 강력한 신경망을 사용할 경우 속도는 느리지만 보다 정확한 모델을 얻을 수 있습니다.

다양한 기준 사용

또는 자체 데이터 세트에서 ResNet 모델을 사전 학습시키고 ShapeMask 모델의 기반으로 사용하는 방법을 알아볼 수도 있습니다. 약간의 추가 작업으로 ResNet을 대체 신경망으로 교체할 수도 있습니다. 궁극적으로 자체 객체 감지 모델을 구현하려는 경우 이 네트워크를 향후 시험을 수행하는 데 유용한 기반으로 삼을 수 있습니다.