Cloud TPU에서 ShapeMask 학습

이 문서에서는 COCO 데이터 세트로 Cloud TPU를 사용하여 ShapeMask 모델을 실행하는 방법을 보여줍니다.

아래에 안내되어 있는 내용은 개발자가 Cloud TPU에서 모델을 익숙하게 실행할 수 있다고 가정합니다. Cloud TPU를 처음 사용한다면 빠른 시작에서 기본적인 정보를 먼저 살펴보세요.

TPU pod 슬라이스에서 학습하려면 TPU Pod에서 학습을 살펴보고 pod 슬라이스에 필요한 매개변수 변경을 확인하세요.

목표

  • 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
  • COCO 데이터세트 준비
  • 학습과 평가를 위한 Compute Engine VM과 Cloud TPU 노드 설정
  • 단일 Cloud TPU 또는 Cloud TPU pod에서 학습 및 평가 실행

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

가격 계산기를 사용하여 예상 사용량을 기준으로 예상 비용을 산출합니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 가이드를 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Cloud Console의 프로젝트 선택기 페이지에서 Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. 이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

TPU Pod 슬라이스에서 학습시키려면 TPU Pod에서 학습을 살펴보고 Pod 슬라이스에 필요한 매개변수 변경을 확인하세요.

리소스 설정

이 섹션에서는 이 가이드에 사용할 Cloud Storage, VM, Cloud TPU 리소스 설정에 대한 정보를 제공합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    
  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 가이드에서 사용하는 ctpu up 도구는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

    버킷 위치는 가상 머신(VM) 및 TPU 노드와 동일한 리전에 있어야 합니다. VM 및 TPU 노드는 리전 내 구획인 특정 영역에 있습니다.

  6. Compute Engine VM 인스턴스를 시작합니다.

    $ ctpu up --zone=us-central1-a \
     --vm-only \
     --disk-size-gb=300 \
     --machine-type=n1-standard-16 \
     --tf-version=2.3.1 \
     --name=shapemask-tutorial
    
  7. 설정한 구성이 표시됩니다. 승인하려면 y를, 취소하려면 n을 누릅니다.

  8. ctpu up 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    gcloud compute ssh shapemask-tutorial --zone=us-central1-a
    

    이 안내에 따라 계속 진행하면서 VM 세션 창에서 (vm)$로 시작하는 각 명령어를 실행합니다.

  9. Cloud Storage 버킷 위치를 저장할 환경 변수를 만듭니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
  10. 데이터 디렉터리의 환경 변수를 만듭니다.

    (vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco
    
  11. tpu 저장소를 클론합니다.

    (vm)$ git clone -b shapemask https://github.com/tensorflow/tpu/
    
  12. 데이터를 사전 처리하는 데 필요한 패키지를 설치합니다.

    (vm)$ sudo apt-get install -y python3-tk && \
      pip3 install --user Cython matplotlib opencv-python-headless pyyaml Pillow && \
      pip3 install --user "git+https://github.com/cocodataset/cocoapi#egg=pycocotools&subdirectory=PythonAPI"
    

COCO 데이터 세트 준비

  1. download_and_preprocess_coco.sh 스크립트를 실행하여 COCO 데이터 세트를 학습 애플리케이션에 필요한 TFRecords(*.tfrecord) 집합으로 변환합니다.

    (vm)$ sudo bash /usr/share/tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco
    

    그러면 필수 라이브러리가 설치된 후 사전 처리 스크립트가 실행됩니다. 이 스크립트는 로컬 데이터 디렉터리의 *.tfrecord 파일 수를 출력합니다.

  2. 데이터를 TFRecord로 변환한 후 gsutil 명령어를 사용하여 로컬 스토리지에서 Cloud Storage 버킷으로 복사합니다. 주석 파일도 복사해야 합니다. 이 파일은 모델의 성능을 검증하는 데 유용합니다.

    (vm)$ gsutil -m cp ./data/dir/coco/*.tfrecord ${DATA_DIR}
    (vm)$ gsutil cp ./data/dir/coco/raw-data/annotations/*.json ${DATA_DIR}
    

Cloud TPU 설정 및 시작

  1. Cloud TPU 리소스를 시작합니다.

    다음 명령어를 실행하여 Cloud TPU를 만듭니다.

    (vm)$ ctpu up --tpu-only \
     --tf-version=2.3.1 \
     --tpu-size=v3-8 \
     --name=shapemask-tutorial
    
  2. 설정한 구성이 표시됩니다. 승인하려면 y를, 취소하려면 n을 누릅니다.

    Operation success; not ssh-ing to Compute Engine VM due to --tpu-only flag 메시지가 표시됩니다. 이전에 SSH 키 적용을 완료했으므로 이 메시지를 무시해도 됩니다.

  3. Cloud TPU 이름에 대한 환경 변수를 추가합니다.

    (vm)$ export TPU_NAME=shapemask-tutorial
    

Cloud TPU 설정 및 학습 시작

  1. 다음 명령어를 실행하여 Cloud TPU를 만듭니다.

    (vm)$ ctpu up --tpu-only \
      --tpu-size=v3-8 \
      --zone=us-central1-a \
      --name=shapemask-tutorial \
      --tf-version=2.3.1
    매개변수 설명
    tpu-size Cloud TPU 크기를 지정합니다. 이 가이드에서는 단일 기기 학습 및 평가를 위해 v3-8 TPU 크기를 사용합니다.
    zone Cloud TPU를 생성하려는 영역입니다. Compute Engine VM에 사용한 영역과 같아야 합니다. 예를 들면 us-central1-a입니다.
    tf-version TensorFlow `ctpu` 버전은 VM에 설치됩니다.
  2. 설정한 구성이 표시됩니다. 승인하려면 y를, 취소하려면 n을 누릅니다.

    Operation success; not ssh-ing to Compute Engine VM due to --tpu-only flag 메시지가 표시됩니다. 이전에 SSH 키 적용을 완료했으므로 이 메시지를 무시해도 됩니다.

  3. Cloud TPU 이름에 대한 환경 변수를 추가합니다.

    (vm)$ export TPU_NAME=shapemask-tutorial
    

학습 및 평가 실행

다음 스크립트는 v3-8 TPU에서 100단계만 샘플 학습을 실행하며 완료하는 데 약 6분이 소요됩니다. v3-8 TPU에서 수렴을 학습하는 데는 약 22,500단계와 약 6시간이 소요됩니다.

  1. 필요한 환경 변수를 추가합니다.

    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
    (vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
    (vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
    (vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
    (vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json
    (vm)$ export SHAPE_PRIOR_PATH=gs://cloud-tpu-checkpoints/shapemask/kmeans_class_priors_91x20x32x32.npy
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/shapemask
    
  2. 다음 명령어를 실행하여 ShapeMask 모델을 학습시킵니다.

    (vm)$ python3 /usr/share/models/official/vision/detection/main.py \
    --strategy_type=tpu \
    --tpu=${TPU_NAME} \
    --model_dir=${MODEL_DIR} \
    --mode=train \
    --model=shapemask \
    --params_override="{train: {total_steps: 100, learning_rate: {init_learning_rate: 0.08, learning_rate_levels: [0.008, 0.0008], learning_rate_steps: [15000, 20000], }, checkpoint: { path: ${RESNET_CHECKPOINT},prefix: resnet50}, train_file_pattern: ${TRAIN_FILE_PATTERN}},  eval: {val_json_file: ${VAL_JSON_FILE},eval_file_pattern: ${EVAL_FILE_PATTERN},eval_samples: 5000}, shapemask_head: {use_category_for_mask: true, shape_prior_path: ${SHAPE_PRIOR_PATH}}, shapemask_parser: {output_size: [1024, 1024]}}"
    
    매개변수 설명
    tpu Cloud TPU의 이름을 지정합니다. 환경 변수(TPU_NAME)를 지정하면 설정됩니다.
    model_dir 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(`gs://...`)여야 합니다. 이전 체크포인트가 TensorFlow 버전 및 크기가 동일한 TPU를 사용해 생성된 경우, 기존 폴더를 사용해 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    RESNET_CHECKPOINT 사전 학습된 체크포인트 지정 ShapeMask를 사용하려면 백본 네트워크로 사전 학습된 이미지 분류 모델(예: ResNet)이 필요합니다. 이 예시에서는 ResNet 데모 모델을 사용해 생성한 사전 학습 체크포인트를 사용합니다. 필요한 경우 자체 ResNet 모델을 대신 학습시키고 ResNet 모델 디렉터리에서 체크포인트를 지정할 수 있습니다.
  3. 평가를 실행합니다.

    (vm)$ python3 /usr/share/models/official/vision/detection/main.py \
    --strategy_type=tpu \
    --tpu=${TPU_NAME} \
    --model_dir=${MODEL_DIR} \
    --mode=eval \
    --model=shapemask \
    --params_override="{eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}, eval_samples: 5000 } }"
    
    매개변수 설명
    tpu Cloud TPU의 이름을 지정합니다. 환경 변수(TPU_NAME)를 지정하면 설정됩니다.
    model_dir 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(`gs://...`)여야 합니다. 이전 체크포인트가 TensorFlow 버전 및 크기가 동일한 TPU를 사용해 생성된 경우, 기존 폴더를 사용해 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.

여기에서 이 가이드를 마무리하고 GCP 리소스를 삭제하거나 Cloud TPU Pod에서 모델 실행을 더 살펴볼 수 있습니다.

Cloud TPU Pod로 모델 확장

Cloud TPU Pod로 모델을 확장하여 결과를 더 빠르게 얻을 수 있습니다. 완전히 지원되는 Mask RCNN 모델은 다음 pod 슬라이스에서 작동할 수 있습니다.

  • v2-32
  • v3-32

Cloud TPU pod를 사용할 때는 먼저 pod를 사용하여 모델을 학습시키고, 단일 Cloud TPU 기기를 사용하여 모델을 평가합니다.

Cloud TPU Pod로 학습

Compute Engine 인스턴스를 이미 삭제한 경우 리소스 설정의 단계에 따라 새 인스턴스를 만듭니다.

아래의 샘플 학습은 20단계만 실행되며 v3-32 TPU 노드에서 완료하는 데 약 10분이 소요됩니다. 수렴 학습은 약 11,250단계로 v3-32 TPU pod에서 약 2시간이 소요됩니다.

  1. 단일 Cloud TPU 기기에서 모델 학습용으로 만든 Cloud TPU 리소스를 삭제합니다.

    (vm)$ ctpu delete --tpu-only --zone=us-central1-a --name=shapemask-tutorial
  2. ctpu up 명령어를 실행하고 tpu-size 매개변수로 사용하려는 pod 슬라이스를 지정합니다. 예를 들어 다음 명령어는 v3-32 pod 슬라이스를 사용합니다.

    (vm)$ ctpu up --tpu-only \
      --tpu-size=v3-32  \
      --zone=us-central1-a \
      --name=shapemask-tutorial \
      --tf-version=2.3.1 
  3. TPU_NAME 및 MODEL_DIR 환경 변수를 업데이트합니다.

    (vm)$ export TPU_NAME=shapemask-tutorial
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/shapemask-pods
    
  4. 학습 스크립트를 시작합니다.

    (vm)$ python3 /usr/share/models/official/vision/detection/main.py \
    --strategy_type=tpu \
    --tpu=${TPU_NAME} \
    --model_dir=${MODEL_DIR} \
    --mode=train \
    --model=shapemask \
    --params_override="{train: { batch_size: 128, iterations_per_loop: 500, total_steps: 20, learning_rate: {'learning_rate_levels': [0.008, 0.0008], 'learning_rate_steps': [10000, 13000] }, checkpoint: { path: ${RESNET_CHECKPOINT}, prefix: resnet50/ }, train_file_pattern: ${TRAIN_FILE_PATTERN} }, eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}} shapemask_head: {use_category_for_mask: true, shape_prior_path: ${SHAPE_PRIOR_PATH}} }"
    
    매개변수 설명
    tpu Cloud TPU의 이름을 지정합니다. 환경 변수(TPU_NAME)를 지정하면 설정됩니다.
    model_dir 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(`gs://...`)여야 합니다. 이전 체크포인트가 TensorFlow 버전 및 크기가 동일한 TPU를 사용해 생성된 경우, 기존 폴더를 사용해 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    RESNET_CHECKPOINT 사전 학습된 체크포인트 지정 ShapeMask를 사용하려면 백본 네트워크로 사전 학습된 이미지 분류 모델(예: ResNet)이 필요합니다. 이 예시에서는 ResNet 데모 모델을 사용해 생성한 사전 학습 체크포인트를 사용합니다. 필요한 경우 자체 ResNet 모델을 대신 학습시키고 ResNet 모델 디렉터리에서 체크포인트를 지정할 수 있습니다.

모델 평가

이 단계에서는 단일 Cloud TPU 노드를 사용하여 COCO 데이터 세트를 대상으로 위에서 학습된 모델을 평가합니다. 평가에는 20분 정도 소요됩니다.

  1. pod에서 모델을 학습시키기 위해 만든 Cloud TPU 리소스를 삭제합니다.

    (vm)$ ctpu delete --tpu-only \
     --zone=us-central1-a \
     --name=shapemask-tutorial
  2. 새 TPU 기기를 실행하여 평가를 실행합니다.

    (vm)$ ctpu up --tpu-only \
      --tpu-size=v3-8 \
      --zone=us-central1-a \
      --tf-version=2.3.1 \
      --name=shapemask-tutorial
    
  3. TPU_NAME 환경 변수를 업데이트합니다.

    (vm)$ export TPU_NAME=shapemask-tutorial
    
  4. 평가를 시작합니다.

    (vm)$ python3 /usr/share/models/official/vision/detection/main.py \
    --strategy_type=tpu \
    --tpu=shapemask-tutorial \
    --model_dir=${MODEL_DIR} \
    --mode=eval \
    --model=shapemask \
    --params_override="{eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}, eval_samples: 5000 } }"
    

삭제

이 가이드에서 사용한 리소스 비용이 Google Cloud Platform 계정에 청구되지 않도록 하려면 다음 안내를 따르세요.

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud Shell에서 Cloud TPU를 설정할 때 사용한 --zone 플래그로 ctpu delete를 실행하여 Compute Engine VM과 Cloud TPU를 삭제합니다.

    $ ctpu delete --zone=us-central1-a \
     --name=shapemask-tutorial
    
  3. 다음 명령어를 실행하여 Compute Engine VM 및 Cloud TPU가 종료되었는지 확인합니다.

    $ ctpu status --zone=us-central1-a \
      --name=shapemask-tutorial
    

    삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 더 이상 할당된 인스턴스가 없다는 의미입니다.

    2018/04/28 16:16:23 WARNING: Setting zone to "us-central1-a"
    No instances currently exist.
       Compute Engine VM:     --
       Cloud TPU:             --
    
  4. 아래와 같이 gsutil을 실행하여 bucket-name을 이 가이드에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

다양한 이미지 크기로 학습

더 큰 신경망(예: ResNet-50 대신 ResNet-101)을 사용하는 방법에 대해 알아볼 수 있습니다. 더 큰 입력 이미지나 더 강력한 신경망을 사용할 경우 속도는 느리지만 보다 정확한 모델을 얻을 수 있습니다.

다양한 기준 사용

또는 자체 데이터 세트에서 ResNet 모델을 사전 학습시키고 ShapeMask 모델의 기반으로 사용하는 방법을 알아볼 수도 있습니다. 약간의 추가 작업으로 ResNet을 대체 신경망으로 교체할 수도 있습니다. 궁극적으로 자체 객체 감지 모델을 구현하려는 경우 이 네트워크를 향후 시험을 수행하는 데 유용한 기반으로 삼을 수 있습니다.