Cloud TPU에서 RetinaNet 학습(TF 2.x)

이 문서에서는 RetinaNet 객체 감지 모델의 구현을 설명합니다. 코드는 GitHub에서 제공됩니다.

아래에 안내되어 있는 내용은 개발자가 Cloud TPU에서 모델을 익숙하게 실행할 수 있다고 가정합니다. Cloud TPU를 처음 사용한다면 빠른 시작에서 기본적인 정보를 먼저 살펴보세요.

TPU pod 슬라이스에서 학습하려면 TPU Pod에서 학습을 살펴보고 pod 슬라이스에 필요한 매개변수 변경을 확인하세요.

목표

  • 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
  • COCO 데이터세트 준비
  • 학습과 평가를 위한 Compute Engine VM과 Cloud TPU 노드 설정
  • 단일 Cloud TPU 또는 Cloud TPU pod에서 학습 및 평가 실행

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

가격 계산기를 사용하여 예상 사용량을 기준으로 예상 비용을 산출합니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 섹션에서는 Cloud Storage 버킷 및 Compute Engine VM 설정에 대한 정보를 제공합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    
  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 가이드에서 사용하는 ctpu up 도구는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

  6. ctpu up 명령어를 사용하여 Compute Engine VM을 실행합니다.

    $ ctpu up --vm-only \
    --name=retinanet-tutorial \
    --disk-size-gb=300 \
    --machine-type=n1-standard-8 \
    --zone=europe-west4-a \
    --tf-version=2.3.1
    

    명령어 플래그 설명

    vm-only
    Cloud TPU를 생성하지 않고 VM을 만듭니다. 기본적으로 ctpu up 명령어는 VM과 Cloud TPU를 생성합니다.
    name
    생성할 Cloud TPU의 이름입니다.
    disk-size-gb
    ctpu up 명령어로 만든 VM의 하드 디스크 크기(GB)입니다.
    machine-type
    생성할 Compute Engine VM의 머신 유형입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    tf-version
    Tensorflow ctpu 버전이 VM에 설치됩니다.

    CTPU 유틸리티에 대한 자세한 내용은 CTPU 참조를 확인하세요.

  7. 프롬프트가 표시되면 y를 눌러서 Cloud TPU 리소스를 만듭니다.

    ctpu up 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    gcloud compute ssh retinanet-tutorial --zone=europe-west4-a
    

    이 안내에 따라 계속 진행하면서 (vm)$로 시작하는 각 명령어를 Compute Engine 인스턴스에서 실행합니다.

  8. 추가 패키지 설치

    RetinaNet 학습 애플리케이션에는 여러 추가 패키지가 필요합니다. 다음을 사용하여 바로 설치합니다.

    (vm)$ sudo apt-get install -y python3-tk
    (vm)$ pip3 install --user Cython matplotlib opencv-python-headless pyyaml Pillow
    
    (vm)$ pip3 install --user 'git+https://github.com/cocodataset/cocoapi#egg=pycocotools&subdirectory=PythonAPI'
    
    (vm)$ sudo pip3 install --user -r /usr/share/models/official/requirements.txt
    

COCO 데이터 세트 준비

COCO 데이터 세트는 Cloud Storage에 저장되므로, 만든 버킷 이름을 지정하여 스토리지 버킷 변수를 설정합니다.

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco

download_and_preprocess_coco.sh 스크립트를 실행하여 COCO 데이터 세트를 학습 애플리케이션에 필요한 TFRecords(*.tfrecord) 집합으로 변환합니다.

(vm)$ sudo bash /usr/share/tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco

그러면 필수 라이브러리가 설치된 후 사전 처리 스크립트가 실행됩니다. 이 스크립트는 로컬 데이터 디렉터리의 *.tfrecord 파일 수를 출력합니다. COCO 다운로드 및 변환 스크립트는 완료되는 데 약 1시간 정도 걸립니다.

Cloud Storage 버킷에 데이터 복사

데이터를 TFRecords로 변환한 후 gsutil 명령어를 사용하여 로컬 스토리지에서 Cloud Storage 버킷으로 복사합니다. 주석 파일도 복사해야 합니다. 이 파일은 모델의 성능을 검증하는 데 유용합니다.

(vm)$ gsutil -m cp ./data/dir/coco/*.tfrecord ${DATA_DIR}
(vm)$ gsutil cp ./data/dir/coco/raw-data/annotations/*.json ${DATA_DIR}

학습 환경 설정

  1. ctpu up 명령어를 사용하여 Cloud TPU를 생성합니다.

    (vm)$ ctpu up --tpu-only \
      --tpu-size=v3-8 \
      --zone=europe-west4-a \
      --name=retinanet-tutorial \
      --tf-version=2.3.1
    

    CTPU 유틸리티에 대한 자세한 내용은 CTPU 참조를 확인하세요.

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 ctpu up 명령어는 VM과 Cloud TPU를 생성합니다.
    tpu-size
    생성할 Cloud TPU의 유형입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    name
    생성할 Cloud TPU의 이름입니다.
    tf-version
    Tensorflow ctpu 버전이 VM에 설치됩니다.
    매개변수 설명

    CTPU 유틸리티에 대한 자세한 내용은 CTPU 참조를 확인하세요.

  2. 프롬프트가 표시되면 y를 눌러서 Cloud TPU 리소스를 만듭니다.

    ctpu up 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    gcloud compute ssh retinanet-tutorial --zone=europe-west4-a
    

    이 안내에 따라 계속 진행하면서 (vm)$로 시작하는 각 명령어를 Compute Engine 인스턴스에서 실행합니다.

  3. TPU 이름의 환경 변수를 만듭니다.

    (vm)$ export TPU_NAME=retinanet-tutorial
    
  4. 다음 명령어로 Python 경로에 최상위 /models 폴더를 추가합니다.

    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
    

단일 Cloud TPU 기기 학습

다음 학습 스크립트는 Cloud TPU v3-8에서 실행됩니다. Cloud TPU v2-8에서 실행해도 되지만 시간이 좀 더 걸릴 수 있습니다.

아래의 샘플 스크립트는 10단계만 학습하며 v3-8 TPU 노드에서 실행하는 데 5분도 걸리지 않습니다. Cloud TPU v3-8 TPU에서 수렴을 학습하는 데에는 약 22,500단계와 약 1.5시간이 걸립니다.

  1. 다음 환경 변수를 설정합니다.

    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/retinanet-train
    (vm)$ export RESNET_CHECKPOINT=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
    (vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
    (vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
    (vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json
    
  2. 학습 스크립트를 실행합니다.

    (vm)$ python3 /usr/share/models/official/vision/detection/main.py \
         --strategy_type=tpu \
         --tpu=${TPU_NAME} \
         --model_dir=${MODEL_DIR} \
         --mode="train" \
         --params_override="{ type: retinanet, train: { total_steps: 10, checkpoint: { path: ${RESNET_CHECKPOINT}, prefix: resnet50/ }, train_file_pattern: ${TRAIN_FILE_PATTERN} }, eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}, eval_samples: 5000 } }"
    

    명령어 플래그 설명

    strategy_type
    TPU에서 RetinaNet 모델을 학습시키려면 distribution_strategytpu로 설정해야 합니다.
    tpu
    Cloud TPU의 이름입니다. TPU_NAME 환경 변수를 사용하여 설정합니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리입니다. 폴더가 없는 경우에는 프로그램에서 생성됩니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    mode
    모델을 학습시키려면 train으로 설정하고 모델을 평가하려면 eval로 설정합니다.
    params_override
    기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다. 스크립트 매개변수에 대한 자세한 내용은 /usr/share/models/official/vision/detection/main.py를 참조하세요.

모델이 학습 중일 때는 로그 출력을 확인하여 진행 상태를 확인할 수 있습니다. 다음과 비슷한 출력은 학습이 정상적으로 진행되고 있음을 보여줍니다.

31517803669, 'learning_rate': 0.08, 'box_loss': 0.0006472870009019971,
'l2_regularization_loss': 0.09328179806470871}
I0210 21:59:19.888985 139927795508992 distributed_executor.py:49]
Saving model as TF checkpoint: gs://bucket-eu/retinanet-model/ctl_step_2500.ckpt-5
I0210 22:01:07.714749 139927795508992 distributed_executor.py:446]
Train Step: 3000/22500  / loss = {'model_loss': 0.08362223953008652,
'total_loss': 0.17120523750782013, 'cls_loss': 0.057121846824884415,
'learning_rate': 0.08, 'box_loss': 0.0005300078773871064,
'l2_regularization_loss': 0.08758299797773361} / training metric =
{'model_loss': 0.08362223953008652, 'total_loss': 0.17120523750782013, 'cls_loss': 0.0
57121846824884415, 'learning_rate': 0.08, 'box_loss': 0.0005300078773871064,
'l2_regularization_loss': 0.08758299797773361}
I0210 22:01:15.813422 139927795508992 distributed_executor.py:49]
Saving model as TF checkpoint: gs://bucket-eu/retinanet-model/ctl_step_3000.ckpt-6

단일 Cloud TPU 기기 평가

다음 절차에서는 COCO 평가 데이터를 사용합니다. 평가 단계가 실행되는 데 약 10분이 소요됩니다.

  1. 다음 환경 변수를 설정합니다.

    (vm)$ export EVAL_SAMPLES=5000
    
  2. 평가 스크립트를 실행합니다.

    (vm)$ python3 /usr/share/models/official/vision/detection/main.py \
          --strategy_type=tpu \
          --tpu=${TPU_NAME} \
          --model_dir=${MODEL_DIR} \
          --mode="eval" \
          --params_override="{ type: retinanet, eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}, eval_samples: ${EVAL_SAMPLES} } }"
    

    명령어 플래그 설명

    strategy_type
    TPU에서 RetinaNet 모델을 학습시키려면 distribution_strategytpu로 설정해야 합니다.
    tpu
    Cloud TPU의 이름입니다. TPU_NAME 환경 변수를 사용하여 설정합니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리입니다. 폴더가 없는 경우에는 프로그램에서 생성됩니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    mode
    modeleval로 설정하여 모델을 평가합니다.
    params_override
    기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다. 스크립트 매개변수에 대한 자세한 내용은 /usr/share/models/official/vision/detection/main.py를 참조하세요.

    평가가 종료되면 다음과 비슷한 메시지가 콘솔에 표시됩니다.

    Accumulating evaluation results...
    DONE (t=7.66s).
     Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.000
     Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets=100 ] = 0.000
     Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets=100 ] = 0.000
     Average Precision  (AP) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.000
     Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.000
     Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.000
     Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.000
     Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.000
     Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.000
     Average Recall     (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.000
     Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.000
     Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.000
    

    여기에서는 이 가이드를 마무리하고 GCP 리소스를 삭제하거나 Cloud TPU Pod에서 모델 실행을 더 살펴볼 수 있습니다.

Cloud TPU Pod로 모델 확장

Cloud TPU pod로 모델을 확장하여 결과를 더 빠르게 얻을 수 있습니다. 완전히 지원되는 RetinaNet 모델은 v2-32 pod 슬라이스에서 작동할 수 있습니다.

  1. 단일 기기에서 모델 학습을 위해 만든 Cloud TPU 리소스를 삭제합니다.

    (vm)$ ctpu delete --tpu-only --zone=europe-west4-a --name=retinanet-tutorial
  2. ctpu up 명령어를 실행하고 tpu-size 매개변수로 사용하려는 pod 슬라이스를 지정합니다. 예를 들어 다음 명령어는 v2-32 pod 슬라이스를 사용합니다.

    (vm)$ ctpu up --tpu-only \
    --tpu-size=v2-32  \
    --zone=europe-west4-a \
    --name=retinanet-tutorial \
    --tf-version=2.3.1

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 ctpu up 명령어는 VM과 Cloud TPU를 모두 생성합니다.
    tpu-size
    생성할 Cloud TPU의 유형입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    name
    생성할 Cloud TPU의 이름입니다.
    tf-version
    Tensorflow ctpu 버전이 VM에 설치됩니다.

    CTPU 유틸리티에 대한 자세한 내용은 CTPU 참조를 확인하세요.

  3. Cloud TPU 이름 변수를 설정합니다. 이 항목은 --name 매개변수로 설정한 이름 또는 사용자 이름(기본값)입니다.

    (vm)$ export TPU_NAME=retinanet-tutorial
    
  4. 다음과 같이 환경 변수를 설정합니다.

    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/retinanet-pod
    
  5. v2-32 TPU 노드에서 Pod 학습 스크립트를 실행합니다.

    다음 샘플 학습 스크립트는 Cloud TPU v2-32 pod에서 실행되었습니다. 10단계만 학습하며 실행하는 데 5분도 걸리지 않습니다. v2-32 TPU pod에서 수렴을 학습하는 데에는 2,109단계가 필요하며 약 50분이 소요됩니다.

    (vm)$  python3 /usr/share/models/official/vision/detection/main.py \
        --strategy_type=tpu \
        --tpu=${TPU_NAME} \
        --model_dir=${MODEL_DIR} \
        --mode="train" \
        --params_override="{ type: retinanet, train: { total_steps: 10, batch_size: 256, checkpoint: { path: ${RESNET_CHECKPOINT}, prefix: resnet50/ }, train_file_pattern: ${TRAIN_FILE_PATTERN} }, eval: { val_json_file: ${VAL_JSON_FILE}, eval_file_pattern: ${EVAL_FILE_PATTERN}, eval_samples: 5000 } }"
    

    명령어 플래그 설명

    tpu
    Cloud TPU의 이름을 지정합니다. TPU_NAME 환경 변수를 사용하여 설정합니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용하는 경우 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.

삭제

이 가이드에서 사용한 리소스 비용이 Google Cloud Platform 계정에 청구되지 않도록 하려면 다음 안내를 따르세요..

  1. Compute Engine VM의 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. VM 또는 Cloud Shell에서 다음 명령어를 사용하여 VM 및 Cloud TPU를 삭제합니다.

    $ ctpu delete --name=retinanet-tutorial \
      --zone=europe-west4-a
    
  3. 불필요한 TPU 사용 요금 청구를 방지하기 위해 영역을 지정해서 ctpu status를 실행하여 할당된 인스턴스가 없는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 더 이상 할당된 인스턴스가 없다는 의미입니다.

    $ ctpu status --name=retinanet-tutorial \
      --zone=europe-west4-a
    
    2018/04/28 16:16:23 WARNING: Setting zone to "europe-west4-a"
    No instances currently exist.
        Compute Engine VM:     --
        Cloud TPU:             --
    
  4. 아래와 같이 gsutil을 실행하여 bucket-name을 이 가이드에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

이 가이드에서는 샘플 데이터 세트를 사용하여 RetinaNet 모델을 학습시켰습니다. 이 학습 결과는 (대부분의 경우) 추론에 사용할 수 없습니다. 추론에 모델을 사용하려면 일반에 공개된 데이터 세트 또는 자체 데이터 세트에서 데이터를 학습시킵니다. Cloud TPU에서 학습된 모델은 데이터 세트가 TFRecord 형식이어야 합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델의 성능을 개선하려면 모델의 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보는 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정에 대한 자세한 내용은 초매개변수 조정 개요, 초매개변수 조정 서비스 사용, 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. AI Platform은 머신러닝 모델을 개발, 학습, 배포하기 위한 클라우드 기반 솔루션입니다. 모델이 배포되면 AI Platform Prediction 서비스를 사용할 수 있습니다.

다양한 이미지 크기로 학습

더 큰 백본 네트워크(예: ResNet-50 대신 ResNet-101)를 사용하는 방법에 대해 알아볼 수 있습니다. 더 큰 입력 이미지나 더 강력한 백본을 사용할 경우 속도는 느리지만 보다 정확한 모델을 얻을 수 있습니다.

다양한 기준 사용

또는 자체 데이터세트에서 ResNet 모델을 사전 학습시키고 RetinaNet 모델의 기반으로 사용하는 방법을 알아볼 수도 있습니다. 약간의 추가 작업으로 ResNet을 대체 백본 네트워크로 교체할 수도 있습니다. 궁극적으로 자체 객체 감지 모델을 구현하려는 경우 이 네트워크를 향후 시험을 수행하는 데 유용한 기반으로 삼을 수 있습니다.