Cloud TPU에서 EfficientNet 학습

EfficientNet 모델은 이미지 분류 모델 제품군으로 다른 모델보다 더 작고 빠르며 최고의 정확도를 달성합니다. EfficientNet-EdgeTpuGoogle EdgeTPU 기기에서 효율적으로 실행되도록 맞춤 설정된 모델입니다.

이 가이드의 모델은 EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks를 기반으로 합니다. 연구진은 단순하면서도 매우 효과적인 합성 계수를 사용하여 네트워크 깊이, 너비, 해상도의 균형을 맞추어 모델 성능을 개선하는 새로운 기술을 개발했습니다.

efficientnet-b0에서 efficientnet-b7까지 모델 그룹은 리소스가 제한된 Google EdgeTPU 기기를 고려하여 적절한 이미지 분류 정확성을 얻을 수 있습니다.

이 가이드에 사용되는 efficientnet-b0 모델은 가장 작은 기본 모델에 해당하는 반면 efficientnet-b7은 가장 강력하지만 계산 비용이 높은 모델에 해당합니다. 이 가이드에서는 TPUEstimator를 사용한 모델 학습을 설명합니다.

목표

  • 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷을 만듭니다.
  • fake_imagenet 데이터 세트라는 ImageNet 데이터 세트의 테스트 버전을 준비합니다.
  • 학습 작업을 실행합니다.
  • 출력 결과를 확인합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

가격 계산기를 사용하면 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 가이드를 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. 이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

리소스 설정

이 섹션에서는 가이드에 사용할 Cloud Storage, VM, Cloud TPU 리소스를 설정하는 방법을 설명합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.

  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 가이드에서 사용하는 gcloud compute tpus execution-groups 명령어는 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

    버킷 위치는 가상 머신(VM) 및 TPU 노드와 동일한 리전에 있어야 합니다. VM 및 TPU 노드는 리전 내 구획인 특정 영역에 있습니다.

  6. gcloud compute tpus execution-groups 명령어를 사용하여 이 가이드에 필요한 Compute Engine 및 Cloud TPU 리소스를 시작합니다.

    gcloud compute tpus execution-groups create \
     --vm-only \
     --name=efficientnet-tutorial \
     --zone=europe-west4-a \
     --disk-size=300 \
     --machine-type=n1-standard-8 \
     --tf-version=1.15.5
    

    명령어 플래그 설명

    vm-only
    Compute Engine VM만 만들고 Cloud TPU를 만들지 않습니다.
    name
    생성할 Cloud TPU의 이름입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    disk-size
    gcloud 명령어로 생성한 VM의 하드 디스크 크기(GB)입니다.
    machine-type
    생성할 Compute Engine VM의 머신 유형입니다.
    tf-version
    gcloud로 VM에 설치되는 Tensorflow 버전입니다.

    gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.

  7. 프롬프트가 표시되면 y를 눌러서 Cloud TPU 리소스를 만듭니다.

    gcloud compute tpus execution-groups 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    gcloud compute ssh efficientnet-tutorial --zone=europe-west4-a
    

    여기에서 (vm)$ 프리픽스는 Compute Engine VM 인스턴스에서 명령어를 실행해야 한다는 의미입니다.

데이터 준비

bucket-name을 Cloud Storage 버킷 이름으로 바꿔 다음 환경 변수를 설정합니다.

  1. 버킷 이름의 환경 변수를 만듭니다. 여기에서 bucket-name을 내 버킷 이름으로 바꿉니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
  2. 추가 환경 변수를 만듭니다.

    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/efficientnet
    (vm)$ export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
    (vm)$ export TPU_NAME=efficientnet-tutorial
    (vm)$ export PYTHONPATH=$PYTHONPATH:/usr/share/tpu/models
    

학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.

fake_imagenet으로 EfficientNet 모델 학습 및 평가

ImageNet은 이미지 데이터베이스입니다. 이 데이터베이스의 이미지는 계층 구조로 구성되며, 계층 구조의 각 노드는 수백 또는 수천 개의 이미지로 표현됩니다.

이 가이드에서는 fake_imagenet이라는 전체 ImageNet 데이터 세트의 데모 버전을 사용합니다. 이 데모 버전을 사용하여 가이드를 테스트하면 전체 ImageNet 데이터 세트에 모델을 실행할 때 일반적으로 요구되는 스토리지 및 실행 시간을 줄일 수 있습니다.

fake_imagenet 데이터 세트는 Cloud Storage의 다음 위치에 있습니다.

gs://cloud-tpu-test-datasets/fake_imagenet

fake_imagenet 데이터 세트는 Cloud TPU 사용 방법을 이해하고 엔드 투 엔드 성능을 검증하는 용도로만 사용됩니다. 정확성 숫자와 저장된 모델은 의미가 없습니다.

전체 ImageNet 데이터 세트를 다운로드하고 처리하는 방법은 ImageNet 데이터 세트 다운로드, 사전 처리, 업로드를 참조하세요.

  1. Cloud TPU 리소스를 시작합니다.

    (vm)$ gcloud compute tpus execution-groups create \
     --tpu-only \
     --name=efficientnet-tutorial \
     --zone=europe-west4-a \
     --disk-size=300 \
     --machine-type=n1-standard-8 \
     --tf-version=1.15.5
    

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 만들고 Compute Engine은 만들지 않습니다.
    name
    생성할 Cloud TPU의 이름입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    disk-size
    gcloud 명령어로 생성한 VM의 하드 디스크 크기(GB)입니다.
    machine-type
    생성할 Compute Engine VM의 머신 유형입니다.
    tf-version
    gcloud로 VM에 설치되는 Tensorflow 버전입니다.
  2. 모델 디렉터리로 이동합니다.

    (vm)$ cd /usr/share/tpu/models/official/efficientnet/
    
  3. 학습 스크립트를 실행합니다.

    (vm)$ python3 main.py \
      --tpu=${TPU_NAME} \
      --data_dir=${DATA_DIR} \
      --model_dir=${MODEL_DIR} \
      --model_name='efficientnet-b0' \
      --skip_host_call=true \
      --train_batch_size=2048 \
      --train_steps=1000
    

    명령어 플래그 설명

    tpu
    TPU_NAME 변수에 지정된 이름을 사용합니다.
    data_dir
    학습 입력을 위한 Cloud Storage 경로를 지정합니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 경로입니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 이전에 생성된 체크포인트를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    model_name
    학습시킬 모델의 이름입니다. 예를 들면 efficientnet입니다.
    skip_host_call
    스크립트에 모든 학습 단계를 실행하는 host_call을 건너뛰도록 안내하려면 true로 설정합니다. 이는 일반적으로 학습 요약(학습 손실, 학습률 등)을 생성하는 데 사용됩니다. skip_host_call=false인 경우 host_call 함수가 느려져서 TPU 측 계산을 따라잡지 못하면 성능이 저하될 수 있습니다.
    train_batch_size
    학습 배치 크기입니다.
    train_steps
    학습에 사용할 단계 수입니다. 기본값은 218,949단계이며, 이는 배치 크기가 2048의 경우 약 350세대입니다. 이 플래그는 train_batch_size 값에 따라 조정되어야 합니다.

EfficientNet 모델(efficientnet-b0 변형)은 fake ImageNet 데이터 세트를 사용하므로 이는 해당 모델을 1,000단계 동안만 학습시킵니다. 전체 ImageNet 데이터 세트를 사용하여 학습시킬 때 다음 명령어를 사용하면 수렴을 학습시킬 수 있습니다.

python3 main.py \
  --tpu=${TPU_NAME} \
  --data_dir=${DATA_DIR} \
  --model_dir=${MODEL_DIR} \
  --model_name='efficientnet-b0' \
  --skip_host_call=true \
  --train_batch_size=2048 \
  --train_steps=218948

이렇게 하면 EfficientNet 모델을 350세대 동안 학습시키고 1개의 데이터 배치를 처리한 후 평가합니다. 지정된 플래그를 사용하면 모델이 약 23시간 만에 학습됩니다. 이러한 설정은 ImageNet 검증 데이터 세트에서 달성할 수 있는 최상위 정확도의 약 76.5% 를 달성해야 합니다. 최고의 모델 체크포인트와 해당하는 평가 결과는 모델 디렉터리 ${STORAGE_BUCKET}/efficientnet/archivearchive 폴더에서 확인할 수 있습니다.

Cloud TPU Pod로 모델 확장

Cloud TPU Pod로 모델을 확장하여 결과를 더 빠르게 얻을 수 있습니다. 완전히 지원되는 모델은 다음 Pod 슬라이스에서 작동할 수 있습니다.

  • v2-32
  • v3-32

Cloud TPU pod를 사용할 때는 먼저 pod를 사용하여 모델을 학습시키고, 단일 Cloud TPU 기기를 사용하여 모델을 평가합니다.

Cloud TPU Pod로 학습

  1. 단일 기기에서 모델 학습을 위해 만든 Cloud TPU 리소스를 삭제합니다.

    (vm)$ gcloud compute tpus execution-groups delete efficientnet-tutorial \
      --zone=europe-west4-a \
      --tpu-only
    
  2. gcloud compute tpus execution-groups 명령어를 실행하고 accelerator-type 매개변수로 사용하려는 Pod 슬라이스를 지정합니다. 예를 들어 다음 명령어는 v3-32 pod 슬라이스를 사용합니다.

    (vm)$ gcloud compute tpus execution-groups  create --tpu-only \
      --name=efficientnet-tutorial \
      --zone=europe-west4-a \
      --accelerator-type=v2-32 \
      --tf-version=1.15.5
    

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 gcloud 명령어는 VM과 Cloud TPU를 생성합니다.
    name
    생성할 Cloud TPU의 이름입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    accelerator-type
    생성할 Cloud TPU의 유형입니다.
    tf-version
    gcloud compute tpus execution-groups로 VM에 설치되는 Tensorflow 버전입니다.
  3. TPU 이름의 환경 변수를 만듭니다.

    (vm)$ export TPU_NAME=efficientnet-tutorial
    
  4. 학습 데이터를 저장하도록 MODEL_DIR 디렉터리를 업데이트합니다.

    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/efficientnet-tutorial
    
  5. 모델을 학습시킵니다.

    (vm)$ python3 main.py \
      --tpu=${TPU_NAME} \
      --data_dir=${DATA_DIR} \
      --model_dir=${MODEL_DIR} \
      --model_name='efficientnet-b3' \
      --skip_host_call=true \
      --mode=train \
      --train_steps=1000 \
      --train_batch_size=4096 \
      --iterations_per_loop=100
    

    명령어 플래그 설명

    tpu
    Cloud TPU의 이름입니다.
    data_dir
    학습 입력을 위한 Cloud Storage 경로입니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 경로입니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 이전에 생성된 체크포인트를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    model_name
    학습시킬 모델의 이름입니다.
    skip_host_call
    스크립트에 모든 학습 단계를 실행하는 host_call을 건너뛰도록 안내하려면 true로 설정합니다. 이는 일반적으로 학습 요약(학습 손실, 학습률 등)을 생성하는 데 사용됩니다. skip_host_call=false인 경우 host_call 함수가 느려져서 TPU 측 계산을 따라잡지 못하면 성능이 저하될 수 있습니다.
    mode
    train_and_eval, train, eval 중 하나입니다. train_and_eval은 모델을 학습시키고 평가합니다. train은 모델을 학습시킵니다. eval은 모델을 평가합니다.
    train_steps
    학습 단계 수를 지정합니다.
    train_batch_size
    학습 배치 크기입니다.
    iterations_per_loop
    CPU로 측정항목을 보내기 전에 TPU에서 실행할 학습 단계 수입니다.

EfficientNet 모델(efficientnet-b0 변형)은 fake ImageNet 데이터 세트를 사용하므로 이 명령어는 해당 모델을 1,000단계 동안만 학습시킵니다. 전체 ImageNet 데이터 세트를 사용하여 학습시킬 때 다음 명령어를 사용하면 수렴을 학습시킬 수 있습니다.

python3 main.py \
      --tpu=${TPU_NAME} \
      --data_dir=${DATA_DIR} \
      --model_dir=${MODEL_DIR} \
      --model_name='efficientnet-b3' \
      --skip_host_call=true \
      --mode=train \
      --train_steps=109474 \
      --train_batch_size=4096 \
      --iterations_per_loop=100

이 명령어는 EfficientNet 모델(efficientnet-b3 변형)을 350세대 동안 학습시킵니다. 이 모델은 ImageNet 개발 집합에서 81.1%의 정확성을 달성해야 하며 완료까지 약 20시간이 걸립니다. 최고의 모델 체크포인트와 해당하는 평가 결과는 모델 디렉터리 ${STORAGE_BUCKET}/efficientnet/archivearchive 폴더에서 확인할 수 있습니다.

모델 평가

이 단계 집합에서는 Cloud TPU를 사용하여 fake_imagenet 검증 데이터에 위의 학습된 모델을 평가합니다.

  1. Pod에서 모델을 학습시키기 위해 만든 Cloud TPU 리소스를 삭제합니다.

    (vm)$ gcloud compute tpus execution-groups delete efficientnet-tutorial \
      --tpu-only \
      --zone=europe-west4-a
      
  2. v2-8 Cloud TPU를 시작하여 평가를 실행합니다. 여전히 실행 중인 Compute Engine VM에 사용했던 이름과 동일한 이름을 사용합니다.

    (vm)$ gcloud compute tpus execution-groups  create --tpu-only \
     --name=efficientnet-tutorial \
     --accelerator-type=v2-8 \
     --zone=europe-west4-a \
     --tf-version=1.15.5
    

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 gcloud 명령어는 VM과 Cloud TPU를 생성합니다.
    name
    생성할 Cloud TPU의 이름입니다.
    accelerator-type
    생성할 Cloud TPU의 유형입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    tf-version
    gcloud로 VM에 설치되는 Tensorflow 버전입니다.
  3. TPU 이름의 환경 변수를 만듭니다.

    (vm)$ export TPU_NAME=efficientnet-tutorial
    
  4. 모델 평가를 실행합니다. 이번에는 mode 플래그를 추가하고 이를 eval로 설정합니다.

    (vm)$ python3 main.py \
       --tpu=${TPU_NAME} \
       --data_dir=${DATA_DIR} \
       --model_dir=${MODEL_DIR} \
       --model_name='efficientnet-b3' \
       --skip_host_call=true \
       --mode=eval
    

    명령어 플래그 설명

    tpu
    TPU_NAME 변수에 지정된 이름을 사용합니다.
    data_dir
    학습 입력을 위한 Cloud Storage 경로를 지정합니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 경로입니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 이전에 생성된 체크포인트를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    model_name
    학습시킬 모델의 이름입니다. 예를 들면 efficientnet 등입니다.
    skip_host_call
    스크립트에 모든 학습 단계를 실행하는 host_call을 건너뛰도록 안내하려면 true로 설정합니다. 이는 일반적으로 학습 요약(학습 손실, 학습률 등)을 생성하는 데 사용됩니다. skip_host_call=false인 경우 host_call 함수가 느려져서 TPU 측 계산을 따라잡지 못하면 성능이 저하될 수 있습니다.
    mode
    train_and_eval로 설정하면 이 스크립트는 모델을 학습시키고 평가합니다. export_only로 설정하면 이 스크립트는 저장된 모델을 내보냅니다.

    그러면 다음과 비슷한 출력이 생성됩니다.

    Eval results: {
    'loss': 7.532023,
    'top_1_accuracy': 0.0010172526,
    'global_step': 100,
    'top_5_accuracy': 0.005065918
    }
    Elapsed seconds: 88

삭제

이 가이드에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud Shell에서 다음 명령어를 사용하여 Compute Engine VM 및 Cloud TPU를 삭제합니다.

    $ gcloud compute tpus execution-groups delete efficientnet-tutorial \
      --zone=europe-west4-a
    
  3. gcloud compute tpus execution-groups list를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 인스턴스가 성공적으로 삭제되었다는 의미입니다.

    $ gcloud compute tpus execution-groups list \
     --zone=europe-west4-a
    

    다음과 같은 빈 TPU 목록이 표시되어야 합니다.

       NAME             STATUS
    
  4. 아래와 같이 gsutil을 사용하여 Cloud Storage 버킷을 삭제합니다. bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

이 가이드에서는 샘플 데이터 세트를 사용하여 EfficientNet 모델을 학습시켰습니다. 이 학습 결과는 (대부분의 경우) 추론에 사용할 수 없습니다. 추론에 모델을 사용하려면 일반에 공개된 데이터 세트 또는 자체 데이터 세트에서 데이터를 학습시킵니다. Cloud TPU에서 학습된 모델은 데이터 세트가 TFRecord 형식이어야 합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델의 성능을 개선하려면 모델의 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보는 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정에 대한 자세한 내용은 초매개변수 조정 개요, 초매개변수 조정 서비스 사용, 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. AI Platform은 머신러닝 모델을 개발, 학습, 배포하기 위한 클라우드 기반 솔루션입니다. 모델이 배포되면 AI Platform Prediction 서비스를 사용할 수 있습니다.