Cloud TPU에서 EfficientNet 학습(TF 2.x)

이 튜토리얼에서는 tf.distribute.TPUStrategy를 사용하여 Cloud TPU에서 Keras EfficientNet 모델을 학습시키는 방법을 보여줍니다.

Cloud TPU에 익숙하지 않다면 빠른 시작을 참조하여 TPU와 Compute Engine VM을 만드는 방법을 알아보는 것이 좋습니다.

목표

데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
ImageNet 데이터 세트와 비슷한 fake/imagenet 데이터 세트 준비
학습 작업 실행
출력 결과 확인

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

Compute Engine
Cloud TPU
Cloud Storage

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 튜토리얼을 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

프로젝트 선택기로 이동

Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

프로젝트 선택기로 이동

Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

Cloud TPU 단일 기기 학습

이 섹션에서는 Cloud TPU 리소스를 구성하고 단일 Cloud TPU 기기를 사용하여 EfficientNet 모델을 학습하는 방법을 설명합니다.

Cloud Shell 창을 엽니다.

Cloud Shell 열기
프로젝트 ID의 변수를 만듭니다.
```
export PROJECT_ID=project-id
```
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
```
gcloud config set project ${PROJECT_ID}
```
새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에 있는 Authorize를 클릭하여 gcloud에서 사용자 인증 정보로 API를 호출하도록 허용합니다.

gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.
Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

서비스 계정은 Cloud TPU 서비스가 다른 Google Cloud 서비스에 액세스하도록 허용합니다.
```
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
```
이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.
```
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
```
TPU 설정 변수 내보내기

모델을 학습시키고 학습 관련 데이터를 저장할 영역을 설정합니다.
```
$ export ZONE=europe-west4-a
```
다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.
```
gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name/
```
이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는 gcloud compute tpus execution-groups 명령어는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

버킷 위치는 Compute Engine(VM) 및 Cloud TPU 노드와 동일한 리전에 있어야 합니다.
데이터 세트를 준비하거나 fake_imagenet을 사용합니다.

ImageNet은 이미지 데이터베이스입니다. 이 데이터베이스의 이미지는 계층 구조로 구성되며, 계층 구조의 각 노드는 수백 또는 수천 개의 이미지로 표현됩니다.

이 가이드에서는 fake_imagenet이라는 전체 ImageNet 데이터 세트의 데모 버전을 사용합니다. 이 데모 버전을 사용하여 가이드를 테스트하면 전체 ImageNet 데이터 세트에 모델을 실행할 때 일반적으로 요구되는 스토리지 및 실행 시간을 줄일 수 있습니다.

fake_imagenet 데이터 세트는 Cloud Storage의 다음 위치에 있습니다.
```
gs://cloud-tpu-test-datasets/fake_imagenet
```
fake_imagenet 데이터 세트는 Cloud TPU 사용 방법을 이해하고 엔드 투 엔드 성능을 검증하는 용도로만 사용됩니다. 정확성 숫자와 저장된 모델은 의미가 없습니다.

전체 ImageNet 데이터 세트를 사용하려면 ImageNet 데이터 세트 다운로드, 사전 처리, 업로드를 참조하세요.

주의: 이 튜토리얼에서 STORAGE_BUCKET 환경 변수를 fake_imagenet 데이터 세트 경로로 설정하지 마세요. gs://cloud-tpu-test-datasets에서 읽을 수 있지만 쓸 수는 없습니다. 결과적으로 학습 로그를 작성하는 데 사용할 수 없습니다. 위와 같이 STORAGE_BUCKET 환경 변수가 자체 Cloud Storage 버킷으로 설정되어 있는지 확인하세요.
gcloud 명령어를 사용하여 TPU 리소스를 실행합니다. 사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다. 두 가지 VM 아키텍처에 관한 자세한 내용은 시스템 아키텍처를 참조하세요.
TPU VM
```
$ gcloud compute tpus tpu-vm create efficientnet-tutorial \
--zone=${ZONE} \
--accelerator-type=v3-8 \
--version=tpu-vm-tf-2.16.1-pjrt
```
명령어 플래그 설명

zone

Cloud TPU를 만들려는 영역입니다.

accelerator-type

가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.

version

Cloud TPU 소프트웨어 버전입니다.
TPU 노드
```
gcloud compute tpus execution-groups create \
--name=efficientnet-tutorial \
--zone=${ZONE} \
--disk-size=300 \
--machine-type=n1-standard-16 \
--tf-version=2.12.0 \
--accelerator-type=v3-8
```
명령어 플래그 설명

project

: Google Cloud 프로젝트 ID입니다.

name

생성할 Cloud TPU의 이름입니다.

zone

Cloud TPU를 만들려는 영역입니다.

disk-size

gcloud 명령어로 만든 VM의 하드 디스크 크기(GB)입니다.

machine-type

생성할 Compute Engine VM의 머신 유형입니다.

tf-version

Tensorflow gcloud 버전이 VM에 설치됩니다.

accelerator-type

생성할 Cloud TPU의 유형입니다.
참고: 프로젝트가 둘 이상인 경우 --project 플래그를 사용하여 프로젝트 ID를 지정해야 합니다.

gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.

참고: 프로젝트에서 gcloud compute tpus tpu-vm 또는 gcloud compute tpus execution-groups를 처음 실행하는 경우 SSH 키 전파 및 API 활성화와 같은 시작 태스크를 수행하는 데 약 5분 정도 걸립니다.
Compute Engine 인스턴스에 자동으로 로그인되지 않으면 다음 ssh 명령어를 실행하여 로그인합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.
TPU VM
```
gcloud compute tpus tpu-vm ssh efficientnet-tutorial --zone=${ZONE}
```
TPU 노드
```
gcloud compute ssh efficientnet-tutorial --zone=${ZONE}
```
요점: 이후 내용부터 (vm) $ 프리픽스가 있으면 Compute Engine VM 인스턴스에서 명령어를 실행해야 합니다.

Cloud TPU 이름 변수를 설정합니다.

TPU VM

(vm)$ export TPU_NAME=local

TPU 노드

(vm)$ export TPU_NAME=efficientnet-tutorial

Cloud Storage 버킷 변수 설정

bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```
```
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/efficientnet-2x
(vm)$ export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
```
학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.
TPU를 만들 때 --version 매개변수를 -pjrt로 끝나는 버전으로 설정한 경우 다음 환경 변수를 설정하여 PJRT 런타임을 사용 설정합니다.
```
  (vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true
  (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
```
TensorFlow 요구사항을 설치합니다.

사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다.
TPU VM
```
(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
```
TPU 노드
```
(vm)$ pip3 install --user -r /usr/share/models/official/requirements.txt
```
EfficientNet 학습 스크립트에는 추가 패키지(TPU VM만 해당)가 필요합니다. 다음을 이용해 바로 설치하세요.
TPU VM
```
(vm)$ sudo pip3 install tensorflow-addons
(vm)$ sudo pip3 install tensorflow-model-optimization>=0.1.3
```
필수 환경 변수를 설정합니다.
TPU VM
```
(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"
```
TPU 노드
```
(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
```
EfficientNet 모델은 Compute Engine VM에 사전 설치되어 있습니다.

모델을 저장하는 디렉터리로 변경합니다.

TPU VM

(vm)$ cd /usr/share/tpu/models/official/legacy/image_classification

TPU 노드

(vm)$ cd /usr/share/models/official/legacy/image_classification

모델을 학습시킵니다. 이 파일은 가짜 _ 이미지 넷 데이터 세트를 사용하고 1세대에 대해 EfficientNet을 학습시킵니다.
```
(vm)$ python3 classifier_trainer.py \
  --mode=train_and_eval \
  --model_type=efficientnet \
  --dataset=imagenet \
  --tpu=${TPU_NAME} \
  --data_dir=${DATA_DIR} \
  --model_dir=${MODEL_DIR} \
  --config_file=configs/examples/efficientnet/imagenet/efficientnet-b0-tpu.yaml \
  --params_override="train.epochs=1, train_dataset.builder=records, validation_dataset.builder=records"
```
명령어 플래그 설명

mode
train, eval, train_and_eval 중 하나입니다.
model_type

모델의 유형입니다. 예를 들면 efficientnet입니다.

dataset

데이터 세트의 이름입니다. 예를 들면 imagenet입니다.

tpu

학습 또는 평가를 실행할 Cloud TPU의 이름입니다.

data_dir

학습 입력을 위한 Cloud Storage 경로를 지정합니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.

model_dir

모델 학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 경로입니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 이전에 생성된 체크포인트를 로드하고 추가 체크포인트를 저장할 수 있습니다.

config_file

사전 학습된 EfficientNet 모델을 포함하는 json 파일의 경로입니다. 이 파일에는 모델 아키텍처가 포함되어 있습니다.

params_override

기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다. 스크립트 매개변수에 대한 자세한 내용은 /usr/share/models/official/legacy/detection/main.py를 참조하세요.

이렇게 하면 1세대 동안 EfficientNet을 학습시키며 약 40분 이내에 v3-8 Cloud TPU 노드에서 완료됩니다. 학습 스크립트가 완료되면 다음과 비슷한 출력이 표시됩니다.
```
Run stats:
{
  'accuracy_top_1': 0.0010172526817768812,
  'eval_loss': 7.104171276092529,
  'loss': 7.113735675811768,
  'training_accuracy_top_1': 0.0009773431811481714,
  'step_timestamp_log': [
    'BatchTimestamp<batch_index: 0,
    timestamp: 1604960724.2224622>',
    'BatchTimestamp<batch_index: 1251,
    timestamp: 1604961281.3745298>'
  ],
  'train_finish_time': 1604961342.6359076,
  'avg_exp_per_second': 2071.493269569079
}
```
EfficientNet이 ImageNet 데이터 세트에 수렴되도록 학습시키려면 다음 스크립트에 표시된 것처럼 90세대 동안 실행합니다. 학습과 평가는 함께 수행됩니다. 각 세대에는 학습 단계 총 112,590개와 평가 단계 48개에 대한 단계 1,251개가 포함됩니다.
```
(vm)$ python3 classifier_trainer.py \
     --mode=train_and_eval \
     --model_type=efficientnet \
     --dataset=imagenet \
     --tpu=${TPU_NAME} \
     --data_dir=${DATA_DIR} \
     --model_dir=${MODEL_DIR} \
     --config_file=configs/examples/efficientnet/imagenet/efficientnet-b0-tpu.yaml \
     --params_override="train_dataset.builder=records, validation_dataset.builder=records"
```
명령어 플래그 설명

mode

train, eval 또는 train_and_eval 중 하나입니다.

model_type

모델의 유형입니다. 예를 들면 efficientnet 등입니다.

dataset

데이터 세트의 이름입니다. 예를 들면 imagenet입니다.

tpu

학습 또는 평가를 실행할 Cloud TPU의 이름입니다.

data_dir

학습 입력을 위한 Cloud Storage 경로를 지정합니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.

model_dir

모델 학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 경로입니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 이전에 생성된 체크포인트를 로드하고 추가 체크포인트를 저장할 수 있습니다.

config_file

사전 학습된 EfficientNet 모델을 포함하는 JSON 파일의 경로입니다. 이 파일에는 모델 아키텍처가 포함되어 있습니다.

params_override

기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다. 스크립트 매개변수에 대한 자세한 내용은 /usr/share/models/official/legacy/detection/main.py를 참조하세요.

학습이 fake_imagenet 데이터 세트에서 수행되므로 실제 데이터 세트에서 학습이 수행된 경우에 나타나는 실제 출력이 출력 결과에 반영되지 않습니다.

이제 단일 기기 학습을 완료했습니다. 다음 단계를 수행하여 현재 단일 기기 TPU 리소스를 삭제합니다.
Compute Engine 인스턴스에서 연결을 해제합니다.
```
(vm)$ exit
```
프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.
TPU 리소스를 삭제합니다.
TPU VM
```
$ gcloud compute tpus tpu-vm delete efficientnet-tutorial \
--zone=${ZONE}
```
명령어 플래그 설명

zone

Cloud TPU가 있는 영역입니다.
TPU 노드
```
$ gcloud compute tpus execution-groups delete efficientnet-tutorial \
--tpu-only \
--zone=${ZONE}
```
명령어 플래그 설명

tpu-only

Cloud TPU만 삭제합니다. VM을 계속 사용할 수 있습니다.

zone

삭제할 TPU가 포함된 영역입니다.

여기에서는 이 튜토리얼을 마무리하고 삭제하거나 Cloud TPU 포드에서 모델 실행을 살펴볼 수 있습니다.

Cloud TPU Pod로 모델 확장

Cloud TPU Pod에서 모델을 학습시키려면 학습 스크립트를 변경해야 할 수 있습니다. 자세한 내용은 TPU Pod에서 학습을 참조하세요.

Cloud TPU Pod 학습

이 섹션에서는 포드 학습을 위한 Cloud Storage 버킷 및 Cloud TPU 리소스 설정에 대한 정보를 제공합니다.

Cloud Shell 창을 엽니다.

Cloud Shell 열기
프로젝트 ID의 변수를 만듭니다.
```
export PROJECT_ID=project-id
```
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
```
gcloud config set project ${PROJECT_ID}
```
새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에 있는 Authorize를 클릭하여 gcloud에서 사용자 인증 정보로 Google Cloud API를 호출하도록 허용합니다.
Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

서비스 계정은 Cloud TPU 서비스가 다른 Google Cloud 서비스에 액세스하도록 허용합니다.
```
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
```
이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.
```
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
```
다음 명령어를 사용하여 Cloud Storage 버킷을 만들거나 앞에서 프로젝트에 만든 버킷을 사용합니다.
```
gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name
```
이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는 gcloud 명령어는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

버킷 위치는 TPU VM과 동일한 리전에 있어야 합니다.
TPU 설정 변수 내보내기

모델을 학습시키고 학습 관련 데이터를 저장할 영역을 설정합니다.
```
$ export ZONE=europe-west4-a
```
데이터 세트를 준비하거나 fake_imagenet을 사용합니다.

ImageNet은 이미지 데이터베이스입니다. 이 데이터베이스의 이미지는 계층 구조로 구성되며, 계층 구조의 각 노드는 수백 또는 수천 개의 이미지로 표현됩니다.

기본 포드 학습은 fake_imagenet이라는 전체 ImageNet 데이터 세트의 데모 버전에 액세스합니다. 이 데모 버전을 사용하면 포드 학습을 테스트하면서 일반적으로 전체 ImageNet 데이터베이스에 대한 모델 학습과 관련된 스토리지 및 시간 요구사항을 줄일 수 있습니다.

fake_imagenet 데이터 세트는 Cloud TPU 사용 방법을 이해하고 엔드 투 엔드 성능을 검증하는 용도로만 사용됩니다. 정확성 숫자와 저장된 모델은 의미가 없습니다.

전체 ImageNet 데이터 세트를 사용하려면 ImageNet 데이터 세트 다운로드, 사전 처리, 업로드를 참조하세요.

주의: STORAGE_BUCKET 환경 변수를 fake_imagenet 데이터 세트 경로로 설정하지 마세요. gs://cloud-tpu-test-datasets에서 읽을 수 있지만 쓸 수는 없습니다. 결과적으로 학습 로그를 작성하는 데 사용할 수 없습니다. STORAGE_BUCKET 환경 변수가 자체 Cloud Storage 버킷으로 설정되어 있는지 확인하세요.
gcloud 명령어를 사용하여 Cloud TPU 리소스를 실행합니다.

사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다. 두 가지 VM 아키텍처에 관한 자세한 내용은 시스템 아키텍처를 참조하세요. gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요. 이 튜토리얼에서는 v3-32 포드를 지정합니다. 다른 포드 옵션은 TPU 버전을 참조하세요.
TPU VM
참고: 현재 TPU Pod를 생성할 수 있는 용량이 충분하지 않으면 큐에 추가된 리소스를 사용하여 요청을 큐에 추가하면 됩니다. 용량을 사용할 수 있게 되면 큐에 추가된 리소스에서 용량을 받을 수 있습니다. Cloud TPU 리소스를 큐에 추가된 리소스로 요청하려면 gcloud alpha compute tpus queued-resources create 명령어를 대신 사용하세요. 자세한 내용은 큐에 추가된 리소스 관리를 참조하세요.
```
$ gcloud compute tpus tpu-vm create efficientnet-tutorial \
  --zone=${ZONE} \
  --accelerator-type=v3-32 \
  --version=tpu-vm-tf-2.16.1-pod-pjrt
```
명령어 플래그 설명

zone

Cloud TPU를 만들려는 영역입니다.

accelerator-type

가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.

version

Cloud TPU 소프트웨어 버전입니다.

참고: 프로젝트에서 gcloud를 처음 실행할 때는 SSH 키 전파, API 활성화 등의 시작 태스크를 수행하는 데 5분 정도 걸립니다.
TPU 노드
```
(vm)$ gcloud compute tpus execution-groups  create --name=efficientnet-tutorial \
 --accelerator-type=v3-32  \
 --zone=${ZONE} \
 --tf-version=2.12.0
```
명령어 플래그 설명

name

생성할 Cloud TPU의 이름입니다.

accelerator-type

생성할 Cloud TPU의 유형입니다.

zone

Cloud TPU를 만들려는 영역입니다.

tf-version

Tensorflow gcloud 버전이 VM에 설치됩니다.

tpu-only

Cloud TPU만 생성합니다. 기본적으로 gcloud 명령어는 VM과 Cloud TPU를 생성합니다.

참고: 프로젝트에서 gcloud를 처음 실행할 때는 SSH 키 전파, API 활성화 등의 시작 태스크를 수행하는 데 5분 정도 걸립니다.
Compute Engine 인스턴스에 자동으로 로그인되지 않으면 다음 ssh 명령어를 실행하여 로그인합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.
TPU VM
```
$ gcloud compute tpus tpu-vm ssh efficientnet-tutorial --zone=${ZONE}
```
TPU 노드
```
$ gcloud compute ssh efficientnet-tutorial --zone=${ZONE}
```
요점: 이후 내용부터 (vm) $ 프리픽스가 있으면 Compute Engine VM 인스턴스에서 명령어를 실행해야 합니다.
안내를 계속 따르면서 (vm)$으로 시작하는 각 명령어를 VM 세션 창에서 실행합니다.
TPU 설정 변수 내보내기
```
(vm)$ export STORAGE_BUCKET=gs://bucket-name
```
```
(vm)$ export TPU_NAME=efficientnet-tutorial
(vm)$ export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/efficientnet-2x-pod
```
학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.

TensorFlow 요구사항을 설치합니다.

TPU VM

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

TPU 노드

(vm)$ pip3 install -r /usr/share/models/official/requirements.txt

필수 환경 변수를 설정합니다.

TPU VM

(vm)$ export PYTHONPATH="/usr/share/tpu/models:${PYTHONPATH}"
(vm)$ export TPU_LOAD_LIBRARY=0

TPU 노드

(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"

EfficientNet 모델은 Compute Engine VM에 사전 설치되어 있습니다.

모델을 저장하는 디렉터리로 변경합니다.

TPU VM

(vm)$ cd /usr/share/tpu/models/official/legacy/image_classification/

TPU 노드

(vm)$ cd /usr/share/models/official/legacy/image_classification/

모델을 학습시킵니다.
```
(vm)$ python3 classifier_trainer.py \
--mode=train_and_eval \
--model_type=efficientnet \
--dataset=imagenet \
--tpu=${TPU_NAME} \
--data_dir=${DATA_DIR} \
--model_dir=${MODEL_DIR} \
--config_file=configs/examples/efficientnet/imagenet/efficientnet-b0-tpu.yaml \
--params_override="train.epochs=1, train_dataset.builder=records, validation_dataset.builder=records"
```
명령어 플래그 설명

mode

train_and_eval로 설정하면 이 스크립트는 모델을 학습시키고 평가합니다. export_only로 설정하면 이 스크립트는 저장된 모델을 내보냅니다.

model_type

모델의 유형입니다. 예를 들면 efficientnet 등입니다.

dataset

데이터 세트의 이름입니다. 예를 들면 imagenet입니다.

tpu

TPU_NAME 변수에 지정된 이름을 사용합니다.

data_dir

학습 입력을 위한 Cloud Storage 경로를 지정합니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.

model_dir

모델 학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 경로입니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 이전에 생성된 체크포인트를 로드하고 추가 체크포인트를 저장할 수 있습니다.

config_file

사전 학습된 EfficientNet 모델을 포함하는 json 파일의 경로입니다. 이 파일에는 모델 아키텍처가 포함되어 있습니다.

params_override

기본 스크립트 매개변수를 재정의하는 JSON 문자열입니다. 스크립트 매개변수에 대한 자세한 내용은 /usr/share/models/official/legacy/detection/main.py를 참조하세요.

이 절차는 fake_imagenet 데이터 세트를 1 세대로 학습시킵니다(총 312개 학습 단계와 12개 평가 단계). 이 학습은 v3-32 Cloud TPU에서 약 2분 정도 걸립니다. 학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

Run stats:
{
  'accuracy_top_1': 0.0009969075908884406,
  'eval_loss': 7.105168342590332,
  'loss': 7.114983081817627,
  'training_accuracy_top_1': 0.0010031675919890404,
  'step_timestamp_log': [
    'BatchTimestamp<batch_index: 0,
    timestamp: 1605041621.4997303>',
    'BatchTimestamp<batch_index: 312,
    timestamp: 1605041970.8633356>'
  ],
  'train_finish_time': 1605042032.2274444,
  'avg_exp_per_second': 3111.5120716536226
}

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

Compute Engine 인스턴스에서 연결을 해제합니다.
```
(vm)$ exit
```
프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

Cloud TPU 및 Compute Engine 리소스를 삭제합니다.

TPU VM

$ gcloud compute tpus tpu-vm delete efficientnet-tutorial \
--zone=${ZONE}

TPU 노드

$ gcloud compute tpus execution-groups delete efficientnet-tutorial \
--zone=${ZONE}

gcloud compute tpus execution-groups list를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음 명령어의 출력에는 이 튜토리얼에서 만든 TPU 리소스가 포함되어서는 안 됩니다.
```
$ gcloud compute tpus execution-groups list --zone=${ZONE}
```
아래와 같이 gsutil을 사용하여 Cloud Storage 버킷을 삭제합니다. bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.
```
$ gsutil rm -r gs://bucket-name
```

다음 단계

일반적으로 TensorFlow Cloud TPU 튜토리얼에서는 샘플 데이터 세트를 사용하여 모델을 학습시킵니다. 이 학습 결과는 추론에 사용될 수 없습니다. 모델을 추론에 사용하려면 일반에게 공개된 데이터 세트나 자체 데이터 세트에서 데이터를 학습시키면 됩니다. 일반적으로 Cloud TPU에서 학습된 TensorFlow 모델에는 TFRecord 형식의 데이터 세트가 필요합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우에는 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델 성능을 개선하려면 모델 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보를 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정 방법에 대한 자세한 내용은 초매개변수 조정 개요 및 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. Cloud TPU 추론 변환기 도구를 사용하여 Cloud TPU v5e에서 추론을 위한 TensorFlow 모델을 준비하고 최적화할 수 있습니다. Cloud TPU v5e에서 추론에 대한 자세한 내용은 Cloud TPU v5e 추론 소개를 참조하세요.

데이터 세트 전환 튜토리얼에 따라 fake_imagenet 또는 ImageNet 데이터 세트 대신 자체 데이터를 사용하여 학습하고 평가하는 방법을 알아보세요. 이 튜토리얼에서는 이미지 분류 데이터 변환기 예시 스크립트를 사용하여 이미지 분류를 위한 원시 데이터 세트를 Cloud TPU TensorFlow 모델에서 사용할 수 있는 TFRecord로 변환하는 방법을 설명합니다.
자체 이미지 데이터를 사용하여 이미지 분류 모델을 실행하는 방법을 보여주는 Cloud TPU colab을 실행합니다.
다른 Cloud TPU 튜토리얼을 살펴보세요.
텐서보드의 TPU 모니터링 도구 사용 방법을 알아보세요.

Cloud TPU에서 EfficientNet 학습(TF 2.x)

목표

비용

시작하기 전에

Cloud TPU 단일 기기 학습

TPU VM

명령어 플래그 설명

TPU 노드

명령어 플래그 설명

TPU VM

TPU 노드

TPU VM

TPU 노드

TPU VM

TPU 노드

TPU VM

TPU VM

TPU 노드

TPU VM

TPU 노드

명령어 플래그 설명

명령어 플래그 설명

TPU VM

명령어 플래그 설명

TPU 노드

명령어 플래그 설명

Cloud TPU Pod로 모델 확장

Cloud TPU Pod 학습

TPU VM

명령어 플래그 설명

TPU 노드

명령어 플래그 설명

TPU VM

TPU 노드

TPU VM

TPU 노드

TPU VM

TPU 노드

TPU VM

TPU 노드

명령어 플래그 설명

삭제

TPU VM

TPU 노드

다음 단계

초매개변수 조정

추론