이 튜토리얼에는 MNIST 모델에 관한 대략적인 설명, MNIST 텐서플로우 TPU 코드 샘플을 다운로드하는 안내, Cloud TPU에서 코드를 실행하는 방법이 나와 있습니다.
면책조항
이 가이드는 서드 파티 데이터 세트를 사용합니다. Google은 이 데이터 세트의 유효성을 비롯한 그 어떤 특성에 대한 진술, 보증 또는 기타 보장을 제공하지 않습니다.
모델 설명
MNIST 데이터 세트에는 0에서 9 사이의 숫자 필기 이미지 다수와 각 이미지의 숫자를 식별하는 라벨이 포함되어 있습니다.
이 가이드는 MNIST 데이터 세트를 기반으로 이미지를 식별하도록 머신러닝 모델을 학습시킵니다. 학습된 모델은 MNIST 데이터 세트를 통해 필기 이미지에 대해 학습한 내용을 바탕으로 입력되는 이미지를 10개의 카테고리(0~9)로 분류합니다. 그런 다음 모델에 새로운 이미지를 전송하면 모델은 학습한 내용을 기반으로 이미지의 숫자를 식별합니다.
MNIST 데이터 세트는 세 개의 파트로 나눠져 있습니다.
- 학습 데이터 예시 60,000개
- 테스트 데이터 예시 10,000개
- 검증 데이터 예시 5,000개
이 모델은 다음과 같은 7가지 레이어의 조합으로 이루어져 있습니다.
- 합성곱 2개
- 최대 풀링 2개
- 밀집 2개(완전 연결형)
- 드롭아웃 1개
손실은 범주형 교차 엔트로피를 사용하여 계산됩니다.
이 버전의 MNIST 모델은 Cloud TPU에서 머신러닝 모델을 빌드하고 실행하는 데 권장되는 Keras API를 사용합니다.
Keras는 낮은 수준의 구현체를 대부분 숨기는 방식으로 모델 개발 프로세스를 간소화합니다. 이로써 GPU나 CPU와 같은 다른 테스트 플랫폼과 TPU 간의 전환이 쉬워집니다.
목표
- 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
- 학습 작업 실행
- 출력 결과 확인
비용
이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
- Compute Engine
- Cloud TPU
- Cloud Storage
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
시작하기 전에
이 섹션에서는 Cloud Storage 버킷 및 Compute Engine VM 설정에 대한 정보를 제공합니다.
Cloud Shell 창을 엽니다.
프로젝트 ID의 변수를 만듭니다.
export PROJECT_ID=project-id
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
gcloud config set project ${PROJECT_ID}
새 Cloud Shell VM에서 이 명령어를 처음 실행하면
Authorize Cloud Shell
페이지가 표시됩니다. 페이지 하단에 있는Authorize
를 클릭하여gcloud
에서 사용자 인증 정보로 Google Cloud API를 호출하도록 허용합니다.Cloud TPU 프로젝트의 서비스 계정을 만듭니다.
gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.
gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 gs://bucket-name
이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는
gcloud
명령어는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.Compute Engine VM 및 Cloud TPU를 실행하려면
gcloud
명령어를 사용합니다. 사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다. 자세한 내용은 시스템 아키텍처를 참조하세요.TPU VM
$ gcloud compute tpus tpu-vm create mnist-tutorial \ --zone=us-central1-b \ --accelerator-type=v3-8 \ --version=tpu-vm-tf-2.16.1-pjrt \
TPU 노드
$ gcloud compute tpus execution-groups create \ --name=mnist-tutorial \ --zone=us-central1-b \ --tf-version=2.12.0 \ --machine-type=n1-standard-1 \ --accelerator-type=v3-8 \
gcloud
명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.gcloud compute tpus
명령어 실행이 끝나면 셸 프롬프트가username@projectname
에서username@vm-name
으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.Compute Engine 인스턴스에 연결되어 있지 않으면 다음 명령어를 실행하여 연결할 수 있습니다.
TPU VM
gcloud compute tpus tpu-vm ssh mnist-tutorial --zone=us-central1-b
TPU 노드
gcloud compute ssh mnist-tutorial --zone=us-central1-b
안내를 계속 따르면서
(vm)$
으로 시작하는 각 명령어를 VM 세션 창에서 실행합니다.TPU 이름의 환경 변수를 만듭니다.
TPU VM
(vm)$ export TPU_NAME=local
TPU 노드
(vm)$ export TPU_NAME=mnist-tutorial
TensorFlow 요구사항을 설치합니다.
사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다.
TPU VM
(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
TPU 노드
(vm)$ pip3 install --user tensorflow-model-optimization>=0.1.3
모델 학습
MNIST TPU 모델의 소스 코드는 GitHub에서 이용할 수 있습니다.
다음 변수를 설정합니다. 여기에서 bucket-name을 내 버킷 이름으로 바꿉니다.
(vm)$ export STORAGE_BUCKET=gs://bucket-name (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/mnist (vm)$ export DATA_DIR=${STORAGE_BUCKET}/data
PYTHONPATH
환경 변수를 설정합니다.TPU VM
(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"
TPU 노드
(vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
TPU를 만들 때
--version
매개변수를-pjrt
로 끝나는 버전으로 설정한 경우 다음 환경 변수를 설정하여 PJRT 런타임을 사용 설정합니다.(vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
모델을 저장하는 디렉터리로 변경합니다.
TPU VM
(vm)$ cd /usr/share/tpu/models/official/legacy/image_classification
TPU 노드
(vm)$ cd /usr/share/models/official/legacy/image_classification
MNIST 학습 스크립트를 실행합니다.
(vm)$ python3 mnist_main.py \ --tpu=${TPU_NAME} \ --model_dir=${MODEL_DIR} \ --data_dir=${DATA_DIR} \ --train_epochs=10 \ --distribution_strategy=tpu \ --download
명령어 플래그 설명
tpu
- Cloud TPU의 이름입니다. Compute Engine VM 및 Cloud TPU를 설정할 때 지정하지 않은 경우 기본값은 사용자 이름입니다.
model_dir
- 학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 버킷입니다. 기존 폴더를 사용하면 동일한 크기 및 TensorFlow 버전의 TPU에 생성되어 있는 이전에 생성된 체크포인트를 로드할 수 있습니다.
data_dir
- 학습 입력의 Cloud Storage 경로입니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
train_epochs
- 모델을 학습시키는 세대 수입니다.
distribution_strategy
- Cloud TPU에서 ResNet 모델을 학습시키려면
distribution_strategy
를tpu
로 설정합니다. download
true
로 설정하면 아직 다운로드하지 않은 경우 스크립트가 MNIST 데이터 세트를 다운로드하고 사전 처리합니다.
학습 스크립트는 v3-8 Cloud TPU에서 5분 이내에 실행되며 다음과 비슷한 출력을 표시합니다.
Run stats: { 'accuracy_top_1': 0.9762369990348816, 'eval_loss': 0.07863274961709976, 'loss': 0.1111728847026825, 'training_accuracy_top_1': 0.966645359992981 }
삭제
이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.
Compute Engine 인스턴스에서 연결을 해제합니다.
(vm)$ exit
프롬프트가
username@projectname
으로 바뀌면 Cloud Shell에 있는 것입니다.Cloud TPU 및 Compute Engine 리소스를 삭제합니다. 리소스를 삭제하는 데 사용하는 명령어는 TPU VM 또는 TPU 노드 사용 여부에 따라 다릅니다. 자세한 내용은 시스템 아키텍처를 참조하세요.
TPU VM
$ gcloud compute tpus tpu-vm delete mnist-tutorial \ --zone=us-central1-b
TPU 노드
$ gcloud compute tpus execution-groups delete mnist-tutorial \ --zone=us-central1-b
gcloud compute tpus execution-groups list
를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음 명령어의 출력에는 이 튜토리얼에서 만든 리소스가 포함되어서는 안 됩니다.TPU VM
$ gcloud compute tpus tpu-vm list --zone=us-central1-b
TPU 노드
$ gcloud compute tpus execution-groups list --zone=us-central1-b
다음 예시와 같이
gsutil
을 사용하여 Cloud Storage 버킷을 삭제합니다. bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.$ gsutil rm -r gs://bucket-name
다음 단계
일반적으로 TensorFlow Cloud TPU 튜토리얼에서는 샘플 데이터 세트를 사용하여 모델을 학습시킵니다. 이 학습 결과는 추론에 사용될 수 없습니다. 모델을 추론에 사용하려면 일반에게 공개된 데이터 세트나 자체 데이터 세트에서 데이터를 학습시키면 됩니다. 일반적으로 Cloud TPU에서 학습된 TensorFlow 모델에는 TFRecord 형식의 데이터 세트가 필요합니다.
데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우에는 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.
초매개변수 조정
데이터 세트로 모델 성능을 개선하려면 모델 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보를 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정 방법에 대한 자세한 내용은 초매개변수 조정 개요 및 초매개변수 조정을 참조하세요.
추론
일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. Cloud TPU 추론 변환기 도구를 사용하여 Cloud TPU v5e에서 추론을 위한 TensorFlow 모델을 준비하고 최적화할 수 있습니다. Cloud TPU v5e에서 추론에 대한 자세한 내용은 Cloud TPU v5e 추론 소개를 참조하세요.
- 자체 이미지 데이터를 사용하여 이미지 분류 모델을 학습시키는 방법을 보여주는 Cloud TPU colab을 실행합니다.
- 다른 Cloud TPU 튜토리얼을 살펴보세요.
- 텐서보드의 TPU 모니터링 도구 사용 방법을 알아보세요.
- ResNet 샘플을 실행하여 대규모 모델의 성능 확인하기