Cloud TPU의 ResNet 학습(TF 2.x)

이 가이드에서는 Cloud TPU에서 tf.distribute.TPUStrategy를 사용하여 Keras ResNet 모델을 학습시키는 방법을 보여줍니다.

Cloud TPU에 익숙하지 않은 경우 빠른 시작을 참조하여 TPU와 Compute Engine VM을 만드는 방법을 알아보는 것이 좋습니다.

목표

  • 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
  • ImageNet 데이터 세트와 비슷한 fake/imagenet 데이터 세트 준비
  • 학습 작업 실행
  • 출력 결과를 확인합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

가격 계산기를 사용하여 예상 사용량을 기준으로 예상 비용을 산출합니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 가이드를 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Cloud Console의 프로젝트 선택기 페이지에서 Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. 이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

리소스 설정

이 섹션에서는 가이드에 사용할 Cloud Storage 버킷, VM, Cloud TPU 리소스를 설정하는 방법을 설명합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    
  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 가이드에서 사용하는 ctpu up 도구는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

    버킷 위치는 Compute Engine(VM) 및 Cloud TPU 노드와 동일한 리전에 있어야 합니다.

  6. ctpu up 명령어를 사용하여 Compute Engine VM 리소스를 시작합니다.

    ctpu up --zone=europe-west4-a \
     --vm-only \
     --name=resnet-tutorial \
     --disk-size-gb=300 \
     --machine-type=n1-standard-16 \
     --tf-version=2.3.1

    명령어 플래그 설명

    zone
    Cloud TPU를 생성하려는 영역입니다.
    vm-only
    VM만 만듭니다. 기본적으로 ctpu up 명령어는 VM과 Cloud TPU를 생성합니다.
    name
    생성할 Cloud TPU의 이름입니다.
    disk-size-gb
    ctpu up 명령어로 생성한 VM의 하드 디스크 크기(GB)입니다.
    machine-type
    생성할 Compute Engine VM의 머신 유형입니다.
    tf-version
    Tensorflow ctpu 버전이 VM에 설치됩니다.

    CTPU 유틸리티에 대한 자세한 내용은 CTPU 참조를 확인하세요.

  7. 프롬프트가 표시되면 y를 눌러서 Cloud TPU 리소스를 만듭니다.

    ctpu up 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    gcloud compute ssh resnet-tutorial --zone=europe-west4-a
    

    이 안내에 따라 계속 진행하면서 (vm)$로 시작하는 각 명령어를 Compute Engine 인스턴스에서 실행합니다.

Cloud Storage 버킷 변수 설정

bucket-name을 Cloud Storage 버킷 이름으로 바꿔 다음 환경 변수를 설정합니다.

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/resnet-2x
(vm)$ export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
(vm)$ export PYTHONPATH="$PYTHONPATH:/usr/share/models/"

학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.

fake_imagenet으로 ResNet 모델 학습 및 평가

ImageNet은 이미지 데이터베이스입니다. 이 데이터베이스의 이미지는 계층 구조로 구성되며, 계층 구조의 각 노드는 수백 또는 수천 개의 이미지로 표현됩니다.

이 가이드에서는 fake_imagenet이라는 전체 ImageNet 데이터세트의 데모 버전을 사용합니다. 이 데모 버전을 사용하여 가이드를 테스트하면 전체 ImageNet 데이터세트에 모델을 실행할 때 일반적으로 요구되는 스토리지 및 실행 시간을 줄일 수 있습니다.

fake_imagenet 데이터세트는 Cloud Storage의 다음 위치에 있습니다.

gs://cloud-tpu-test-datasets/fake_imagenet

fake_imagenet 데이터세트는 Cloud TPU 사용 방법을 이해하고 엔드 투 엔드 성능을 검증하는 용도로만 사용됩니다. 정확성 숫자와 저장된 모델은 의미가 없습니다.

전체 ImageNet 데이터세트를 다운로드하고 처리하는 방법은 ImageNet 데이터세트 다운로드, 사전 처리, 업로드를 참조하세요.

  1. ctpu 유틸리티를 사용하여 Cloud TPU 리소스를 시작합니다.

    (vm)$ ctpu up --tpu-only \
     --tpu-size=v3-8  \
     --name=resnet-tutorial \
     --zone=europe-west4-a \
     --tf-version=2.3.1
    

    명령어 플래그 설명

    tpu-only
    VM을 만들지 않고 Cloud TPU를 생성합니다. 기본적으로 ctpu up 명령어는 VM과 Cloud TPU를 생성합니다.
    tpu-size
    생성할 Cloud TPU의 유형입니다.
    name
    생성할 Cloud TPU의 이름입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    tf-version
    Tensorflow ctpu 버전이 VM에 설치됩니다.

    CTPU 유틸리티에 대한 자세한 내용은 CTPU 참조를 확인하세요.

  2. Cloud TPU 이름 변수를 설정합니다. 이 항목은 ctpu up--name 매개변수로 지정한 이름 또는 사용자 이름(기본값)입니다.

    (vm)$ export TPU_NAME=resnet-tutorial
    
  3. ResNet 학습 스크립트에는 추가 패키지가 필요합니다. 지금 설치합니다.

    (vm)$ sudo pip3 install tensorflow-model-optimization>=0.1.3
    
  4. ResNet-50 모델 디렉터리로 이동합니다.

    (vm)$ cd /usr/share/models/official/vision/image_classification/resnet/
    
  5. 학습 스크립트를 실행합니다. 이 스크립트는 fake_imagenet 데이터 세트를 사용하고 각 세대에 대해 ResNet을 학습시킵니다.

    (vm)$ python3 resnet_ctl_imagenet_main.py \
     --tpu=${TPU_NAME} \
     --model_dir=${MODEL_DIR} \
     --data_dir=${DATA_DIR} \
     --batch_size=1024 \
     --steps_per_loop=500 \
     --train_epochs=1 \
     --use_synthetic_data=false \
     --dtype=fp32 \
     --enable_eager=true \
     --enable_tensorboard=true \
     --distribution_strategy=tpu \
     --log_steps=50 \
     --single_l2_loss_op=true \
     --use_tf_function=true
    

    명령어 플래그 설명

    tpu
    TPU의 이름입니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    data_dir
    학습 입력의 Cloud Storage 경로입니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
    batch_size
    학습 배치 크기입니다.
    steps_per_loop
    상태를 CPU에 저장하기 전에 실행할 학습 단계 수입니다. 학습 단계는 하나의 예시 배치를 처리하는 것입니다. 여기에는 정방향 전달 및 역전파가 모두 포함됩니다.
    train_epochs
    전체 데이터 세트를 사용하여 모델을 학습시키는 횟수입니다.
    use_synthetic_data
    학습에 합성 데이터를 사용할지 여부입니다.
    dtype
    학습에 사용할 데이터 유형입니다.
    enable_eager
    TensorFlow 즉시 실행을 사용 설정합니다.
    enable_tensorboard
    텐서보드를 사용 설정합니다.
    distribution_strategy
    TPU에서 ResNet 모델을 학습시키려면 distribution_strategytpu로 설정합니다.
    log_steps
    examples per second와 같은 타이밍 정보를 로깅하기 전에 수행할 학습 단계 수입니다.
    single_l2_loss_op
    Keras 계층별 L2 손실을 사용하는 대신 연결된 가중치를 기준으로 L2_loss를 계산합니다.
    use_tf_function
    tf.function 내부에서 학습과 테스트 단계를 래핑합니다.

이 스크립트는 1 세대에 대해 ResNet 학습을 수행하고 v3-8 TPU 노드에서 10분 이내에 완료됩니다. 학습이 종료되면 다음과 비슷한 출력이 표시됩니다.

I1107 20:28:57.561836 140033625347520 resnet_ctl_imagenet_main.py:222] Training 1 epochs, each epoch has 1251 steps, total steps: 1251; Eval 48 steps
I1107 20:34:09.638025 140033625347520 resnet_ctl_imagenet_main.py:358] Training loss: 0.6292637, accuracy: 0.99680257 at epoch 1
I1107 20:34:21.682796 140033625347520 resnet_ctl_imagenet_main.py:372] Test loss: 3.8977659, accuracy: 0.0% at epoch: 1
I1107 20:34:22.028973 140033625347520 resnet_ctl_imagenet_main.py:392]
Run stats:
{'train_loss': 0.6292637, 'train_acc': 0.99680257, 'eval_acc': 0.0, 'step_timestamp_log':
['BatchTimestamp <batch_index: 1, timestamp: 1573158554.11>'],
'train_finish_time': 1573158861.683073, 'eval_loss': 3.8977659>}

ResNet이 수렴되도록 학습시키려면 다음 스크립트에 표시된 것처럼 90 세대 동안 실행합니다. 학습과 평가는 함께 수행됩니다. 각 세대는 총 112,590개의 학습 단계와 48개의 평가 단계에 대해 1,251개 단계를 포함합니다.

(vm)$ python3 resnet_ctl_imagenet_main.py \
    --tpu=${TPU_NAME} \
    --model_dir=${MODEL_DIR} \
    --data_dir=${DATA_DIR} \
    --batch_size=1024 \
    --steps_per_loop=500 \
    --train_epochs=90 \
    --use_synthetic_data=false \
    --dtype=fp32 \
    --enable_eager=true \
    --enable_tensorboard=true \
    --distribution_strategy=tpu \
    --log_steps=50 \
    --single_l2_loss_op=true \
    --use_tf_function=true

명령어 플래그 설명

tpu
TPU의 이름입니다.
model_dir
모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용하는 경우 model_dir는 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
data_dir
학습 입력의 Cloud Storage 경로입니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
batch_size
학습 배치 크기입니다.
steps_per_loop
상태를 CPU에 저장하기 전에 실행할 학습 단계 수입니다. 학습 단계는 하나의 예시 배치를 처리하는 것입니다. 여기에는 정방향 전달 및 역전파가 모두 포함됩니다.
train_epochs
전체 데이터 세트를 사용하여 모델을 학습시키는 횟수입니다.
use_synthetic_data
학습에 합성 데이터를 사용할지 여부입니다.
dtype
학습에 사용할 데이터 유형입니다.
enable_eager
TensorFlow 즉시 실행을 사용 설정합니다.
enable_tensorboard
텐서보드를 사용 설정합니다.
distribution_strategy
TPU에서 ResNet 모델을 학습시키려면 distribution_strategytpu로 설정합니다.
log_steps
examples per second와 같은 타이밍 정보를 로깅하기 전에 수행해야 하는 학습 단계 수입니다.
single_l2_loss_op
Keras 계층별 L2 손실을 사용하는 대신 연결된 가중치를 기준으로 L2_loss를 계산합니다.
use_tf_function
tf.function 내부에서 학습과 테스트 단계를 래핑합니다.

학습 및 평가가 fake_imagenet 데이터 세트를 통해 이루어지므로 출력 결과에는 실제 데이터 세트에서 수행된 학습 및 평가 결과의 실제 출력이 반영되지 않습니다.

여기에서는 이 가이드를 마무리하고 GCP 리소스를 삭제하거나 Cloud TPU Pod에서 모델 실행을 더 살펴볼 수 있습니다.

Cloud TPU Pod로 모델 확장

Cloud TPU Pod로 모델을 확장하여 결과를 더 빠르게 얻을 수 있습니다. 완전히 지원되는 ResNet-50 모델은 다음 Pod 슬라이스로 작동할 수 있습니다.

  • v2-32
  • v3-32

Cloud TPU Pod에서 학습 및 평가는 함께 수행됩니다.

Cloud TPU Pod로 학습

  1. 단일 기기에서 모델 학습을 위해 만든 Cloud TPU 리소스를 삭제합니다.

    (vm)$ ctpu delete --zone=europe-west4-a \
     --tpu-only \
     --name=resnet-tutorial

    명령어 플래그 설명

    zone
    Cloud TPU를 생성하려는 영역입니다.
    tpu-only
    Cloud TPU를 삭제합니다.
    name
    생성할 Cloud TPU의 이름입니다.
    disk-size-gb
    ctpu up 명령어로 생성한 VM의 하드 디스크 크기(GB)입니다.
  2. Cloud TPU가 삭제되면 새 Cloud TPU Pod를 생성합니다. ctpu up 명령어를 실행하고 tpu-size 매개변수로 사용하려는 Pod 슬라이스를 지정합니다. 예를 들어 다음 명령어는 v3-32 Pod 슬라이스를 사용합니다.

    (vm)$ ctpu up --zone=europe-west4-a \
    --tpu-only \
    --name=resnet-tutorial \
    --tpu-size=v3-32
    

    명령어 플래그 설명

    zone
    Cloud TPU를 생성하려는 영역입니다.
    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 ctpu up 명령어는 VM과 Cloud TPU를 모두 생성합니다.
    name
    생성할 Cloud TPU의 이름입니다.
    tpu-size
    생성할 Cloud TPU의 유형입니다.

    CTPU 유틸리티에 대한 자세한 내용은 CTPU 참조를 확인하세요.

  3. 필수 환경 변수를 설정합니다.

    (vm)$ export TPU_NAME=resnet-tutorial
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/resnet-2x-pod
    
  4. 스크립트 디렉터리로 이동합니다.

    (vm)$ cd /usr/share/models/official/vision/image_classification/resnet
    
  5. 모델을 학습시킵니다.

    (vm)$ python3 resnet_ctl_imagenet_main.py \
      --tpu=${TPU_NAME} \
      --model_dir=${MODEL_DIR} \
      --data_dir=${DATA_DIR} \
      --batch_size=4096 \
      --steps_per_loop=500 \
      --train_epochs=1 \
      --use_synthetic_data=false \
      --dtype=fp32 \
      --enable_eager=true \
      --enable_tensorboard=true \
      --distribution_strategy=tpu \
      --log_steps=50 \
      --single_l2_loss_op=true \
      --use_tf_function=true
     

    명령어 플래그 설명

    tpu
    TPU의 이름입니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램이 폴더를 만듭니다. Cloud TPU를 사용하는 경우 model_dir는 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.
    data_dir
    학습 입력의 Cloud Storage 경로입니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
    batch_size
    학습 배치 크기입니다.
    steps_per_loop
    상태를 CPU에 저장하기 전에 실행할 학습 단계 수입니다. 학습 단계는 하나의 예시 배치를 처리하는 것입니다. 여기에는 정방향 전달 및 역전파가 모두 포함됩니다.
    train_epochs
    전체 데이터 세트를 사용하여 모델을 학습시키는 횟수입니다.
    use_synthetic_data
    학습에 합성 데이터를 사용할지 여부입니다.
    dtype
    학습에 사용할 데이터 유형입니다.
    enable_eager
    TensorFlow 즉시 실행을 사용 설정합니다.
    enable_tensorboard
    텐서보드를 사용 설정합니다.
    distribution_strategy
    TPU에서 ResNet 모델을 학습시키려면 distribution_strategytpu로 설정하세요.
    log_steps
    examples per second와 같은 타이밍 정보를 로깅하기 전에 수행할 학습 단계 수입니다.
    single_l2_loss_op
    Keras 계층별 L2 손실을 사용하는 대신 연결된 가중치에서 L2_loss를 계산합니다.
    use_tf_function
    tf.function 내부에서 학습과 테스트 단계를 래핑합니다.

이 절차는 fake_imagenet 데이터 세트를 1 세대로 학습시킵니다(총 312개 학습 단계와 12개 평가 단계). 이 학습은 v3-32 Cloud TPU에서 약 2분 정도 걸립니다. 학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

1107 22:45:19.821746 140317155378624 resnet_ctl_imagenet_main.py:358] Training loss: 0.22576721, accuracy: 0.838141 at epoch 1
I1107 22:45:33.892045 140317155378624 resnet_ctl_imagenet_main.py:372] Test loss: 0.26673648, accuracy: 0.0% at epoch: 1
I1107 22:45:34.851322 140317155378624 resnet_ctl_imagenet_main.py:392] Run stats:
{'train_loss': 0.22576721, 'train_acc': 0.838141, 'eval_acc': 0.0, 'step_timestamp_log': ['BatchTimestamp<batch_index: 1, timestamp: 1573166574.67>'], 'train_finish_time': 1573166733.892282, 'eval_loss': 0.26673648}

삭제

이 가이드에서 사용한 리소스 비용이 Google Cloud Platform 계정에 청구되지 않도록 하려면 다음 안내를 따르세요.

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud Shell에서 Compute Engine VM 및 Cloud TPU를 설정할 때 사용한 --zone 플래그로 ctpu delete를 실행합니다. 이렇게 하면 VM 및 Cloud TPU가 모두 삭제됩니다.

    $ ctpu delete --zone=europe-west4-a \
      --name=resnet-tutorial
    
  3. TPU 사용에 대한 불필요한 요금 청구를 방지하기 위해 ctpu status를 실행하여 할당된 인스턴스가 없는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 더 이상 할당된 인스턴스가 없다는 의미입니다.

    $ ctpu status --zone=europe-west4-a
    2018/04/28 16:16:23 WARNING: Setting zone to "europe-west4-a"
    No instances currently exist.
            Compute Engine VM:     --
            Cloud TPU:             --
  4. 아래와 같이 gsutil을 실행하여 bucket-name을 이 가이드에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

이 가이드에서는 샘플 데이터 세트를 사용하여 RESNET 모델을 학습시켰습니다. 이 학습 결과는 (대부분의 경우) 추론에 사용할 수 없습니다. 추론에 모델을 사용하려면 일반에 공개된 데이터 세트 또는 자체 데이터 세트에서 데이터를 학습시킵니다. Cloud TPU에서 학습된 모델은 데이터 세트가 TFRecord 형식이어야 합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델의 성능을 개선하려면 모델의 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보는 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정에 대한 자세한 내용은 초매개변수 조정 개요, 초매개변수 조정 서비스 사용, 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. AI Platform은 머신러닝 모델을 개발, 학습, 배포하기 위한 클라우드 기반 솔루션입니다. 모델이 배포되면 AI Platform Prediction 서비스를 사용할 수 있습니다.

  • 데이터 세트 전환 가이드에 따라 fake_imagenet 또는 ImageNet 데이터 세트 대신 자체 데이터를 사용하여 학습하고 평가하는 방법을 알아보세요. 이 가이드에서는 이미지 분류 데이터 변환기 예시 스크립트를 사용하여 이미지 분류를 위한 원시 데이터 세트를 Cloud TPU TensorFlow 모델에서 사용할 수 있는 TFRecord로 변환하는 방법을 설명합니다.
  • 자체 이미지 데이터를 사용하여 이미지 분류 모델을 실행하는 방법을 보여주는 Cloud TPU colab을 실행합니다.
  • 다른 Cloud TPU 가이드를 살펴보세요.
  • 텐서보드의 TPU 모니터링 도구 사용 방법을 알아보세요.
  • Cloud TPU 및 GKE를 사용하여 ResNet 학습시키는 방법 알아보기