Cloud TPU에서 Inception 실행

정리 블록 #}을 표시하려면 1로 설정합니다

이 가이드는 Cloud TPU에서 Inception 모델을 학습시키는 방법을 설명합니다.

면책조항

이 가이드는 제3자 데이터세트를 사용합니다. Google은 이 데이터세트의 유효성을 비롯한 그 어떤 특성에 대한 진술, 보증 또는 기타 보장을 제공하지 않습니다.

모델 설명

Inception v3은 널리 사용되는 이미지 인식 모델로서 높은 정확성을 달성할 수 있습니다. 이 모델은 장기간 수많은 연구에서 나온 다양한 아이디어가 축적된 결과입니다. 이 내용은 세게디 외 여러 저자가 저술한 'Rethinking the Inception Architecture for Computer Vision'이라는 원본 논문을 토대로 작성되었습니다.

모델은 다음을 비롯한 대칭 및 비대칭 구성 요소의 조합으로 이루어져 있습니다.

  • 컨볼루션
  • 평균 풀링
  • 최대 풀링
  • 이어붙이기
  • 드롭아웃
  • 완전 연결형 레이어

손실은 소프트맥스를 통해 계산됩니다.

다음 그림에서 이 모델을 대략적으로 볼 수 있습니다.

이미지

GitHub에서 이 모델에 관한 자세한 정보를 확인할 수 있습니다.

이 모델은 고급 Estimator API를 사용하여 설계되었습니다.

이 API는 가장 낮은 수준의 함수를 포함하고 있어 모델 생성이 훨씬 간단합니다. 따라서 사용자는 실행 기반이 되는 하드웨어의 내부 작동에 신경 쓸 필요 없이 모델 개발에 집중할 수 있습니다.

목표

  • 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
  • 학습 작업 실행
  • 출력 결과를 확인합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

가격 계산기를 사용하면 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다.

Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 가이드를 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Cloud Console의 프로젝트 선택기 페이지에서 Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. 이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마친 후에는 생성한 리소스를 삭제해야 불필요한 비용이 청구되지 않습니다.

리소스 설정

이 섹션에서는 가이드에 사용할 Cloud Storage, VM, Cloud TPU 리소스를 설정하는 방법을 설명합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    
  4. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다. bucket-name을 버킷 이름으로 바꿉니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 가이드에서 사용하는 ctpu up 도구는 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

    버킷 위치는 가상 머신(VM) 및 TPU 노드와 동일한 리전에 있어야 합니다. VM 및 TPU 노드는 리전 내 구획인 특정 영역에 있습니다.

  5. ctpu up 명령어를 사용하여 이 가이드에 필요한 Compute Engine 리소스를 시작합니다.

    ctpu up --zone=us-central1-b \
      --vm-only \
      --machine-type=n1-standard-8 \
      --tf-version=1.15.3 \
      --name=inception-tutorial
    

    CTPU 유틸리티에 대한 자세한 내용은 CTPU 참조를 확인하세요.

  6. 프롬프트가 표시되면 y를 눌러서 Cloud TPU 리소스를 만듭니다.

    ctpu up 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다. Compute Engine 인스턴스에 연결되어 있지 않으면 다음 명령어를 실행하여 수행할 수 있습니다.

    gcloud compute ssh inception-tutorial --zone=us-central1-b
    

    여기에서 (vm)$ 프리픽스는 Compute Engine VM 인스턴스에서 명령어를 실행해야 한다는 의미입니다.

  7. 저장소 버킷의 환경 변수를 만듭니다. bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
  8. TPU 이름의 환경 변수를 만듭니다.

    (vm)$ export TPU_NAME=inception-tutorial

학습 데이터 세트

학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.

ImageNet은 이미지 데이터베이스입니다. 이 데이터베이스의 이미지는 계층 구조로 구성되며, 계층 구조의 각 노드는 수백 또는 수천 개의 이미지로 표현됩니다.

이 가이드에서는 fake_imagenet 데이터 세트라는 전체 ImageNet 데이터 세트의 데모 버전을 사용합니다. 이 데모 버전을 사용하면 전체 ImageNet 데이터 세트를 다운로드하고 모델을 실행하는 데 필요한 스토리지 또는 시간을 들이지 않고 가이드를 테스트할 수 있습니다. 다음은 모델 테스트용으로 무작위로 생성된 fake_imagenet 데이터 세트를 사용하기 위한 안내입니다. 전체 ImageNet 데이터 세트를 대신 사용해도 됩니다.

아래에 설명되어 있는 DATA_DIR 환경 변수는 학습시킬 데이터 세트를 지정하는 데 사용됩니다.

fake_imagenet 데이터 세트는 Cloud TPU 사용 방법을 이해하고 엔드 투 엔드 성능을 검증하는 용도로만 사용됩니다. 정확성 숫자와 저장된 모델은 의미가 없습니다.

fake_imagenet 데이터세트는 Cloud Storage의 다음 위치에 있습니다.

gs://cloud-tpu-test-datasets/fake_imagenet
.

(선택사항) 텐서보드 설정

텐서보드는 TensorFlow 데이터를 시각적으로 표현하도록 설계된 도구 모음을 제공합니다. 텐서보드를 모니터링에 사용하면 처리 시 병목현상을 식별할 수 있으며 성능을 향상시킬 수 있습니다.

모델의 출력을 모니터링할 필요가 없으면 텐서보드 설정 단계를 건너뛰어도 됩니다.

모델의 출력과 성능을 모니터링하려면 가이드를 따라 텐서보드를 설정합니다.

모델 실행

이제 ImageNet 데이터를 사용하여 Inception v3 모델에 대한 학습 및 평가 작업을 수행할 준비가 되었습니다.

Inception v3 모델은 Compute Engine VM의 /usr/share/tpu/models/experimental/inception/ 디렉터리에 사전 설치됩니다.

다음 단계에서 프리픽스 (vm)$는 Compute Engine VM에서 명령어를 실행해야 한다는 의미입니다.

  1. 다음 값 중 하나가 포함된 DATA_DIR 환경 변수를 설정합니다.

    • fake_imagenet 데이터 세트를 사용하는 경우:

      (vm)$ export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
      
    • Cloud Storage 버킷에 학습 데이터 세트를 업로드한 경우:

      (vm)$ export DATA_DIR=${STORAGE_BUCKET}/data
      
  2. Inception v3 모델을 실행합니다.

    (vm)$ python /usr/share/tpu/models/experimental/inception/inception_v3.py \
        --tpu=$TPU_NAME \
        --learning_rate=0.165 \
        --train_steps=250000 \
        --iterations=500 \
        --use_tpu=True \
        --use_data=real \
        --mode=train_and_eval \
        --train_steps_per_eval=2000 \
        --data_dir=${DATA_DIR} \
        --model_dir=${STORAGE_BUCKET}/inception
    • --tpu는 Cloud TPU의 이름을 지정합니다. ctpu는 이 이름을 Compute Engine VM에 환경 변수(TPU_NAME)로 전달합니다.
    • --use_data는 학습 중에 프로그램에서 사용해야 하는 데이터 유형을 fake 또는 real 중에서 지정합니다. 기본값은 fake입니다.
    • --data_dir은 학습 입력을 위한 Cloud Storage 경로를 지정합니다. fake_imagenet 데이터를 사용하는 경우 이 매개변수는 무시됩니다.
    • --model_dir은 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램에서 하나 만듭니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.

예상 결과

Inception v3은 299x299 이미지에서 작동합니다. 기본 학습 배치 크기는 1,024로서 각 반복이 1,024개의 이미지에서 이루어진다는 의미입니다.

--mode 플래그를 사용하여 train, eval, train_and_eval의 세 가지 작업 모드 중 하나를 선택할 수 있습니다.

  • --mode=train 또는 --mode=eval은 학습 전용 또는 평가 전용 작업 중 하나를 지정합니다.
  • --mode=train_and_eval은 학습과 평가를 모두 수행하는 하이브리드 작업을 지정합니다.

학습 전용 작업은 train_steps에 정의된 특정 단계 수만큼 실행되며 원하는 경우 전체 학습 세트를 진행할 수 있습니다.

Train_and_eval 작업은 학습과 평가 과정을 계속 순환합니다. 각 학습 주기는 train_steps_per_eval 동안 실행되고 평가 작업이 이어집니다(해당 지점까지 학습된 가중치 사용).

학습 주기 횟수는 train_stepstrain_steps_per_eval로 나눈 floor 함수로 정의됩니다.

floor(train_steps / train_steps_per_eval)

기본적으로 Estimator API 기반 모델은 일정 개수의 단계마다 손실 값을 보고합니다. 보고 형식은 다음과 같은 행으로 이루어져 있습니다.

step = 15440, loss = 12.6237

논의: 모델에 대한 TPU별 수정

TPU에 사용할 수 있는 Estimator API 기반 모델을 가져오기 위한 수정 작업은 의외로 간단합니다. 프로그램은 다음과 같은 라이브러리를 가져옵니다.

from google.third_party.tensorflow.contrib.tpu.python.tpu import tpu_config
from google.third_party.tensorflow.contrib.tpu.python.tpu import tpu_estimator
from google.third_party.tensorflow.contrib.tpu.python.tpu import tpu_optimizer

CrossShardOptimizer 함수는 다음과 같이 옵티마이저를 래핑합니다.

if FLAGS.use_tpu:
  optimizer = tpu_optimizer.CrossShardOptimizer(optimizer)

모델을 정의하는 함수는 다음을 사용하여 에스티메이터 사양을 반환합니다.

return tpu_estimator.TPUEstimatorSpec(
    mode=mode, loss=loss, train_op=train_op, eval_metrics=eval_metrics)

기본 함수는 다음을 사용하여 에스티메이터 호환 구성을 정의합니다.

run_config = tpu_config.RunConfig(
    master=tpu_grpc_url,
    evaluation_master=tpu_grpc_url,
    model_dir=FLAGS.model_dir,
    save_checkpoints_secs=FLAGS.save_checkpoints_secs,
    save_summary_steps=FLAGS.save_summary_steps,
    session_config=tf.ConfigProto(
        allow_soft_placement=True,
        log_device_placement=FLAGS.log_device_placement),
    tpu_config=tpu_config.TPUConfig(
        iterations_per_loop=iterations,
        num_shards=FLAGS.num_shards,
        per_host_input_for_training=per_host_input_for_training))

프로그램은 다음과 같이 정의된 구성 및 모델 정의 함수를 사용하여 에스티메이터 객체를 생성합니다.

inception_classifier = tpu_estimator.TPUEstimator(
    model_fn=inception_model_fn,
    use_tpu=FLAGS.use_tpu,
    config=run_config,
    params=params,
    train_batch_size=FLAGS.train_batch_size,
    eval_batch_size=eval_batch_size,
    batch_axis=(batch_axis, 0))

학습 전용 작업은 학습 함수만 호출해야 합니다.

inception_classifier.train(
    input_fn=imagenet_train.input_fn, steps=FLAGS.train_steps)

평가 전용 작업은 사용 가능한 체크포인트에서 데이터를 가져오고 새로운 체크포인트가 사용 가능할 때까지 대기합니다.

for checkpoint in get_next_checkpoint():
  eval_results = inception_classifier.evaluate(
      input_fn=imagenet_eval.input_fn,
      steps=eval_steps,
      hooks=eval_hooks,
      checkpoint_path=checkpoint)

train_and_eval 옵션을 선택하면 학습 작업과 평가 작업이 동시에 실행됩니다. 평가 중에 학습 가능한 변수가 사용 가능한 최신 체크포인트에서 로드됩니다. 학습 및 평가 주기는 다음 플래그에 지정한 대로 반복됩니다.

for cycle in range(FLAGS.train_steps // FLAGS.train_steps_per_eval):
  inception_classifier.train(
      input_fn=imagenet_train.input_fn, steps=FLAGS.train_steps_per_eval)

  eval_results = inception_classifier.evaluate(
      input_fn=imagenet_eval.input_fn, steps=eval_steps, hooks=eval_hooks)

모델 학습에 fake_imagenet 데이터세트를 사용한 경우 삭제를 진행하세요.

전체 Imagenet 데이터 세트 사용

ImageNet 데이터 세트는 학습 데이터, 검증 데이터, 이미지 라벨의 세 부분으로 구성됩니다.

학습 데이터에는 쉽게 다운로드할 수 있도록 패키징된 1,000개의 카테고리와 120만 개의 이미지가 포함됩니다. 검증 및 테스트 데이터는 ImageNet 학습 데이터에 포함되지 않습니다(중복은 제거했음).

검증 및 테스트 데이터는 Flicker 및 기타 검색엔진에서 수집한 150,000개의 사진으로 구성되며, 1,000개 카테고리의 존재 또는 부재로 라벨이 지정되어 있습니다. 1,000개의 객체 카테고리에는 ImageNet의 내부 노드와 리프 노드가 모두 포함되지만 서로 겹치지 않습니다. 라벨이 있는 이미지 중 50,000개의 임의 하위 집합이 1,000개의 카테고리 목록과 함께 검증 데이터로 공개되었습니다. 나머지 이미지는 평가에 사용되며 라벨 없이 공개되었습니다.

전체 ImageNet 데이터 세트 사전 처리 단계

머신러닝 모델에서 사용할 전체 ImageNet 데이터 세트를 준비하는 5가지 단계가 있습니다.

  1. 다운로드 대상에 공간이 있는지 확인합니다.
  2. 대상 디렉터리를 설정합니다.
  3. ImageNet 사이트에 등록하고 다운로드 권한을 요청합니다.
  4. 데이터 세트를 로컬 디스크 또는 Compute Engine VM에 다운로드합니다.

  5. 사전 처리 및 업로드 스크립트를 실행합니다.

공간 요구사항 확인

데이터 세트를 로컬 머신으로 다운로드하든 Compute Engine VM으로 다운로드하든 다운로드 대상에 약 300GB의 여유 공간이 필요합니다. VM에서 df -ha 명령어를 사용하여 사용 가능한 저장 공간을 확인할 수 있습니다.

다음 방법 중 하나를 사용하여 VM 디스크의 크기를 늘릴 수 있습니다.

  • ctpu up 명령줄에서 할당할 크기(GB 단위)와 함께 --disk-size-gb 플래그를 지정합니다.
  • Compute Engine 가이드를 따라 VM에 디스크를 추가합니다.
    • 인스턴스 삭제 시디스크 삭제로 설정하여 VM 삭제 시 디스크가 삭제되도록 합니다.
    • 새로운 디스크 경로를 기록합니다. 예를 들면 /mnt/disks/mnt-dir입니다.

대상 디렉터리 설정

로컬 머신 또는 Compute Engine VM에 다운로드된 데이터를 저장하도록 디렉터리 구조를 설정합니다.

  • ImageNet 데이터 세트의 홈 디렉터리를 만들고 내보냅니다.

    로컬 머신 또는 VM의 홈 디렉터리 아래에 imagenet과 같은 디렉터리를 만듭니다. 이 디렉터리에서 두 하위 디렉터리(trainvalidation)를 만듭니다. 홈 디렉터리를 IMAGENET_HOME으로 내보냅니다.

    export IMAGENET_HOME=~/imagenet
    

등록 및 데이터 세트 다운로드 권한 요청

  • Imagenet 웹사이트에 등록합니다. ImageNet에서 등록을 확인하고 확인 이메일을 보내기 전에는 데이터 세트를 다운로드할 수 없습니다. 며칠 이내에 확인 이메일을 받지 못하면 ImageNet 지원에 문의하여 등록이 확인되지 않은 이유를 확인하세요. 등록이 확인되면 다운로드 사이트로 이동합니다.

ImageNet 데이터 세트 다운로드

  1. 다운로드 사이트에서 페이지의 이미지 섹션으로 이동하고 '학습 이미지(작업 1 및 2)'를 마우스 오른쪽 버튼으로 클릭합니다. 그러면 학습 세트에서 가장 큰 부분을 다운로드하는 데 필요한 URL이 제공됩니다. URL을 저장합니다.

    '학습 이미지(작업 3)'를 마우스 오른쪽 버튼으로 클릭하여 두 번째 학습 세트의 URL을 가져옵니다. URL을 저장합니다.

    '검증 이미지(모든 작업)'를 마우스 오른쪽 버튼으로 클릭하여 검증 데이터 세트의 URL을 확인합니다. URL을 저장합니다.

    ImageNet 파일을 로컬 머신에 다운로드하는 경우 다운로드가 완료되면 로컬 머신의 디렉터리를 Compute Engine VM의 해당 $IMAGENET_HOME 디렉터리에 복사해야 합니다. ImageNet 데이터 세트를 로컬 호스트에서 VM으로 복사하는 데는 약 13시간이 걸립니다.

    예를 들어 다음 명령어는 로컬 머신의 $IMAGENET_HOME 아래에 있는 모든 파일을 셸 프롬프트에 username@vm-name이라고 표시된 VM에 복사합니다.

    gcloud compute scp --recurse $IMAGENET_HOME username@vm-name:~/imagenet
    
  2. $IMAGENET_HOME에서 wget을 사용하여 저장된 URL로 학습 및 검증 파일을 다운로드합니다.

    '학습 이미지(작업 1 및 2)' 파일은 큰 학습 세트입니다. 용량은 138GB이며, Cloud Shell을 사용하여 Compute Engine VM으로 다운로드하는 경우 예상 다운로드 시간은 약 40시간입니다. 이 대용량 파일의 경우에는 명령어 앞에 nohup를 추가하거나 screen을 사용하여 Cloud Shell의 연결이 끊겨도 다운로드가 종료되지 않도록 할 수 있습니다.

    cd $IMAGENET_HOME \
    nohup wget http://image-net.org/challenges/LSVRC/2012/dd31405981ef5f776aa17412e1f0c112/ILSVRC2012_img_train.tar
    

    그러면 ILSVRC2012_img_train.tar라는 대용량 파일이 다운로드됩니다.

    VM의 $IMAGENET_HOME에서 다음 명령어를 사용하여 개별 학습 디렉터리를 $IMAGENET_HOME/train 디렉터리로 추출합니다. 추출에는 1~3시간이 걸립니다.

    tar xf ILSVRC2012_img_train.tar
    

    '학습 이미지(작업 3)' 파일은 728MB이며 다운로드하는 데 몇 분밖에 걸리지 않으므로 Cloud Shell 연결이 끊기지 않도록 예방 조치를 취할 필요가 없습니다.

    이 파일을 다운로드하면 개별 학습 디렉터리가 기존 $IMAGENET_HOME/train 디렉터리로 추출됩니다.

    wget http://www.image-net.org/challenges/LSVRC/2012/dd31405981ef5f776aa17412e1f0c112/ILSVRC2012_img_train_t3.tar
    

    '검증 이미지(모든 작업)' 파일은 6GB이므로 Cloud Shell의 연결이 끊겨도 다운로드가 종료되지 않도록 nohup 또는 screen을 사용해 보는 것도 좋겠습니다.

    wget http://www.image-net.org/challenges/LSVRC/2012/dd31405981ef5f776aa17412e1f0c112/ILSVRC2012_img_val.tar
    

    이 다운로드에 약 30분 걸립니다. 이 파일을 다운로드하면 개별 검증 디렉터리를 $IMAGENET_HOME/validation 디렉터리로 추출합니다.

    로컬 머신에 검증 파일을 다운로드한 경우 로컬 머신의 $IMAGENET_HOME/validation 디렉터리를 Compute Engine VM의 $IMAGENET_HOME/validation 디렉터리에 복사해야 합니다. 이 복사 작업은 약 30분 걸립니다.

    라벨 파일을 다운로드합니다. 이 작업은 몇 초 정도 걸립니다.

    wget -O $IMAGENET_HOME/synset_labels.txt \
    https://raw.githubusercontent.com/tensorflow/models/master/research/inception/inception/data/imagenet_2012_validation_synset_labels.txt
    

    로컬 머신에 라벨 파일을 다운로드한 경우 로컬 머신의 $IMAGENET_HOME 디렉터리를 Compute Engine VM의 $IMAGENET_HOME 디렉터리에 복사해야 합니다. 이 복사 작업은 몇 초 정도 걸립니다.

    학습 하위 디렉터리 이름(예: n03062245)은 'WordNet ID'(wnid)입니다. ImageNet API는 WordNet ID와 synset_labels.txt 파일의 관련된 검증 라벨 간의 매핑을 보여줍니다. 여기서 synset은 시각적으로 유사한 이미지 그룹입니다.

Imagenet 데이터 세트를 처리하고, 원하는 경우 Cloud Storage에 업로드

  1. GitHub에서 imagenet_to_gcs.py 스크립트를 다운로드합니다.

    wget https://raw.githubusercontent.com/tensorflow/tpu/master/tools/datasets/imagenet_to_gcs.py
    
  2. 데이터 세트를 Cloud Storage에 업로드하는 경우 ImageNet 데이터 세트를 업로드할 스토리지 버킷 위치를 지정합니다.

    export STORAGE_BUCKET=gs://bucket-name
    
  3. 데이터 세트를 Cloud Storage에 업로드하는 경우 데이터 세트를 저장할 스토리지 버킷 데이터 디렉터리를 지정합니다.

    (vm)$ export DATA_DIR=$STORAGE_BUCKET/dataset-directory
    
  4. 스크립트를 실행하여 원시 데이터 세트를 TFRecord로 사전 처리하고 다음 명령어를 사용하여 Cloud Storage에 업로드합니다.

     python3 imagenet_to_gcs.py \
      --project=$PROJECT \
      --gcs_output_path=$DATA_DIR  \
      --raw_data_dir=$IMAGENET_HOME \
      --local_scratch_dir=$IMAGENET_HOME/tf_records
    

다음과 같은 형식으로 일련의 디렉터리(학습 및 검증용)가 생성됩니다

${DATA_DIR}/train-00000-of-01024
${DATA_DIR}/train-00001-of-01024
 ...
${DATA_DIR}/train-01023-of-01024

${DATA_DIR}/validation-00000-of-00128
S{DATA_DIR}/validation-00001-of-00128
 ...
${DATA_DIR}/validation-00127-of-00128

데이터가 Cloud 버킷에 업로드되었으면 모델을 실행하고 --data_dir=${DATA_DIR}을 설정합니다.

삭제

이 항목에서 사용한 리소스 비용이 GCP 계정에 청구되지 않도록 다음을 수행합니다.

  1. Compute Engine VM의 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud Shell에서 Cloud TPU를 설정할 때 사용한 --zone 플래그로 ctpu delete를 실행하여 Compute Engine VM과 Cloud TPU를 삭제합니다.

    $ ctpu delete [optional: --zone]
    
  3. TPU 사용에 대한 불필요한 요금 청구를 방지하기 위해 ctpu status를 실행하여 할당된 인스턴스가 없는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 더 이상 할당된 인스턴스가 없다는 의미입니다.

    $ ctpu status --zone=europe-west4-a
    
    2018/04/28 16:16:23 WARNING: Setting zone to "--zone=europe-west4-a"
    No instances currently exist.
        Compute Engine VM:     --
        Cloud TPU:             --
    
  4. 아래와 같이 gsutil을 실행하여 bucket-name을 이 가이드에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

Inception v4

Inception v4 모델은 Inception v3 구성요소를 사용하여 Inception v3보다 높은 정확성을 실현하는 심층신경망입니다. 이 내용은 세게디 외 여러 저자가 저술한 'Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning'이라는 원본 논문을 토대로 작성되었습니다.

Inception v4 모델은 Compute Engine VM의 /usr/share/tpu/models/experimental/inception/ 디렉터리에 사전 설치됩니다.

다음 단계에서 프리픽스 (vm)$는 Compute Engine VM에서 명령어를 실행해야 한다는 의미입니다.

  1. Cloud Shell 탭에서 텐서보드가 실행 중인 경우 실습을 위해 다른 탭이 필요합니다. Cloud Shell에서 다른 탭을 열고 새로운 셸에서 ctpu를 사용하여 Compute Engine VM에 연결합니다.

    $ ctpu up
  2. 다음 값 중 하나가 포함된 DATA_DIR 환경 변수를 설정합니다.

    • fake_imagenet 데이터 세트를 사용하는 경우:

      (vm)$ export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet
      
    • Cloud Storage 버킷에 학습 데이터 세트를 업로드한 경우:

      (vm)$ export DATA_DIR=${STORAGE_BUCKET}/data
      
  3. Inception v4 모델을 실행합니다.

    (vm)$ python /usr/share/tpu/models/experimental/inception/inception_v4.py \
        --tpu=$TPU_NAME \
        --learning_rate=0.36 \
        --train_steps=1000000 \
        --iterations=500 \
        --use_tpu=True \
        --use_data=real \
        --train_batch_size=256 \
        --mode=train_and_eval \
        --train_steps_per_eval=2000 \
        --data_dir=${DATA_DIR} \
        --model_dir=${STORAGE_BUCKET}/inception
    • --tpu는 Cloud TPU의 이름을 지정합니다. ctpu는 이 이름을 Compute Engine VM에 환경 변수(TPU_NAME)로 전달합니다.
    • --use_data는 학습 중에 프로그램에서 사용해야 하는 데이터 유형을 fake 또는 real 중에서 지정합니다. 기본값은 fake입니다.
    • --train_batch_size는 학습 배치 크기를 256으로 지정합니다. Inception v4 모델이 Inception v3보다 크기 때문에 실행하는 TPU 코어당 배치 크기가 더 작아야 합니다.
    • --data_dir은 학습 입력을 위한 Cloud Storage 경로를 지정합니다. fake_imagenet 데이터를 사용하는 경우 이 매개변수는 무시됩니다.
    • --model_dir은 모델 학습 중에 체크포인트와 요약이 저장되는 디렉터리를 지정합니다. 폴더가 없는 경우에는 프로그램에서 하나 만듭니다. Cloud TPU를 사용할 때 model_dir은 Cloud Storage 경로(gs://...)여야 합니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 현재 체크포인트 데이터를 로드하고 추가 체크포인트를 저장할 수 있습니다.

삭제

다음 단계

## 다음 단계 {: #whats-next } 이 가이드에서는 샘플 데이터 세트를 사용하여 Inception 모델을 학습시켰습니다. 이 학습 결과는 (대부분의 경우) 추론에 사용할 수 없습니다. 추론에 모델을 사용하려면 일반에 공개된 데이터 세트 또는 자체 데이터 세트에서 데이터를 학습시킵니다. Cloud TPU에서 학습된 모델은 데이터 세트가 TFRecord 형식이어야 합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델의 성능을 개선하려면 모델의 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보는 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정에 대한 자세한 내용은 초매개변수 조정 개요, 초매개변수 조정 서비스 사용, 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. AI Platform은 머신러닝 모델을 개발, 학습, 배포하기 위한 클라우드 기반 솔루션입니다. 모델이 배포되면 AI Platform Prediction 서비스를 사용할 수 있습니다.

  • Cloud TPU에서 사용하는 Inception v3의 고급 보기를 참조하여 더 자세히 알아보기
  • 로컬 머신에 설치하는 방법을 비롯하여 ctpu를 자세히 알아보세요.
  • 텐서보드의 TPU 도구 살펴보기