Cloud TPU의 Transformer 학습(TF 2.x)


Cloud TPU에 익숙하지 않은 경우 빠른 시작으로 이동하여 TPU VM을 만드는 방법을 알아보는 것이 좋습니다.

이 튜토리얼에서는 Cloud TPU에서 Transformer 모델을 학습시키는 방법을 설명합니다. Transformer는 주목 메커니즘을 사용하여 시퀀스-투-시퀀스 문제를 해결하는 신경망 아키텍처입니다. 기존의 뉴런 seq2seq 모델과 달리 Transformer는 반복 연결을 포함하지 않습니다. 주목 메커니즘은 두 시퀀스에서 토큰 간의 종속 항목을 학습합니다. 시퀀스의 모든 토큰에 주목 가중치가 적용되므로 Transformer 모델은 장거리 종속 항목을 쉽게 캡처할 수 있습니다.

Transformer의 전체 구조는 표준 인코더-디코더 패턴을 따릅니다. 인코더는 자체 주목(self-attention)을 사용하여 입력 시퀀스의 표현을 계산합니다. 디코더는 인코더 출력과 이전 디코더 출력 토큰을 입력으로 하여 출력 시퀀스를 한 번에 토큰 하나씩 생성합니다.

이 모델은 또한 입력 및 출력 토큰에 대해 임베딩을 적용하고 일정한 위치 인코딩을 추가합니다. 위치 인코딩은 각 토큰의 위치에 대한 정보를 추가합니다.

목표

  • 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
  • 모델을 학습시키는 데 사용되는 데이터 세트 다운로드 및 사전 처리
  • 학습 작업 실행
  • 출력 결과 확인

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 튜토리얼을 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  5. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  6. 이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

단일 Cloud TPU 기기로 학습

이 섹션에서는 단일 기기 학습을 위한 Cloud Storage 버킷과 TPU VM을 설정하는 방법을 설명합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 환경 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 위치의 Google Cloud 프로젝트를 사용하도록 Google Cloud CLI를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에 있는 Authorize를 클릭하여 gcloud에서 사용자 인증 정보로 Google Cloud API를 호출하도록 허용합니다.

  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    서비스 계정은 Cloud TPU 서비스가 다른 Google Cloud 서비스에 액세스하도록 허용합니다.

    $ gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    $ gsutil mb -p ${PROJECT_ID} -c standard -l us-central2 gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는 TPU 설정을 위한 gcloud 명령어는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한도 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

단일 Cloud TPU에서 모델 학습

  1. gcloud 명령어를 사용하여 Cloud TPU VM을 시작합니다.

      $ gcloud compute tpus tpu-vm create transformer-tutorial \
         --zone=us-central2-b \
         --accelerator-type=v4-8 \
         --version=tpu-vm-tf-2.16.1-pjrt
    

    명령어 플래그 설명

    zone
    Cloud TPU를 만들려는 영역입니다.
    accelerator-type
    가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.
    version
    Cloud TPU 소프트웨어 버전입니다.
  2. 다음 ssh 명령어를 실행하여 Cloud TPU VM에 연결합니다.

    gcloud compute tpus tpu-vm ssh transformer-tutorial --zone=us-central2-b
    
  3. 환경 변수를 내보냅니다.

      (vm)$ export STORAGE_BUCKET=gs://bucket-name
      (vm)$ export SENTENCEPIECE_MODEL=sentencepiece
      (vm)$ export SENTENCEPIECE_MODEL_PATH=${STORAGE_BUCKET}/${SENTENCEPIECE_MODEL}.model
      (vm)$ export TFDS_DIR=${STORAGE_BUCKET}/tfds
      (vm)$ export PARAM_SET=big
      (vm)$ export TPU_NAME=local
      (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer/model_${PARAM_SET}
      (vm)$  export PYTHONPATH="/usr/share/tpu/models:$PYTHONPATH"
    
  4. TPU를 만들 때 --version 매개변수를 -pjrt로 끝나는 버전으로 설정한 경우 다음 환경 변수를 설정하여 PJRT 런타임을 사용 설정합니다.

      (vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true
      (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
    
  5. TensorFlow 요구사항을 설치합니다.

    (vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
    
  6. 데이터 세트를 다운로드하고 사전 처리합니다.

      (vm)$ python3 -c "import tensorflow_datasets as tfds; tfds.load('wmt14_translate/de-en', split='train+validation', shuffle_files=True, download=True)"
      (vm)$ python3 /usr/share/tpu/models/official/nlp/data/train_sentencepiece.py --output_model_path=${SENTENCEPIECE_MODEL}
    
  7. 데이터 세트를 Cloud Storage 버킷에 복사합니다.

      (vm)$ gsutil -m cp ${SENTENCEPIECE_MODEL}.model ${STORAGE_BUCKET}
      (vm)$ gsutil -m cp ${SENTENCEPIECE_MODEL}.vocab ${STORAGE_BUCKET}
      (vm)$ gsutil -m cp -r tensorflow_datasets/wmt14_translate ${TFDS_DIR}/wmt14_translate
    
  8. 학습 디렉터리로 이동합니다.

    (vm)$ cd /usr/share/tpu/models/
    
  9. 학습 스크립트 실행

    (vm)$ python3 official/nlp/train.py \
      --tpu=${TPU_NAME} \
      --experiment=wmt_transformer/large \
      --mode=train_and_eval \
      --model_dir=${MODEL_DIR} \
      --params_override="runtime.distribution_strategy=tpu, task.train_data.tfds_data_dir=${TFDS_DIR}, task.validation_data.tfds_data_dir=${TFDS_DIR}, task.sentencepiece_model_path=${SENTENCEPIECE_MODEL_PATH}, trainer.train_steps=10000, trainer.validation_interval=10000"
    

    명령어 플래그 설명

    tpu
    Cloud TPU의 이름입니다. 환경 변수(TPU_NAME)를 지정하면 설정됩니다.
    experiment
    학습시킬 모델입니다.
    mode
    스크립트를 실행할 모드입니다.
    model_dir
    학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 버킷입니다. 기존 폴더를 사용하면 동일한 크기 및 TensorFlow 버전의 TPU에 생성되어 있는 이전에 생성된 체크포인트를 로드할 수 있습니다.
    params_override
    모델 매개변수를 설정합니다.

    기본적으로 모델은 10000단계마다 평가됩니다. 다음 매개변수를 설정하여 학습 단계 수를 늘리거나 평가 실행 빈도를 지정할 수 있습니다.

    • train.train_steps: 실행할 총 학습 단계 수입니다.
    • trainer.validation_interval: 평가 간에 실행할 학습 단계 수입니다.

    v4-8 Cloud TPU에서 학습과 평가를 완료하는 데는 약 20분 정도가 소요됩니다. 학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

    I0208 20:57:19.309512 140039467895872 controller.py:310]  eval | step:  10000 | eval time:   69.2 sec | output:
    {'bleu_score': 19.204771518707275,
     'sacrebleu_score': 18.307039308307356,
     'validation_loss': 2.0654342}
     eval | step:  10000 | eval time:   69.2 sec | output:
    {'bleu_score': 19.204771518707275,
     'sacrebleu_score': 18.307039308307356,
     'validation_loss': 2.0654342}
    

    이제 단일 기기 학습을 완료했습니다. 다음 단계에 따라 단일 기기 TPU 리소스를 삭제합니다.

  10. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  11. TPU 리소스를 삭제합니다.

      $ gcloud compute tpus tpu-vm delete transformer-tutorial \
        --zone=us-central2-b
      

    명령어 플래그 설명

    zone
    Cloud TPU가 있는 영역입니다.

여기에서는 이 튜토리얼을 마무리하고 삭제하거나 Cloud TPU 포드에서 모델 실행을 살펴볼 수 있습니다.

Cloud TPU Pod로 모델 확장

Cloud TPU Pod에서 모델을 학습시키려면 학습 스크립트를 변경해야 할 수 있습니다. 자세한 내용은 TPU Pod에서 학습을 참조하세요.

TPU Pod 학습

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에 있는 Authorize를 클릭하여 gcloud에서 사용자 인증 정보로 API를 호출하도록 허용합니다.

  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만들거나 앞에서 프로젝트에 만든 버킷을 사용합니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는 gcloud 명령어는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

TPU VM 리소스 실행

  1. gcloud 명령어를 사용하여 TPU VM 포드를 시작합니다. 이 튜토리얼에서는 v4-32 포드를 지정합니다. 다른 포드 옵션은 TPU 유형 사용 가능한 TPU 유형 페이지를 참조하세요.

    $ gcloud compute tpus tpu-vm create transformer-tutorial \
      --zone=us-central2-b \
      --accelerator-type=v3-32 \
      --version=tpu-vm-tf-2.16.1-pod-pjrt
    

    명령어 플래그 설명

    zone
    Cloud TPU를 만들려는 영역입니다.
    accelerator-type
    가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.
    version
    Cloud TPU 소프트웨어 버전입니다.
  2. 다음 ssh 명령어를 실행하여 VM에 연결합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.

    gcloud compute tpus tpu-vm ssh transformer-tutorial --zone=us-central2-b
    
  3. TensorFlow 요구사항을 설치합니다.

    (vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
    

포드 학습 설정 및 시작

  1. Cloud TPU 설정 변수를 내보냅니다.

    (vm)$ export PYTHONPATH="/usr/share/tpu/models:$PYTHONPATH"
    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    (vm)$ export SENTENCEPIECE_MODEL=sentencepiece
    (vm)$ export SENTENCEPIECE_MODEL_PATH=${STORAGE_BUCKET}/${SENTENCEPIECE_MODEL}.model
    (vm)$ export TFDS_DIR=${STORAGE_BUCKET}/tfds
    (vm)$ export TPU_NAME=transformer-tutorial
    (vm)$ export PARAM_SET=big
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer/model_${PARAM_SET}
    (vm)$ export TPU_LOAD_LIBRARY=0
    
  2. 데이터 세트를 다운로드합니다.

    (vm)$ python3 -c "import tensorflow_datasets as tfds; tfds.load('wmt14_translate/de-en', split='train+validation', shuffle_files=True, download=True)"
    (vm)$ python3 /usr/share/tpu/models/official/nlp/data/train_sentencepiece.py --output_model_path=${SENTENCEPIECE_MODEL}

  3. 데이터 세트를 Cloud Storage 버킷에 복사합니다.

    (vm)$ gsutil -m cp ${SENTENCEPIECE_MODEL}.model ${STORAGE_BUCKET}
    (vm)$ gsutil -m cp ${SENTENCEPIECE_MODEL}.vocab ${STORAGE_BUCKET}
    (vm)$ gsutil -m cp -r tensorflow_datasets/wmt14_translate ${TFDS_DIR}/wmt14_translate
    
  4. 학습 디렉터리로 변경합니다.

    (vm)$ cd /usr/share/tpu/models/
  5. 학습 스크립트를 실행합니다.

    (vm)$ python3 official/nlp/train.py 
    --tpu=${TPU_NAME}
    --experiment=wmt_transformer/large
    --mode=train_and_eval
    --model_dir=${MODEL_DIR}
    --params_override="runtime.distribution_strategy=tpu, task.train_data.tfds_data_dir=${TFDS_DIR}, task.validation_data.tfds_data_dir=${TFDS_DIR}, task.sentencepiece_model_path=${SENTENCEPIECE_MODEL_PATH}, trainer.train_steps=10000, trainer.validation_interval=10000"

    Command flag descriptions

    tpu
    The name of the Cloud TPU. This is set by specifying the environment variable (TPU_NAME).
    experiment
    The model to train.
    mode
    The mode in which to run the script.
    model_dir
    The Cloud Storage bucket where checkpoints and summaries are stored during training. You can use an existing folder to load previously generated checkpoints created on a TPU of the same size and TensorFlow version.
    params_override
    Set model parameters.

기본적으로 모델은 10000단계마다 평가됩니다. 수렴 단계까지 학습시키려면 train_steps를 200,000으로 변경합니다. 다음 매개변수를 설정하여 학습 단계 수를 늘리거나 평가 실행 빈도를 지정할 수 있습니다.

  • trainer.train_steps: 실행할 총 학습 단계 수를 설정합니다.
  • trainer.validation_interval: 평가 간에 실행할 학습 단계 수를 설정합니다.

v4-32 Cloud TPU에서 학습과 평가를 완료하는 데는 약 14분 정도가 소요됩니다. 학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

I0209 22:19:49.143219 139751309618240 controller.py:310]  eval | step:  10000 | eval time:   73.6 sec | output:
    {'bleu_score': 19.401752948760986,
     'sacrebleu_score': 18.442741330886378,
     'validation_loss': 2.0558002}
 eval | step:  10000 | eval time:   73.6 sec | output:
    {'bleu_score': 19.401752948760986,
     'sacrebleu_score': 18.442741330886378,
     'validation_loss': 2.0558002}

이 학습 스크립트는 20,000단계에 걸쳐 학습되며 2,000단계마다 평가를 실행합니다. 이 특정 학습 및 평가는 v3-32 Cloud TPU 포드에서 8분 정도 소요됩니다. 학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

INFO:tensorflow:Writing to file /tmp/tmpdmlanxcf
I0218 21:09:19.100718 140509661046592 translate.py:184] Writing to file /tmp/tmpdmlanxcf
I0218 21:09:28.043537 140509661046592 transformer_main.py:118] Bleu score (uncased): 1.799112930893898
I0218 21:09:28.043911 140509661046592 transformer_main.py:119] Bleu score (cased): 1.730366237461567

수렴 단계까지 학습시키려면 train_steps를 200,000으로 변경합니다. 다음 매개변수를 설정하여 학습 단계 수를 늘리거나 평가 실행 빈도를 지정할 수 있습니다.

  • --train_steps: 실행할 총 학습 단계 수를 설정합니다.
  • --steps_between_evals: 평가 간에 실행할 학습 단계 수입니다.

학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

0509 00:27:59.984464 140553148962624 translate.py:184] Writing to file /tmp/tmp_rk3m8jp
I0509 00:28:11.189308 140553148962624 transformer_main.py:119] Bleu score (uncased): 1.3239131309092045
I0509 00:28:11.189623 140553148962624 transformer_main.py:120] Bleu score (cased): 1.2855342589318752

삭제

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud TPU 및 Compute Engine 리소스를 삭제합니다.

    $ gcloud compute tpus tpu-vm delete transformer-tutorial \
      --zone=us-central2-b
    
  3. 아래와 같이 gsutil을 실행하여 bucket-name을 이 튜토리얼에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    
    

다음 단계

일반적으로 TensorFlow Cloud TPU 튜토리얼에서는 샘플 데이터 세트를 사용하여 모델을 학습시킵니다. 이 학습 결과는 추론에 사용될 수 없습니다. 모델을 추론에 사용하려면 일반에게 공개된 데이터 세트나 자체 데이터 세트에서 데이터를 학습시키면 됩니다. 일반적으로 Cloud TPU에서 학습된 TensorFlow 모델에는 TFRecord 형식의 데이터 세트가 필요합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우에는 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델 성능을 개선하려면 모델 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보를 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정 방법에 대한 자세한 내용은 초매개변수 조정 개요초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. Cloud TPU 추론 변환기 도구를 사용하여 Cloud TPU v5e에서 추론을 위한 TensorFlow 모델을 준비하고 최적화할 수 있습니다. Cloud TPU v5e에서 추론에 대한 자세한 내용은 Cloud TPU v5e 추론 소개를 참조하세요.