Cloud TPU의 Transformer 학습(TF 2.x)

Transformer는 주목 메커니즘을 사용하여 시퀀스-투-시퀀스 문제를 해결하는 신경망 아키텍처입니다. 기존의 뉴런 seq2seq 모델과 달리 Transformer는 반복 연결을 포함하지 않습니다. 주목 메커니즘은 두 시퀀스에서 토큰 간의 종속 항목을 학습합니다. 시퀀스의 모든 토큰에 주목 가중치가 적용되므로 Transformer 모델은 장거리 종속 항목을 쉽게 캡처할 수 있습니다.

Transformer의 전체 구조는 표준 인코더-디코더 패턴을 따릅니다. 인코더는 자체 주목(self-attention)을 사용하여 입력 시퀀스의 표현을 계산합니다. 디코더는 인코더 출력과 이전 디코더 출력 토큰을 입력으로 하여 출력 시퀀스를 한 번에 토큰 하나씩 생성합니다.

이 모델은 또한 입력 및 출력 토큰에 대해 임베딩을 적용하고 일정한 위치 인코딩을 추가합니다. 위치 인코딩은 각 토큰의 위치에 대한 정보를 추가합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU

가격 계산기를 사용하면 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

TPU pod 슬라이스로 학습시키려면 pod 슬라이스 학습 시 특수한 고려사항을 설명하는 이 문서를 확인해야 합니다.

이 튜토리얼을 시작하기 전에 아래 단계를 따라 Google Cloud 프로젝트가 정확하게 설정되었는지 확인하세요.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.

  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는 gcloud 도구는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

  6. Compute Engine VM 및 Cloud TPU를 실행하려면 gcloud 명령어를 사용합니다. 사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다. 두 가지 VM 아키텍처에 관한 자세한 내용은 시스템 아키텍처를 참조하세요.

    TPU VM

    $ gcloud alpha compute tpus tpu-vm create transformer-tutorial \
     --zone=europe-west4-a \
     --accelerator-type=v3-8 \
     --version=v2-alpha
    

    명령어 플래그 설명

    zone
    Cloud TPU를 만들려는 영역입니다.
    accelerator-type
    생성할 Cloud TPU의 유형입니다.
    version
    Cloud TPU 런타임 버전입니다.

    TPU 노드

    $ gcloud compute tpus execution-groups create  \
    --disk-size=300 \
    --machine-type=n1-standard-8 \
    --zone=europe-west4-a \
    --tf-version=2.6.0
    

    명령어 플래그 설명

    disk-size
    VM의 디스크 크기(GB)입니다.
    machine_type
    gcloud 명령어로 만든 VM의 머신 유형입니다.
    tf-version
    gcloud compute tpus execution-groups로 VM에 설치되는 Tensorflow 버전입니다.

    gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.

  7. Compute Engine 인스턴스에 자동으로 로그인되지 않으면 다음 ssh 명령어를 실행하여 로그인합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.

    TPU VM

    gcloud alpha compute tpus tpu-vm ssh transformer-tutorial --zone=europe-west4-a
    

    TPU 노드

    gcloud compute ssh transformer-tutorial --zone=europe-west4-a
    

    이 안내에 따라 계속 진행하면서 VM 세션 창에서 (vm)$으로 시작하는 각 명령어를 실행합니다.

학습 데이터 세트 생성

VM에서 다음 안내를 따르세요.

  1. TensorFlow 요구사항을 설치하고 PYTHONPATH 환경 변수를 설정합니다.

    TPU VM

    (vm)$ git clone https://github.com/tensorflow/models.git
    (vm)$ pip3 install -r models/official/requirements.txt
    
    (vm)$ export PYTHONPATH="${PWD}/models:${PYTHONPATH}"
    

    TPU 노드

    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
    (vm)$ pip3 install -r /usr/share/models/official/requirements.txt
    
  2. 다음의 환경 변수를 만듭니다. 여기에서 bucket-name을 내 버킷 이름으로 바꿉니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
    (vm)$ export GCS_DATA_DIR=${STORAGE_BUCKET}/data/transformer
    (vm)$ export PARAM_SET=big
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer/model_${PARAM_SET}
    (vm)$ export DATA_DIR=${HOME}/transformer/data
    (vm)$ export VOCAB_FILE=${DATA_DIR}/vocab.ende.32768
    
  3. 모델을 저장하는 디렉터리로 변경합니다.

    TPU VM

    (vm)$ cd ~/models/official/nlp/transformer
    

    TPU 노드

    (vm)$ cd /usr/share/models/official/nlp/transformer
    
  4. 다음 데이터 세트 환경 변수를 설정합니다.

    (vm)$ export GCS_DATA_DIR=${STORAGE_BUCKET}/data/transformer
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer/model_${PARAM_SET}
    
  5. 데이터 세트 다운로드 및 준비

    (vm)$ python3 data_download.py --data_dir=${DATA_DIR}
    (vm)$ gsutil cp -r ${DATA_DIR} ${GCS_DATA_DIR}
    

    data_download.py는 학습 및 평가 WMT 데이터 세트를 다운로드하고 사전 처리합니다. 데이터가 다운로드 및 추출된 후 학습 데이터는 하위 토큰의 어휘를 생성하는 데 사용됩니다. 평가 및 학습 문자열은 토큰화되며 결과 데이터는 샤딩되고 셔플되어 TFRecord로 저장됩니다.

    1.75GB의 압축된 데이터가 다운로드됩니다. 원시 파일(압축, 추출, 결합 파일)은 디스크 공간을 최대 8.4GB 차지할 수 있습니다. 결과로 생성된 TFRecord 및 어휘 파일은 722MB입니다. 스크립트는 케이스 460,000개를 저장하며 실행하는 데 40분 정도가 소요됩니다.

단일 Cloud TPU 기기에서 영어-독일어 번역 모델 학습

Compute Engine VM에서 다음 명령어를 실행합니다.

  1. Cloud TPU 이름 변수를 설정합니다.

    TPU VM

    (vm)$ export TPU_NAME=local
    

    TPU 노드

    (vm)$ export TPU_NAME=transformer-tutorial
    
  2. 학습 스크립트를 실행합니다.

    (vm)$ python3 transformer_main.py \
        --tpu=${TPU_NAME} \
        --model_dir=${MODEL_DIR} \
        --data_dir=${GCS_DATA_DIR} \
        --vocab_file=${GCS_DATA_DIR}/vocab.ende.32768 \
        --bleu_source=${GCS_DATA_DIR}/newstest2014.en \
        --bleu_ref=${GCS_DATA_DIR}/newstest2014.de \
        --batch_size=6144 \
        --train_steps=2000 \
        --static_batch=true \
        --use_ctl=true \
        --param_set=big \
        --max_length=64 \
        --decode_batch_size=32 \
        --decode_max_length=97 \
        --padded_decode=true \
        --distribution_strategy=tpu
    

    명령어 플래그 설명

    tpu
    Cloud TPU의 이름입니다. 환경 변수(TPU_NAME)를 지정하면 설정됩니다.
    model_dir
    학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 버킷입니다. 기존 폴더를 사용하면 동일한 크기 및 TensorFlow 버전의 TPU에 생성되어 있는 이전에 생성된 체크포인트를 로드할 수 있습니다.
    data_dir
    학습 입력의 Cloud Storage 경로입니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
    vocab_file
    번역 어휘가 포함된 파일입니다.
    bleu_source
    번역할 출발어 문장이 포함된 파일입니다.
    bleu_ref
    번역 문장에 대한 참조가 포함된 파일입니다.
    train_steps
    모델을 학습시키는 단계 수입니다. 한 단계가 데이터 배치 하나를 처리합니다. 여기에는 정방향 전달 및 역전파가 모두 포함됩니다.
    batch_size
    학습 배치 크기입니다.
    static_batch
    데이터 세트의 배치가 정적 형태인지 여부를 지정합니다.
    use_ctl
    스크립트가 커스텀 학습 루프로 실행되는지 여부를 지정합니다.
    param_set
    모델을 만들고 학습시킬 때 사용하도록 설정된 매개변수입니다. 매개변수는 입력 도형, 모델 구성 및 기타 설정을 정의합니다.
    max_length
    데이터 세트에서 예시의 최대 길이입니다.
    decode_batch_size
    Cloud TPU에서 Transformer 자동 회귀 디코딩에 사용되는 전역 배치 크기입니다.
    decode_max_length
    디코딩/평가 데이터의 최대 시퀀스 길이입니다. 이는 Cloud TPU의 Transformer 자동 회귀 디코딩에서 필요한 데이터 패딩의 양을 최소화하는 데 사용됩니다.
    padded_decode
    decode_max_length로 패딩된 입력 데이터를 사용하여 자동 회귀 디코딩을 실행할지 여부를 지정합니다. TPU/XLA-GPU가 실행되는 경우 이 플래그는 정적 형태 요구사항으로 인해 설정되어야 합니다.
    distribution_strategy
    Cloud TPU에서 ResNet 모델을 학습시키려면 distribution_strategytpu로 설정합니다.

    기본적으로 모델은 2000단계마다 평가됩니다. 수렴 단계까지 학습시키려면 train_steps를 200,000으로 변경합니다. 다음 매개변수를 설정하여 학습 단계 수를 늘리거나 평가 실행 빈도를 지정할 수 있습니다.

    • --train_steps: 실행할 총 학습 단계 수를 설정합니다.
    • --steps_between_evals: 평가 간에 실행할 학습 단계 수입니다.

    v3-8 Cloud TPU에서 학습과 평가를 완료하는 데는 약 7분 정도가 소요됩니다. 학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

    INFO:tensorflow:Writing to file /tmp/tmpej76vasn
    I0218 20:07:26.020797 140707963950912 translate.py:184] Writing to file /tmp/tmpej76vasn
    I0218 20:07:35.099256 140707963950912 transformer_main.py:118] Bleu score (uncased): 0.99971704185009
    I0218 20:07:35.099616 140707963950912 transformer_main.py:119] Bleu score (cased): 0.9768599644303322
    

    이제 단일 기기 학습을 완료했습니다. 다음 단계를 수행하여 현재 단일 기기 TPU 리소스를 삭제합니다.

  3. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  4. TPU 리소스를 삭제합니다.

    TPU VM

    $ gcloud alpha compute tpus tpu-vm delete transformer-tutorial \
    --zone=europe-west4-a
    

    명령어 플래그 설명

    zone
    Cloud TPU가 있는 영역입니다.

    TPU 노드

    $ gcloud compute tpus execution-groups delete transformer-tutorial \
    --tpu-only \
    --zone=europe-west4-a
    

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 삭제합니다. VM을 계속 사용할 수 있습니다.
    zone
    삭제할 TPU가 포함된 영역입니다.

여기에서는 이 튜토리얼을 마무리하고 삭제하거나 Cloud TPU pod에서 모델 실행을 살펴볼 수 있습니다.

Cloud TPU pod로 모델 확장

TPU VM pod 학습

pod 프로젝트 리소스 설정

이 섹션에서는 pod 학습을 위한 Cloud Storage 버킷 및 Cloud TPU 리소스 설정에 대한 정보를 제공합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.

  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만들거나 앞에서 프로젝트에 만든 버킷을 사용합니다. 앞에서 만든 버킷을 사용하는 경우 이 단계를 건너뜁니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 튜토리얼에서 사용하는 gcloud 명령어는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

    버킷 위치는 VM 및 TPU 리소스와 동일한 리전에 있어야 합니다.

TPU VM 리소스 실행

  1. gcloud alpha compute tpus tpu-vm 명령어를 사용하여 TPU VM pod를 시작합니다. 이 튜토리얼에서는 v3-32 pod를 지정합니다. 다른 pod 옵션은 사용 가능한 TPU 유형 페이지를 참조하세요.

    $ gcloud alpha compute tpus tpu-vm create transformer-tutorial \
    --zone=europe-west4-a \
    --accelerator-type=v3-32 \
    --version=v2-alpha-pod
    

    명령어 플래그 설명

    zone
    Cloud TPU를 만들려는 영역입니다.
    accelerator-type
    생성할 Cloud TPU의 유형입니다.
    version
    Cloud TPU 런타임 버전입니다.
  2. gcloud alpha compute tpus 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    다음 명령어를 실행하여 Compute Engine 인스턴스에 연결합니다.

      gcloud alpha compute tpus tpu-vm ssh transformer-tutorial --zone=europe-west4-a
      

학습 데이터 세트 생성

VM에서 다음 안내를 따르세요.

  1. TensorFlow 요구사항을 설치하고 PYTHONPATH 환경 변수를 설정합니다.

    (vm)$ git clone https://github.com/tensorflow/models.git
    (vm)$ pip3 install -r models/official/requirements.txt
    
    (vm)$ export PYTHONPATH="${PWD}/models:${PYTHONPATH}"
    
  2. TPU 이름을 내보냅니다.

    (vm)$ export TPU_NAME=transformer-tutorial
    
  3. bucket-name을 Cloud Storage 버킷 이름으로 바꿔 다음 환경 변수를 설정합니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
    (vm)$ export TPU_LOAD_LIBRARY=0
    (vm)$ export GCS_DATA_DIR=${STORAGE_BUCKET}/data/transformer
    (vm)$ export PARAM_SET=big
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer/model_${PARAM_SET}_pod
    

    학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.

  4. 스크립트 디렉터리로 이동합니다.

    (vm)$ cd ~/models/official/nlp/transformer
    
  5. 데이터 세트 다운로드 및 준비

    (vm)$ export DATA_DIR=${HOME}/transformer/data
    (vm)$ export VOCAB_FILE=${DATA_DIR}/vocab.ende.32768
    (vm)$ python3 data_download.py --data_dir=${DATA_DIR}
    (vm)$ gsutil cp -r ${DATA_DIR} ${GCS_DATA_DIR}
    

    data_download.py는 학습 및 평가 WMT 데이터 세트를 다운로드하고 사전 처리합니다. 데이터가 다운로드 및 추출된 후 학습 데이터는 하위 토큰의 어휘를 생성하는 데 사용됩니다. 평가 및 학습 문자열은 토큰화되며 결과 데이터는 샤딩되고 셔플되어 TFRecord로 저장됩니다.

    1.75GB의 압축된 데이터가 다운로드됩니다. 원시 파일(압축, 추출, 결합 파일)은 디스크 공간을 최대 8.4GB 차지할 수 있습니다. 결과로 생성된 TFRecord 및 어휘 파일은 722MB입니다. 스크립트는 케이스 460,000개를 저장하며 실행하는 데 40분 정도가 소요됩니다.

추가 패키지 설치

  1. 학습 스크립트에는 추가 패키지가 필요합니다. 지금 설치합니다.

    (vm)$ sudo pip3 install tensorflow-model-optimization>=0.1.3
    

pod 학습 설정 및 시작

  1. 필수 환경 변수를 설정합니다.

    (vm)$ export TPU_LOAD_LIBRARY=0
    (vm)$ export PYTHONPATH="${PWD}/models:${PYTHONPATH}"
    (vm)$ export RESNET_PRETRAIN_DIR=gs://cloud-tpu-checkpoints/retinanet/resnet50-checkpoint-2018-02-07
    (vm)$ export TRAIN_FILE_PATTERN=${DATA_DIR}/train-*
    (vm)$ export EVAL_FILE_PATTERN=${DATA_DIR}/val-*
    (vm)$ export VAL_JSON_FILE=${DATA_DIR}/instances_val2017.json
    
  2. 학습 스크립트를 실행합니다.

    (vm)$ python3 transformer_main.py \
        --tpu=${TPU_NAME} \
        --model_dir=${MODEL_DIR} \
        --data_dir=${GCS_DATA_DIR} \
        --vocab_file=${GCS_DATA_DIR}/vocab.ende.32768 \
        --bleu_source=${GCS_DATA_DIR}/newstest2014.en \
        --bleu_ref=${GCS_DATA_DIR}/newstest2014.de \
        --batch_size=6144 \
        --train_steps=2000 \
        --static_batch=true \
        --use_ctl=true \
        --param_set=big \
        --max_length=64 \
        --decode_batch_size=32 \
        --decode_max_length=97 \
        --padded_decode=true \
        --distribution_strategy=tpu

    명령어 플래그 설명

    tpu
    Cloud TPU의 이름입니다. 환경 변수(TPU_NAME)를 지정하면 설정됩니다.
    model_dir
    학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 버킷입니다. 기존 폴더를 사용하면 동일한 크기 및 TensorFlow 버전의 TPU에 생성되어 있는 이전에 생성된 체크포인트를 로드할 수 있습니다.
    data_dir
    학습 입력의 Cloud Storage 경로입니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
    vocab_file
    번역 어휘가 포함된 파일입니다.
    bleu_source
    번역할 출발어 문장이 포함된 파일입니다.
    bleu_ref
    번역 문장에 대한 참조가 포함된 파일입니다.
    train_steps
    모델을 학습시키는 단계 수입니다. 한 단계가 데이터 배치 하나를 처리합니다. 여기에는 정방향 전달 및 역전파가 모두 포함됩니다.
    batch_size
    학습 배치 크기입니다.
    static_batch
    데이터 세트의 배치가 정적 형태인지 여부를 지정합니다.
    use_ctl
    스크립트가 커스텀 학습 루프로 실행되는지 여부를 지정합니다.
    param_set
    모델을 만들고 학습시킬 때 사용하도록 설정된 매개변수입니다. 매개변수는 입력 도형, 모델 구성 및 기타 설정을 정의합니다.
    max_length
    데이터 세트에서 예시의 최대 길이입니다.
    decode_batch_size
    Cloud TPU에서 Transformer 자동 회귀 디코딩에 사용되는 전역 배치 크기입니다.
    decode_max_length
    디코딩/평가 데이터의 최대 시퀀스 길이입니다. 이는 Cloud TPU의 Transformer 자동 회귀 디코딩에서 필요한 데이터 패딩의 양을 최소화하는 데 사용됩니다.
    padded_decode
    decode_max_length로 패딩된 입력 데이터를 사용하여 자동 회귀 디코딩을 실행할지 여부를 지정합니다. TPU/XLA-GPU가 실행되는 경우 이 플래그는 정적 형태 요구사항으로 인해 설정되어야 합니다.
    distribution_strategy
    Cloud TPU에서 ResNet 모델을 학습시키려면 distribution_strategytpu로 설정합니다.

기본적으로 모델은 2000단계마다 평가됩니다. 수렴 단계까지 학습시키려면 train_steps를 200,000으로 변경합니다. 다음 매개변수를 설정하여 학습 단계 수를 늘리거나 평가 실행 빈도를 지정할 수 있습니다.

  • --train_steps: 실행할 총 학습 단계 수를 설정합니다.
  • --steps_between_evals: 평가 간에 실행할 학습 단계 수입니다.

v3-32 Cloud TPU에서 학습과 평가를 완료하는 데는 약 7분 정도가 소요됩니다. 학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

I0415 00:28:33.108577 140097002981184 transformer_main.py:311] Train Step: 2000/2000 / loss = 5.139615058898926
I0415 00:28:33.108953 140097002981184 keras_utils.py:148] TimeHistory: 120.39 seconds, 102065.86 examples/second between steps 0 and 2000
.
.
.
I0415 00:32:01.785520 140097002981184 transformer_main.py:116] Bleu score (uncased): 0.8316259831190109
I0415 00:32:01.786150 140097002981184 transformer_main.py:117] Bleu score (cased): 0.7945530116558075

TPU 노드 pod 학습

  1. gcloud compute tpus 명령어를 실행하고 accelerator-type 매개변수로 사용하려는 pod 슬라이스를 지정합니다. 예를 들어 다음 명령어는 v3-32 pod 슬라이스를 사용합니다.

    (vm)$ gcloud compute tpus execution-groups create \
      --tpu-only \
      --accelerator-type=v3-32 \
      --zone=europe-west4-a \
      --tf-version=2.6.0
    

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 gcloud compute tpus execution-groups 명령어는 VM과 Cloud TPU를 생성합니다.
    accelerator-type
    생성할 Cloud TPU의 유형입니다.
    zone
    Cloud TPU를 만들려는 영역입니다. Compute Engine VM에 사용한 영역과 같아야 합니다. 예를 들면 europe-west4-a입니다.
    tf-version
    gcloud로 VM에 설치되는 Tensorflow 버전입니다.
    name
    생성할 Cloud TPU의 이름입니다.
  2. Compute Engine 인스턴스에 자동으로 로그인되지 않으면 다음 ssh 명령어를 실행하여 로그인합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.

        gcloud compute ssh transformer-tutorial --zone=europe-west4-a
     

  3. TPU 이름을 내보냅니다.

    (vm)$ export TPU_NAME=transformer-tutorial
    
  4. bucket-name을 Cloud Storage 버킷 이름으로 바꿔 다음 환경 변수를 설정합니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    

    학습 애플리케이션을 사용하려면 Cloud Storage에서 학습 데이터에 액세스할 수 있어야 합니다. 학습 애플리케이션 역시 학습 도중 Cloud Storage 버킷을 사용하여 체크포인트를 저장합니다.

  5. 모델 디렉터리 변수를 내보냅니다.

    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer/model_${PARAM_SET}_pod
    
  6. 디렉터리를 학습 디렉터리로 변경합니다.

    (vm)$ cd /usr/share/models/official/nlp/transformer
    
  7. pod 학습 스크립트를 실행합니다.

    (vm)$ python3 transformer_main.py \
         --tpu=${TPU_NAME} \
         --model_dir=${MODEL_DIR} \
         --data_dir=${GCS_DATA_DIR} \
         --vocab_file=${GCS_DATA_DIR}/vocab.ende.32768 \
         --bleu_source=${GCS_DATA_DIR}/newstest2014.en \
         --bleu_ref=${GCS_DATA_DIR}/newstest2014.de \
         --batch_size=24576 \
         --train_steps=2000 \
         --static_batch=true \
         --use_ctl=true \
         --param_set=big \
         --max_length=64 \
         --decode_batch_size=32 \
         --decode_max_length=97 \
         --padded_decode=true \
         --steps_between_evals=2000 \
         --distribution_strategy=tpu
    

    명령어 플래그 설명

    tpu
    Cloud TPU의 이름입니다. 환경 변수(TPU_NAME)를 지정하면 설정됩니다.
    model_dir
    학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 버킷입니다. 기존 폴더를 사용하면 동일한 크기 및 TensorFlow 버전의 TPU에 생성되어 있는 이전에 생성된 체크포인트를 로드할 수 있습니다.
    data_dir
    학습 입력의 Cloud Storage 경로입니다. 이 예시에서는 fake_imagenet 데이터 세트로 설정됩니다.
    vocab_file
    번역 어휘가 포함된 파일입니다.
    bleu_source
    번역할 출발어 문장이 포함된 파일입니다.
    bleu_ref
    번역 문장에 대한 참조가 포함된 파일입니다.
    batch_size
    학습 배치 크기입니다.
    train_steps
    모델을 학습시키는 단계 수입니다. 한 단계가 데이터 배치 하나를 처리합니다. 여기에는 정방향 전달 및 역전파가 모두 포함됩니다.
    static_batch
    데이터 세트의 배치가 정적 형태인지 여부를 지정합니다.
    use_ctl
    스크립트가 커스텀 학습 루프로 실행되는지 여부를 지정합니다.
    param_set
    모델을 만들고 학습시킬 때 사용하도록 설정된 매개변수입니다. 매개변수는 입력 도형, 모델 구성 및 기타 설정을 정의합니다.
    max_length
    데이터 세트에서 예시의 최대 길이입니다.
    decode_batch_size
    Cloud TPU에서 Transformer 자동 회귀 디코딩에 사용되는 전역 배치 크기입니다.
    decode_max_length
    디코딩/평가 데이터의 최대 시퀀스 길이입니다. 이는 Cloud TPU의 Transformer 자동 회귀 디코딩에서 필요한 데이터 패딩의 양을 최소화하는 데 사용됩니다.
    padded_decode
    decode_max_length로 패딩된 입력 데이터를 사용하여 자동 회귀 디코딩을 실행할지 여부를 지정합니다. TPU/XLA-GPU가 실행되는 경우 이 플래그는 정적 형태 요구사항으로 인해 설정되어야 합니다.
    steps_between_evals
    평가 간에 실행할 학습 단계 수입니다.
    distribution_strategy
    TPU에서 ResNet 모델을 학습시키려면 distribution_strategytpu로 설정합니다.

이 학습 스크립트는 2,000단계에 걸쳐 학습되며 2,000단계마다 평가를 실행합니다. 이 특정 학습 및 평가는 v3-32 Cloud TPU pod에서 8분 정도 소요됩니다. 학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

INFO:tensorflow:Writing to file /tmp/tmpdmlanxcf
I0218 21:09:19.100718 140509661046592 translate.py:184] Writing to file /tmp/tmpdmlanxcf
I0218 21:09:28.043537 140509661046592 transformer_main.py:118] Bleu score (uncased): 1.799112930893898
I0218 21:09:28.043911 140509661046592 transformer_main.py:119] Bleu score (cased): 1.730366237461567

수렴 단계까지 학습시키려면 train_steps를 200,000으로 변경합니다. 다음 매개변수를 설정하여 학습 단계 수를 늘리거나 평가 실행 빈도를 지정할 수 있습니다.

  • --train_steps: 실행할 총 학습 단계 수를 설정합니다.
  • --steps_between_evals: 평가 간에 실행할 학습 단계 수입니다.

학습 및 평가가 완료되면 다음과 비슷한 메시지가 표시됩니다.

0509 00:27:59.984464 140553148962624 translate.py:184] Writing to file /tmp/tmp_rk3m8jp
I0509 00:28:11.189308 140553148962624 transformer_main.py:119] Bleu score (uncased): 1.3239131309092045
I0509 00:28:11.189623 140553148962624 transformer_main.py:120] Bleu score (cased): 1.2855342589318752

정리

이 튜토리얼에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud TPU 및 Compute Engine 리소스를 삭제합니다. 리소스를 삭제하는 데 사용하는 명령어는 TPU VM 또는 TPU 노드 사용 여부에 따라 다릅니다. 자세한 내용은 시스템 아키텍처를 참조하세요.

    TPU VM

    $ gcloud alpha compute tpus tpu-vm delete transformer-tutorial \
    --zone=europe-west4-a
    

    TPU 노드

    $ gcloud compute tpus execution-groups delete transformer-tutorial \
    --zone=europe-west4-a
    
  3. gcloud compute tpus execution-groups list를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 인스턴스가 성공적으로 삭제되었다는 의미입니다.

    $ gcloud compute tpus execution-groups list --zone=europe-west4-a
    
    Listed 0 items.
    
  4. 아래와 같이 gsutil을 실행하여 bucket-name을 이 튜토리얼에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

이 튜토리얼에서는 샘플 데이터 세트를 사용하여 TRANSFORMER 모델을 학습시켰습니다. 이 학습 결과는 (대부분의 경우) 추론에 사용할 수 없습니다. 추론에 모델을 사용하려면 일반에 공개된 데이터 세트 또는 자체 데이터 세트에서 데이터를 학습시킵니다. Cloud TPU에서 학습된 모델은 데이터 세트가 TFRecord 형식이어야 합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델의 성능을 개선하려면 모델의 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보는 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정에 대한 자세한 내용은 초매개변수 조정 개요, 초매개변수 조정 서비스 사용, 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. AI Platform은 머신러닝 모델을 개발, 학습, 배포하기 위한 클라우드 기반 솔루션입니다. 모델이 배포되면 AI Platform Prediction 서비스를 사용할 수 있습니다.