Cloud TPU에서 Tensor2Tensor를 사용한 Transformer 실행

이 가이드에서는 Cloud TPU에서 Tensor2Tensor를 사용하여 Transformer 모델(출처: Attention Is All You Need)을 학습시키는 방법을 보여줍니다.

모델 설명

Transformer 모델은 자체 주목(self-attention) 레이어 및 피드 전달(feed-forward) 레이어 스택을 사용하여 텍스트와 같은 순차 입력을 처리합니다. 이 모델은 다음과 같은 변형을 지원합니다.

  • transformer(디코더만): 단일 시퀀스 모델링을 수행하는 경우(사용 사례: 언어 모델링)
  • transformer(인코더-디코더): 시퀀스가 시퀀스 모델링을 수행하는 경우(사례: 번역)
  • transformer_encoder(인코더만): 시퀀스가 시퀀스 모델링을 수행하는 경우(사례: 감정 분류)

Transformer는 Tensor2Tensor 라이브러리에 있는 모델 중 하나일 뿐입니다. Tensor2Tensor(T2T)는 딥 러닝 모델과 데이터 세트뿐 아니라 스크립트 세트까지 포함된 라이브러리로, 이 스크립트를 통해 모델을 학습시키고 데이터를 다운로드 및 준비할 수 있습니다.

목표

  • 학습 데이터 세트 생성
  • 단일 Cloud TPU 기기 또는 Cloud TPU Pod에서 언어 모델 학습
  • 단일 Cloud TPU 기기에서 영어-독일어 번역 모델 학습
  • 단일 Cloud TPU에서 감정 분류 학습
  • Cloud TPU 리소스 삭제

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

가격 계산기를 사용하면 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

TPU Pod 슬라이스로 학습시키려는 경우 Pod 슬라이스에서 학습시킬 때 특별히 고려해야 할 TPU Pod 학습을 읽어보세요.

이 가이드를 시작하기 전에 아래 단계를 따라 Google Cloud 프로젝트가 정확하게 설정되었는지 확인하세요.

이 섹션에서는 Cloud Storage 버킷 및 Compute Engine VM 설정에 대한 정보를 제공합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.

  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 가이드에서 사용하는 gcloud compute tpus execution-groups 도구는 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

    버킷 위치는 가상 머신(VM) 및 TPU 노드와 동일한 리전에 있어야 합니다. VM 및 TPU 노드는 리전 내 구획인 특정 영역에 있습니다.

  6. gcloud 명령어를 사용하여 Compute Engine VM을 실행합니다.

    $ gcloud compute tpus execution-groups create \
     --vm-only \
     --name=transformer-tutorial \
     --zone=europe-west4-a \
     --disk-size=300 \
     --machine-type=n1-standard-8 \
     --tf-version=1.15.5
    

    명령어 플래그 설명

    vm-only
    VM만 만듭니다. 기본적으로 gcloud compute tpus execution-groups 명령어는 VM과 Cloud TPU를 생성합니다.
    name
    생성할 Cloud TPU의 이름입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    disk-size
    gcloud compute tpus execution-groups 명령어로 생성한 VM의 하드 디스크 크기(GB)입니다.
    machine-type
    생성할 Compute Engine VM의 머신 유형입니다.
    tf-version
    gcloud compute tpus execution-groups로 VM에 설치되는 Tensorflow 버전입니다.

    gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.

  7. 설정한 구성이 표시됩니다. 승인하려면 y를, 취소하려면 n을 누릅니다.

    gcloud compute tpus execution-groups 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    gcloud compute ssh transformer-tutorial --zone=europe-west4-a
    

    이 안내에 따라 계속 진행하면서 (vm)$로 시작하는 각 명령어를 Compute Engine 인스턴스에서 실행합니다.

Compute Engine VM에서 다음을 수행하세요.

  1. 다음 환경 변수를 만듭니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer
    (vm)$ export DATA_DIR=${STORAGE_BUCKET}/data
    (vm)$ export TMP_DIR=${HOME}/t2t_tmp
  2. 임시 파일을 저장할 디렉터리를 만듭니다.

    (vm)$ mkdir ${TMP_DIR}
  3. 모델 데이터를 처리하는 데 사용된 tensor2tensor 스크립트에 경로를 추가합니다.

    (vm)$ export PATH=.local/bin:${PATH}

단일 Cloud TPU에서 언어 모델 학습

  1. 언어 모델의 학습 데이터세트를 생성합니다.

    (vm)$ t2t-datagen --problem=languagemodel_lm1b32k_packed \
     --data_dir=${DATA_DIR} \
     --tmp_dir=${TMP_DIR}

    명령어 플래그 설명

    problem
    문제 이름입니다.
    data_dir
    학습 입력의 Cloud Storage 경로입니다.
    tmp_dir
    임시 스토리지 디렉터리입니다.
  2. 다음 명령어를 실행하여 Cloud TPU 리소스를 만듭니다.

    (vm)$ gcloud compute tpus execution-groups create --tpu-only \
     --zone=europe-west4-a \
     --tf-version=1.15.5 \
     --name=transformer-tutorial

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 gcloud compute tpus execution-groups 명령어는 VM과 Cloud TPU를 생성합니다.
    zone
    Cloud TPU를 생성하려는 영역입니다. Compute Engine VM에 사용한 영역과 같아야 합니다. 예를 들면 europe-west4-a입니다.
    tf-version
    ctpu로 VM에 설치되는 Tensorflow 버전입니다.
    name
    생성할 Cloud TPU의 이름입니다.
  3. TPU 이름의 환경 변수를 설정합니다.

    (vm)$ export TPU_NAME=transformer-tutorial
  4. 학습 스크립트를 실행합니다.

    (vm)$ t2t-trainer \
     --model=transformer \
     --hparams_set=transformer_tpu \
     --problem=languagemodel_lm1b32k_packed \
     --eval_steps=3 \
     --data_dir=${DATA_DIR} \
     --output_dir=${MODEL_DIR}/language_lm1b32k \
     --use_tpu=True \
     --cloud_tpu_name=${TPU_NAME} \
     --train_steps=10

    명령어 플래그 설명

    model
    학습시킬 모델입니다.
    hparams_set
    학습 중에 사용할 초매개변수입니다.
    problem
    문제 이름입니다.
    eval-steps
    평가할 단계 수입니다.
    data_dir
    학습 데이터가 저장되는 Cloud Storage 경로입니다.
    output_dir
    실행할 기본 출력 디렉터리입니다.
    use_tpu
    Cloud TPU를 사용하려면 `true`로 설정하고 그렇지 않으면 `false`로 설정합니다.
    cloud_tpu_name
    학습시킬 때 사용하는 Cloud TPU의 이름입니다.
    train_steps
    학습시킬 단계 수입니다.

    위의 명령어는 10 학습 단계와 3 평가 단계를 차례로 실행합니다. v3-8 TPU 노드에서 약 5분 동안 실행됩니다. 이 모델을 더 정확하게 만들려면 --train_steps 플래그를 조정하여 학습 단계 수를 늘려야 합니다. 모델 학습은 4만 단계 이상을 거치도록 구성하는 것이 좋습니다. 모델은 일반적으로 25만 단계를 거치면 최대 품질로 수렴합니다.

  5. 생성한 Cloud TPU 리소스를 삭제합니다.

    $ gcloud compute tpus execution-groups delete transformer-tutorial \
      --zone=europe-west4-a \
      --tpu-only

Cloud TPU Pod에서 언어 모델 학습

  1. gcloud 명령어를 실행하고 accelerator-type 매개변수로 사용하려는 Pod 슬라이스를 지정합니다. 예를 들어 다음 명령어는 v2-32 Pod 슬라이스를 사용합니다.

    (vm)$ gcloud compute tpus execution-groups create \
     --tpu-only \
     --accelerator-type=v2-32 \
     --name=transformer-tutorial-pod \
     --zone=europe-west4-a \
     --tf-version=1.15.5

    명령어 플래그 설명

    tpu-only
    VM을 만들지 않고 Cloud TPU를 생성합니다. 기본적으로 gcloud compute tpus execution-groups 명령어는 VM과 Cloud TPU를 생성합니다.
    accelerator-type
    생성할 Cloud TPU의 유형입니다.
    name
    생성할 Cloud TPU의 이름입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    tf-version
    ctpu로 VM에 설치되는 Tensorflow 버전입니다.
  2. 새 TPU 이름의 환경 변수를 설정합니다.

    (vm)$ export TPU_NAME=transformer-tutorial-pod
  3. 학습 스크립트를 실행합니다.

    (vm)$ t2t-trainer \
     --model=transformer \
     --hparams_set=transformer_tpu \
     --problem=languagemodel_lm1b32k_packed \
     --eval_steps=3 \
     --data_dir=${DATA_DIR} \
     --output_dir=${MODEL_DIR}/language_lm1b32k_pod \
     --use_tpu=True \
     --cloud_tpu_name=${TPU_NAME} \
     --tpu_num_shards=32  \
     --schedule=train \
     --train_steps=25000

    명령어 플래그 설명

    model
    학습시킬 모델입니다.
    hparams_set
    학습 중에 사용할 초매개변수입니다.
    problem
    문제 이름입니다.
    eval-steps
    평가할 단계 수입니다.
    data_dir
    학습 데이터가 저장되는 Cloud Storage 경로입니다.
    output_dir
    실행할 기본 출력 디렉터리입니다.
    use_tpu
    Cloud TPU를 사용하려면 `true`로 설정하고 그렇지 않으면 `false`로 설정합니다.
    cloud_tpu_name
    학습시킬 때 사용하는 Cloud TPU의 이름입니다.
    tpu_num_shards
    Cloud TPU 샤드 수입니다. 기본값은 '8'입니다.
    schedule
    실행할 실험 방법입니다.
    train_steps
    모델을 학습시키는 단계 수입니다.

    위의 명령어는 25,000개의 학습 단계와 3개의 평가 단계를 차례로 실행합니다. Cloud TPU v2-32에서 이 학습을 완료하는 데는 대략 30분이 소요됩니다.

    모델 학습은 4만 단계 이상을 거치도록 구성하는 것이 좋습니다. 모델은 일반적으로 25만 단계를 거치면 최대 품질로 수렴합니다.

  4. 학습을 위해 만든 Cloud TPU 리소스를 삭제합니다.

    (vm)$ gcloud compute tpus execution-groups delete transformer-tutorial \
      --zone=europe-west4-a \
      --tpu-only

단일 Cloud TPU 기기에서 영어-독일어 번역 모델 학습

  1. t2t-datagen 스크립트를 사용하여 Cloud Storage 버킷에서 번역 모델의 학습 및 평가 데이터를 생성합니다.

    (vm)$ t2t-datagen \
     --problem=translate_ende_wmt32k_packed \
     --data_dir=${DATA_DIR} \
     --tmp_dir=${TMP_DIR}

    명령어 플래그 설명

    problem
    문제 이름입니다.
    data_dir
    학습 입력의 Cloud Storage 경로입니다.
    tmp_dir
    임시 스토리지 디렉터리입니다.
  2. 다음 명령어를 실행하여 Cloud TPU 리소스를 만듭니다.

    (vm)$ gcloud compute tpus execution-groups create --tpu-only \
     --zone=europe-west4-a \
     --tf-version=1.15.5 \
     --name=transformer-tutorial

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 gcloud compute tpus execution-groups 명령어는 VM과 Cloud TPU를 생성합니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    tf-version
    gcloud compute tpus execution-groups로 VM에 설치되는 Tensorflow 버전입니다.
    name
    생성할 Cloud TPU의 이름입니다.
  3. 새 TPU 이름의 환경 변수를 설정합니다.

    (vm)$ export TPU_NAME=transformer-tutorial
  4. t2t-trainer를 실행하여 모델에 대한 학습 및 평가를 수행합니다.

    (vm)$ t2t-trainer \
     --model=transformer \
     --hparams_set=transformer_tpu \
     --problem=translate_ende_wmt32k_packed \
     --eval_steps=3 \
     --data_dir=${DATA_DIR} \
     --output_dir=${MODEL_DIR}/translate_ende \
     --use_tpu=True \
     --cloud_tpu_name=${TPU_NAME} \
     --train_steps=10

    명령어 플래그 설명

    model
    학습시킬 모델입니다.
    hparams_set
    학습 중에 사용할 초매개변수입니다.
    problem
    문제 이름입니다.
    eval-steps
    평가할 단계 수입니다.
    data_dir
    학습 데이터가 저장되는 Cloud Storage 경로입니다.
    output_dir
    실행할 기본 출력 디렉터리입니다.
    use_tpu
    Cloud TPU를 사용하려면 `true`로 설정하고 그렇지 않으면 `false`로 설정합니다.
    cloud_tpu_name
    학습시킬 때 사용하는 Cloud TPU의 이름입니다.
    train_steps
    모델을 학습시키는 단계 수입니다.

    위의 명령어는 10 학습 단계와 3 평가 단계를 차례로 실행합니다. v3-8 TPU 노드에서 약 5분 동안 실행됩니다. --train_steps 플래그를 조정하여 학습 단계 수를 늘릴 수 있습니다(늘려야 함). 번역은 일반적으로 4만 단계가 지나야 어느 정도의 수준을 갖추기 시작합니다. 모델은 일반적으로 25만 단계를 거치면 최대 품질로 수렴합니다.

  5. 단일 기기에서 모델 학습을 위해 만든 Cloud TPU 리소스를 삭제합니다.

    (vm)$ gcloud compute tpus execution-groups delete transformer-tutorial \
     --tpu-only \
     --zone=europe-west4-a 

단일 Cloud TPU에서 감정 분류 기준 모델 학습

  1. 감정 분류 모델의 데이터 세트를 생성합니다.

    (vm)$ t2t-datagen --problem=sentiment_imdb \
     --data_dir=${DATA_DIR} \
     --tmp_dir=${TMP_DIR}
  2. 다음 명령어를 실행하여 Cloud TPU 리소스를 만듭니다.

    (vm)$ gcloud compute tpus execution-groups create --tpu-only \
     --zone=europe-west4-a \
     --tf-version=1.15.5 \
     --name=transformer-tutorial

    명령어 플래그 설명

    tpu-only
    Cloud TPU만 생성합니다. 기본적으로 gcloud compute tpus execution-groups 명령어는 VM과 Cloud TPU를 생성합니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    tf-version
    gcloud compute tpus execution-groups로 VM에 설치되는 Tensorflow 버전입니다.
    name
    생성할 Cloud TPU의 이름입니다.
  3. 학습 스크립트를 실행합니다.

    (vm)$ t2t-trainer \
     --model=transformer_encoder \
     --hparams_set=transformer_tiny_tpu \
     --problem=sentiment_imdb \
     --eval_steps=1 \
     --data_dir=${DATA_DIR} \
     --output_dir=${MODEL_DIR}/sentiment_classifier \
     --use_tpu=True \
     --cloud_tpu_name=${TPU_NAME} \
     --train_steps=10
    

    명령어 플래그 설명

    model
    학습시킬 모델입니다.
    hparams_set
    학습 중에 사용할 초매개변수입니다.
    problem
    문제 이름입니다.
    eval-steps
    평가할 단계 수입니다.
    data_dir
    학습 데이터가 저장되는 Cloud Storage 경로입니다.
    output_dir
    실행할 기본 출력 디렉터리입니다.
    use_tpu
    Cloud TPU를 사용하려면 `true`로 설정하고 그렇지 않으면 `false`로 설정합니다.
    cloud_tpu_name
    학습시킬 때 사용하는 Cloud TPU의 이름입니다.
    train_steps
    모델을 학습시키는 단계 수입니다.

    위의 명령어는 10 학습 단계와 3 평가 단계를 차례로 실행합니다. v3-8 TPU 노드에서 약 5분 동안 실행됩니다. 이 모델은 약 2,000단계를 거친 후 약 85%의 정확성에 도달합니다.

삭제

이 가이드에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud Shell에서 Cloud TPU를 설정할 때 사용한 --zone 플래그로 gcloud compute tpus execution-groups를 실행하여 Compute Engine VM과 Cloud TPU를 삭제합니다.

    $ gcloud compute tpus execution-groups delete transformer-tutorial \
    --zone=europe-west4-a
    
  3. gcloud compute tpus execution-groups list를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 인스턴스가 성공적으로 삭제되었다는 의미입니다.

    $ gcloud compute tpus execution-groups list \
     --zone=europe-west4-a
    

    다음과 같은 빈 TPU 목록이 표시되어야 합니다.

       NAME             STATUS
    
  4. 아래와 같이 gsutil을 사용하여 Cloud Storage 버킷을 삭제합니다. bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

이 가이드에서는 샘플 데이터 세트를 사용하여 Transformer 모델을 학습시켰습니다. 이 학습 결과는 (대부분의 경우) 추론에 사용할 수 없습니다. 추론에 모델을 사용하려면 일반에 공개된 데이터 세트 또는 자체 데이터 세트에서 데이터를 학습시킵니다. Cloud TPU에서 학습된 모델은 데이터 세트가 TFRecord 형식이어야 합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델의 성능을 개선하려면 모델의 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보는 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정에 대한 자세한 내용은 초매개변수 조정 개요, 초매개변수 조정 서비스 사용, 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. AI Platform은 머신러닝 모델을 개발, 학습, 배포하기 위한 클라우드 기반 솔루션입니다. 모델이 배포되면 AI Platform Prediction 서비스를 사용할 수 있습니다.