Cloud TPU를 사용한 BERT 미세 조정: 문장 및 문장 쌍 분류 태스크(TF 2.x)


이 가이드에서는 Cloud TPU에서 Bidirectional Encoder Representations from Transformers(BERT) 모델을 학습시키는 방법을 보여줍니다.

BERT는 언어 표현을 사전 학습시키는 방법입니다. 사전 학습은 BERT가 Wikipedia와 같은 대량의 텍스트 소스로 처음 학습되는 방법을 나타냅니다. 이후 학습 결과를 질문 답변감정 분석과 같은 다른 자연어 처리(NLP) 태스크에 적용할 수 있습니다. BERT 및 Cloud TPU를 사용하면 약 30분 만에 다양한 NLP 모델을 학습시킬 수 있습니다.

BERT에 대한 자세한 내용은 다음 리소스를 참조하세요.

목표

  • 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷 만들기
  • 학습 작업 실행
  • 출력 결과 확인

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 섹션에서는 Cloud Storage 버킷 및 Compute Engine VM 설정에 대한 정보를 제공합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    
  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    
  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. TPU를 만들기 위해 사용하는 명령어(TPU 노드 아키텍처의 경우 gcloud compute tpus execution-groups create 또는 TPU VM 아키텍처의 경우 gcloud compute tpus tpu-vm create)는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대해 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

    버킷 위치는 Compute Engine(VM) 및 Cloud TPU 노드와 동일한 리전에 있어야 합니다.

  6. Compute Engine VM 및 Cloud TPU를 실행하려면 gcloud 명령어를 사용합니다. 사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다. 두 가지 VM 아키텍처에 관한 자세한 내용은 시스템 아키텍처를 참조하세요. gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.

    TPU VM

    $ gcloud compute tpus tpu-vm create bert-tutorial \
    --zone=us-central1-b \
    --accelerator-type=v3-8 \
    --version=tpu-vm-tf-2.16.1-se

    명령어 플래그 설명

    zone
    Cloud TPU를 만들려는 영역입니다.
    accelerator-type
    가속기 유형은 만들려는 Cloud TPU의 버전과 크기를 지정합니다. 각 TPU 버전에서 지원되는 가속기 유형에 대한 자세한 내용은 TPU 버전을 참조하세요.
    version
    Cloud TPU 소프트웨어 버전입니다.

    TPU 노드

    $ gcloud compute tpus execution-groups create \
      --name=bert-tutorial \
      --zone=us-central1-b \
      --tf-version=2.12.0 \
      --machine-type=n1-standard-1 \
      --accelerator-type=v3-8 

    명령어 플래그 설명

    name
    생성할 Cloud TPU의 이름입니다.
    zone
    Cloud TPU를 만들려는 영역입니다.
    tf-version
    Tensorflow ctpu 버전이 VM에 설치됩니다.
    machine-type
    생성할 Compute Engine VM의 머신 유형입니다.
    accelerator type
    생성할 Cloud TPU의 유형입니다.
  7. Compute Engine 인스턴스에 자동으로 로그인되지 않으면 다음 ssh 명령어를 실행하여 로그인합니다. VM에 로그인하면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경됩니다.

    TPU VM

    gcloud compute tpus tpu-vm ssh bert-tutorial --zone=us-central1-b
    

    TPU 노드

    gcloud compute ssh bert-tutorial --zone=us-central1-b
    

    안내를 계속 따르면서 (vm)$으로 시작하는 각 명령어를 VM 세션 창에서 실행합니다.

  8. TPU 이름의 환경 변수를 만듭니다.

    TPU VM

    (vm)$ export TPU_NAME=local
    

    TPU 노드

    (vm)$ export TPU_NAME=bert-tutorial
    

데이터 세트 준비

  1. 모델 및 데이터 세트를 저장하는 데 필요한 스토리지 버킷을 정의합니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
  2. 사전 학습된 체크포인트와 어휘 파일을 스토리지 버킷에 복사합니다.

      (vm)$ curl https://storage.googleapis.com/tf_model_garden/nlp/bert/v3/uncased_L-12_H-768_A-12.tar.gz -o uncased_L-12_H-768_A-12.tar.gz
      (vm)$ mkdir -p uncased_L-12_H-768_A-12
      (vm)$ tar -xvf uncased_L-12_H-768_A-12.tar.gz
      (vm)$ gsutil -m cp -R uncased_L-12_H-768_A-12 ${STORAGE_BUCKET} 

모델 학습

  1. 모델을 학습하고 평가하는 데 필요한 여러 매개변수 값을 정의합니다.

      (vm)$ export INIT_CHECKPOINT=${STORAGE_BUCKET}/uncased_L-12_H-768_A-12/bert_model.ckpt
      (vm)$ export TFDS_DIR=${STORAGE_BUCKET}/tfds
      (vm)$ export VOCAB_FILE=${STORAGE_BUCKET}/uncased_L-12_H-768_A-12/vocab.txt
      (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/bert-output
      (vm)$ export TASK=mnli
      

  2. TensorFlow 요구사항을 설치합니다.

    사용하는 명령어는 TPU VM과 TPU 노드 중 무엇을 사용하는지에 따라 다릅니다.

    TPU VM

    (vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt
    

    TPU 노드

    (vm)$ pip3 install --user -r /usr/share/models/official/requirements.txt
    (vm)$ pip3 install tensorflow-datasets==4.6.0
    
  3. PYTHONPATH 환경 변수를 설정합니다.

    TPU VM

    (vm)$ export PYTHONPATH=/usr/share/tpu/models
    

    TPU 노드

    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
    
  4. 모델을 저장하는 디렉터리로 변경합니다.

    TPU VM

    (vm)$ cd /usr/share/tpu/models
    

    TPU 노드

    (vm)$ cd /usr/share/models
    
  5. 학습 스크립트를 실행합니다.

    (vm)$ python3 official/nlp/train.py \
      --tpu=${TPU_NAME} \
      --experiment=bert/sentence_prediction_text \
      --mode=train_and_eval \
      --model_dir=${MODEL_DIR} \
      --config_file=official/nlp/configs/experiments/glue_mnli_text.yaml \
      --params_override="runtime.distribution_strategy=tpu, task.init_checkpoint=${INIT_CHECKPOINT}, task.train_data.tfds_data_dir=${TFDS_DIR}, task.train_data.vocab_file=${VOCAB_FILE}, task.validation_data.tfds_data_dir=${TFDS_DIR}, task.validation_data.vocab_file=${VOCAB_FILE}, trainer.train_steps=2000"
    

    명령어 플래그 설명

    tpu
    학습시킬 때 사용하는 Cloud TPU의 이름입니다.
    mode
    train, eval, train_and_eval, predict 중 하나입니다.
    model_dir
    모델 학습 중에 체크포인트와 요약이 저장되는 Cloud Storage 경로입니다. 이전 체크포인트가 동일한 크기 및 TensorFlow 버전의 Cloud TPU를 사용하여 생성되어 있는 한 기존 폴더를 다시 사용하여 이전에 생성된 체크포인트를 로드하고 추가 체크포인트를 저장할 수 있습니다.

    이 스크립트는 2,000개 단계를 학습한 후 307개 평가 단계를 실행합니다. v3-8 TPU에서 약 5분 후 학습 스크립트가 완료되고 다음과 비슷한 결과가 표시됩니다.

    I0719 00:47:52.683979 140297079573568 controller.py:457] train | step:   2000 | steps/sec:   26.3 | output:
    {'cls_accuracy': 0.7249375,
     'learning_rate': 1.4670059e-05,
     'training_loss': 0.6740678}
    train | step:   2000 | steps/sec:   26.3 | output:
    {'cls_accuracy': 0.7249375,
     'learning_rate': 1.4670059e-05,
     'training_loss': 0.6740678}
    I0719 00:47:53.184051 140297079573568 controller.py:277]  eval | step:   2000 | running 307 steps of evaluation...
    eval | step:   2000 | running 307 steps of evaluation...
    

삭제

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud TPU 및 Compute Engine 리소스를 삭제합니다. 리소스를 삭제하는 데 사용하는 명령어는 TPU VM 또는 TPU 노드 사용 여부에 따라 다릅니다. 자세한 내용은 시스템 아키텍처를 참조하세요.

    TPU VM

    $ gcloud compute tpus tpu-vm delete bert-tutorial \
    --zone=us-central1-b
    

    TPU 노드

    $ gcloud compute tpus execution-groups delete bert-tutorial \
    --zone=us-central1-b
    
  3. gcloud compute tpus execution-groups list를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음 명령어의 출력에는 이 튜토리얼에서 만든 리소스가 포함되어서는 안 됩니다.

    TPU VM

    $ gcloud compute tpus tpu-vm list --zone=us-central1-b

    TPU 노드

    $ gcloud compute tpus execution-groups list --zone=us-central1-b
  4. 아래와 같이 gsutil을 사용하여 Cloud Storage 버킷을 삭제합니다. bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

일반적으로 TensorFlow Cloud TPU 튜토리얼에서는 샘플 데이터 세트를 사용하여 모델을 학습시킵니다. 이 학습 결과는 추론에 사용될 수 없습니다. 모델을 추론에 사용하려면 일반에게 공개된 데이터 세트나 자체 데이터 세트에서 데이터를 학습시키면 됩니다. 일반적으로 Cloud TPU에서 학습된 TensorFlow 모델에는 TFRecord 형식의 데이터 세트가 필요합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우에는 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델 성능을 개선하려면 모델 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보를 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정 방법에 대한 자세한 내용은 초매개변수 조정 개요초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. Cloud TPU 추론 변환기 도구를 사용하여 Cloud TPU v5e에서 추론을 위한 TensorFlow 모델을 준비하고 최적화할 수 있습니다. Cloud TPU v5e에서 추론에 대한 자세한 내용은 Cloud TPU v5e 추론 소개를 참조하세요.