Cloud TPU를 사용한 BERT 미세 조정: 문장 및 문장 쌍 분류 태스크

이 튜토리얼에서는 Cloud TPU에서 Bidirectional Encoder Representations from Transformers(BERT) 모델을 학습시키는 방법을 보여줍니다.

BERT는 언어 표현을 사전 학습시키는 방법입니다. 사전 학습은 BERT가 Wikipedia와 같은 대량의 텍스트 소스로 처음 학습되는 방법을 나타냅니다. 이후 학습 결과를 질문 답변감정 분석과 같은 다른 자연어 처리(NLP) 태스크에 적용할 수 있습니다. BERT 및 Cloud TPU를 사용하면 약 30분 만에 다양한 NLP 모델을 학습시킬 수 있습니다.

BERT에 대한 자세한 내용은 다음 리소스를 참조하세요.

목표

  • 데이터세트와 모델 출력을 저장할 Cloud Storage 버킷을 만듭니다.
  • BERT 저장소 및 기타 필수 파일을 클론합니다.
  • 학습 작업을 실행합니다.
  • 출력 결과를 확인합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

가격 계산기를 사용하면 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 섹션에서는 Cloud Storage 버킷 및 Compute Engine VM 설정에 대한 정보를 제공합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.

  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    

  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다.

    Cloud TPU가 스토리지 버킷을 읽고 쓰려면 프로젝트의 서비스 계정에 읽기/쓰기 또는 관리자 권한이 필요합니다. 권한을 확인하고 설정하는 방법은 스토리지 버킷 섹션을 참조하세요.

  6. Compute Engine VM 및 Cloud TPU를 실행하려면 gcloud compute tpus execution-groups 명령어를 사용합니다.

    $ gcloud compute tpus execution-groups create \
     --name=bert-tutorial \
     --zone=us-central1-b \
     --tf-version=1.15.5 \
     --machine-type=n1-standard-8 \
     --accelerator-type=v3-8
    

    명령어 플래그 설명

    name
    생성할 Cloud TPU의 이름입니다.
    zone
    Cloud TPU를 만들려는 영역입니다.
    tf-version
    gcloud로 VM에 설치되는 Tensorflow 버전입니다.
    machine-type
    생성할 Compute Engine VM의 머신 유형입니다.
    accelerator-type
    생성할 Cloud TPU의 유형입니다.

    gcloud 명령어에 대한 자세한 내용은 gcloud 참조를 확인하세요.

  7. 설정한 구성이 표시됩니다. 승인하려면 y를, 취소하려면 n을 누릅니다.

    gcloud 명령어 실행이 끝나면 셸 프롬프트가 username@project에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    gcloud compute ssh bert-tutorial --zone=us-central1-b
    

안내를 계속 따르면서 (vm)$로 시작하는 각 명령어를 VM 세션 창에서 실행합니다.

  1. 몇 가지 환경 변수를 정의합니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
    (vm)$ export TPU_NAME=bert-tutorial
    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/tpu/models"
    (vm)$ export BERT_BASE_DIR=gs://cloud-tpu-checkpoints/bert/uncased_L-12_H-768_A-12
    (vm)$ export GLUE_DIR=$HOME/glue_data
    (vm)$ export TASK_NAME=MRPC
    

BERT 저장소 클론

Compute Engine 가상 머신(VM)에서 BERT 저장소를 클론합니다.

(vm)$ git clone https://github.com/google-research/bert

download_glue_data.py 다운로드

이 가이드에서는 General Language Understanding Evaluation(GLUE) 벤치마크를 사용하여 모델의 성능을 평가하고 분석합니다. 이 벤치마크를 사용하려면 git clone 스크립트를 사용하여 download_glue_data.py 명령어를 다운로드합니다.

(vm)$ git clone https://gist.github.com/7f702beb69199612a039004f42c9982e.git download_glue_data

GLUE 데이터 다운로드

그런 다음 Compute Engine VM에서 download_glue_data.py를 실행합니다.

(vm)$ python3 download_glue_data/download_glue_data.py --data_dir $HOME/glue_data --tasks ${TASK_NAME}

모델 학습

Compute Engine VM에서 다음 명령어를 실행합니다.

python3 ./bert/run_classifier.py \
--task_name=${TASK_NAME} \
--do_train=true \
--do_eval=true \
--data_dir=${GLUE_DIR}/${TASK_NAME} \
--vocab_file=${BERT_BASE_DIR}/vocab.txt \
--bert_config_file=${BERT_BASE_DIR}/bert_config.json \
--init_checkpoint=${BERT_BASE_DIR}/bert_model.ckpt \
--max_seq_length=128 \
--train_batch_size=32 \
--learning_rate=2e-5 \
--num_train_epochs=3.0 \
--output_dir=${STORAGE_BUCKET}/${TASK_NAME}-output/ \
--use_tpu=True \
--tpu_name=${TPU_NAME}

명령어 플래그 설명

task_name
작업 이름입니다. 이 튜토리얼에서는 Microsoft Research Paraphrase Corpus(MSRPC) 작업을 사용합니다.
do_train
모델 학습을 수행합니다.
do_eval
모델 평가를 수행합니다.
data_dir
학습 데이터가 저장되는 Cloud Storage 경로입니다.
vocab_file
BERT 어휘 파일입니다.
bert_config_file
BERT 구성 파일입니다.
init_checkpoint
선행 학습된 BERT 모델의 초기 체크포인트가 포함된 json 파일의 경로입니다.
max_seq_length
최대 텍스트 시퀀스 길이입니다. BERT는 토큰화된 텍스트 시퀀스의 최대 길이를 512로 제한합니다. 시퀀스 길이는 이 값 이하로 설정할 수 있습니다.
train_batch_size
학습 배치 크기입니다.
learning_rate
학습률입니다.
num_train_epochs
모델을 학습시키는 세대 수입니다.
output_dir
학습 스크립트 출력 디렉터리입니다.
use_tpu
Cloud TPU에서 학습시키려면 true로 설정합니다.
tpu_name
학습시킬 때 사용하는 Cloud TPU의 이름입니다.

결과 확인

이 교육은 5분 내에 완료해야 합니다. 학습을 완료하면 다음과 비슷한 결과가 표시됩니다.

I1109 21:55:34.984220 139985090225920 run_classifier.py:923] ***** Eval results *****
INFO:tensorflow:  eval_accuracy = 0.8455882
I1109 21:55:34.984345 139985090225920 run_classifier.py:925]   eval_accuracy = 0.8455882
INFO:tensorflow:  eval_loss = 0.77791333
I1109 21:55:34.984572 139985090225920 run_classifier.py:925]   eval_loss = 0.77791333
INFO:tensorflow:  global_step = 343
I1109 21:55:34.984693 139985090225920 run_classifier.py:925]   global_step = 343
INFO:tensorflow:  loss = 0.88203496
I1109 21:55:34.984774 139985090225920 run_classifier.py:925]   loss = 0.88203496

삭제

이 가이드에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

  1. Compute Engine VM의 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 user@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud Shell에서 아래 표시된 gcloud compute tpus execution-groups 명령어를 사용하여 Compute Engine VM 및 Cloud TPU를 삭제합니다.

    $ gcloud compute tpus execution-groups delete bert-tutorial \
      --zone=us-central1-b
    
  3. gcloud compute tpus execution-groups list를 실행하여 리소스가 삭제되었는지 확인합니다. 삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 인스턴스가 성공적으로 삭제되었다는 의미입니다.

    $ gcloud compute tpus execution-groups list \
      --zone=us-central1-b
    
       NAME             STATUS
    
  4. 아래와 같이 gsutil을 사용하여 Cloud Storage 버킷을 삭제합니다. bucket-name을 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

이 튜토리얼에서는 샘플 데이터 세트를 사용하여 BERT 모델을 학습시켰습니다. 이 학습 결과는 (대부분의 경우) 추론에 사용할 수 없습니다. 추론에 모델을 사용하려면 일반에 공개된 데이터 세트 또는 자체 데이터 세트에서 데이터를 학습시킵니다. Cloud TPU에서 학습된 모델은 데이터 세트가 TFRecord 형식이어야 합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델의 성능을 개선하려면 모델의 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보는 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정에 대한 자세한 내용은 초매개변수 조정 개요, 초매개변수 조정 서비스 사용, 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. AI Platform은 머신러닝 모델을 개발, 학습, 배포하기 위한 클라우드 기반 솔루션입니다. 모델이 배포되면 AI Platform Prediction 서비스를 사용할 수 있습니다.