이 튜토리얼에서는 Cloud TPU에서 FairSeq의 RoBERTa를 사전 학습시키는 방법을 보여줍니다. 특히, 공개 wikitext-103 데이터 세트에서 모델을 사전 학습시키는 FairSeq의 튜토리얼을 따릅니다.
목표
- PyTorch 환경 만들기 및 구성
- 데이터 세트 준비
- 학습 작업 실행
- 출력 결과를 볼 수 있는지 확인
비용
이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.
- Compute Engine
- Cloud TPU
프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.
시작하기 전에
이 튜토리얼을 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.
- Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.
Compute Engine 인스턴스 설정
Cloud Shell 창을 엽니다.
프로젝트 ID의 변수를 만듭니다.
export PROJECT_ID=project-id
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
gcloud config set project ${PROJECT_ID}
새 Cloud Shell VM에서 이 명령어를 처음 실행하면
Authorize Cloud Shell
페이지가 표시됩니다. 페이지 하단에 있는Authorize
를 클릭하여gcloud
에서 사용자 인증 정보로 Google Cloud API를 호출하도록 허용합니다.Cloud Shell에서 이 튜토리얼에 필요한 Compute Engine 리소스를 실행합니다.
gcloud compute instances create roberta-tutorial \ --zone=us-central1-a \ --machine-type=n1-standard-16 \ --image-family=torch-xla \ --image-project=ml-images \ --boot-disk-size=200GB \ --scopes=https://www.googleapis.com/auth/cloud-platform
새 Compute Engine 인스턴스에 연결합니다.
gcloud compute ssh roberta-tutorial --zone=us-central1-a
Cloud TPU 리소스 시작
Compute Engine 가상 머신에서 다음 명령어를 사용하여 Cloud TPU 리소스를 시작합니다.
(vm) $ gcloud compute tpus create roberta-tutorial \ --zone=us-central1-a \ --network=default \ --version=pytorch-2.0 \ --accelerator-type=v3-8
Cloud TPU 리소스의 IP 주소를 식별합니다.
(vm) $ gcloud compute tpus describe --zone=us-central1-a roberta-tutorial
PyTorch 환경 만들기 및 구성
conda
환경을 시작합니다.(vm) $ conda activate torch-xla-2.0
Cloud TPU 리소스의 환경 변수를 구성합니다.
(vm) $ export TPU_IP_ADDRESS=ip-address
(vm) $ export XRT_TPU_CONFIG="tpu_worker;0;$TPU_IP_ADDRESS:8470"
데이터 설정
다음을 실행하여 FairSeq을 설치합니다.
(vm) $ pip install --editable /usr/share/torch-xla-2.0/tpu-examples/deps/fairseq
모델 데이터를 저장할 pytorch-tutorial-data 디렉터리를 만듭니다.
(vm) $ mkdir $HOME/pytorch-tutorial-data (vm) $ cd $HOME/pytorch-tutorial-data
FairSeq RoBERTa의 README '데이터 사전 처리' 섹션의 안내를 따릅니다. 데이터 세트를 준비하는 데 약 10분이 걸립니다.
모델 학습
모델을 학습시키려면 먼저 다음 환경 변수를 설정합니다.
(vm) $ export TOTAL_UPDATES=125000 # Total number of training steps (vm) $ export WARMUP_UPDATES=10000 # Warmup the learning rate over this many updates (vm) $ export PEAK_LR=0.0005 # Peak learning rate, adjust as needed (vm) $ export TOKENS_PER_SAMPLE=512 # Max sequence length (vm) $ export UPDATE_FREQ=16 # Increase the batch size 16x (vm) $ export DATA_DIR=${HOME}/pytorch-tutorial-data/data-bin/wikitext-103
그러고 나서 다음 스크립트를 실행합니다.
(vm) $ python3 \
/usr/share/torch-xla-pytorch-2.0/tpu-examples/deps/fairseq/train.py $DATA_DIR \
--task=masked_lm --criterion=masked_lm \
--arch=roberta_base --sample-break-mode=complete \
--tokens-per-sample=512 \
--optimizer=adam \
--adam-betas='(0.9,0.98)' \
--adam-eps=1e-6 \
--clip-norm=0.0 \
--lr-scheduler=polynomial_decay \
--lr=0.0005 \
--warmup-updates=10000 \
--dropout=0.1 \
--attention-dropout=0.1 \
--weight-decay=0.01 \
--update-freq=16 \
--train-subset=train \
--valid-subset=valid \
--num_cores=8 \
--metrics_debug \
--save-dir=checkpoints \
--log_steps=30 \
--log-format=simple \
--skip-invalid-size-inputs-valid-test \
--suppress_loss_report \
--input_shapes 16x512 18x480 21x384 \
--max-epoch=1
약 15분 동안 학습 스크립트가 실행되고 완료되면 다음과 유사한 메시지가 생성됩니다.
saved checkpoint /home/user/checkpoints/checkpoint1.pt (epoch 1 @ 119 updates) (writing took 25.19265842437744 seconds) | done training in 923.8 seconds
출력 결과 확인
학습 작업이 완료된 후에는 다음 디렉터리에서 모델 체크포인트를 찾을 수 있습니다.
$HOME/checkpoints
삭제
만든 리소스를 사용한 후에는 계정에 불필요한 비용이 청구되지 않도록 삭제를 수행하세요.
Compute Engine 인스턴스에서 연결을 해제합니다.
(vm) $ exit
프롬프트가
user@projectname
으로 바뀌면 Cloud Shell에 있는 것입니다.Cloud Shell에서 Google Cloud CLI를 사용하여 Compute Engine 인스턴스를 삭제합니다.
$ gcloud compute instances delete roberta-tutorial --zone=us-central1-a
Google Cloud CLI를 사용하여 Cloud TPU 리소스를 삭제합니다.
$ gcloud compute tpus delete roberta-tutorial --zone=us-central1-a
다음 단계
PyTorch Colab 사용:
- Cloud TPU에서 PyTorch 시작하기
- TPU에서 MNIST 학습
- Cifar10 데이터 세트를 사용하여 TPU에서 ResNet18 학습
- 사전 학습된 ResNet50 모델로 추론
- 빠른 신경 스타일 전송
- Fashion MNIST에서 AlexNet 멀티코어 학습
- Fashion MNIST에서 AlexNet 단일 코어 학습