Cloud TPU에서 PyTorch를 사용하여 FairSeq Transformer 학습

이 튜토리얼에서는 영어를 독일어로 번역하면서 특히 Transformer의 FairSeq 버전과 WMT 18 번역 작업을 중점적으로 다룹니다.

목표

데이터 세트를 준비합니다.
학습 작업을 실행합니다.
출력 결과 확인

비용

이 문서에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

Compute Engine
Cloud TPU

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 튜토리얼을 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

Compute Engine 인스턴스 설정

Cloud Shell 창을 엽니다.

Cloud Shell 열기
프로젝트 ID의 변수를 만듭니다.
```
export PROJECT_ID=project-id
```
Cloud TPU를 만들려는 위치의 프로젝트가 사용되도록 Google Cloud CLI를 구성합니다.
```
gcloud config set project ${PROJECT_ID}
```
새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에 있는 Authorize를 클릭하여 gcloud에서 사용자 인증 정보로 API를 호출하도록 허용합니다.

v에서 이 튜토리얼에 필요한 Compute Engine 리소스를 실행합니다.

gcloud compute --project=${PROJECT_ID} instances create transformer-tutorial \
--zone=us-central1-a  \
--machine-type=n1-standard-16  \
--image-family=torch-xla \
--image-project=ml-images  \
--boot-disk-size=200GB \
--scopes=https://www.googleapis.com/auth/cloud-platform

새 Compute Engine 인스턴스에 연결합니다.
```
gcloud compute ssh transformer-tutorial --zone=us-central1-a
```
요점: 이후 내용부터 (vm) $ 프리픽스가 있으면 Compute Engine VM 인스턴스에서 명령어를 실행해야 합니다.

Cloud TPU 리소스 시작

Compute Engine 가상 머신에서 다음 명령어를 사용하여 Cloud TPU 리소스를 시작합니다.

(vm) $ gcloud compute tpus create transformer-tutorial \
--zone=us-central1-a \
--network=default \
--version=pytorch-2.0 \
--accelerator-type=v3-8

Cloud TPU 리소스의 IP 주소를 식별합니다.
```
(vm) $ gcloud compute tpus list --zone=us-central1-a
```
IP 주소는 NETWORK_ENDPOINTS 열 아래에 있습니다. PyTorch 환경을 만들고 구성할 때 이 IP 주소가 필요합니다.

데이터 다운로드

모델 데이터를 저장할 pytorch-tutorial-data 디렉터리를 만듭니다.
```
(vm) $ mkdir $HOME/pytorch-tutorial-data
```
pytorch-tutorial-data 디렉터리로 이동합니다.
```
(vm) $ cd $HOME/pytorch-tutorial-data
```

모델 데이터를 다운로드합니다.

(vm) $ wget https://dl.fbaipublicfiles.com/fairseq/data/wmt18_en_de_bpej32k.zip

데이터를 추출합니다.

(vm) $ sudo apt-get install unzip && \
unzip wmt18_en_de_bpej32k.zip

PyTorch 환경 만들기 및 구성

conda 환경을 시작합니다.
```
(vm) $ conda activate torch-xla-2.0
```
Cloud TPU 리소스의 환경 변수를 구성합니다.
```
(vm) $ export TPU_IP_ADDRESS=ip-address; \
export XRT_TPU_CONFIG="tpu_worker;0;$TPU_IP_ADDRESS:8470"
```
참고: TPU_IP_ADDRESS 변수는 Cloud TPU 리소스를 시작했을 때 식별된 Cloud TPU의 IP 주소와 일치해야 합니다.

모델 학습

모델을 학습시키려면 다음 스크립트를 실행합니다.

(vm) $ python /usr/share/torch-xla-2.0/tpu-examples/deps/fairseq/train.py \
  $HOME/pytorch-tutorial-data/wmt18_en_de_bpej32k \
  --save-interval=1 \
  --arch=transformer_vaswani_wmt_en_de_big \
  --max-target-positions=64 \
  --attention-dropout=0.1 \
  --no-progress-bar \
  --criterion=label_smoothed_cross_entropy \
  --source-lang=en \
  --lr-scheduler=inverse_sqrt \
  --min-lr 1e-09 \
  --skip-invalid-size-inputs-valid-test \
  --target-lang=de \
  --label-smoothing=0.1 \
  --update-freq=1 \
  --optimizer adam \
  --adam-betas '(0.9, 0.98)' \
  --warmup-init-lr 1e-07 \
  --lr 0.0005 \
  --warmup-updates 4000 \
  --share-all-embeddings \
  --dropout 0.3 \
  --weight-decay 0.0 \
  --valid-subset=valid \
  --max-epoch=25 \
  --input_shapes 128x64 \
  --num_cores=8 \
  --metrics_debug \
  --log_steps=100

참고: `input_shapes` 초매개변수 값을 변경하면 성능이 향상될 수 있습니다. 예를 들면 다음과 같습니다.

--input_shapes 256x64 512x32

이러한 변경사항은 초기 컴파일을 상당히 느리게 만들 수 있지만 안정화된 후 세대 시간이 빨라집니다.

이러한 입력 모양을 사용하려면 bfloat16을 사용 설정해야 합니다. 이렇게 하려면 다음 명령어를 실행하세요.

(vm) $ export XLA_USE_BF16=1

삭제

만든 리소스를 사용한 후에는 계정에 불필요한 비용이 청구되지 않도록 삭제를 수행하세요.

Compute Engine 인스턴스에서 연결을 해제합니다.
```
(vm) $ exit
```
프롬프트가 user@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.
Cloud Shell에서 Google Cloud CLI를 사용하여 Compute Engine 인스턴스를 삭제합니다.
```
$  gcloud compute instances delete transformer-tutorial  --zone=us-central1-a
```

Google Cloud CLI를 사용하여 Cloud TPU 리소스를 삭제합니다.

$  gcloud compute tpus delete transformer-tutorial --zone=us-central1-a

다음 단계

PyTorch Colab 사용: