Cloud TPU에서 PyTorch를 사용하여 Wav2Vec2 사전 학습

이 가이드에서는 Cloud TPU 기기에서 PyTorch를 사용하여 FairSeq의 Wav2Vec2 모델을 사전 학습시키는 방법을 보여줍니다. PyTorch 및 ImageNet 데이터 세트를 사용하는 다른 TPU 최적화 이미지 분류 모델에 같은 패턴을 적용할 수 있습니다.

이 가이드의 모델은 wav2vec 2.0: 음성 표현의 자가 지도 학습을 위한 프레임워크 문서를 기반으로 합니다.

목표

  • PyTorch 환경 만들기 및 구성
  • 오픈소스 LibriSpeech 데이터를 다운로드합니다.
  • 학습 작업을 실행합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU

가격 계산기를 사용하면 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 가이드를 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

  1. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다. 참고: 이 절차에서 생성한 리소스를 유지하지 않으려면 기존 프로젝트를 선택하지 말고 프로젝트를 새로 만드세요. 이 단계가 끝나면 프로젝트를 삭제하여 프로젝트와 관련된 모든 리소스를 삭제할 수 있습니다.
  2. 프로젝트 선택기 페이지로 이동하여 Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.
  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. 이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

Compute Engine 인스턴스 설정

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 변수를 만듭니다.

    export PROJECT_ID=project-id
    
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.

  4. Cloud Shell에서 이 가이드에 필요한 Compute Engine 리소스를 실행합니다.

    gcloud compute instances create wav2vec2-tutorial \
      --zone=us-central1-a \
      --machine-type=n1-standard-64 \
      --image-family=torch-xla \
      --image-project=ml-images  \
      --boot-disk-size=200GB \
      --scopes=https://www.googleapis.com/auth/cloud-platform
    
  5. 새 Compute Engine 인스턴스에 연결합니다.

    gcloud compute ssh wav2vec2-tutorial --zone=us-central1-a
    

Cloud TPU 리소스 시작

  1. Compute Engine 가상 머신에서 PyTorch 버전을 설정합니다.

    (vm) $ export PYTORCH_VERSION=1.8.1
    
  2. 다음 명령어를 사용하여 Cloud TPU 리소스를 시작합니다.

    (vm) $ gcloud compute tpus create w2v2-tutorial \
    --zone=us-central1-a \
    --network=default \
    --version=pytorch-1.8 \
    --accelerator-type=v3-8
    
  3. Cloud TPU 리소스의 IP 주소를 식별합니다.

    (vm) $ gcloud compute tpus list --zone=us-central1-a
    

PyTorch 환경 만들기 및 구성

  1. conda 환경을 시작합니다.

    (vm) $ conda activate torch-xla-1.8.1
    
  2. Cloud TPU 리소스의 환경 변수를 구성합니다.

    (vm) $ export TPU_IP_ADDRESS=ip-address
    
    (vm) $ export XRT_TPU_CONFIG="tpu_worker;0;$TPU_IP_ADDRESS:8470"
    

데이터 다운로드 및 준비

OpenSLR 웹사이트를 방문하여 이 태스크에 사용할 수 있는 대체 데이터 세트를 확인하세요. 이 가이드에서는 사전 처리 시간이 가장 짧으므로 dev-clean.tar.gz을 사용합니다.

  1. Wav2Vec2를 사용하려면 몇 가지 종속 항목이 필요합니다. 지금 설치하세요.

    (vm) $ pip install omegaconf hydra-core soundfile
    (vm) $ sudo apt-get install libsndfile-dev
    
  2. 데이터 세트를 다운로드합니다.

    (vm) $ curl https://www.openslr.org/resources/12/dev-clean.tar.gz --output dev-clean.tar.gz
    
  3. 압축된 파일을 추출합니다. 파일은 LibriSpeech 폴더에 저장됩니다.

    (vm) $ tar xf dev-clean.tar.gz
    
  4. 최신 fairseq 모델을 다운로드하고 설치합니다.

    (vm) $ git clone --recursive https://github.com/pytorch/fairseq.git
    (vm) $ cd fairseq
    (vm) $ pip install --editable .
    (vm) $ cd -
  5. 데이터 세트를 준비합니다. 이 스크립트는 원시 데이터(LibriSpeech/ 아래)를 가리키는 포인터가 있는 manifest/라는 폴더를 만듭니다.

    (vm) $ python fairseq/examples/wav2vec/wav2vec_manifest.py LibriSpeech/ --dest manifest/

학습 작업 실행

  1. LibriSpeech 데이터에서 모델을 실행합니다. 이 스크립트를 실행하는 데는 약 2시간이 소요됩니다.

    (vm) $ OMP_NUM_THREADS=1 python fairseq/train.py \
     manifest/ \
     --num-batch-buckets 3 \
     --tpu \
     --max-sentences 4 \
     --max-sentences-valid 4 \
     --required-batch-size-multiple 4 \
     --distributed-world-size 8 \
     --distributed-port 12597 \
     --update-freq 1 \
     --enable-padding \
     --log-interval 5 \
     --num-workers 6 \
     --task audio_pretraining \
     --criterion wav2vec \
     --arch wav2vec2 \
     --log-keys  "['prob_perplexity','code_perplexity','temp']" \
     --quantize-targets \
     --extractor-mode default \
     --conv-feature-layers '[(512, 10, 5)] + [(512, 3, 2)] * 4 + [(512,2,2)] * 2' \
     --final-dim 256 \
     --latent-vars 320 \
     --latent-groups 2 \
     --latent-temp '(2,0.5,0.999995)' \
     --infonce \
     --optimizer adam \
     --adam-betas '(0.9,0.98)' \
     --adam-eps 1e-06 \
     --lr-scheduler polynomial_decay \
     --total-num-update 400000 \
     --lr 0.0005 \
     --warmup-updates 32000 \
     --mask-length 10 \
     --mask-prob 0.65 \
     --mask-selection static \
     --mask-other 0 \
     --mask-channel-prob 0.1 \
     --encoder-layerdrop 0 \
     --dropout-input 0.0 \
     --dropout-features 0.0 \
     --feature-grad-mult 0.1 \
     --loss-weights '[0.1, 10]' \
     --conv-pos 128 \
     --conv-pos-groups 16 \
     --num-negatives 100 \
     --cross-sample-negatives 0 \
     --max-sample-size 250000 \
     --min-sample-size 32000 \
     --dropout 0.0 \
     --attention-dropout 0.0 \
     --weight-decay 0.01 \
     --max-tokens 1400000 \
     --max-epoch 10 \
     --save-interval 2 \
     --skip-invalid-size-inputs-valid-test \
     --ddp-backend no_c10d \
     --log-format simple

삭제

이 가이드에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 user@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. Cloud Shell에서 gcloud 명령줄 도구를 사용하여 Compute Engine VM 인스턴스 및 TPU를 삭제합니다.

    $ gcloud compute tpus execution-groups delete w2v2-tutorial --zone=us-central1-a
    

다음 단계

Cloud TPU pod로 확장

이 가이드의 사전 학습 작업을 강력한 Cloud TPU pod로 확장하려면 Cloud TPU pod에서 PyTorch 모델 학습 가이드를 참조하세요.

PyTorch Colab 사용: