Como treinar o Resnet50 no Cloud TPU com PyTorch

Neste tutorial, mostramos como treinar o modelo ResNet-50 em um dispositivo Cloud TPU com PyTorch. É possível aplicar o mesmo padrão a outros modelos de classificação de imagens otimizados para TPU que usam o PyTorch e o conjunto de dados do ImageNet.

O modelo deste tutorial é baseado no artigo Deep Residual Learning for Image Recognition, que foi o primeiro a apresentar a arquitetura de rede residual ou ResNet. O tutorial usa a variante de 50 camadas, ResNet-50, e demonstra o treinamento do modelo usando PyTorch/XLA.

Objetivos

Preparar o conjunto de dados.
Executar o job de treinamento.
Verificar os resultados da saída.

Custos

Neste documento, você vai usar os seguintes componentes faturáveis do Google Cloud:

Compute Engine
Cloud TPU

Para gerar uma estimativa de custo baseada na sua projeção de uso, utilize a calculadora de preços.

Novos usuários do Google Cloud podem estar qualificados para um teste sem custo financeiro.

Antes de começar

Antes de começar este tutorial, verifique se o projeto do Google Cloud foi configurado corretamente.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Neste tutorial, usamos componentes faturáveis do Google Cloud. Consulte a página de preços do Cloud TPU para fazer uma estimativa dos custos. Para evitar cobranças desnecessárias, não se esqueça de apagar os recursos criados ao terminar de usá-los.

Criar uma VM de TPU

Abra uma janela do Cloud Shell.

Abrir o Cloud Shell
Criar uma VM de TPU
```
gcloud compute tpus tpu-vm create your-tpu-name \
--accelerator-type=v3-8 \
--version=tpu-ubuntu2204-base \
--zone=us-central1-a \
--project=your-project
```
Observação: na primeira vez que você executar um comando em uma nova VM do Cloud Shell, uma página Authorize Cloud Shell será exibida. Clique em Authorize na parte de baixo da página para permitir que gcloud faça chamadas de API do Google Cloud com suas credenciais.

Conecte-se à VM de TPU usando SSH:

gcloud compute tpus tpu-vm ssh  your-tpu-name --zone=us-central1-a

Instale o PyTorch/XLA na VM de TPU:

(vm)$ pip install torch torch_xla[tpu] torchvision -f https://storage.googleapis.com/libtpu-releases/index.html -f https://storage.googleapis.com/libtpu-wheels/index.html

Clone o repositório do GitHub do PyTorch/XLA.

(vm)$ git clone --depth=1 https://github.com/pytorch/xla.git

Execute o script de treinamento com dados falsos.

(vm) $ PJRT_DEVICE=TPU python3 xla/test/test_train_mp_imagenet.py --fake_data --batch_size=256 --num_epochs=1

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Desconecte-se da VM de TPU:
```
(vm) $ exit
```
Agora o prompt precisa ser username@projectname, mostrando que você está no Cloud Shell.

Exclua a VM de TPU.

$ gcloud compute tpus tpu-vm delete your-tpu-name \
   --zone=us-central1-a