Questo tutorial mostra come addestrare il modello ResNet-50 su un dispositivo Cloud TPU con PyTorch. Puoi applicare lo stesso pattern altri modelli di classificazione delle immagini ottimizzati per TPU che utilizzano PyTorch e il set di dati ImageNet.
Il modello in questo tutorial è basato sul deep Residual Learning for Image Riconoscimento, che introduce innanzitutto l'architettura di rete residua (ResNet). Il tutorial utilizza l'architettura a 50 livelli ResNet-50, e dimostra l'addestramento del modello utilizzando PyTorch/XLA.
Obiettivi
- Prepara il set di dati.
- Esegui il job di addestramento.
- Verifica i risultati dell'output.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:
- Compute Engine
- Cloud TPU
Per generare una stima dei costi basata sull'utilizzo previsto,
utilizza il Calcolatore prezzi.
Prima di iniziare
Prima di iniziare questo tutorial, verifica che il tuo progetto Google Cloud sia corretto configurazione.
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
Questa procedura dettagliata utilizza i componenti fatturabili di Google Cloud. Controlla il Pagina dei prezzi di Cloud TPU per stimare i costi. Assicurati di pulire che crei una volta terminato per evitare inutili addebiti.
Crea una VM TPU
Apri una finestra di Cloud Shell.
Crea una VM TPU
gcloud compute tpus tpu-vm create your-tpu-name \ --accelerator-type=v4-8 \ --version=tpu-ubuntu2204-base \ --zone=us-central2-b \ --project=your-project
Connettiti alla VM TPU tramite SSH:
gcloud compute tpus tpu-vm ssh your-tpu-name --zone=us-central2-b
Installa PyTorch/XLA sulla VM TPU:
(vm)$ pip install torch~=2.3.0 torch_xla[tpu]~=2.3.0 torchvision -f https://storage.googleapis.com/libtpu-releases/index.html
Clona il repository GitHub di PyTorch/XLA
(vm)$ git clone --depth=1 --branch r2.3 https://github.com/pytorch/xla.git
Esegui lo script di addestramento con dati falsi
(vm) $ PJRT_DEVICE=TPU python3 xla/test/test_train_mp_imagenet.py --fake_data --batch_size=256 --num_epochs=1
Se riesci ad addestrare il modello utilizzando dati falsi, puoi provare ad addestrare
come ImageNet. Per istruzioni su come scaricare ImageNet, vedi
Download di ImageNet. Nel comando dello script di addestramento,
Il flag --datadir
specifica la posizione del set di dati su cui eseguire l'addestramento.
Il comando seguente presuppone che il set di dati ImageNet si trovi in ~/imagenet
.
(vm) $ PJRT_DEVICE=TPU python3 xla/test/test_train_mp_imagenet.py --datadir=~/imagenet --batch_size=256 --num_epochs=1
Esegui la pulizia
Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Disconnettiti dalla VM TPU:
(vm) $ exit
Ora il tuo prompt dovrebbe essere
username@projectname
e mostrare in Cloud Shell.Elimina la VM TPU.
$ gcloud compute tpus tpu-vm delete resnet50-tutorial \ --zone=us-central2-b
Passaggi successivi
Prova le collaborazioni di PyTorch:
- Introduzione a PyTorch sulle Cloud TPU
- Addestramento di MNIST sulle TPU
- Addestramento di ResNet18 sulle TPU con il set di dati Cifar10
- Inferenza con il modello ResNet50 preaddestrato
- Trasferimento rapido dello stile neurale
- AlexNet di AlexNet per l'addestramento MultiCore su Fashion MNIST
- Single Core Training AlexNet su Fashion MNIST