Pelatihan Cloud TPU v5e
Cloud TPU v5e adalah akselerator AI generasi terbaru dari Google Cloud. Dengan jejak 256 chip yang lebih kecil per Pod, v5e dioptimalkan agar menjadi produk bernilai tertinggi untuk pelatihan, fine-tuning, dan inferensi Jaringan Neural Konvolusional (CNN) dan transformator, teks-ke-gambar.
Konsep, arsitektur sistem, dan konfigurasi Cloud TPU v5e
Jika Anda baru menggunakan Cloud TPU, lihat beranda dokumentasi TPU.
Konsep umum Cloud TPU (misalnya, slice, host, chip, dan TensorCore), serta arsitektur sistem Cloud TPU dijelaskan di halaman Arsitektur Sistem Cloud TPU.
Setiap versi Cloud TPU memerlukan jenis akselerator khusus untuk pelatihan dan inferensi. Jenis akselerator ini dijelaskan di bagian konfigurasi v5e.
Inferensi
Inferensi adalah proses penggunaan model terlatih untuk membuat prediksi pada data baru. ID ini digunakan oleh proses penayangan.
Irisan
Slice mewakili kumpulan chip yang semuanya berada di dalam Pod yang sama dan terhubung melalui interkoneksi antar-chip berkecepatan tinggi (ICI). v5e memiliki bentuk slice 2D. Lihat tabel di bagian konfigurasi v5e untuk mengetahui bentuk slice yang didukung.
Bentuk chip dan topologi chip juga mengacu pada bentuk irisan.
Inferensi
Penayangan adalah proses men-deploy model machine learning terlatih ke lingkungan produksi tempat model tersebut dapat digunakan untuk membuat prediksi atau keputusan. Latensi dan ketersediaan tingkat layanan penting untuk penayangan.
Host tunggal versus multi host
Host adalah komputer fisik (CPU) yang menjalankan VM. Host dapat menjalankan beberapa VM sekaligus.
Slice yang menggunakan kurang dari 8 chip menggunakan paling banyak satu host. Slice yang lebih besar dari 8 chip memiliki akses ke lebih dari satu host dan dapat menjalankan pelatihan terdistribusi menggunakan beberapa host. Lihat halaman Arsitektur Sistem TPU untuk mengetahui detail tentang slice dan chip.
v5e mendukung pelatihan multi-host dan inferensi multi-host (menggunakan SAX).
VM TPU
Virtual machine yang menjalankan Linux yang memiliki akses ke TPU yang mendasarinya. Untuk TPU v5e, setiap VM TPU memiliki akses langsung ke 1, 4, atau 8 chip, bergantung pada jenis akselerator yang ditentukan pengguna. VM TPU juga dikenal sebagai pekerja.
Pekerja
Lihat TPU VM.
Mulai
Untuk informasi tentang hardware TPU v5e, lihat Arsitektur Sistem.
Mengamankan kapasitas
Hubungi Bagian Penjualan Cloud untuk mulai menggunakan Cloud TPU v5e untuk workload AI Anda.
Menyiapkan Project Google Cloud
- Login ke Akun Google Anda. Jika Anda belum melakukannya, daftar untuk membuat akun baru.
- Di Konsol Google Cloud, pilih atau buat project Google Cloud dari halaman pemilih project.
Penyiapan penagihan diperlukan untuk semua penggunaan Google Cloud, jadi pastikan penagihan diaktifkan untuk project Anda.
Instal gcloud alpha components.
Jika Anda pengguna TPU yang menggunakan kembali komponen
gcloud alpha
yang ada, perbarui komponen ini untuk memastikan bahwa perintah dan flag yang relevan didukung:gcloud components update
Aktifkan TPU API melalui perintah
gcloud
berikut di Cloud Shell. (Anda juga dapat mengaktifkannya dari Konsol Google Cloud.)gcloud services enable tpu.googleapis.com
Aktifkan akun layanan TPU.
Akun layanan memungkinkan layanan Cloud TPU mengakses layanan Google Cloud lainnya. Akun layanan yang dikelola pengguna adalah praktik Google Cloud yang direkomendasikan. Ikuti panduan ini untuk membuat dan memberikan peran. Peran berikut diperlukan:
- TPU Admin
- Storage Admin: Diperlukan untuk mengakses Cloud Storage
- Penulis Log: Diperlukan untuk menulis log dengan Logging API
- Penulis Metrik Monitoring: Diperlukan untuk menulis metrik ke Cloud Monitoring
Konfigurasikan project dan zona.
Project ID Anda adalah nama project Anda yang ditampilkan di Cloud Console.
export PROJECT_ID=your-project-id export ZONE=us-west4-a gcloud compute tpus tpu-vm service-identity create --zone=${ZONE} gcloud auth login gcloud config set project ${PROJECT_ID} gcloud config set compute/zone ${ZONE}
Menyediakan lingkungan Cloud TPU
Praktik terbaiknya adalah menyediakan Cloud TPU v5es sebagai resource yang diantrekan
menggunakan perintah queued-resource create
. Namun, Anda juga dapat menggunakan Create Node API (gcloud alpha compute tpus tpu-vm create
) untuk menyediakan Cloud TPU v5es.
Membuat variabel lingkungan
Tetapkan variabel lingkungan yang diperlukan untuk pembuatan TPU.
Ganti variabel (berwarna merah) dalam daftar berikut dengan nilai yang akan Anda gunakan untuk tugas pelatihan atau inferensi.
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=your_queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
Variabel | Deskripsi |
PROJECT_ID | Nama Project Google Cloud |
ACCELERATOR_TYPE | Lihat bagian Jenis Akselerator untuk jenis akselerator yang didukung. |
ZONA | Semua kapasitas dalam us-west4-a. |
RUNTIME_VERSION | Gunakan v2-alpha-tpuv5-lite. |
SERVICE_ACCOUNT | Alamat ini adalah alamat akun layanan yang dapat Anda temukan di Konsol Google Cloud -> IAM -> Akun Layanan. Misalnya: tpu-service-account@myprojectID.iam.gserviceaccount.com |
TPU_NAME | ID teks TPU yang ditetapkan pengguna yang dibuat saat permintaan resource dalam antrean dialokasikan. |
QUEUED_RESOURCE_ID | ID teks yang ditetapkan pengguna dari permintaan aset dalam antrean. Lihat dokumen resource yang diantrekan untuk informasi tentang resource yang diantrekan. |
QUOTA_TYPE | Dapat berupa reserved
atau best-effort . Jika tidak satu pun yang ditentukan, QUOTA_TYPE
akan ditetapkan secara default ke on-demand .
Lihat quotas
untuk mengetahui informasi tentang berbagai jenis kuota yang didukung oleh Cloud TPU.
|
VALID_UNTIL_DURATION | Durasi saat permintaan valid. Lihat resource dalam antrean untuk mengetahui informasi tentang durasi valid yang berbeda. |
Membuat resource TPU
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \
--node-id=${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--accelerator-type=${ACCELERATOR_TYPE} \
--runtime-version=${RUNTIME_VERSION} \
--valid-until-duration=${VALID_UNTIL_DURATION} \
--service-account=${SERVICE_ACCOUNT} \
--${QUOTA_TYPE}
Jika resource yang diantrekan berhasil dibuat, status dalam kolom response
akan menjadi WAITING_FOR_RESOURCES
atau FAILED
. Jika resource yang diantrekan
berada dalam status WAITING_FOR_RESOURCES
, artinya resource yang diantrekan telah
lulus validasi awal dan sedang menunggu kapasitas. Setelah kapasitas tersedia, permintaan akan ditransisikan ke PROVISIONING
. Berada dalam
status WAITING_FOR_RESOURCES
tidak berarti sudah pasti bahwa Anda akan mendapatkan
kuota yang dialokasikan dan mungkin perlu waktu untuk berubah dari
status WAITING_FOR_RESOURCES
ke status ACTIVE
. Jika resource yang diantrekan berada dalam status FAILED
, alasan kegagalan akan ada di output. Permintaan akan berakhir jika permintaan tidak diisi di --valid-until-duration
, dan statusnya menjadi "FAILED".
Anda akan dapat mengakses VM TPU menggunakan SSH setelah resource yang diantrekan berada dalam status ACTIVE
.
Gunakan perintah [list](/tpu/docs/managing-tpus-tpu-vm)
atau [describe](/tpu/docs/managing-tpus-tpu-vm)
untuk membuat kueri status resource dalam antrean.
gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE}
state menunjukkan status resource dalam antrean. Status ditentukan sebagai:
Status | Deskripsi |
WAITING_FOR_RESOURCES |
Perintah create resource yang diantrekan telah diterima dan akan memulai penyediaan, segera setelah kapasitas tersedia. |
PROVISIONING |
TPU Slice sedang disediakan. |
ACTIVE |
Semua TPU disediakan dan siap digunakan. Jika diberikan, skrip startup akan mulai mengeksekusi di semua TPU, saat status resource yang diantrekan beralih ke ACTIVE . |
FAILED |
Slice tidak dapat disediakan. |
SUSPENDING |
Satu atau beberapa slice sedang dihapus. |
SUSPENDED |
Semua slice yang mendasarinya akan dihapus, tetapi resource yang diantrekan tetap utuh, hingga dihapus secara eksplisit. Saat ini, resource dalam antrean yang ditangguhkan tidak dapat dilanjutkan dan harus dihapus. |
DELETING |
Resource yang diantrekan sedang dihapus. |
Menghubungkan ke VM TPU menggunakan SSH
Bagian berikut ini menjelaskan cara menginstal biner di setiap VM TPU di slice TPU dan menjalankan kode. Dalam konteks ini, VM TPU juga dikenal sebagai pekerja.
Lihat bagian Jenis VM untuk menentukan jumlah VM yang akan dimiliki slice Anda.
Untuk menginstal biner atau menjalankan kode, hubungkan ke VM TPU Anda menggunakan perintah ssh tpu-vm.
gcloud compute tpus tpu-vm ssh ${TPU_NAME}
Untuk mengakses VM TPU tertentu dengan SSH, gunakan tanda --worker
yang mengikuti indeks berbasis 0:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} --worker=1
Jika memiliki bentuk slice yang lebih dari 8 chip, Anda akan memiliki beberapa VM dalam satu
slice. Dalam hal ini, gunakan flag --worker=all
untuk menjalankan penginstalan pada semua
VM TPU tanpa harus terhubung ke setiap VM secara terpisah. Contoh:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='pip install "jax[tpu]==0.4.16" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Kelola
Semua perintah yang dapat Anda gunakan untuk mengelola VM TPU dijelaskan dalam Mengelola TPU.
Penyiapan Framework
Bagian ini menjelaskan proses penyiapan umum untuk pelatihan model kustom menggunakan JAX atau PyTorch dengan TPU v5e. Dukungan TensorFlow tersedia di versi runtime TPU tpu-vm-tf-2.15.0-pjrt
dan tpu-vm-tf-2.15.0-pod-pjrt
.
Untuk petunjuk penyiapan inferensi, lihat Pengantar inferensi v5e.
Penyiapan untuk JAX
Jika memiliki bentuk slice yang lebih dari 8 chip, Anda akan memiliki beberapa VM dalam satu
slice. Dalam hal ini, Anda harus menggunakan flag --worker=all
untuk menjalankan penginstalan pada semua VM TPU dalam satu langkah tanpa menggunakan SSH untuk login ke setiap VM secara terpisah:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='pip install "jax[tpu]==0.4.16" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Anda dapat menjalankan perintah berikut untuk memeriksa jumlah perangkat (output yang ditampilkan di sini dibuat dengan slice v5litepod-16). Kode ini menguji bahwa semuanya telah diinstal dengan benar dengan memastikan bahwa JAX melihat TensorCore Cloud TPU dan dapat menjalankan operasi dasar:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='python3 -c "import jax; print(jax.device_count()); print(jax.local_device_count())"'
Outputnya akan mirip dengan berikut ini:
SSH: Attempting to connect to worker 0...
SSH: Attempting to connect to worker 1...
SSH: Attempting to connect to worker 2...
SSH: Attempting to connect to worker 3...
16
4
16
4
16
4
16
4
jax.device\_count()
menunjukkan jumlah total chip dalam bagian yang ditentukan.
jax.local\_device\_count()
menunjukkan jumlah chip yang dapat diakses oleh satu
VM dalam slice ini.
# Check the number of chips in the given slice by summing the count of chips
# from all VMs through the
# jax.local_device_count() API call.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='python3 -c "import jax; xs=jax.numpy.ones(jax.local_device_count()); print(jax.pmap(lambda x: jax.lax.psum(x, \"i\"), axis_name=\"i\")(xs))"'
Outputnya akan mirip dengan berikut ini:
SSH: Attempting to connect to worker 0...
SSH: Attempting to connect to worker 1...
SSH: Attempting to connect to worker 2...
SSH: Attempting to connect to worker 3...
[16. 16. 16. 16.]
[16. 16. 16. 16.]
[16. 16. 16. 16.]
[16. 16. 16. 16.]
Coba Tutorial JAX dalam dokumen ini untuk memulai pelatihan v5e menggunakan JAX.
Penyiapan untuk PyTorch
Perlu diperhatikan bahwa v5e hanya mendukung runtime PJRT dan PyTorch 2.1+ akan menggunakan PJRT sebagai runtime default untuk semua versi TPU.
Bagian ini menjelaskan cara mulai menggunakan PJRT di v5e dengan PyTorch/XLA dengan perintah untuk semua pekerja.
Menginstal dependensi
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='
sudo apt-get update -y
sudo apt-get install libomp5 -y
pip3 install mkl mkl-include
pip3 install tf-nightly tb-nightly tbp-nightly
pip3 install numpy
sudo apt-get install libopenblas-dev -y
pip3 install torch~=2.1.0 torchvision torch_xla[tpu]~=2.1.0 -f https://storage.googleapis.com/libtpu-releases/index.html
pip3 install torch_xla[tpu] -f https://storage.googleapis.com/libtpu-releases/index.html'
Jika Anda gagal menginstal roda untuk torch/torch_xla/torchvision dan melihat
error seperti pkg_resources.extern.packaging.requirements.InvalidRequirement:
Expected end or semicolon (after name and no valid version specifier) torch==nightly+20230222
,
downgrade versi Anda dengan perintah ini:
pip3 install setuptools==62.1.0
Jalankan skrip dengan PJRT:
unset LD_PRELOAD
Berikut adalah contoh penggunaan skrip Python untuk melakukan penghitungan di VM v5e:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker all \
--command='
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HOME/.local/lib/
export PJRT_DEVICE=TPU_C_API
export PT_XLA_DEBUG=0
export USE_TORCH=ON
unset LD_PRELOAD
export TPU_LIBRARY_PATH=$HOME/.local/lib/python3.10/site-packages/libtpu/libtpu.so
python3 -c "import torch; import torch_xla; import torch_xla.core.xla_model as xm; print(xm.xla_device()); dev = xm.xla_device(); t1 = torch.randn(3,3,device=dev); t2 = torch.randn(3,3,device=dev); print(t1 + t2)"'
Tindakan ini menghasilkan output yang mirip dengan berikut ini:
SSH: Attempting to connect to worker 0...
SSH: Attempting to connect to worker 1...
xla:0
tensor([[ 1.8611, -0.3114, -2.4208],
[-1.0731, 0.3422, 3.1445],
[ 0.5743, 0.2379, 1.1105]], device='xla:0')
xla:0
tensor([[ 1.8611, -0.3114, -2.4208],
[-1.0731, 0.3422, 3.1445],
[ 0.5743, 0.2379, 1.1105]], device='xla:0')
Coba Tutorial PyTorch dalam dokumen ini untuk memulai pelatihan v5e menggunakan PyTorch.
Hapus TPU dan resource yang diantrekan di akhir sesi Anda. Untuk menghapus resource yang diantrekan, hapus slice, lalu resource yang diantrekan dengan 2 langkah:
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Kedua langkah ini juga dapat digunakan untuk menghapus permintaan resource dalam antrean yang berada dalam
status FAILED
.
Memantau dan Membuat Profil
Cloud TPU v5e mendukung pemantauan dan pembuatan profil menggunakan metode yang sama seperti Cloud TPU generasi sebelumnya. Anda dapat membaca Membuat profil model Anda dengan alat Cloud TPU untuk mempelajari lebih lanjut pembuatan profil dan Memantau VM Cloud TPU untuk mempelajari pemantauan lebih lanjut.
Contoh JAX/FLAX
Melatih ImageNet di v5e
Tutorial ini menjelaskan cara melatih ImageNet pada v5e menggunakan data input palsu. Jika Anda ingin menggunakan data asli, lihat file README di GitHub.
Penyiapan
Buat variabel lingkungan:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=your_queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Anda dapat melakukan SSH ke VM TPU setelah resource yang diantrekan berada dalam status
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Saat QueuedResource berada dalam status
ACTIVE
, outputnya akan mirip dengan berikut:state: ACTIVE
Instal JAX dan jaxlib versi terbaru:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='pip install "jax[tpu]==0.4.16" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Clone model ImageNet dan instal persyaratan yang sesuai:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='git clone https://github.com/google/flax.git && cd flax/examples/imagenet && pip install -r requirements.txt && pip install flax==0.7.4'
Untuk menghasilkan data palsu, model tersebut memerlukan informasi tentang dimensi set data. Ini dapat dikumpulkan dari metadata {i>dataset <i}ImageNet:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} --project=${PROJECT_ID} --zone=${ZONE} --worker=all --command='mkdir -p $HOME/flax/.tfds/metadata/imagenet2012/5.1.0 && curl https://raw.githubusercontent.com/tensorflow/datasets/v4.4.0/tensorflow_datasets/testing/metadata/imagenet2012/5.1.0/dataset_info.json --output $HOME/flax/.tfds/metadata/imagenet2012/5.1.0/dataset_info.json'
Melatih model
Setelah semua langkah sebelumnya selesai, Anda dapat melatih model.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='cd flax/examples/imagenet && JAX_PLATFORMS=tpu python3 imagenet_fake_data_benchmark.py'
Menghapus TPU dan resource yang diantrekan
Hapus TPU dan resource yang diantrekan di akhir sesi Anda.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Model FLAX Wajah Memeluk
Model Wajah Mengangkat yang diimplementasikan dalam FLAX dapat langsung difungsikan di Cloud TPU v5e. Bagian ini berisi petunjuk untuk menjalankan model populer.
Melatih ViT di Imagenette
Tutorial ini menunjukkan cara melatih model Vision Transformer (ViT) dari HuggingFace menggunakan set data imagenette Fast AI di Cloud TPU v5e.
Model ViT adalah model pertama yang berhasil melatih encoder Transformer di ImageNet dengan hasil yang sangat baik dibandingkan dengan jaringan konvolusional. Untuk mengetahui informasi selengkapnya, lihat referensi berikut:
Penyiapan
Buat variabel lingkungan:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=your_queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Anda dapat menjalankan SSH ke VM TPU setelah resource yang diantrekan berada dalam status
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Saat resource yang diantrekan berada dalam status
ACTIVE
, outputnya akan serupa dengan berikut ini:state: ACTIVE
Instal JAX beserta library-nya:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='pip install "jax[tpu]==0.4.16" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Download repositori dan persyaratan penginstalan Hugging Face:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='git clone https://github.com/huggingface/transformers.git && cd transformers && pip install . && pip install -r examples/flax/_tests_requirements.txt && pip install --upgrade huggingface-hub urllib3 zipp && pip install tensorflow==2.16.1 && pip install -r examples/flax/vision/requirements.txt'
Unduh {i>dataset<i} Imagenette:
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='cd transformers && wget https://s3.amazonaws.com/fast-ai-imageclas/imagenette2.tgz && tar -xvzf imagenette2.tgz'
Melatih model
Latih model dengan buffer yang telah dipetakan sebelumnya, berukuran 4 GB.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='cd transformers && JAX_PLATFORMS=tpu python3 examples/flax/vision/run_image_classification.py --train_dir "imagenette2/train" --validation_dir "imagenette2/val" --output_dir "./vit-imagenette" --learning_rate 1e-3 --preprocessing_num_workers 32 --per_device_train_batch_size 8 --per_device_eval_batch_size 8 --model_name_or_path google/vit-base-patch16-224-in21k --num_train_epochs 3'
Menghapus TPU dan resource dalam antrean
Hapus TPU dan resource dalam antrean di akhir sesi Anda.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Hasil tolok ukur ViT
Skrip pelatihan dijalankan pada v5litepod-4, v5litepod-16, dan v5litepod-64. Tabel berikut menunjukkan throughput dengan berbagai jenis akselerator.
Jenis akselerator | V5litepod-4 | V5litepod-16 | V5litepod-64 |
Zaman | 3 | 3 | 3 |
Ukuran tumpukan global | 32 | 128 | 512 |
Throughput (contoh/dtk) | 263,40 | 429,34 | 470,71 |
Train Diffusion di Pokémon
Tutorial ini menunjukkan cara melatih model Diffusion Stabil dari HuggingFace menggunakan set data Pokémon di Cloud TPU v5e.
Model Difusi Stabil adalah model teks ke gambar laten yang menghasilkan gambar realistik foto dari input teks apa pun. Untuk informasi selengkapnya, lihat referensi berikut:
Penyiapan
Buat variabel lingkungan:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Anda dapat menjalankan SSH ke VM TPU setelah resource yang diantrekan berada dalam status
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Saat resource yang diantrekan berada dalam status
ACTIVE
, output-nya akan serupa dengan berikut ini:state: ACTIVE
Instal JAX beserta library-nya.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='pip install "jax[tpu]==0.4.16" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Download repositori HuggingFace dan persyaratan penginstalan.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='git clone https://github.com/RissyRan/diffusers.git && cd diffusers && pip install . && pip install tensorflow==2.16.1 clu && pip install -U -r examples/text_to_image/requirements_flax.txt'
Melatih model
Latih model dengan buffer yang telah dipetakan sebelumnya, berukuran 4 GB.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='cd diffusers/examples/text_to_image && JAX_PLATFORMS=tpu,cpu python3 train_text_to_image_flax.py --pretrained_model_name_or_path=duongna/stable-diffusion-v1-4-flax --dataset_name=lambdalabs/pokemon-blip-captions --resolution=128 --center_crop --random_flip --train_batch_size=4 --mixed_precision=fp16 --max_train_steps=1500 --learning_rate=1e-05 --max_grad_norm=1 --output_dir=sd-pokemon-model'
Menghapus TPU dan resource yang diantrekan
Hapus TPU dan resource yang diantrekan di akhir sesi Anda.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Hasil benchmark untuk difusi
Skrip pelatihan berjalan pada v5litepod-4, v5litepod-16, dan v5litepod-64. Tabel berikut menunjukkan throughput.
Jenis akselerator | V5litepod-4 | V5litepod-16 | V5litepod-64 |
Langkah Kereta | 1500 | 1500 | 1500 |
Ukuran tumpukan global | 32 | 64 | 128 |
Throughput (contoh/dtk) | 36,53 | 43,71 | 49,36 |
Melatih GPT2 pada {i>dataset<i} OSCAR
Tutorial ini menunjukkan cara melatih model GPT2 dari HuggingFace menggunakan set data OSCAR pada Cloud TPU v5e.
GPT2 adalah model transformer yang dilatih sebelumnya pada teks mentah tanpa pelabelan manusia. Model ini dilatih untuk memprediksi kata berikutnya dalam kalimat. Untuk informasi selengkapnya, lihat resource berikut:
Penyiapan
Buat variabel lingkungan:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Anda dapat melakukan SSH ke VM TPU setelah resource yang diantrekan berada dalam status
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Saat resource yang diantrekan berada dalam status
ACTIVE
, outputnya akan serupa dengan berikut ini:state: ACTIVE
Instal JAX beserta library-nya.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='pip install "jax[tpu]==0.4.16" -f https://storage.googleapis.com/jax-releases/libtpu_releases.html'
Download repositori HuggingFace dan persyaratan penginstalan.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='git clone https://github.com/huggingface/transformers.git && cd transformers && pip install . && pip install -r examples/flax/_tests_requirements.txt && pip install --upgrade huggingface-hub urllib3 zipp && pip install tensorflow && pip install -r examples/flax/language-modeling/requirements.txt'
Download konfigurasi untuk melatih model.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command='cd transformers/examples/flax/language-modeling && gsutil cp -r gs://cloud-tpu-tpuvm-artifacts/v5litepod-preview/jax/gpt .'
Melatih model
Latih model dengan buffer yang telah dipetakan sebelumnya, berukuran 4 GB.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='cd transformers/examples/flax/language-modeling && TPU_PREMAPPED_BUFFER_SIZE=4294967296 JAX_PLATFORMS=tpu python3 run_clm_flax.py --output_dir=./gpt --model_type=gpt2 --config_name=./gpt --tokenizer_name=./gpt --dataset_name=oscar --dataset_config_name=unshuffled_deduplicated_no --do_train --do_eval --block_size=512 --per_device_train_batch_size=4 --per_device_eval_batch_size=4 --learning_rate=5e-3 --warmup_steps=1000 --adam_beta1=0.9 --adam_beta2=0.98 --weight_decay=0.01 --overwrite_output_dir --num_train_epochs=3 --logging_steps=500 --eval_steps=2500'
Menghapus TPU dan resource dalam antrean
Hapus TPU dan resource dalam antrean di akhir sesi Anda.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Hasil benchmark untuk GPT2
Skrip pelatihan berjalan pada v5litepod-4, v5litepod-16, dan v5litepod-64. Tabel berikut menunjukkan throughput.
V5litepod-4 | V5litepod-16 | V5litepod-64 | |
Zaman | 3 | 3 | 3 |
Ukuran tumpukan global | 64 | 64 | 64 |
Throughput (contoh/dtk) | 74,60 | 72,97 | 72,62 |
PyTorch/XLA
Melatih ResNet menggunakan runtime PJRT
PyTorch/XLA bermigrasi dari XRT ke PjRt dari PyTorch 2.0+. Berikut adalah petunjuk yang telah diperbarui guna menyiapkan v5e untuk workload pelatihan PyTorch/XLA.
Penyiapan
Buat variabel lingkungan:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=tpu-name export QUEUED_RESOURCE_ID=queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --{QUOTA_TYPE}
Anda dapat melakukan SSH ke VM TPU setelah QueuedResource berada dalam status
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Saat resource yang diantrekan berada dalam status
ACTIVE
, output-nya akan serupa dengan berikut ini:state: ACTIVE
Menginstal dependensi khusus Torch/XLA
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=' sudo apt-get update -y sudo apt-get install libomp5 -y pip3 install mkl mkl-include pip3 install tf-nightly tb-nightly tbp-nightly pip3 install numpy sudo apt-get install libopenblas-dev -y pip3 install torch~=2.1.0 torchvision torch_xla[tpu]~=2.1.0 -f https://storage.googleapis.com/libtpu-releases/index.html pip3 install torch_xla[tpu] -f https://storage.googleapis.com/libtpu-releases/index.html'
Melatih model ResNet
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='
date
export PJRT_DEVICE=TPU_C_API
export PT_XLA_DEBUG=0
export USE_TORCH=ON
export XLA_USE_BF16=1
export LIBTPU_INIT_ARGS=--xla_jf_auto_cross_replica_sharding
export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
export TPU_LIBRARY_PATH=$HOME/.local/lib/python3.10/site-packages/libtpu/libtpu.so
git clone https://github.com/pytorch/xla.git
cd xla/
git reset --hard caf5168785c081cd7eb60b49fe4fffeb894c39d9
python3 test/test_train_mp_imagenet.py --model=resnet50 --fake_data --num_epochs=1 —num_workers=16 --log_steps=300 --batch_size=64 --profile'
Menghapus TPU dan resource dalam antrean
Hapus TPU dan resource dalam antrean di akhir sesi Anda.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Hasil Tolok Ukur
Tabel berikut menunjukkan throughput benchmark.
Jenis akselerator | Throughput (contoh/detik) |
V5litepod-4 | 4.240 eks/dtk |
V5litepod-16 | 10.810 ex/dtk |
V5litepod-64 | 46.154 ex/dtk |
Melatih GPT2 di v5e
Tutorial ini akan membahas cara menjalankan GPT2 di v5e menggunakan repositori HuggingFace pada PyTorch/XLA menggunakan set data wikitext.
Penyiapan
Buat variabel lingkungan:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Anda akan dapat melakukan SSH ke VM TPU setelah QueuedResource berada dalam status
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Saat resource yang diantrekan berada dalam status
ACTIVE
, outputnya akan mirip dengan berikut ini:state: ACTIVE
Instal dependensi torch/xla.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=' sudo apt-get -y update sudo apt install -y libopenblas-base pip3 install torchvision pip3 uninstall -y torch pip3 install torch~=2.1.0 torchvision torch_xla[tpu]~=2.1.0 -f https://storage.googleapis.com/libtpu-releases/index.html pip3 install torch_xla[tpu] -f https://storage.googleapis.com/libtpu-releases/index.html'
Download repo dan persyaratan penginstalan HuggingFace.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=' git clone https://github.com/pytorch/xla.git pip install --upgrade accelerate git clone https://github.com/huggingface/transformers.git cd transformers git checkout ebdb185befaa821304d461ed6aa20a17e4dc3aa2 pip install . git log -1 pip install datasets evaluate scikit-learn '
Download konfigurasi model terlatih.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=' gsutil cp -r gs://cloud-tpu-tpuvm-artifacts/config/xl-ml-test/pytorch/gpt2/my_config_2.json transformers/examples/pytorch/language-modeling/ gsutil cp gs://cloud-tpu-tpuvm-artifacts/config/xl-ml-test/pytorch/gpt2/fsdp_config.json transformers/examples/pytorch/language-modeling/'
Melatih model
Latih model 2B menggunakan ukuran tumpukan 16.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='
export PJRT_DEVICE=TPU_C_API
cd transformers/
export LD_LIBRARY_PATH=/usr/local/lib/
export PT_XLA_DEBUG=0
export USE_TORCH=ON
python3 examples/pytorch/xla_spawn.py \
--num_cores=4 \
examples/pytorch/language-modeling/run_clm.py \
--num_train_epochs=3 \
--dataset_name=wikitext \
--dataset_config_name=wikitext-2-raw-v1 \
--per_device_train_batch_size=16 \
--per_device_eval_batch_size=16 \
--do_train \
--do_eval \
--logging_dir=./tensorboard-metrics \
--cache_dir=./cache_dir \
--output_dir=/tmp/test-clm \
--overwrite_output_dir \
--cache_dir=/tmp \
--config_name=examples/pytorch/language-modeling/my_config_2.json \
--tokenizer_name=gpt2 \
--block_size=1024 \
--optim=adafactor \
--adafactor=true \
--save_strategy=no \
--logging_strategy=no \
--fsdp=full_shard \
--fsdp_config=examples/pytorch/language-modeling/fsdp_config.json'
Menghapus TPU dan resource dalam antrean
Hapus TPU dan resource dalam antrean di akhir sesi Anda.
gcloud compute tpus tpu-vm delete ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--quiet
Hasil Tolok Ukur
Skrip pelatihan berjalan pada v5litepod-4, v5litepod-16, dan v5litepod-64. Tabel berikut menunjukkan throughput benchmark untuk berbagai jenis akselerator.
V5litepod-4 | V5litepod-16 | V5litepod-64 | |
Zaman | 3 | 3 | 3 |
config | 600 JT | 2 M | 16 M |
Ukuran tumpukan global | 64 | 128 | 256 |
Throughput (contoh/dtk) | 66 | 77 | 31 |
Latih ViT di v5e
Tutorial ini akan membahas cara menjalankan VIT di v5e menggunakan repositori HuggingFace pada PyTorch/XLA pada set data cifar10.
Penyiapan
Buat variabel lingkungan:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-west4-a export RUNTIME_VERSION=v2-alpha-tpuv5-lite export SERVICE_ACCOUNT=your_service_account export TPU_NAME=tpu-name export QUEUED_RESOURCE_ID=queued_resource_id export QUOTA_TYPE=quota_type export VALID_UNTIL_DURATION=1d
-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --valid-until-duration=${VALID_UNTIL_DURATION} \ --service-account=${SERVICE_ACCOUNT} \ --${QUOTA_TYPE}
Anda dapat melakukan SSH ke VM TPU setelah QueuedResource berada dalam status
ACTIVE
:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Saat resource yang diantrekan berada dalam status
ACTIVE
, outputnya akan mirip dengan berikut ini:state: ACTIVE
Menginstal dependensi torch/xla
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all --command=' sudo apt-get update -y sudo apt-get install libomp5 -y pip3 install mkl mkl-include pip3 install tf-nightly tb-nightly tbp-nightly pip3 install numpy sudo apt-get install libopenblas-dev -y pip3 install torch~=2.1.0 torchvision torch_xla[tpu]~=2.1.0 -f https://storage.googleapis.com/libtpu-releases/index.html pip3 install torch_xla[tpu] -f https://storage.googleapis.com/libtpu-releases/index.html'
Download repo dan persyaratan penginstalan HuggingFace.
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --worker=all \ --command=" git clone https://github.com/suexu1025/transformers.git vittransformers; \ cd vittransformers; \ pip3 install .; \ pip3 install datasets; \ wget https://github.com/pytorch/xla/blob/master/scripts/capture_profile.py"
Melatih model
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \
--project=${PROJECT_ID} \
--zone=${ZONE} \
--worker=all \
--command='
export PJRT_DEVICE=TPU_C_API
export PT_XLA_DEBUG=0
export USE_TORCH=ON
export TF_CPP_MIN_LOG_LEVEL=0
export XLA_USE_BF16=1
export LD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
export TPU_LIBRARY_PATH=$HOME/.local/lib/python3.10/site-packages/libtpu/libtpu.so
cd vittransformers
python3 -u examples/pytorch/xla_spawn.py --num_cores 4 examples/pytorch/image-pretraining/run_mae.py --dataset_name=cifar10 \
--remove_unused_columns=False \
--label_names=pixel_values \
--mask_ratio=0.75 \
--norm_pix_loss=True \
--do_train=true \
--do_eval=true \
--base_learning_rate=1.5e-4 \
--lr_scheduler_type=cosine \
--weight_decay=0.05 \
--num_train_epochs=3 \
--warmup_ratio=0.05 \
--per_device_train_batch_size=8 \
--per_device_eval_batch_size=8 \
--logging_strategy=steps \
--logging_steps=30 \
--evaluation_strategy=epoch \
--save_strategy=epoch \
--load_best_model_at_end=True \
--save_total_limit=3 \
--seed=1337 \
--output_dir=MAE \
--overwrite_output_dir=true \
--logging_dir=./tensorboard-metrics \
--tpu_metrics_debug=true'
Menghapus TPU dan resource dalam antrean
Hapus TPU dan resource dalam antrean di akhir sesi Anda.
gcloud compute tpus tpu-vm delete ${TPU_NAME}
--project=${PROJECT_ID}
--zone=${ZONE}
--quiet
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID}
--project=${PROJECT_ID}
--zone=${ZONE}
--quiet
Hasil Tolok Ukur
Tabel berikut menunjukkan throughput benchmark untuk berbagai jenis akselerator.
V5litepod-4 | V5litepod-16 | V5litepod-64 | |
Zaman | 3 | 3 | 3 |
Ukuran tumpukan global | 32 | 128 | 512 |
Throughput (contoh/dtk) | 201 | 657 | 2.844 |
TensorFlow 2.x
Melatih Resnet pada satu host v5e
Tutorial ini menjelaskan cara melatih ImageNet pada v5litepod-4
atau v5litepod-8
menggunakan set data palsu. Jika Anda ingin menggunakan set data lain, lihat
Menyiapkan set data.
Penyiapan
Buat variabel lingkungan:
export PROJECT_ID=your-project-ID export ACCELERATOR_TYPE=v5litepod-4 export ZONE=us-east1-c export RUNTIME_VERSION=tpu-vm-tf-2.15.0-pjrt export TPU_NAME=your-tpu-name export QUEUED_RESOURCE_ID=your-queued-resource-id export QUOTA_TYPE=quota-type
ACCELERATOR_TYPE
dapat berupav5litepod-4
atauv5litepod-8
. /-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --${QUOTA_TYPE}
Anda dapat melakukan SSH ke VM TPU setelah resource yang diantrekan berada dalam status
ACTIVE
. Untuk memeriksa status resource yang diantrekan, gunakan perintah berikut:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Menghubungkan ke TPU menggunakan SSH
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Menetapkan beberapa variabel lingkungan
export MODELS_REPO=/usr/share/tpu/models export PYTHONPATH="${MODELS_REPO}:${PYTHONPATH}" export MODEL_DIR=gcp-directory-to-store-model export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet export NEXT_PLUGGABLE_DEVICE_USE_C_API=true export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
Ubah ke direktori repositori model dan persyaratan penginstalan.
cd ${MODELS_REPO} && git checkout r2.15.0 pip install -r official/requirements.txt
Melatih model
Jalankan skrip pelatihan.
python3 official/vision/train.py \
--tpu=local \
--experiment=resnet_imagenet \
--mode=train_and_eval \
--config_file=official/vision/configs/experiments/image_classification/imagenet_resnet50_tpu.yaml \
--model_dir=${MODEL_DIR} \
--params_override="runtime.distribution_strategy=tpu,task.train_data.input_path=${DATA_DIR}/train*,task.validation_data.input_path=${DATA_DIR}/validation*,task.train_data.global_batch_size=2048,task.validation_data.global_batch_size=2048,trainer.train_steps=100"
Menghapus TPU dan resource dalam antrean
Menghapus TPU Anda
gcloud compute tpus tpu-vm delete ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --quiet
Menghapus permintaan sumber daya yang diantrekan
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --quiet
Melatih Resnet pada multi host v5e
Tutorial ini menjelaskan cara melatih ImageNet pada v5litepod-16
atau yang lebih besar menggunakan
set data palsu. Jika Anda ingin menggunakan set data yang berbeda, lihat bagian Menyiapkan set data.
Buat variabel lingkungan:
export PROJECT_ID=your_project_ID export ACCELERATOR_TYPE=v5litepod-16 export ZONE=us-east1-c export RUNTIME_VERSION=tpu-vm-tf-2.15.0-pod-pjrt export TPU_NAME=your_tpu_name export QUEUED_RESOURCE_ID=your-queued-resource-id export QUOTA_TYPE=quota-type
ACCELERATOR_TYPE
dapatv5litepod-16
atau lebih besar.-
gcloud alpha compute tpus queued-resources create ${QUEUED_RESOURCE_ID} \ --node-id=${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --accelerator-type=${ACCELERATOR_TYPE} \ --runtime-version=${RUNTIME_VERSION} \ --${QUOTA_TYPE}
Anda dapat melakukan SSH ke VM TPU setelah resource yang diantrekan berada dalam status
ACTIVE
. Untuk memeriksa status resource yang diantrekan, gunakan perintah berikut:gcloud compute tpus queued-resources describe ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Menghubungkan ke TPU (pekerja nol) menggunakan SSH
gcloud compute tpus tpu-vm ssh ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE}
Menetapkan beberapa variabel lingkungan
export MODELS_REPO=/usr/share/tpu/models export PYTHONPATH="${MODELS_REPO}:${PYTHONPATH}" export MODEL_DIR=gcp-directory-to-store-model export DATA_DIR=gs://cloud-tpu-test-datasets/fake_imagenet export TPU_LOAD_LIBRARY=0 export TPU_NAME=your_tpu_name
Ubah ke direktori repositori model dan persyaratan penginstalan.
cd $MODELS_REPO && git checkout r2.15.0 pip install -r official/requirements.txt
Melatih model
Jalankan skrip pelatihan.
python3 official/vision/train.py \
--tpu=${TPU_NAME} \
--experiment=resnet_imagenet \
--mode=train_and_eval \
--model_dir=${MODEL_DIR} \
--params_override="runtime.distribution_strategy=tpu,task.train_data.input_path=${DATA_DIR}/train*, task.validation_data.input_path=${DATA_DIR}/validation*"
Menghapus TPU dan resource dalam antrean
Menghapus TPU Anda
gcloud compute tpus tpu-vm delete ${TPU_NAME} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --quiet
Menghapus permintaan sumber daya yang diantrekan
gcloud compute tpus queued-resources delete ${QUEUED_RESOURCE_ID} \ --project=${PROJECT_ID} \ --zone=${ZONE} \ --quiet