Penjadwalan pengumpulan TPU untuk beban kerja inferensi

Trillium (v6e) menyertakan fitur yang disebut "penjadwalan pengumpulan" yang memungkinkan Anda mengelompokkan sekumpulan slice TPU, satu atau multi-host yang dimaksudkan untuk menayangkan replika model yang sama. Fitur ini tersedia untuk konfigurasi Cloud TPU dan GKE.

Dokumen ini membahas penggunaan penjadwalan pengumpulan dengan Cloud TPU API. Lihat dokumentasi GKE untuk mengetahui informasi selengkapnya tentang penggunaan penjadwalan pengumpulan dengan GKE.

Dengan membuat koleksi untuk beban kerja inferensi, Google Cloud membatasi dan menyederhanakan gangguan pada operasi beban kerja inferensi. Hal ini berguna untuk workload inferensi dengan ketersediaan tinggi sebagai masalah. Google Cloud memastikan ketersediaan tinggi untuk pengumpulan guna mengelola traffic masuk. Sebagian slice dalam koleksi selalu tersedia untuk menangani traffic masuk.

Setiap slice TPU dalam koleksi akan memiliki jenis dan topologi akselerator yang sama.

Penjadwalan pengumpulan hanya berlaku untuk v6e.

Membuat koleksi dari Cloud TPU API

Saat meminta resource yang diantrekan menggunakan Cloud TPU API, Anda menggunakan flag --workload-type = AVAILABILITY-OPTIMIZED untuk membuat koleksi. Flag ini menunjukkan kepada infrastruktur Cloud TPU bahwa infrastruktur tersebut dimaksudkan untuk digunakan untuk workload yang berfokus pada ketersediaan.

Perintah berikut menyediakan koleksi menggunakan Cloud TPU API:

gcloud alpha compute tpus queued-resources create serving-QR \
   --project=$PROJECT_ID \
   --zone=${ZONE} \
   --accelerator-type ${ACCELERATOR_TYPE} \
   --node-count ${NODE_COUNT} \
   --node-prefix "servingTPU" \
   --workload-type = AVAILABILITY-OPTIMIZED

Flag --node-count menentukan jumlah slice yang Anda inginkan dalam resource yang diantrekan. Tindakan ini akan membuat kumpulan slice TPU.

Opsional: Flag --node-prefix menentukan awalan untuk nama slice.