Penjadwalan pengumpulan TPU untuk beban kerja inferensi
Trillium (v6e) menyertakan fitur yang disebut "penjadwalan pengumpulan" yang memungkinkan Anda mengelompokkan sekumpulan slice TPU, satu atau multi-host yang dimaksudkan untuk menayangkan replika model yang sama. Fitur ini tersedia untuk konfigurasi Cloud TPU dan GKE.
Dokumen ini membahas penggunaan penjadwalan pengumpulan dengan Cloud TPU API. Lihat dokumentasi GKE untuk mengetahui informasi selengkapnya tentang penggunaan penjadwalan pengumpulan dengan GKE.
Dengan membuat koleksi untuk beban kerja inferensi, Google Cloud membatasi dan menyederhanakan gangguan pada operasi beban kerja inferensi. Hal ini berguna untuk workload inferensi dengan ketersediaan tinggi sebagai masalah. Google Cloud memastikan ketersediaan tinggi untuk pengumpulan guna mengelola traffic masuk. Sebagian slice dalam koleksi selalu tersedia untuk menangani traffic masuk.
Setiap slice TPU dalam koleksi akan memiliki jenis dan topologi akselerator yang sama.
Penjadwalan pengumpulan hanya berlaku untuk v6e.
Membuat koleksi dari Cloud TPU API
Saat meminta resource yang diantrekan menggunakan Cloud TPU API, Anda menggunakan flag --workload-type = AVAILABILITY-OPTIMIZED
untuk membuat koleksi. Flag ini menunjukkan kepada infrastruktur Cloud TPU bahwa infrastruktur tersebut
dimaksudkan untuk digunakan untuk workload yang berfokus pada ketersediaan.
Perintah berikut menyediakan koleksi menggunakan Cloud TPU API:
gcloud alpha compute tpus queued-resources create serving-QR \ --project=$PROJECT_ID \ --zone=${ZONE} \ --accelerator-type ${ACCELERATOR_TYPE} \ --node-count ${NODE_COUNT} \ --node-prefix "servingTPU" \ --workload-type = AVAILABILITY-OPTIMIZED
Flag --node-count
menentukan jumlah slice yang Anda inginkan dalam
resource yang diantrekan. Tindakan ini akan membuat kumpulan slice TPU.
Opsional: Flag --node-prefix
menentukan awalan untuk nama slice.