Memulai peristiwa pemeliharaan host secara manual
Halaman ini menjelaskan cara memulai peristiwa pemeliharaan host secara manual di VM TPU yang didukung. Hal ini berguna untuk beban kerja yang mungkin terpengaruh oleh performa menurun atau periode nonaktif, yang memerlukan masa pemeliharaan untuk dimulai pada waktu tertentu.
Saat Anda memulai peristiwa pemeliharaan secara manual, peristiwa pemeliharaan host akan segera dimulai. Anda tidak dapat menentukan tanggal atau waktu untuk memulai peristiwa pemeliharaan. Jika Anda tidak menggunakan fitur ini, peristiwa pemeliharaan akan terjadi pada waktu yang ditunjukkan dalam notifikasi pemeliharaan mendatang.
Untuk informasi tentang cara memulai pemeliharaan TPU di GKE secara manual, lihat Mengelola gangguan node GKE untuk GPU dan TPU.
Batasan
Anda hanya dapat memulai peristiwa pemeliharaan host secara manual untuk VM TPU v6e dengan konfigurasi berikut:
- VM TPU v6e dengan konfigurasi topologi
2x4
(v6e-8
jika menggunakan kolom jenis akselerator di Cloud TPU API) atau yang lebih besar - Node pool multi-host GKE dengan VM TPU v6e yang berukuran
2x4
atau lebih besar
Memulai pemeliharaan host segera untuk slice yang lebih besar mungkin menyebabkan slice tidak tersedia hingga beberapa jam. Biasanya, peristiwa pemeliharaan host akan menyebabkan slice dijadwalkan ulang sesegera mungkin ke kumpulan host lain yang memenuhi syarat, tetapi untuk permintaan peristiwa pemeliharaan host yang lebih besar, mungkin tidak ada kapasitas yang memadai untuk segera menjadwalkan ulang slice, sehingga waktu tunggu menjadi lebih lama.
Selain itu, memulai pemeliharaan pada slice Cloud TPU akan memulai
pemeliharaan untuk semua VM TPU yang mendasarinya. Jika Anda melakukan pemeliharaan langsung pada salah satu instance menggunakan Instances API, semua instance dalam slice Cloud TPU akan memasuki pemeliharaan. Sebagai gantinya, gunakan
queued-resources
Cloud TPU API untuk menentukan node mana yang harus
melakukan pemeliharaan.
Memulai peristiwa pemeliharaan host secara manual
Anda dapat menggunakan notifikasi pemeliharaan untuk menentukan kapan Anda dapat memulai peristiwa pemeliharaan secara manual di TPU.
Memeriksa informasi notifikasi
Anda dapat menemukan notifikasi untuk peristiwa pemeliharaan mendatang menggunakan Cloud TPU API atau dengan membuat kueri server metadata di VM. Untuk mengetahui informasi selengkapnya, lihat Melihat notifikasi pemeliharaan.
Anda dapat memulai peristiwa pemeliharaan terlebih dahulu jika ada notifikasi pemeliharaan host
mendatang di TPU. Untuk memulai peristiwa
pemeliharaan lebih awal, notifikasi pemeliharaan host mendatang harus memiliki
canReschedule
yang ditetapkan ke true
dan maintenanceStatus
yang ditetapkan ke PENDING
.
Memulai peristiwa pemeliharaan
Untuk memulai peristiwa pemeliharaan host, Anda dapat menggunakan Cloud TPU API dengan perintah perform-maintenance
:
gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \ --zone=ZONE
Saat operasi selesai, kolom windowEndTime
dan windowStartTime
akan berubah menjadi waktu saat Anda memulai peristiwa pemeliharaan, dan
kolom maintenanceStatus
akan berubah menjadi ONGOING
. Peristiwa pemeliharaan host
akan segera dimulai.
Gunakan perintah gcloud alpha compute tpus tpu-vm describe
untuk melihat status peristiwa pemeliharaan:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
Pada outputnya, akan terdapat bagian yang mirip seperti berikut ini:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: ONGOING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
Pemeliharaan selesai saat status VM TPU adalah READY
dan output dari perintah gcloud alpha compute tpus tpu-vm describe
tidak lagi berisi kolom metadata upcomingMaintenance
.
Untuk lingkungan Multislice, Anda dapat memulai peristiwa pemeliharaan host secara manual di slice tertentu menggunakan perintah berikut:
gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \ --zone=ZONE --node-names=NODE_NAMES
NODE_NAMES
adalah daftar slice (node) yang dipisahkan koma dalam resource yang diantrekan,
yang ingin Anda mulai untuk peristiwa pemeliharaan host. Misalnya, jika resource dalam antrean
memiliki node bernama my-qr-0, my-qr-1
, dan my-qr-2
, input yang valid untuk
perintah perform-maintenance
adalah --node-names=my-qr-0,my-qr-1
.