Memulai peristiwa pemeliharaan host secara manual

Halaman ini menjelaskan cara memulai peristiwa pemeliharaan host secara manual di VM TPU yang didukung. Hal ini berguna untuk beban kerja yang mungkin terpengaruh oleh performa menurun atau periode nonaktif, yang memerlukan masa pemeliharaan untuk dimulai pada waktu tertentu.

Saat Anda memulai peristiwa pemeliharaan secara manual, peristiwa pemeliharaan host akan segera dimulai. Anda tidak dapat menentukan tanggal atau waktu untuk memulai peristiwa pemeliharaan. Jika Anda tidak menggunakan fitur ini, peristiwa pemeliharaan akan terjadi pada waktu yang ditunjukkan dalam notifikasi pemeliharaan mendatang.

Untuk informasi tentang cara memulai pemeliharaan TPU di GKE secara manual, lihat Mengelola gangguan node GKE untuk GPU dan TPU.

Batasan

Anda hanya dapat memulai peristiwa pemeliharaan host secara manual untuk VM TPU v6e dengan konfigurasi berikut:

  • VM TPU v6e dengan konfigurasi topologi 2x4 (v6e-8 jika menggunakan kolom jenis akselerator di Cloud TPU API) atau yang lebih besar
  • Node pool multi-host GKE dengan VM TPU v6e yang berukuran 2x4 atau lebih besar

Memulai pemeliharaan host segera untuk slice yang lebih besar mungkin menyebabkan slice tidak tersedia hingga beberapa jam. Biasanya, peristiwa pemeliharaan host akan menyebabkan slice dijadwalkan ulang sesegera mungkin ke kumpulan host lain yang memenuhi syarat, tetapi untuk permintaan peristiwa pemeliharaan host yang lebih besar, mungkin tidak ada kapasitas yang memadai untuk segera menjadwalkan ulang slice, sehingga waktu tunggu menjadi lebih lama.

Selain itu, memulai pemeliharaan pada slice Cloud TPU akan memulai pemeliharaan untuk semua VM TPU yang mendasarinya. Jika Anda melakukan pemeliharaan langsung pada salah satu instance menggunakan Instances API, semua instance dalam slice Cloud TPU akan memasuki pemeliharaan. Sebagai gantinya, gunakan queued-resources Cloud TPU API untuk menentukan node mana yang harus melakukan pemeliharaan.

Memulai peristiwa pemeliharaan host secara manual

Anda dapat menggunakan notifikasi pemeliharaan untuk menentukan kapan Anda dapat memulai peristiwa pemeliharaan secara manual di TPU.

Memeriksa informasi notifikasi

Anda dapat menemukan notifikasi untuk peristiwa pemeliharaan mendatang menggunakan Cloud TPU API atau dengan membuat kueri server metadata di VM. Untuk mengetahui informasi selengkapnya, lihat Melihat notifikasi pemeliharaan.

Anda dapat memulai peristiwa pemeliharaan terlebih dahulu jika ada notifikasi pemeliharaan host mendatang di TPU. Untuk memulai peristiwa pemeliharaan lebih awal, notifikasi pemeliharaan host mendatang harus memiliki canReschedule yang ditetapkan ke true dan maintenanceStatus yang ditetapkan ke PENDING.

Memulai peristiwa pemeliharaan

Untuk memulai peristiwa pemeliharaan host, Anda dapat menggunakan Cloud TPU API dengan perintah perform-maintenance:

gcloud alpha compute tpus tpu-vm perform-maintenance TPU_NAME \
    --zone=ZONE

Saat operasi selesai, kolom windowEndTime dan windowStartTime akan berubah menjadi waktu saat Anda memulai peristiwa pemeliharaan, dan kolom maintenanceStatus akan berubah menjadi ONGOING. Peristiwa pemeliharaan host akan segera dimulai.

Gunakan perintah gcloud alpha compute tpus tpu-vm describe untuk melihat status peristiwa pemeliharaan:

gcloud alpha compute tpus tpu-vm describe TPU_NAME \
    --zone=ZONE

Pada outputnya, akan terdapat bagian yang mirip seperti berikut ini:

upcomingMaintenance:
    canReschedule: true
    latestWindowStartTime: "2025-12-01T19:00:00Z"
    maintenanceStatus: ONGOING
    type: SCHEDULED
    windowEndTime: "2025-12-01T22:00:00Z"
    windowStartTime: "2025-12-01T19:00:00Z"

Pemeliharaan selesai saat status VM TPU adalah READY dan output dari perintah gcloud alpha compute tpus tpu-vm describe tidak lagi berisi kolom metadata upcomingMaintenance.

Untuk lingkungan Multislice, Anda dapat memulai peristiwa pemeliharaan host secara manual di slice tertentu menggunakan perintah berikut:

gcloud alpha compute tpus queued-resources perform-maintenance QR_NAME \
    --zone=ZONE --node-names=NODE_NAMES

NODE_NAMES adalah daftar slice (node) yang dipisahkan koma dalam resource yang diantrekan, yang ingin Anda mulai untuk peristiwa pemeliharaan host. Misalnya, jika resource dalam antrean memiliki node bernama my-qr-0, my-qr-1, dan my-qr-2, input yang valid untuk perintah perform-maintenance adalah --node-names=my-qr-0,my-qr-1.

Langkah selanjutnya