Melihat notifikasi pemeliharaan
Peristiwa pemeliharaan host adalah saat Google Cloud harus melakukan aktivitas pemeliharaan atau perbaikan pada TPU Anda. Google mengirimkan notifikasi untuk pemeliharaan host mendatang sebelum pemeliharaan dilakukan. Saat periode pemeliharaan dibuka, Google Cloud akan otomatis melakukan pemeliharaan pada instance Anda. Dengan memantau periode pemeliharaan mendatang untuk instance, Anda dapat secara proaktif menyiapkan workload untuk menangani pemeliharaan mendatang dengan gangguan minimal.
Cloud TPU memungkinkan Anda melihat notifikasi pemeliharaan menggunakan Google Cloud CLI dan dengan membuat kueri server metadata. Anda juga dapat melihat peristiwa pemeliharaan mendatang di Cloud Logging. Untuk informasi tentang cara melihat notifikasi pemeliharaan untuk TPU di GKE, lihat Mengelola gangguan node GKE untuk GPU dan TPU.
Kolom notifikasi pemeliharaan
Notifikasi pemeliharaan berisi kolom berikut:
windowStartTime
: Awal periode waktu saat pemeliharaan akan terjadiwindowEndTime
: Akhir periode waktu saat pemeliharaan akan dilakukanlatestWindowStartTime
: Waktu terbaru yang dapat digunakan untuk memindahkan periode pemeliharaanmaintenanceType
: Jenis pemeliharaan yang akan dilakukanSCHEDULED
: Pemeliharaan akan mendapatkan pemberitahuan tujuh hariUNSCHEDULED
: Pemeliharaan mewakili update penting yang pemberitahuannya lebih sedikit daripada peristiwa pemeliharaan terjadwal
canReschedule
: Apakah Anda dapat memulai pemeliharaan secara manual selama periode notifikasi untuk VM ini.TRUE
: Anda dapat memulai pemeliharaan secara manual selama periode notifikasi.FALSE
: Anda tidak dapat memulai pemeliharaan secara manual di VM ini. Hal ini biasanya diamati selama periode saat VM secara aktif menjalani pemeliharaan.
maintenanceStatus
: Status operasi pemeliharaan saat iniONGOING
: Operasi pemeliharaan sedang berlangsungPENDING
: Operasi pemeliharaan belum dimulai, tetapi dijadwalkan
Jika tidak ada notifikasi pemeliharaan, responsnya akan terlihat mirip dengan berikut:
{ "error": "no notifications have been received yet, try again later" }
Perilaku status pemeliharaan
Saat mengelola peristiwa pemeliharaan, periksa nilai untuk canReschedule
dan
maintenanceStatus
. Jika digabungkan, kolom ini menunjukkan tindakan yang dapat atau tidak dapat Anda lakukan terkait memulai peristiwa pemeliharaan secara manual:
canReschedule=True
danmaintenanceStatus=Pending
: Anda dapat memulai peristiwa pemeliharaan untuk instance secara manual sebelum waktu mulai yang dijadwalkan.canReschedule=False
danmaintenanceStatus=Ongoing
: pemeliharaan sedang berlangsung dan tidak dapat dijadwalkan ulang.canReschedule=False
danmaintenanceStatus=Pending
: instance Anda tidak mendukung peristiwa pemeliharaan yang dipicu secara manual.
Melihat notifikasi pemeliharaan
Anda dapat melihat notifikasi pemeliharaan dengan:
- Memanggil Cloud TPU API menggunakan Google Cloud CLI
- Membuat kueri server metadata di VM Anda
- Memeriksa Cloud Logging
Memeriksa TPU untuk notifikasi pemeliharaan
gcloud
Gunakan perintah gcloud alpha compute tpus tpu-vm
describe
untuk melihat
notifikasi pemeliharaan:
gcloud alpha compute tpus tpu-vm describe TPU_NAME \ --zone=ZONE
Jika ada peristiwa pemeliharaan mendatang, respons akan berisi bagian seperti berikut:
upcomingMaintenance: canReschedule: true latestWindowStartTime: "2025-12-01T19:00:00Z" maintenanceStatus: PENDING type: SCHEDULED windowEndTime: "2025-12-01T22:00:00Z" windowStartTime: "2025-12-01T19:00:00Z"
Dalam respons ini:
- Pemeliharaan dijadwalkan untuk tanggal dan waktu yang ditampilkan di
windowStartTime
. canReschedule
disetel ketrue
danmaintenanceStatus
disetel kePENDING
. Setelan ini menunjukkan bahwa Anda dapat memulai peristiwa pemeliharaan terjadwal secara manual sebelum tanggal yang ditampilkan dilatestWindowStartTime
.
Server metadata
Dari VM TPU, buat kueri server metadata untuk melihat peristiwa pemeliharaan berikutnya:
curl http://metadata.google.internal/computeMetadata/v1/instance/upcoming-maintenance?alt=json -H "Metadata-Flavor: Google"
Jika ada peristiwa pemeliharaan mendatang, respons akan berisi bagian yang mirip dengan berikut ini:
Upcoming maintenance: { "can_reschedule" : "true", "latest_window_start_time" : "2024-06-12T16:00:01+00:00", "maintenance_status" : "PENDING", "type" : "SCHEDULED", "window_end_time" : "2024-06-12T20:00:00+00:00", "window_start_time" : "2024-06-12T16:00:00+00:00" }
Anda dapat membuat kueri server metadata dari VM TPU mana pun dalam slice karena notifikasi peristiwa pemeliharaan mendatang sama untuk semua VM dalam slice.
Untuk mengetahui informasi selengkapnya tentang metadata VM, lihat Tentang metadata VM dalam dokumentasi Compute Engine.
Memeriksa Cloud Logging untuk melihat notifikasi pemeliharaan
Saat notifikasi dijadwalkan di Cloud TPU, Cloud Logging akan berisi log aktivitas sistem untuk peristiwa tersebut, dengan methodName
: compute.instance.upcomingMaintenance
. Untuk melihat log peristiwa pemeliharaan mendatang:
Di menu navigasi konsol Google Cloud , buka halaman Logs Explorer:
Gunakan kueri penelusuran berikut untuk melihat TPU yang memiliki peristiwa pemeliharaan mendatang yang dijadwalkan:
"compute.instances.upcomingMaintenance"
Cloud TPU mencatat peristiwa pemeliharaan mendatang di Cloud Logging berdasarkan setiap instance VM, misalnya,
t1v-n-5bdca789-w-0
.
Contoh log notifikasi pemeliharaan
Notifikasi peristiwa pemeliharaan muncul di Logs Explorer dengan nilai yang mirip dengan berikut:
methodName
:"compute.instances.upcomingMaintenance"
metadata
:maintenanceStatus
:"PENDING"
windowStartTime
:"2024-07-23T20:00:00Z"
Berikut adalah contoh entri log lengkap untuk peristiwa pemeliharaan mendatang:
{
"protoPayload": {
"@type": "type.googleapis.com/google.cloud.audit.AuditLog",
"status": {
"message": "Maintenance is scheduled for this instance. Review the maintenance schedule by describing the VM with gcloud CLI or querying the http://metadata.google.internal/computeMetadata/v1/instance/upcoming-maintenance metadata key."
},
"serviceName": "compute.googleapis.com",
"methodName": "compute.instances.upcomingMaintenance",
"resourceName": "projects/cloud-tpu-multipod-dev/zones/europe-west4-b/instances/t1v-n-9472280f-w-0",
"request": {
"@type": "type.googleapis.com/compute.instances.upcomingMaintenance"
},
"metadata": {
"type": "SCHEDULED",
"windowStartTime": "2024-11-15T04:00:00Z",
"canReschedule": true,
"latestWindowStartTime": "2024-11-15T04:00:01Z",
"windowEndTime": "2024-11-15T08:00:00Z",
"maintenanceStatus": "PENDING"
},
"logName": "projects/cloud-tpu-multipod-dev/logs/cloudaudit.googleapis.com%2Fsystem_event",
"operation": {
"id": "systemevent-1731038451389-6265ecbfcd453-5127b81e-f40b8149",
"producer": "compute.instances.upcomingMaintenance",
"first": true,
"last": true
},
"receiveTimestamp": "2024-11-08T04:00:54.457835088Z"
}
Saat peristiwa pemeliharaan dimulai, peristiwa informatif baru akan muncul dalam log dengan nilai yang mirip dengan berikut:
methodName
:"compute.instances.upcomingMaintenance"
metadata
:maintenanceStatus
:"ONGOING"
windowStartTime
:"2024-07-23T20:00:00Z"
Saat peristiwa pemeliharaan berakhir, peristiwa informasi baru akan muncul di log audit dengan nilai yang mirip dengan berikut ini:
methodName
:"compute.instances.upcomingMaintenance"
status: { message: "Maintenance window has completed for this instance. All maintenance notifications on the instance have been removed." }