Menangani peristiwa pemeliharaan host GPU


Saat Compute Engine melakukan pemeliharaan pada virtual machine (VM) dengan unit pemrosesan grafis (GPU) terpasang, VM harus dihentikan. Hal ini karena VM dengan GPU yang terpasang tidak dapat dimigrasikan langsung.

Anda harus menetapkan VM ini ke berhenti untuk peristiwa pemeliharaan host. Anda dapat menetapkan VM yang dihentikan untuk memulai ulang secara otomatis setelah peristiwa pemeliharaan selesai.

Peristiwa pemeliharaan host biasanya terjadi dua minggu sekali, tetapi terkadang bisa berjalan lebih sering.

Dokumen ini membahas cara meminimalkan gangguan pada workload selama peristiwa pemeliharaan.

Menerima pemberitahuan awal sebelum peristiwa pemeliharaan

Anda dapat memantau jadwal pemeliharaan untuk instance virtual machine (VM) dan menyiapkan workload untuk bertransisi melalui mulai ulang sistem.

Untuk menerima pemberitahuan awal tentang peristiwa host, pantau nilai metadata /computeMetadata/v1/instance/maintenance-event. Jika permintaan ke server metadata menampilkan NONE, VM tidak dijadwalkan untuk berhenti. Misalnya, jalankan perintah berikut dari dalam VM:

curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google"

NONE

Jika server metadata menampilkan TERMINATE_ON_HOST_MAINTENANCE, VM Anda akan dijadwalkan untuk berhenti. Compute Engine memberi VM GPU pemberitahuan berhenti 1 jam, sedangkan VM normal hanya menerima pemberitahuan 60 detik. Konfigurasi aplikasi Anda untuk bertransisi melalui peristiwa pemeliharaan. Misalnya, Anda dapat menggunakan salah satu teknik berikut:

  • Konfigurasikan aplikasi Anda untuk memindahkan sementara pekerjaan yang sedang berlangsung ke bucket Cloud Storage, lalu ambil data tersebut setelah VM dimulai ulang.

  • Menulis data ke Persistent Disk sekunder. Saat VM dimulai ulang secara otomatis, Persistent Disk dapat dipasang kembali dan aplikasi Anda dapat melanjutkan pekerjaan.

Apa langkah selanjutnya?