Tentang peristiwa host


Selama masa aktif instance virtual machine (VM) atau instance bare metal, komputer host tempat instance Anda berjalan dapat mengalami beberapa peristiwa host. Peristiwa host dapat mencakup pemeliharaan reguler infrastruktur Compute Engine, atau, dalam kasus yang jarang terjadi, error host. Anda dapat memilih cara VM dan instance bare metal merespons selama atau setelah peristiwa host dengan mengonfigurasi kebijakan pemeliharaan host.

Secara default, sebagian besar instance disetel ke migrasi langsung selama peristiwa host. Anda dapat mengganti perilaku ini dan menetapkan instance secara eksplisit untuk dihentikan dan dimulai ulang secara opsional. Beberapa jenis mesin tidak mendukung migrasi langsung, seperti instance bare metal atau VM dengan GPU yang terpasang. Instance ini dihentikan selama peristiwa host. Untuk mengetahui informasi selengkapnya, lihat Perilaku pemeliharaan dan mulai ulang.

Jenis peristiwa host

Ada dua jenis peristiwa host, yang dijelaskan secara lebih mendetail di bagian berikut:

Jika instance Anda tidak responsif, hal ini juga dapat memicu dimulai ulang atau penghentian instance.

Peristiwa pemeliharaan

Peristiwa pemeliharaan adalah saat Compute Engine harus melakukan aktivitas pemeliharaan atau perbaikan yang mengharuskan VM dipindahkan dari server host. Jika Anda mengaktifkan kebijakan pemeliharaan host migrasi langsung untuk jenis instance yang didukung, Compute Engine akan memindahkan instance ke host baru, dan gangguan pada aplikasi Anda akan minimal.

Perilaku instance selama peristiwa pemeliharaan dapat bervariasi bergantung pada tenancy instance serta jenis mesin. Tabel berikut meringkas perilaku untuk peristiwa pemeliharaan terencana.

Tenancy host Perkiraan frekuensi peristiwa
pemeliharaan
Migrasi langsung didukung Pemilihan host
Multi-tenant (bersama) Setiap 2 minggu Ya Compute Engine
Sole-tenant Setiap 4 hingga 6 minggu Bergantung pada kebijakan pemeliharaan host Bergantung pada kebijakan pemeliharaan host
X4 Minimum 90 hari Tidak Compute Engine
C3 Minimum 30 hari Tidak Compute Engine

Compute Engine juga menerapkan beberapa upgrade jaringan dan hypervisor ringan di latar belakang tanpa mengganggu dengan mempertahankan instance di host yang sama.

Error host

Error host (compute.instances.hostError) berarti terjadi masalah hardware atau software pada mesin fisik atau infrastruktur pusat data yang menghosting instance komputasi Anda yang menyebabkan instance Anda error. Error host yang melibatkan kegagalan hardware total atau masalah hardware lainnya dapat mencegah migrasi langsung instance Anda. Jika instance Anda disetel untuk otomatis memulai ulang, yang merupakan setelan default, Compute Engine akan memulai ulang instance Anda, biasanya dalam waktu tiga menit sejak error terdeteksi. Bergantung pada masalahnya, proses mulai ulang mungkin memerlukan waktu hingga 5,5 menit.

Terkadang, instance komputasi mungkin menjadi tidak responsif sebelum error host diberi sinyal. Anda dapat mengurangi waktu tunggu Compute Engine untuk memulai ulang atau menghentikan instance dengan menetapkan waktu tunggu pemulihan error host (Pratinjau). Untuk mengetahui informasi selengkapnya, lihat Menetapkan kebijakan ketersediaan.

Kegagalan fisik dan software terkadang dapat terjadi, tetapi jarang terjadi. Untuk melindungi aplikasi dan layanan Anda dari peristiwa sistem yang berpotensi mengganggu ini, tinjau referensi berikut:

Google juga menawarkan layanan terkelola seperti App Engine dan lingkungan fleksibel App Engine.

Ringkasan kebijakan pemeliharaan host

Kebijakan pemeliharaan host instance menentukan perilakunya selama peristiwa host berikut:

  • Peristiwa pemeliharaan
  • Peristiwa error host atau instance tidak merespons

Anda dapat mengonfigurasi instance agar terus berjalan selama pemeliharaan host, sementara Compute Engine memigrasikannya secara langsung ke host lain atau Anda dapat memilih untuk menghentikan instance.

Anda dapat mengubah kebijakan pemeliharaan host instance dengan mengonfigurasi setelan berikut:

  • Perilaku pemeliharaan: apakah instance dimigrasikan secara langsung atau dihentikan saat ada peristiwa pemeliharaan.
  • Perilaku mulai ulang: apakah Compute Engine memulai ulang atau menghentikan instance jika instance mengalami error, mengalami error host, atau menjadi tidak responsif.
  • Waktu pendeteksian error host: jumlah waktu maksimum yang ditunggu Compute Engine untuk memulai ulang atau menghentikan instance setelah mendeteksi bahwa instance tidak responsif.
  • Waktu pemulihan SSD Lokal: jumlah waktu maksimum yang dihabiskan Compute Engine untuk memulihkan data di disk SSD Lokal setelah mendeteksi error host. Data SSD Lokal akan hilang jika waktu yang ditentukan berlalu tanpa pemulihan yang berhasil.

Anda dapat memperbarui kebijakan pemeliharaan host instance kapan saja untuk mengontrol perilaku instance.

Perilaku pemeliharaan dan mulai ulang

Saat peristiwa host terjadi, instance komputasi dapat menggunakan migrasi langsung, atau instance dapat dihentikan. Jika instance dihentikan, Anda dapat memilih untuk memulai ulang instance sendiri atau meminta Compute Engine untuk memulai ulang instance secara otomatis.

Seri mesin berikut tidak mendukung migrasi langsung dan dihentikan selama peristiwa host:

Migrasi langsung

Secara default, sebagian besar jenis instance disetel ke migrasi langsung, kecuali:

  • Instance dengan GPU dan TPU terpasang
  • Instance X4 atau bare metal C3
  • Instance Z3

Selama migrasi langsung, Compute Engine akan otomatis memigrasikan instance Anda dari peristiwa pemeliharaan infrastruktur, dan instance Anda tetap berjalan selama migrasi. Instance Anda mungkin mengalami penurunan performa yang singkat, tetapi secara umum, performa sebagian besar instance tidak akan terlalu berbeda. Hal ini ideal untuk instance yang memerlukan waktu aktif yang konstan dan dapat menoleransi penurunan performa dalam waktu singkat.

Saat memigrasikan instance, Compute Engine akan melaporkan peristiwa sistem yang dipublikasikan ke daftar operasi zona dan ke log Peristiwa Sistem. Anda dapat meninjau peristiwa ini dengan melihat operasi Compute Engine untuk zona tertentu. Peristiwa migrasi langsung memiliki jenis operasi berikut:

compute.instances.migrateOnHostMaintenance

Menghentikan dan memulai ulang

Jika tidak ingin instance melakukan migrasi langsung, atau jika jenis instance Anda tidak mendukung migrasi langsung, Anda dapat memilih untuk mengizinkan Google Cloud menghentikan instance saat peristiwa host terjadi. Dengan konfigurasi ini, jika peristiwa host terjadi, Compute Engine akan mengirimkan sinyal power-off soft untuk menonaktifkan instance. Kemudian, Compute Engine menunggu selama 60 detik hingga instance dimatikan dengan sempurna, dan menetapkan status instance ke TERMINATED. Jika instance tidak dimatikan dengan benar dalam 60 detik, instance akan dihentikan paksa.

Opsi ini ideal jika instance Anda menuntut performa maksimum yang konstan, dan jika keseluruhan aplikasi Anda dibuat untuk menangani kegagalan atau mulai ulang instance.

Saat menghentikan instance karena peristiwa host, Compute Engine akan melaporkan peristiwa sistem yang dipublikasikan ke daftar operasi zona dan ke log Peristiwa Sistem. Anda dapat meninjau peristiwa ini dengan melihat operasi Compute Engine untuk zona tertentu. Peristiwa penghentian instance memiliki jenis operasi berikut:

compute.instances.terminateOnHostMaintenance

Mulai ulang otomatis

Jika instance Anda dikonfigurasi untuk berhenti saat ada peristiwa pemeliharaan, atau instance Anda error karena masalah hardware yang mendasar, Compute Engine dapat memulai ulang instance secara otomatis. Instance dimulai ulang di server host yang sama, atau dipindahkan ke server lain di zona yang sama yang tidak berpartisipasi dalam peristiwa pemeliharaan.

Secara default, Compute Engine mencoba memulihkan instance dengan disk SSD Lokal yang terpasang selama satu jam. Jika batas waktu tercapai, Compute Engine akan mencoba memulai ulang instance di server host lain di zona yang sama. Instance Z3 dan X4 memiliki waktu tunggu default yang berbeda. Jenis instance ini dimulai ulang di server host yang sama setelah penghentian instance.

Untuk mengonfigurasi mulai ulang otomatis, tetapkan kolom kebijakan pemeliharaan host automaticRestart ke true. Setelan ini tidak berlaku jika instance dibuat offline karena pemadaman layanan zona atau melalui tindakan pengguna, seperti memanggil sudo shutdown dalam OS tamu.

Saat memulai ulang instance secara otomatis, Compute Engine akan melaporkan peristiwa sistem yang dipublikasikan ke daftar operasi zona. Anda dapat meninjau peristiwa ini dengan melihat operasi Compute Engine untuk zona tertentu. Peristiwa mulai ulang otomatis memiliki jenis operasi berikut:

compute.instances.automaticRestart

Persistensi disk setelah penghentian instance

Karena Persistent Disk dan Hyperdisk adalah penyimpanan yang terpasang di jaringan, saat instance Anda dimulai ulang, Compute Engine akan memasang ulang disk booting dan disk sekunder ke instance. Data pada disk tersebut tetap ada melalui migrasi live dan mulai ulang instance.

Compute Engine mempertahankan data di disk SSD Lokal setelah peristiwa host jika memungkinkan. Namun, Compute Engine tidak menjamin persistensi data SSD Lokal.

  • Disk SSD lokal dipertahankan jika:

    • Anda mengonfigurasi instance untuk migrasi langsung dan instance akan mengalami peristiwa pemeliharaan host.
    • Error host terjadi dan Compute Engine menghubungkan kembali instance ke disk SSD Lokal dalam batas waktu tunggu.
    • Instance komputasi dengan disk SSD Lokal yang terpasang yang hanya mendukung penghentian dan mulai ulang otomatis akan mengalami peristiwa pemeliharaan. Instance dimulai ulang di tempat, sehingga mempertahankan data SSD Lokal, bukan dimigrasikan ke host baru.
  • Disk SSD lokal tidak disimpan jika:

    • Anda menonaktifkan sistem operasi tamu dan memaksa instance berhenti.
    • Anda mengonfigurasi instance untuk berhenti pada peristiwa pemeliharaan host dan instance akan melalui peristiwa pemeliharaan host.
    • Terjadi error host dan Compute Engine tidak dapat menghubungkan kembali disk ke instance sebelum waktu tunggu berakhir. Dalam hal ini, instance dimulai ulang tanpa memulihkan disk SSD Lokal. Saat instance dimulai ulang, Compute Engine akan memasang disk SSD Lokal kosong ke instance yang dimulai ulang. Anda harus memformat dan memasang disk ini sebelum instance dapat menggunakannya. Data di disk SSD Lokal asli tidak dapat dipulihkan.

Google Cloud melakukan upaya terbaik untuk memastikan data SSD Lokal Anda tetap utuh. Namun, ada kasus saat data tidak dapat dipulihkan, seperti kasus waktu tunggu habis. Untuk mengetahui informasi selengkapnya tentang kapan disk SSD Lokal dipertahankan, lihat Persistensi data SSD Lokal.

Waktu tunggu pemulihan SSD lokal

Saat error host terjadi, Compute Engine akan mencoba memulihkan disk SSD Lokal yang terpasang ke instance. Anda dapat mengontrol berapa lama waktu yang dihabiskan Compute Engine untuk mencoba memulihkan data dengan setelan localSsdRecoveryTimeout kebijakan host.

Secara default, Compute Engine menghabiskan waktu 1 jam untuk memulihkan data, tetapi nilai valid untuk setelan ini adalah antara 0 dan 168, dengan kelipatan 1 jam. Untuk instance Z3, nilai defaultnya adalah 6, yang berarti instance Z3 akan mencoba memulihkan data SSD Lokal selama 6 jam sebelum mencapai batas waktu tunggu.

Jika Anda menetapkan waktu tunggu pemulihan SSD Lokal ke 0, Compute Engine tidak akan mencoba memulihkan disk SSD Lokal yang terpasang. Instance dimulai ulang segera mungkin dan data SSD Lokal tidak dapat dipulihkan. Gunakan konfigurasi ini jika melanjutkan beban kerja lebih penting daripada memulihkan data SSD Lokal.

Jika waktu tunggu pemulihan tidak ditetapkan ke 0, tetapi batas waktu tercapai sebelum data SSD Lokal dipulihkan, Compute Engine akan memulai ulang instance tanpa disk SSD Lokal. Compute Engine memasang disk SSD Lokal baru yang kosong ke instance yang dimulai ulang. Anda harus memformat dan memasang disk ini sebelum instance dapat menggunakannya.

Instance berada dalam status REPAIRING saat Compute Engine mencoba memulihkan disk SSD Lokal. Instance dan disk SSD Lokal tidak tersedia selama periode ini.

Jika Anda menetapkan waktu tunggu pemulihan SSD Lokal ke nilai maksimum 168, instance akan tetap dalam status REPAIRING hingga 7 hari saat Compute Engine mencoba memulihkan disk SSD Lokal.

Menghentikan pemulihan disk SSD Lokal

Anda dapat mengganggu proses pemulihan disk SSD Lokal sebelum Compute Engine mencapai batas waktu tunggu pemulihan. Untuk melakukannya, gunakan perintah gcloud compute instances stop dengan flag --discard-local-ssd=True.

Perintah ini menghentikan proses pemulihan, menghentikan instance komputasi, dan menghapus data SSD Lokal. Kemudian, Anda dapat memulai ulang instance. Lihat Menghentikan instance dengan SSD Lokal untuk mengetahui informasi selengkapnya.

Untuk menetapkan waktu tunggu pemulihan SSD Lokal, lihat Menetapkan kebijakan pemeliharaan host instance.

Penjadwalan pemeliharaan

Google Cloud menyediakan fitur yang memungkinkan kontrol yang lebih ketat seputar pemeliharaan. Dengan menggunakan keluarga mesin tertentu, Anda dapat menentukan preferensi pemeliharaan dan mendapatkan notifikasi tentang peristiwa pemeliharaan mendatang melalui Cloud Logging, server metadata instance, perintah compute instances describe gcloud CLI, atau metode instances.describe REST. Setelah menerima notifikasi, Anda memiliki jangka waktu untuk memulai pemeliharaan terjadwal pada waktu yang Anda pilih. Jika Anda tidak memicu pemeliharaan terjadwal, peristiwa pemeliharaan akan terjadi pada akhir jangka waktu notifikasi, yaitu waktu terjadwal yang tercantum dalam notifikasi.

Anda dapat menggunakan fitur ini bersama dengan kebijakan pemeliharaan host untuk menyesuaikan jadwal pemeliharaan yang sesuai dengan workload Anda.

Langkah selanjutnya