Anda dapat memilih cara instance virtual machine (VM) merespons selama atau setelah peristiwa host dengan menyetel kebijakan pemeliharaan host selama pembuatan VM. Peristiwa host dapat mencakup pemeliharaan rutin infrastruktur Compute Engine, atau error host pada VM. Secara default, VM ditetapkan ke migrasi langsung selama peristiwa sistem host, tetapi Anda dapat menetapkannya ke dihentikan dan dimulai ulang secara opsional. VM Z3 adalah pengecualian untuk migrasi langsung, karena VM tersebut dimulai ulang secara default.
Peristiwa host berikut menyebabkan migrasi langsung atau penghentian VM Anda, bergantung pada kebijakan pemeliharaan host yang Anda tetapkan:
Peristiwa pemeliharaan
Peristiwa pemeliharaan terjadi saat Compute Engine menghentikan VM untuk melakukan update hardware atau software. Jika Anda mengaktifkan kebijakan pemeliharaan host migrasi langsung, Compute Engine akan memindahkan VM ke host baru, dan aplikasi Anda tidak akan mengalami gangguan.
Perilaku VM selama peristiwa pemeliharaan dapat bervariasi, bergantung pada tenancy VM. Tabel berikut menunjukkan beberapa perbedaan antara perilaku VM multi-tenant dan sole-tenant selama peristiwa pemeliharaan.
Tenancy host | Perkiraan frekuensi* | Migrasi langsung ke penyelenggara baru | Pilihan host |
---|---|---|---|
Multi-tenant | Setiap 2 minggu | Ya | Compute Engine |
Sole-tenant | Setiap 4 sampai 6 minggu | Bergantung pada kebijakan pemeliharaan host | Bergantung pada kebijakan pemeliharaan host |
Compute Engine juga menerapkan beberapa hypervisor dan upgrade jaringan ringan di latar belakang tanpa gangguan.
Kebijakan pemeliharaan host
Kebijakan pemeliharaan host VM menentukan perilakunya selama peristiwa berikut:
- Saat ada peristiwa pemeliharaan ketika Google harus memindahkan VM ke mesin host lain
- Saat terjadi error host saat Google harus menghentikan atau memulai ulang VM
Anda dapat mengonfigurasi VM agar terus berjalan selama pemeliharaan host, sementara Compute Engine memigrasikannya secara langsung ke host lain atau Anda dapat memilih untuk menghentikan VM. Anda dapat memperbarui kebijakan pemeliharaan host VM kapan saja untuk mengontrol perilaku VM yang Anda inginkan.
Anda dapat mengubah kebijakan pemeliharaan host VM dengan mengonfigurasi setelan berikut:
- Perilaku pemeliharaan: apakah VM dimigrasikan secara langsung atau dihentikan saat ada peristiwa pemeliharaan.
- Perilaku mulai ulang: apakah Compute Engine memulai ulang atau menghentikan VM jika VM mengalami error atau mengalami error host.
- Waktu pendeteksian error host: jumlah waktu maksimum Compute Engine menunggu untuk memulai ulang atau menghentikan VM setelah mendeteksi bahwa VM tidak responsif.
- Waktu pemulihan SSD lokal: jumlah waktu maksimum yang dihabiskan Compute Engine untuk memulihkan data pada disk SSD lokal setelah mendeteksi error host. Data SSD lokal akan hilang jika waktu yang ditentukan berlalu tanpa pemulihan yang berhasil.
Penjadwalan pemeliharaan
Google Cloud menyediakan fitur yang memungkinkan kontrol lebih ketat terkait pemeliharaan. Dengan menggunakan kelompok VM tertentu, Anda dapat menentukan preferensi pemeliharaan untuk mendapatkan notifikasi selama beberapa hari melalui Cloud Logging. Setelah menerima notifikasi, Anda dapat memicu pemeliharaan kapan saja yang Anda pilih hingga peristiwa terjadwal.
Anda dapat menggunakan fitur ini bersama dengan kebijakan pemeliharaan host untuk menyesuaikan jadwal yang sesuai dengan workload Anda.
Migrasi langsung
Secara default, semua VM kecuali VM Z3 ditetapkan ke migrasi langsung, di mana Compute Engine memigrasikan VM Anda secara otomatis dari peristiwa pemeliharaan infrastruktur, dan VM Anda akan tetap berjalan selama migrasi. VM Anda mungkin akan mengalami penurunan performa dalam waktu singkat, tetapi secara umum, performa sebagian besar VM tidak akan terlalu berbeda. Solusi ini ideal untuk VM yang memerlukan waktu beroperasi konstan, dan dapat menoleransi penurunan performa dalam waktu singkat.
Saat memigrasikan VM Anda, Compute Engine melaporkan peristiwa sistem yang dipublikasikan ke daftar operasi zona. Anda dapat meninjau peristiwa ini dengan melihat operasi Compute Engine untuk zona tertentu. Acara migrasi langsung memiliki jenis operasi berikut:
compute.instances.migrateOnHostMaintenance
Menghentikan dan (opsional) memulai ulang
Jika tidak ingin VM Anda dimigrasikan langsung, Anda dapat memilih untuk berhenti dan memulai ulang VM secara opsional. Untuk VM yang disetel untuk berhenti dan dimulai ulang secara opsional, Compute Engine mengirimkan sinyal soft power-off untuk mematikan VM. Kemudian, menunggu selama 60 detik hingga VM dinonaktifkan secara bersih, menghentikan VM, dan memulai ulang VM dari peristiwa pemeliharaan. Jika tidak dimatikan dalam 60 detik, VM akan dihentikan.
Opsi ini ideal jika VM Anda membutuhkan konstanta dan performa maksimum, dan jika keseluruhan aplikasi Anda dibangun untuk menangani kegagalan atau reboot VM.
Saat Compute Engine menghentikan dan memulai ulang VM, Compute Engine melaporkan peristiwa sistem yang dipublikasikan ke daftar operasi zona. Anda dapat meninjau peristiwa ini dengan melihat operasi Compute Engine untuk zona tertentu. Peristiwa yang dihentikan memiliki jenis operasi berikut:
compute.instances.terminateOnHostMaintenance
Saat dimulai ulang, VM akan menggunakan persistent boot disk yang sama dan memasang kembali persistent disk sekunder yang dikonfigurasi. Data pada disk tersebut tetap ada melalui migrasi dan mulai ulang VM.
Data SSD lokal tidak akan bertahan saat VM dihentikan karena peristiwa pemeliharaan. Saat dimulai ulang, VM akan membuat SSD Lokal baru yang harus Anda format dan pasang.
Data SSD lokal tetap ada di VM Z3 yang dioptimalkan untuk penyimpanan(Pratinjau). Saat ada peristiwa pemeliharaan, VM Z3 akan dimulai ulang, bukan bermigrasi ke host baru. Pada akhir pemeliharaan rutin, VM Anda akan dimulai ulang. Google Cloud berusaha sebaik mungkin untuk memastikan data SSD Lokal Anda tetap utuh. Namun, ada beberapa kasus saat data tidak dapat dipulihkan, seperti kasus waktu tunggu.
Mulai ulang otomatis
Jika VM Anda disetel untuk berhenti ketika ada peristiwa pemeliharaan, atau VM Anda error karena masalah hardware yang mendasar, Anda dapat menetapkan Compute Engine untuk otomatis memulai ulang VM dengan menyetel setelan
kolom automaticRestart
ke true
. Setelan ini tidak berlaku jika
VM dibuat offline melalui tindakan pengguna, seperti memanggil
sudo shutdown
, atau selama pemadaman layanan zona.
Saat memulai ulang VM secara otomatis, Compute Engine melaporkan peristiwa sistem yang dipublikasikan ke daftar operasi zona. Anda dapat meninjau peristiwa ini dengan melihat operasi Compute Engine untuk zona tertentu. Peristiwa mulai ulang otomatis memiliki jenis operasi berikut:
compute.instances.automaticRestart
Error host
Error host (compute.instances.hostError
) berarti terjadi masalah hardware atau software pada mesin fisik yang menghosting VM Anda yang menyebabkan VM Anda error. Error host yang melibatkan kegagalan hardware
total atau masalah hardware lainnya dapat mencegah
migrasi langsung VM Anda.
Jika VM Anda disetel untuk otomatis memulai ulang, yang merupakan setelan default, Google akan memulai ulang VM Anda, biasanya dalam waktu tiga menit sejak error terdeteksi. Bergantung pada masalahnya, proses mulai ulang mungkin memerlukan waktu hingga 5,5 menit.
VM dengan disk SSD lokal
Jika terjadi error host pada VM yang memiliki satu atau beberapa disk SSD Lokal yang terpasang, Compute Engine akan melakukan upaya terbaik untuk menghubungkan kembali ke VM dan mempertahankan SSD Lokal. data. Saat Compute Engine sedang memulihkan disk VM dan SSD Lokal Anda, sistem host dan disk yang mendasarinya tidak responsif.
Anda dapat menentukan berapa lama waktu yang dihabiskan Compute Engine untuk mencoba memulihkan data SSD Lokal dengan menetapkan waktu tunggu pemulihan SSD Lokal.
Untuk mengetahui informasi selengkapnya tentang perilaku disk SSD Lokal saat terjadi error host, lihat Persistensi data SSD lokal.
VM tidak responsif
Terkadang, VM mungkin menjadi tidak responsif sebelum error host terdeteksi. Anda dapat mengurangi waktu tunggu Compute Engine untuk memulai ulang atau menghentikan VM dengan menetapkan waktu tunggu pemulihan error host (Pratinjau). Untuk mengetahui informasi selengkapnya, lihat Menetapkan kebijakan ketersediaan.
Kegagalan fisik dan software terkadang dapat terjadi, tetapi jarang terjadi. Untuk melindungi aplikasi dan layanan Anda dari peristiwa sistem yang berpotensi mengganggu ini, tinjau referensi berikut:
- Merancang sistem yang kuat
- Pola untuk aplikasi yang skalabel dan tangguh
- Membuat grup instance terkelola
Google juga menawarkan layanan terkelola seperti App Engine dan lingkungan fleksibel App Engine.
Waktu pemulihan SSD lokal habis
Saat terjadi error host, Compute Engine mencoba memulihkan disk SSD Lokal yang terpasang ke VM. Anda dapat mengontrol durasi waktu yang dihabiskan Compute Engine untuk mencoba memulihkan data dengan waktu tunggu pemulihan SSD Lokal. Secara default, Compute Engine menghabiskan waktu 1 jam untuk memulihkan data, tetapi nilai validnya adalah antara 0 - 168, dengan kelipatan 1 jam. Pengecualian untuk hal ini adalah Z3, yang memiliki waktu pemulihan default hingga 6 jam.
Jika waktu tunggu habis dan data masih tidak dapat dipulihkan, Compute Engine akan memulai ulang VM tanpa disk SSD Lokal. Compute Engine memasang disk SSD Lokal baru yang kosong ke VM yang dimulai ulang.
Jika waktu tunggunya adalah 1 jam atau lebih, VM akan berada dalam status REPAIRING
sementara Compute Engine memulihkan semua disk SSD Lokal yang terpasang. Disk VM dan SSD Lokal tidak responsif selama pemulihan.
Jika waktu tunggunya 0, Compute Engine tidak akan mencoba memulihkan disk SSD Lokal dan data tidak dapat dipulihkan. Anda dapat menetapkan waktu tunggu pemulihan ke 0 jika melanjutkan workload lebih penting daripada memulihkan data SSD Lokal.
Menghentikan pemulihan disk SSD Lokal
Anda dapat menginterupsi proses pemulihan sebelum waktu tunggu pemulihan SSD Lokal berakhir. Untuk melakukannya, gunakan perintah gcloud compute instances stop
dengan
flag --discard-local-ssd=True
.
Tindakan ini akan menghentikan proses pemulihan, menghentikan VM, dan menghapus data SSD Lokal. Setelah itu, Anda dapat memulai ulang VM. Lihat Menghentikan VM dengan SSD Lokal untuk mengetahui informasi selengkapnya.
Untuk menyetel waktu tunggu pemulihan SSD Lokal, lihat Menetapkan kebijakan pemeliharaan host VM.
Langkah selanjutnya
- Pelajari migrasi langsung lebih lanjut.
- Pelajari cara menyetel kebijakan pemeliharaan host VM lebih lanjut.
- Pelajari lebih lanjut cara mendapatkan pemberitahuan migrasi langsung.
- Pelajari lebih lanjut cara menyimulasikan pemeliharaan host.
- Pelajari lebih lanjut cara menangani peristiwa pemeliharaan host GPU.
- Pelajari lebih lanjut VM sole-tenant yang dimigrasikan secara manual.