Proses migrasi langsung selama peristiwa pemeliharaan

Selama peristiwa pemeliharaan yang direncanakan pada hardware dasar instance mesin virtual (VM), Compute Engine mungkin memindahkan VM ke host lainnya. Agar VM tetap berjalan selama peristiwa host, Compute Engine melakukan migrasi langsung VM ke host lain di zona yang sama. Untuk mengetahui informasi selengkapnya tentang peristiwa host, lihat Tentang peristiwa host.

Dengan migrasi langsung, Google Cloud dapat melakukan pemeliharaan tanpa mengganggu workload, memulai ulang VM, atau mengubah properti VM, seperti alamat IP, metadata, data block storage, status aplikasi, dan setelan jaringan.

Selain membuat VM tetap berjalan selama peristiwa host yang direncanakan, migrasi langsung membuat VM tetap berjalan selama situasi berikut:

Pemeliharaan infrastruktur. Pemeliharaan infrastruktur mencakup hardware host, jaringan, dan jaringan listrik di pusat data, serta OS dan BIOS host.
Update terkait keamanan dan perubahan konfigurasi sistem. Hal ini mencakup peristiwa seperti menginstal patch keamanan dan mengubah ukuran partisi root host untuk penyimpanan image dan paket OS host.
Kegagalan hardware. Hal ini termasuk kegagalan di memori, CPU, kartu antarmuka jaringan, dan disk. Jika hardware gagal sepenuhnya atau mencegah migrasi langsung, VM akan dihentikan, dimulai ulang secara otomatis, dan Compute Engine mencatat hostError ke dalam log.

Compute Engine hanya melakukan migrasi langsung VM yang kebijakan pemeliharaan host-nya ditetapkan untuk dimigrasikan. Untuk mengetahui informasi cara mengubah kebijakan pemeliharaan host, lihat Menetapkan kebijakan pemeliharaan host VM.

Proses migrasi langsung dan SSD lokal

Compute Engine dapat melakukan migrasi VM secara langsung dengan SSD lokal yang terpasang, sehingga memindahkan VM bersama dengan SSD lokalnya ke mesin baru sebelum pemeliharaan terencana apa pun.

Batasan

Migrasi langsung tidak didukung untuk jenis VM berikut:

Beberapa instance Confidential VM. Migrasi langsung hanya didukung pada jenis mesin N2D dengan platform CPU AMD EPYC Milan yang menjalankan AMD SEV. Semua jenis Confidential VM lainnya harus disetel untuk berhenti dan memulai ulang jika perlu. Lihat Migrasi langsung untuk detail selengkapnya.
VM dengan GPU terpasang. Instance VM dengan GPU terpasang harus disetel ke berhenti dan dimulai ulang jika perlu. Compute Engine memberikan pemberitahuan 60 menit sebelum instance VM dengan GPU terpasang dihentikan. Untuk mempelajari pemberitahuan peristiwa pemeliharaan ini lebih lanjut, baca Mendapatkan pemberitahuan migrasi langsung.

Untuk mempelajari lebih lanjut cara menangani pemeliharaan host dengan GPU, baca Menangani pemeliharaan host di dokumentasi GPU.
Cloud TPU. Cloud TPU tidak mendukung migrasi langsung.
Preemptible VM. Anda tidak dapat mengonfigurasi preemptible VM untuk melakukan migrasi langsung. Perilaku pemeliharaan untuk preemptible instance selalu ditetapkan ke TERMINATE secara default, dan opsi ini tidak dapat Anda ubah. Anda tidak dapat menetapkan opsi mulai ulang otomatis untuk preemptible instance, tetapi Anda dapat memulai ulang preemptible VM secara manual dari halaman Detail Instance VM setelah VM tersebut di-preempt.

Jika Anda perlu mengubah instance agar tidak lagi dapat dihentikan, lepaskan boot disk dari preemptible instance dan pasang ke instance baru yang tidak dikonfigurasi untuk preemptible. Anda juga dapat membuat snapshot dari boot disk dan menggunakannya untuk membuat instance baru tanpa kemungkinan untuk dihentikan.
Spot VM. Spot VM tidak dapat langsung melakukan migrasi untuk menjadi VM standar saat sedang berjalan atau ditetapkan untuk memulai ulang secara otomatis saat ada peristiwa host.
VM yang dioptimalkan untuk penyimpanan. VM Z3 tidak mendukung migrasi langsung. Perilaku pemeliharaan untuk VM Z3 ditetapkan ke TERMINATE.

Bagaimana cara kerja proses migrasi langsung?

Saat VM dijadwalkan untuk melakukan migrasi langsung, Google Cloud akan memberikan notifikasi. Selama migrasi langsung, Google Cloud memastikan waktu gangguan minimum, yang biasanya jauh kurang dari 1 detik. Jika VM tidak ditetapkan ke migrasi langsung, Compute Engine akan menghentikan VM selama pemeliharaan host. VM yang ditetapkan untuk berhenti selama peristiwa host berhenti dan (secara opsional) memulai ulang.

Saat memigrasikan VM yang sedang berjalan dari satu host ke host lainnya, Google Cloud memindahkan status lengkap VM dari sumber ke tujuan dengan cara yang transparan bagi OS tamu dan apa pun yang berkomunikasi dengannya. Ada banyak komponen yang terlibat agar pekerjaan ini berjalan dengan lancar, tetapi langkah-langkah tingkat tinggi ditunjukkan dalam ilustrasi berikut:

Memigrasikan VM dan setiap resource-nya ke sistem host baru
tanpa harus memulai ulang sistem operasi tamu. — *Komponen migrasi langsung*

Proses ini dimulai dengan notifikasi bahwa VM perlu dipindahkan dari mesin host mereka saat ini. Notifikasi ini mungkin dimulai dengan perubahan file yang menunjukkan bahwa versi BIOS baru tersedia, pemeliharaan penjadwalan operasi hardware, atau sinyal otomatis dari kegagalan hardware yang akan terjadi.

Software pengelolaan cluster Google Cloud terus memantau peristiwa ini dan menjadwalkannya berdasarkan kebijakan yang mengontrol pusat data, seperti tingkat penggunaan kapasitas dan jumlah VM yang dapat dimigrasikan oleh satu pelanggan sekaligus.

Setelah VM dipilih untuk migrasi, Google Cloud akan memberikan notifikasi kepada tamu bahwa migrasi akan segera terjadi. Setelah periode tunggu, host target dipilih dan host diminta untuk menyiapkan VM "target" baru yang kosong untuk menerima VM "sumber" yang dimigrasikan. Otentikasi digunakan untuk menghubungkan antara sumber dan target.

Ada tiga tahap yang terlibat dalam migrasi VM:

Pengurangan kapasitas sumber. VM masih berjalan di sumber, sementara sebagian besar status dikirim dari sumber ke target. Misalnya, Google Cloud menyalin semua memori tamu ke target, sambil melacak halaman yang telah diubah di sumber. Waktu yang dihabiskan dalam penonaktifan sumber adalah fungsi dari ukuran memori tamu dan kecepatan halaman yang diubah.
Pemadaman. Saat VM tidak berjalan di mana pun, VM dijeda, dan semua status tersisa yang diperlukan untuk mulai menjalankan VM pada target akan dikirim. VM memasuki tahap penonaktifan saat pengiriman status selama pengurangan kapasitas sumber mencapai titik penurunan hasil. Sebuah algoritma digunakan untuk menyeimbangkan jumlah byte memori yang dikirim terhadap kecepatan VM tamu membuat perubahan.

Selama peristiwa pemadaman, jam sistem akan tampak melompat ke depan, hingga 5 detik. Jika peristiwa penonaktifan melebihi 5 detik, Google Cloud akan menghentikan dan menyinkronkan ulang jam menggunakan daemon yang disertakan sebagai bagian dari paket tamu VM.
Menargetkan pengurangan kapasitas. VM dijalankan pada VM target. VM sumber tersedia dan mungkin menyediakan fungsi pendukung untuk VM target. Misalnya, hingga fabric jaringan berhasil menemukan lokasi baru VM target, VM sumber akan menyediakan layanan penerusan untuk paket ke dan dari VM target.

Terakhir, migrasi selesai dan sistem akan menghapus VM sumber. Anda dapat melihat bahwa migrasi terjadi di log VM.

Proses migrasi langsung manual

Saat workload Anda berjalan, sebaiknya pindahkan VM ke grup node atau node yang berbeda. Sole-tenancy memungkinkan Anda memindahkan VM ke node tenant tunggal tertentu atau ke grup node. Jika Anda memindahkan VM ke sekelompok node, Compute Engine akan menentukan node mana yang akan menempatkan VM. Untuk mengetahui informasi tentang tenancy tunggal, lihat ringkasan tenancy tunggal.

Untuk memindahkan VM tenant tunggal ke node atau grup node lain, Anda dapat memulai migrasi langsung secara manual. Anda juga dapat memulai migrasi langsung secara manual untuk memindahkan VM multi-tenant ke tenancy tunggal. Untuk mengetahui informasi selengkapnya, baca artikel Melakukan migrasi VM secara manual.

Langkah selanjutnya

Tetapkan Kebijakan pemeliharaan host VM untuk mengonfigurasi instance Anda agar dimigrasikan langsung.
Baca tips untuk merancang sistem tangguh yang dapat menangani gangguan layanan.