Memahami dampak kegagalan di Google Distributed Cloud

Google Distributed Cloud dirancang untuk membatasi cakupan kegagalan dan memprioritaskan fungsi yang penting bagi kontinuitas bisnis. Dokumen ini menjelaskan pengaruh fungsi cluster Anda saat terjadi kegagalan. Informasi ini dapat membantu Anda memprioritaskan area untuk memecahkan masalah jika Anda mengalami masalah.

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.

Fungsi inti Google Distributed Cloud mencakup kategori berikut:

  • Menjalankan workload: Workload yang ada dapat terus berjalan. Ini adalah pertimbangan yang paling penting untuk mempertahankan kelangsungan bisnis. Meskipun cluster Anda mengalami masalah, workload yang ada mungkin akan terus berjalan tanpa gangguan.
  • Mengelola workload: Anda dapat membuat, memperbarui, dan menghapus workload. Ini adalah pertimbangan terpenting kedua untuk menskalakan workload saat traffic meningkat, meskipun cluster mengalami masalah.
  • Mengelola cluster pengguna: Anda dapat mengelola node, mengupdate, mengupgrade, dan menghapus cluster pengguna. Hal ini kurang penting daripada pertimbangan siklus proses aplikasi. Jika ada kapasitas yang tersedia di node yang ada, ketidakmampuan untuk mengubah cluster pengguna tidak akan memengaruhi beban kerja pengguna.
  • Mengelola cluster admin: Anda dapat mengupdate dan mengupgrade cluster admin.
    • Untuk deployment yang menggunakan cluster admin dan pengguna terpisah, ini adalah pertimbangan yang paling tidak penting karena cluster admin tidak menghosting beban kerja pengguna. Jika cluster admin Anda mengalami masalah, beban kerja aplikasi Anda di cluster lain akan terus berjalan tanpa gangguan.
    • Jika Anda menggunakan model deployment lain, seperti campuran atau mandiri, cluster admin akan menjalankan beban kerja aplikasi. Jika cluster admin mengalami masalah dan bidang kontrol tidak berfungsi, Anda juga tidak dapat mengelola beban kerja aplikasi atau komponen cluster pengguna.

Bagian berikut menggunakan kategori fungsi inti ini untuk menjelaskan dampak jenis skenario kegagalan tertentu. Jika ada gangguan sebagai bagian dari skenario kegagalan, durasi (urutan) gangguan juga dicatat, jika memungkinkan.

Kegagalan node

Node di Google Distributed Cloud mungkin berhenti berfungsi atau tidak dapat dijangkau di jaringan. Bergantung pada kumpulan node dan cluster tempat mesin yang gagal menjadi bagiannya, ada beberapa mode kegagalan yang berbeda.

Node bidang kontrol

Tabel berikut menguraikan perilaku untuk node yang merupakan bagian dari platform kontrol di Google Distributed Cloud:

Menjalankan workload Mengelola workload Mengelola cluster pengguna Mengelola cluster admin
Gangguan (durasi) Tanpa gangguan Kemungkinan gangguan (tidak diketahui) Kemungkinan gangguan (tidak diketahui) Kemungkinan gangguan (tidak diketahui)
Explanation Jika kegagalan node memengaruhi satu node bidang kontrol dalam cluster pengguna non-highly available (HA), atau jika memengaruhi tidak kurang dari setengah node bidang kontrol dalam cluster pengguna HA, akan terjadi gangguan. Kuorum bidang kontrol cluster pengguna hilang. Jika kegagalan node memengaruhi satu node bidang kontrol di cluster admin non-HA, atau jika memengaruhi tidak kurang dari setengah node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum control plane cluster admin hilang. Jika kegagalan node memengaruhi satu node bidang kontrol di cluster admin non-HA, atau jika memengaruhi tidak kurang dari setengah node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum control plane cluster admin hilang.
Pemulihan Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari kehilangan kuorum. Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari kehilangan kuorum. Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari kehilangan kuorum.
Pencegahan Deploy cluster pengguna dalam mode HA untuk meminimalkan kemungkinan gangguan. Deploy cluster admin dalam mode HA untuk meminimalkan kemungkinan gangguan. Deploy cluster admin dalam mode HA untuk meminimalkan kemungkinan gangguan.

Node load balancer

Tabel berikut menguraikan perilaku untuk node yang menghosting load balancer di Google Distributed Cloud. Panduan ini hanya berlaku untuk load balancer yang dipaketkan dengan mode lapisan 2. Untuk load balancing manual, lihat mode kegagalan load balancer eksternal Anda:

Menjalankan workload Mengelola workload Mengelola cluster pengguna Mengelola cluster admin
Gangguan (durasi) Kemungkinan gangguan (bervariasi) Kemungkinan gangguan (bervariasi) Kemungkinan gangguan (bervariasi) Kemungkinan gangguan (bervariasi)
Explanation Jika beban kerja eksternal mengandalkan load balancer bidang data untuk berkomunikasi dengan beban kerja di cluster dan Anda hanya memiliki satu node load balancer, akan terjadi gangguan. Alamat IP virtual bidang kontrol cluster pengguna berada di satu node load balancer. Jika nodepool load balancer cluster pengguna bukan HA, akan terjadi gangguan. Alamat IP virtual bidang kontrol cluster admin berada di satu node load balancer. Jika nodepool load balancer cluster admin bukan HA, akan terjadi gangguan. Alamat IP virtual bidang kontrol cluster admin berada di satu node load balancer. Jika nodepool load balancer cluster admin bukan HA, akan terjadi gangguan.
Pemulihan

Jika ada beberapa node load balancer, failover MetalLB akan terjadi dalam beberapa detik.

Jika bukan HA, pertimbangkan untuk men-deploy node load balancer tambahan.

Jika HA, failover bersifat otomatis dan berlangsung dalam hitungan detik.

Jika bukan HA, pertimbangkan untuk men-deploy node load balancer tambahan

Jika HA, failover bersifat otomatis dan berlangsung dalam hitungan detik.

Jika bukan HA, pertimbangkan untuk men-deploy node load balancer tambahan.

Jika HA, failover bersifat otomatis dan berlangsung dalam hitungan detik.

Jika bukan HA, pertimbangkan untuk men-deploy node load balancer tambahan.

Pencegahan Untuk meminimalkan kemungkinan gangguan, deploy nodepool load balancer dalam mode HA. Untuk meminimalkan kemungkinan gangguan, deploy nodepool load balancer dalam mode HA. Untuk meminimalkan kemungkinan gangguan, deploy nodepool load balancer dalam mode HA. Untuk meminimalkan kemungkinan gangguan, deploy nodepool load balancer dalam mode HA.

Node pekerja

Tabel berikut menguraikan perilaku untuk node pekerja di Google Distributed Cloud:

Menjalankan workload Mengelola workload Mengelola cluster pengguna Mengelola cluster admin
Gangguan (durasi) Kemungkinan gangguan (urutan detik) Tanpa gangguan Tanpa gangguan Tanpa gangguan
Explanation

Pods yang berjalan di node yang gagal akan terganggu, dan otomatis dijadwalkan ulang ke node lain yang berfungsi dengan baik dengan waktu tunggu penghapusan default selama 5 menit.

Jika aplikasi pengguna memiliki kapasitas beban kerja cadangan dan tersebar di beberapa node, gangguan tidak dapat diamati oleh klien yang menerapkan percobaan ulang.

Pods otomatis dimulai ulang di node yang berfungsi dengan baik.

Jika cluster tidak memiliki kapasitas cadangan, gangguan mungkin berlangsung hingga node baru ditambahkan ke cluster.

Pemulihan Jika cluster tidak memiliki kapasitas cadangan, Anda harus men-deploy lebih banyak node yang tersebar di beberapa zona kegagalan dan memindahkan workload yang gagal ke node baru.
Pencegahan

Men-deploy node yang tersebar di beberapa zona kegagalan.

Deploy workload dengan beberapa replika yang tersebar di beberapa zona kegagalan untuk meminimalkan kemungkinan gangguan.

Kegagalan penyimpanan

Penyimpanan di Google Distributed Cloud mungkin berhenti berfungsi atau tidak dapat dijangkau di jaringan. Bergantung pada penyimpanan yang gagal, ada beberapa mode kegagalan yang berbeda.

etcd

Konten direktori /var/lib/etcd dan /var/lib/etcd-events mungkin rusak jika node dimatikan secara tidak wajar atau terjadi kegagalan penyimpanan yang mendasarinya. Tabel berikut menguraikan perilaku fungsi inti karena kegagalan etcd:

Menjalankan workload Mengelola workload Mengelola cluster pengguna Mengelola cluster admin
Gangguan (durasi) Tanpa gangguan Kemungkinan gangguan (tidak diketahui) Kemungkinan gangguan (tidak diketahui) Kemungkinan gangguan (tidak diketahui)
Explanation Jika workload yang ada tidak mengandalkan bidang kontrol Kubernetes, workload tersebut akan terus berfungsi tanpa gangguan. Jika etcd gagal di satu cluster pengguna bidang kontrol, atau gagal di setidaknya setengah node bidang kontrol di cluster pengguna HA, akan terjadi gangguan. Kuorum bidang kontrol cluster pengguna hilang. Jika etcd gagal di satu cluster admin bidang kontrol, atau gagal di tidak kurang dari setengah node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum bidang kontrol cluster admin hilang. Jika etcd gagal di satu cluster admin bidang kontrol, atau gagal di tidak kurang dari setengah node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum bidang kontrol cluster admin hilang.
Pemulihan Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari kehilangan kuorum. Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari kehilangan kuorum. Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari kehilangan kuorum.
Pencegahan Untuk meminimalkan kemungkinan gangguan, deploy cluster pengguna dalam mode HA. Untuk meminimalkan kemungkinan gangguan, deploy cluster admin dalam mode HA. Untuk meminimalkan kemungkinan gangguan, deploy cluster admin dalam mode HA.

Aplikasi pengguna PersistentVolume

Tabel berikut menguraikan perilaku fungsi inti karena kegagalan PersistentVolume:

Menjalankan workload Mengelola workload Mengelola cluster pengguna Mengelola cluster admin
Gangguan (durasi) Kemungkinan gangguan (tidak diketahui) Tanpa gangguan Tanpa gangguan Tanpa gangguan
Explanation Workload yang menggunakan PersistentVolume are affected. yang gagal
Pemulihan
Pencegahan Untuk meminimalkan kemungkinan gangguan, deploy beban kerja pengguna dalam mode HA.

Disk Fluent Bit rusak

Kerusakan disk Fluent Bit tidak memengaruhi fungsi inti apa pun, tetapi memengaruhi kemampuan untuk mengumpulkan dan memeriksa log di Google Cloud.

Peristiwa SIGSEGV terkadang dapat diamati dari log stackdriver-log-forwarder. Error ini mungkin disebabkan oleh log buffering yang rusak di disk.

Fluent Bit memiliki mekanisme untuk memfilter dan menghapus bagian yang rusak. Fitur ini tersedia dalam versi fluent-bit (v1.8.3) yang digunakan di Google Distributed Cloud.

Dari LoadBalancer IP

Jika semua alamat IP dalam kumpulan yang ditetapkan saat ini terisi, layanan LoadBalancer yang baru dibuat tidak dapat memperoleh alamat IP LoadBalancer. Skenario ini memengaruhi kemampuan klien layanan untuk berkomunikasi dengan layanan LoadBalancer.

Untuk memulihkan dari kehabisan alamat IP ini, tetapkan lebih banyak alamat IP ke kumpulan alamat dengan mengubah resource kustom cluster.

Masa berlaku sertifikat berakhir

Google Distributed Cloud membuat certificate authority (CA) yang ditandatangani sendiri selama proses penginstalan cluster. CA memiliki masa berlaku 10 tahun dan bertanggung jawab untuk membuat sertifikat, yang masa berlakunya berakhir setelah satu tahun. Putar sertifikat secara rutin untuk mencegah periode nonaktif cluster. Anda dapat merotasi sertifikat dengan mengupgrade cluster, yang merupakan metode yang direkomendasikan. Jika tidak dapat mengupgrade cluster, Anda dapat melakukan rotasi CA on demand. Untuk informasi selengkapnya tentang sertifikat cluster, lihat Sertifikat dan persyaratan PKI dalam dokumentasi Kubernetes.

Jika masa berlaku sertifikat cluster telah berakhir, sertifikat tersebut harus diperpanjang secara manual.

Menjalankan workload Mengelola workload Mengelola cluster pengguna Mengelola cluster admin
Gangguan (durasi) Tanpa Gangguan Kemungkinan gangguan (tidak diketahui) Kemungkinan gangguan (tidak diketahui) Kemungkinan gangguan (tidak diketahui)
Explanation Jika beban kerja pengguna tidak berkomunikasi dengan komponen bidang kontrol Kubernetes, tidak akan ada gangguan. Jika masa berlaku otoritas sertifikat untuk cluster pengguna berakhir, akan ada gangguan. Jika masa berlaku certificate authority untuk cluster admin berakhir, akan ada gangguan. Jika masa berlaku otoritas sertifikat untuk cluster pengguna berakhir, akan terjadi gangguan.
Pemulihan

Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna.

Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna.

Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna.

Pencegahan Siapkan monitor untuk masa berlaku sertifikat. Contoh metrik kubelet_certificate_manager_server_expiration_seconds dapat ditemukan di daftar metrik.

Kegagalan upgrade

Menjalankan workload Mengelola workload Mengelola cluster pengguna Mengelola cluster admin
Gangguan (durasi) Tanpa Gangguan Tanpa Gangguan Kemungkinan gangguan (tidak diketahui) Kemungkinan gangguan (tidak diketahui)
Explanation

Jika upgrade gagal di bidang kontrol cluster pengguna, TIDAK ADA gangguan pada beban kerja yang ada.

Jika upgrade gagal di node pekerja tertentu, workload di node tersebut akan dikosongkan dan dipindahkan ke node sehat lainnya jika ada kapasitas tambahan di node sehat.

Upgrade akan berhenti jika salah satu node panel kontrol gagal diupgrade. Cluster masih berfungsi jika upgrade gagal jika cluster pengguna adalah HA. Jika upgrade gagal di bidang kontrol cluster admin, akan ada gangguan hingga upgrade selesai. Jika upgrade gagal di bidang kontrol cluster admin, akan ada gangguan hingga upgrade selesai.
Pemulihan Upgrade dapat dicoba ulang. Untuk informasi selengkapnya, lihat cara mendiagnosis masalah upgrade dan melanjutkan. Upgrade dapat dicoba ulang. Untuk informasi selengkapnya, lihat cara mendiagnosis masalah upgrade dan melanjutkan.
Pencegahan Untuk mengetahui informasi selengkapnya, lihat cara membuat cadangan sebelum upgrade. Untuk mengetahui informasi selengkapnya, lihat cara membuat cadangan sebelum upgrade.

Langkah selanjutnya