Halaman ini diterjemahkan oleh Cloud Translation API.

Memahami dampak kegagalan di Google Distributed Cloud

Google Distributed Cloud dirancang untuk membatasi cakupan kegagalan dan memprioritaskan fungsi yang penting untuk kelangsungan bisnis. Dokumen ini menjelaskan dampak kegagalan terhadap fungsionalitas cluster Anda. Informasi ini dapat membantu Anda memprioritaskan area yang perlu dipecahkan masalahnya jika Anda mengalami masalah.

Fungsi inti Google Distributed Cloud mencakup kategori berikut:

Menjalankan workload: Workload yang ada dapat terus berjalan. Hal ini adalah pertimbangan paling penting untuk mempertahankan kelangsungan bisnis. Meskipun cluster Anda mengalami masalah, workload yang ada dapat terus berjalan tanpa gangguan.
Mengelola workload: Anda dapat membuat, mengupdate, dan menghapus workload. Ini adalah pertimbangan terpenting kedua untuk menskalakan workload saat traffic meningkat, meskipun cluster mengalami masalah.
Mengelola cluster pengguna: Anda dapat mengelola node, memperbarui, mengupgrade, dan menghapus cluster pengguna. Hal ini kurang penting daripada pertimbangan siklus proses aplikasi. Jika ada kapasitas yang tersedia di node yang ada, ketidakmampuan untuk mengubah cluster pengguna tidak memengaruhi workload pengguna.
Mengelola cluster admin: Anda dapat mengupdate dan mengupgrade cluster admin.
- Untuk deployment yang menggunakan cluster admin dan pengguna terpisah, ini adalah pertimbangan yang paling tidak penting karena cluster admin tidak menghosting beban kerja pengguna. Jika cluster admin Anda mengalami masalah, workload aplikasi Anda di cluster lain akan terus berjalan tanpa gangguan.
- Jika Anda menggunakan model deployment lain, seperti hybrid atau mandiri, cluster admin akan menjalankan beban kerja aplikasi. Jika cluster admin mengalami masalah dan bidang kontrol tidak berfungsi, Anda juga tidak dapat mengelola workload aplikasi atau komponen cluster pengguna.

Bagian berikut menggunakan kategori fungsi inti ini untuk menjelaskan dampak jenis skenario kegagalan tertentu. Jika terjadi gangguan sebagai bagian dari skenario kegagalan, durasi (urutan) gangguan juga dicatat, jika memungkinkan.

Kegagalan node

Node di Google Distributed Cloud mungkin berhenti berfungsi atau tidak dapat dijangkau di jaringan. Bergantung pada kumpulan node dan cluster tempat mesin yang gagal menjadi bagiannya, ada beberapa mode kegagalan yang berbeda.

Node bidang kontrol

Tabel berikut menguraikan perilaku untuk node yang merupakan bagian dari bidang kontrol di Google Distributed Cloud:

	Menjalankan workload	Mengelola workload	Mengelola cluster pengguna	Mengelola cluster admin
Gangguan (durasi)	Tidak ada gangguan	Kemungkinan gangguan (tidak diketahui)	Kemungkinan gangguan (tidak diketahui)	Kemungkinan gangguan (tidak diketahui)
Explanation	—	Jika kegagalan node memengaruhi satu node bidang kontrol dalam cluster pengguna non-ketersediaan tinggi (HA), atau jika memengaruhi tidak kurang dari setengah node bidang kontrol dalam cluster pengguna HA, akan terjadi gangguan. Kuorum bidang kontrol cluster pengguna hilang.	Jika kegagalan node memengaruhi node bidang kontrol tunggal di cluster admin non-HA, atau jika memengaruhi setidaknya setengah dari node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum bidang kontrol cluster admin hilang.	Jika kegagalan node memengaruhi node bidang kontrol tunggal di cluster admin non-HA, atau jika memengaruhi setidaknya setengah dari node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum bidang kontrol cluster admin hilang.
Pemulihan	—	Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum.	Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum.	Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum.
Pencegahan	—	Deploy cluster pengguna dalam mode HA untuk meminimalkan kemungkinan gangguan.	Deploy cluster admin dalam mode HA untuk meminimalkan kemungkinan gangguan.	Deploy cluster admin dalam mode HA untuk meminimalkan kemungkinan gangguan.

Node load balancer

Tabel berikut menguraikan perilaku untuk node yang menghosting load balancer di Google Distributed Cloud. Panduan ini hanya berlaku untuk load balancer gabungan dengan mode layer 2. Untuk load balancing manual, lihat mode kegagalan load balancer eksternal Anda:

	Menjalankan workload	Mengelola workload	Mengelola cluster pengguna	Mengelola cluster admin
Gangguan (durasi)	Kemungkinan gangguan (bervariasi)	Kemungkinan gangguan (bervariasi)	Kemungkinan gangguan (bervariasi)	Kemungkinan gangguan (bervariasi)
Explanation	Jika beban kerja eksternal mengandalkan load balancer data plane untuk berkomunikasi dengan beban kerja di cluster dan Anda hanya memiliki satu node load balancer, akan terjadi gangguan.	Alamat IP virtual bidang kontrol cluster pengguna berada di satu node load balancer. Jika load balancer nodepool cluster pengguna tidak HA, akan terjadi gangguan.	Alamat IP virtual bidang kontrol cluster admin berada di satu node load balancer. Jika kumpulan node load balancer dari cluster admin tidak HA, akan terjadi gangguan.	Alamat IP virtual bidang kontrol cluster admin berada di satu node load balancer. Jika kumpulan node load balancer dari cluster admin tidak HA, akan terjadi gangguan.
Pemulihan	Jika ada beberapa node load balancer, failover MetalLB terjadi dalam beberapa detik. Jika tidak HA, pertimbangkan untuk men-deploy node load balancer tambahan.	Jika HA, failover bersifat otomatis dan dalam urutan detik. Jika tidak HA, pertimbangkan untuk men-deploy node load balancer tambahan	Jika HA, failover bersifat otomatis dan dalam urutan detik. Jika tidak HA, pertimbangkan untuk men-deploy node load balancer tambahan.	Jika HA, failover bersifat otomatis dan dalam urutan detik. Jika tidak HA, pertimbangkan untuk men-deploy node load balancer tambahan.
Pencegahan	Untuk meminimalkan kemungkinan gangguan, deploy kumpulan node load balancer dalam mode HA.	Untuk meminimalkan kemungkinan gangguan, deploy kumpulan node load balancer dalam mode HA.	Untuk meminimalkan kemungkinan gangguan, deploy kumpulan node load balancer dalam mode HA.	Untuk meminimalkan kemungkinan gangguan, deploy kumpulan node load balancer dalam mode HA.

Node pekerja

Tabel berikut menguraikan perilaku untuk node pekerja di Google Distributed Cloud:

	Menjalankan workload	Mengelola workload	Mengelola cluster pengguna	Mengelola cluster admin
Gangguan (durasi)	Kemungkinan gangguan (dalam hitungan detik)	Tidak ada gangguan	Tidak ada gangguan	Tidak ada gangguan
Explanation	`Pods` yang berjalan di node yang gagal akan terganggu, dan akan dijadwalkan ulang secara otomatis ke node lain yang berfungsi dengan baik dengan waktu tunggu penghentian paksa default 5 menit. Jika aplikasi pengguna memiliki kapasitas workload cadangan dan tersebar di beberapa node, gangguan tidak dapat diamati oleh klien yang menerapkan percobaan ulang. `Pods` akan otomatis dimulai ulang di node yang berfungsi dengan baik. Jika cluster tidak memiliki kapasitas cadangan, gangguan mungkin berlangsung hingga node baru ditambahkan ke cluster.	—	—	—
Pemulihan	Jika cluster tidak memiliki kapasitas cadangan, Anda harus men-deploy lebih banyak node yang tersebar di beberapa zona kegagalan dan memindahkan workload yang gagal ke node baru.	—	—	—
Pencegahan	Deploy node yang tersebar di beberapa zona kegagalan. Deploy workload dengan beberapa replika yang tersebar di beberapa zona kegagalan untuk meminimalkan kemungkinan gangguan.	—	—	—

Kegagalan penyimpanan

Penyimpanan di Google Distributed Cloud mungkin berhenti berfungsi atau tidak dapat dijangkau di jaringan. Bergantung pada penyimpanan yang gagal, ada beberapa mode kegagalan yang berbeda.

etcd

Isi direktori /var/lib/etcd dan /var/lib/etcd-events dapat rusak jika terjadi pematian daya node yang tidak benar atau kegagalan penyimpanan yang mendasar. Tabel berikut menguraikan perilaku fungsi inti karena kegagalan etcd:

	Menjalankan workload	Mengelola workload	Mengelola cluster pengguna	Mengelola cluster admin
Gangguan (durasi)	Tidak ada gangguan	Kemungkinan gangguan (tidak diketahui)	Kemungkinan gangguan (tidak diketahui)	Kemungkinan gangguan (tidak diketahui)
Explanation	Jika workload yang ada tidak bergantung pada bidang kontrol Kubernetes, workload tersebut akan terus berfungsi tanpa gangguan.	Jika `etcd` gagal pada satu cluster pengguna bidang kontrol, atau gagal pada tidak kurang dari setengah node bidang kontrol di cluster pengguna HA, akan terjadi gangguan. Kuorum bidang kontrol cluster pengguna hilang.	Jika `etcd` gagal di satu cluster admin bidang kontrol, atau gagal di setidaknya setengah dari node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum bidang kontrol cluster admin hilang.	Jika `etcd` gagal di satu cluster admin bidang kontrol, atau gagal di setidaknya setengah dari node bidang kontrol di cluster admin HA, akan terjadi gangguan. Kuorum bidang kontrol cluster admin hilang.
Pemulihan	—	Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum.	Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum.	Untuk mengetahui informasi selengkapnya, lihat cara memulihkan dari hilangnya kuorum.
Pencegahan	—	Untuk meminimalkan kemungkinan gangguan, deploy cluster pengguna dalam mode HA.	Untuk meminimalkan kemungkinan gangguan, deploy cluster admin dalam mode HA.	Untuk meminimalkan kemungkinan gangguan, deploy cluster admin dalam mode HA.

Aplikasi pengguna `PersistentVolume`

Tabel berikut menguraikan perilaku fungsi inti karena kegagalan PersistentVolume:

	Menjalankan workload	Mengelola workload	Mengelola cluster pengguna	Mengelola cluster admin
Gangguan (durasi)	Kemungkinan gangguan (tidak diketahui)	Tidak ada gangguan	Tidak ada gangguan	Tidak ada gangguan
Explanation	Workload yang menggunakan `PersistentVolume are affected.` yang gagal	—	—	—
Pemulihan	—	—	—	—
Pencegahan	Untuk meminimalkan kemungkinan gangguan, deploy workload pengguna dalam mode HA.	—	—	—

Disk yang rusak karena Fluent Bit

Kerusakan disk Fluent Bit tidak memengaruhi fungsi inti apa pun, tetapi memengaruhi kemampuan untuk mengumpulkan dan memeriksa log di Google Cloud.

Peristiwa SIGSEGV terkadang dapat diamati dari log stackdriver-log-forwarder. Error ini mungkin disebabkan oleh log yang di-buffer dan rusak di disk.

Fluent Bit memiliki mekanisme untuk memfilter dan menghapus potongan yang rusak. Fitur ini tersedia di versi fluent-bit (v1.8.3) yang digunakan di Google Distributed Cloud.

Dari `LoadBalancer` IP

Jika semua alamat IP di kumpulan yang ditetapkan saat ini digunakan, layanan LoadBalancer yang baru dibuat tidak dapat memperoleh alamat IP LoadBalancer. Skenario ini memengaruhi kemampuan klien layanan untuk berkomunikasi dengan layanan LoadBalancer.

Untuk memulihkan dari kehabisan alamat IP ini, tetapkan lebih banyak alamat IP ke kumpulan alamat dengan mengubah resource kustom cluster.

Masa berlaku sertifikat

Google Distributed Cloud membuat certificate authority (CA) yang ditandatangani sendiri selama proses penginstalan cluster. CA memiliki masa berlaku 10 tahun dan bertanggung jawab untuk membuat sertifikat, yang masa berlakunya berakhir setelah satu tahun. Rotasi sertifikat secara rutin untuk mencegah periode nonaktif cluster. Anda dapat merotasi sertifikat dengan mengupgrade cluster, yang merupakan metode yang direkomendasikan. Jika tidak dapat mengupgrade cluster, Anda dapat melakukan rotasi CA sesuai permintaan. Untuk mengetahui informasi selengkapnya tentang sertifikat cluster, lihat Sertifikat dan persyaratan PKI dalam dokumentasi Kubernetes.

Jika masa berlaku sertifikat cluster telah berakhir, sertifikat tersebut harus diperpanjang secara manual.

	Menjalankan workload	Mengelola workload	Mengelola cluster pengguna	Mengelola cluster admin
Gangguan (durasi)	Tanpa Gangguan	Kemungkinan gangguan (tidak diketahui)	Kemungkinan gangguan (tidak diketahui)	Kemungkinan gangguan (tidak diketahui)
Explanation	Jika workload pengguna tidak berkomunikasi dengan komponen bidang kontrol kubernetes, tidak akan ada gangguan.	Jika masa berlaku otoritas sertifikat untuk cluster pengguna berakhir, akan terjadi gangguan.	Jika masa berlaku certificate authority untuk cluster admin berakhir, akan terjadi gangguan.	Jika masa berlaku otoritas sertifikat untuk cluster pengguna berakhir, akan terjadi gangguan.
Pemulihan	—	Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna.	Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna.	Ikuti langkah-langkah untuk memperpanjang sertifikat secara manual di cluster pengguna.
Pencegahan	Siapkan monitor untuk masa berlaku sertifikat. Contoh metrik `kubelet_certificate_manager_server_expiration_seconds` dapat ditemukan di daftar metrik.

Kegagalan upgrade

	Menjalankan workload	Mengelola workload	Mengelola cluster pengguna	Mengelola cluster admin
Gangguan (durasi)	Tanpa Gangguan	Tanpa Gangguan	Kemungkinan gangguan (tidak diketahui)	Kemungkinan gangguan (tidak diketahui)
Explanation	Jika upgrade gagal di bidang kontrol cluster pengguna, TIDAK ADA gangguan pada workload yang ada. Jika upgrade gagal pada node pekerja tertentu, workload pada node tersebut akan dikuras dan dipindahkan ke node lain yang sehat jika ada kapasitas tambahan pada node yang sehat.	Upgrade akan berhenti jika salah satu node bidang kontrol gagal diupgrade. Cluster tetap berfungsi jika upgrade gagal jika cluster pengguna adalah HA.	Jika upgrade gagal di bidang kontrol cluster admin, akan ada gangguan hingga upgrade selesai.	Jika upgrade gagal di bidang kontrol cluster admin, akan ada gangguan hingga upgrade selesai.
Pemulihan	—	—	Upgrade dapat dicoba lagi. Untuk mengetahui informasi selengkapnya, lihat cara mendiagnosis masalah upgrade dan melanjutkan.	Upgrade dapat dicoba lagi. Untuk mengetahui informasi selengkapnya, lihat cara mendiagnosis masalah upgrade dan melanjutkan.
Pencegahan	—	—	Untuk mengetahui informasi selengkapnya, lihat cara membuat cadangan sebelum upgrade.	Untuk mengetahui informasi selengkapnya, lihat cara membuat cadangan sebelum upgrade.

Langkah berikutnya

Untuk mengetahui informasi selengkapnya tentang masalah dan solusi produk yang diketahui, lihat Masalah umum Google Distributed Cloud.

Jika Anda memerlukan bantuan tambahan, hubungi Layanan Pelanggan Cloud. Anda juga dapat melihat bagian Mendapatkan dukungan untuk mengetahui informasi selengkapnya tentang sumber dukungan, termasuk:

Persyaratan untuk membuka kasus dukungan.
Alat untuk membantu Anda memecahkan masalah, seperti konfigurasi lingkungan, log, dan metrik.
Komponen yang didukung.