Halaman ini berisi daftar masalah umum yang dipilih untuk GKE di AWS dan langkah-langkah yang dapat Anda lakukan untuk mengurangi dampaknya.
Jika Anda memerlukan bantuan lainnya, hubungi Cloud Customer Care.Operasi
Autoscaler cluster mungkin salah meningkatkan skala dari nol node
Versi yang terpengaruh oleh masalah ini adalah sebagai berikut:
- Semua versi sebelum 1.27
- Versi 1.27 dari 1.27.0-gke.0 hingga, tetapi tidak termasuk, 1.27.12-gke.800
- Versi 1.28 dari 1.28.0-gke.0 hingga, tetapi tidak termasuk, 1.28.8-gke.800
Autoscaler cluster tidak meningkatkan skala dengan benar dari node nol untuk kumpulan node dengan label atau taint khusus.
Masalah ini terjadi karena GKE pada penskala otomatis cluster AWS tidak mengonfigurasi label kumpulan node dan tag taint pada kumpulan node yang sesuai dengan Grup Penskalaan Otomatis selama penyediaan kumpulan node. Untuk kumpulan node yang memiliki nol node, penskala otomatis cluster tidak dapat membuat template node dengan benar karena tag yang hilang ini. Hal ini dapat menyebabkan keputusan penskalaan yang salah, seperti Pod tidak dijadwalkan ke node yang berlaku, atau node yang disediakan yang tidak benar-benar diperlukan. Untuk mengetahui informasi selengkapnya, lihat Penyiapan Penemuan Otomatis.
Networking
Waktu tunggu aplikasi yang disebabkan oleh kegagalan penyisipan tabel koneksi
Versi yang terpengaruh oleh masalah ini adalah sebagai berikut:
- Semua versi 1.23 mulai dari 1.23.8-gke.1700.
- Semua versi 1.24 mulai dari 1.24.0-gke.0.
- Versi 1.25 mulai dari 1.25.0-gke.0 hingga, tetapi tidak termasuk, 1.25.10-gke.1200.
- Versi dari 1.26.0-gke.0 hingga, tetapi tidak termasuk, 1.26.4-gke.2200.
Cluster yang berjalan di OS Ubuntu yang menggunakan kernel 5.15 atau yang lebih tinggi rentan terhadap kegagalan penyisipan tabel pelacakan koneksi netfilter (conntrack). Kegagalan penyisipan dapat terjadi meskipun tabel koneksi memiliki ruang untuk entri baru. Kegagalan disebabkan oleh perubahan pada kernel 5.15 dan versi yang lebih baru yang membatasi penyisipan tabel berdasarkan panjang rantai.
Untuk melihat apakah Anda terpengaruh oleh masalah ini, periksa statistik sistem pelacakan koneksi in-kernel dengan perintah berikut:
sudo conntrack -S
Responsnya akan terlihat seperti ini:
cpu=0 found=0 invalid=4 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=1 found=0 invalid=0 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=2 found=0 invalid=16 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=3 found=0 invalid=13 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=4 found=0 invalid=9 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=5 found=0 invalid=1 insert=0 insert_failed=0 drop=0 early_drop=0
error=519 search_restart=0 clash_resolve=126 chaintoolong=0
Jika nilai chaintoolong
dalam respons bukan angka nol, berarti Anda akan terpengaruh
oleh masalah ini.
Solusi
Jika Anda menjalankan versi 1.26.2-gke.1001, upgrade ke versi 1.26.4-gke.2200 atau yang lebih baru.
Kegunaan
Cluster yang tidak dapat dijangkau mendeteksi error di UI
Versi yang terpengaruh oleh masalah ini adalah 1.25.5-gke.1500 dan 1.25.4-gke.1300.
Beberapa platform UI di Konsol Google Cloud tidak dapat memberikan otorisasi ke cluster dan mungkin menampilkan cluster sebagai tidak dapat dijangkau.
Solusi
Upgrade cluster Anda ke patch terbaru versi 1.25 yang tersedia. Masalah
ini telah diperbaiki dalam versi 1.25.5-gke.2000
.
Error API
Kubernetes 1.22 tidak lagi digunakan dan menggantikan beberapa API. Jika Anda telah mengupgrade cluster ke versi 1.22 atau yang lebih baru, semua panggilan yang dilakukan aplikasi Anda ke salah satu API yang tidak digunakan lagi akan gagal.
Solusi
Upgrade aplikasi Anda untuk mengganti panggilan API yang tidak digunakan lagi dengan versi yang lebih baru.