Masalah umum untuk GKE di Azure

Halaman ini berisi daftar masalah umum yang dipilih untuk GKE di Azure, dan langkah-langkah yang dapat Anda lakukan untuk mengurangi dampaknya.

Jika Anda memerlukan bantuan lainnya, hubungi Cloud Customer Care.

Operasi

Autoscaler cluster mungkin salah meningkatkan skala dari nol node

Versi yang terpengaruh oleh masalah ini adalah sebagai berikut:

  • Semua versi

Autoscaler cluster tidak meningkatkan skala dengan benar dari node nol untuk kumpulan node dengan label atau taint khusus.

Masalah ini terjadi karena GKE pada penskala otomatis cluster Azure tidak mengonfigurasi label kumpulan node dan tag taint pada kumpulan node yang sesuai dengan Grup Penskalaan Otomatis selama penyediaan kumpulan node. Untuk kumpulan node yang memiliki nol node, penskala otomatis cluster tidak dapat membuat template node dengan benar karena tag yang hilang ini. Hal ini dapat menyebabkan keputusan penskalaan yang salah, seperti Pod tidak dijadwalkan ke node yang berlaku, atau node yang disediakan yang tidak benar-benar diperlukan. Untuk mengetahui informasi selengkapnya, lihat Penyiapan Penemuan Otomatis.

Networking

Waktu tunggu aplikasi yang disebabkan oleh kegagalan penyisipan tabel koneksi

Versi yang terpengaruh oleh masalah ini adalah sebagai berikut:

  • Semua versi 1.23 mulai dari 1.23.8-gke.1700.
  • Semua versi 1.24 mulai dari 1.24.0-gke.0.
  • Versi 1.25 mulai dari 1.25.0-gke.0 hingga, tetapi tidak termasuk, 1.25.10-gke.1200.
  • Versi dari 1.26.0-gke.0 hingga, tetapi tidak termasuk, 1.26.4-gke.2200.

Cluster yang berjalan di OS Ubuntu yang menggunakan kernel 5.15 atau yang lebih tinggi rentan terhadap kegagalan penyisipan tabel pelacakan koneksi netfilter (conntrack). Kegagalan penyisipan dapat terjadi meskipun tabel koneksi memiliki ruang untuk entri baru. Kegagalan disebabkan oleh perubahan pada kernel 5.15 dan versi yang lebih baru yang membatasi penyisipan tabel berdasarkan panjang rantai.

Untuk melihat apakah Anda terpengaruh oleh masalah ini, periksa statistik sistem pelacakan koneksi in-kernel dengan perintah berikut:

sudo conntrack -S

Responsnya akan terlihat seperti ini:

cpu=0       found=0 invalid=4 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=1       found=0 invalid=0 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=2       found=0 invalid=16 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=3       found=0 invalid=13 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=4       found=0 invalid=9 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=5       found=0 invalid=1 insert=0 insert_failed=0 drop=0 early_drop=0
error=519 search_restart=0 clash_resolve=126 chaintoolong=0

Jika nilai chaintoolong dalam respons bukan angka nol, berarti Anda akan terpengaruh oleh masalah ini.

Solusi

Jika Anda menjalankan versi 1.26.2-gke.1001, upgrade ke versi 1.26.4-gke.2200 atau yang lebih baru.

Kegunaan

Cluster yang tidak dapat dijangkau mendeteksi error di UI

Versi yang terpengaruh oleh masalah ini adalah 1.25.5-gke.1500 dan 1.25.4-gke.1300.

Beberapa platform UI di Konsol Google Cloud tidak dapat memberikan otorisasi ke cluster dan mungkin menampilkan cluster sebagai tidak dapat dijangkau.

Solusi

Upgrade cluster Anda ke patch terbaru versi 1.25 yang tersedia. Masalah ini telah diperbaiki dalam versi 1.25.5-gke.2000.

Error API

Kubernetes 1.22 tidak lagi digunakan dan menggantikan beberapa API. Jika Anda telah mengupgrade cluster ke versi 1.22 atau yang lebih baru, semua panggilan yang dilakukan aplikasi Anda ke salah satu API yang tidak digunakan lagi akan gagal.

Solusi

Upgrade aplikasi Anda untuk mengganti panggilan API yang tidak digunakan lagi dengan versi yang lebih baru.