Halaman ini menunjukkan cara menemukan dan menyelesaikan masalah terkait autoscaler cluster yang tidak menskalakan node di cluster Google Kubernetes Engine (GKE).
Halaman ini ditujukan untuk Developer aplikasi yang ingin menyelesaikan situasi yang tidak terduga atau negatif dengan aplikasi atau layanan mereka serta admin dan operator Platform yang ingin mencegah gangguan pada pengiriman produk dan layanan.
Memahami kapan autoscaler cluster menskalakan node Anda
Sebelum melanjutkan ke langkah-langkah pemecahan masalah, sebaiknya pahami kapan autoscaler cluster akan mencoba menskalakan node Anda. Autoscaler cluster hanya menambahkan node jika resource yang ada tidak memadai.
Setiap 10 detik, autoscaler cluster akan memeriksa apakah ada Pod yang tidak dapat dijadwalkan. Pod menjadi tidak dapat dijadwalkan saat penjadwal Kubernetes tidak dapat menempatkannya di node yang ada karena resource tidak memadai, batasan node, atau persyaratan Pod yang tidak terpenuhi.
Saat menemukan Pod yang tidak dapat dijadwalkan, autoscaler cluster akan mengevaluasi apakah menambahkan node akan memungkinkan Pod dijadwalkan. Jika menambahkan node akan memungkinkan Pod dijadwalkan, autoscaler cluster akan menambahkan node baru ke grup instance terkelola (MIG). Scheduler Kubernetes kemudian dapat menjadwalkan Pod di node yang baru disediakan.
Memeriksa apakah Anda memiliki Pod yang tidak dapat dijadwalkan
Untuk menentukan apakah cluster Anda perlu diskalakan, periksa Pod yang tidak terjadwal:
Di konsol Google Cloud, buka halaman Workload.
Di kolom Filter
, masukkanunschedulable
, lalu tekan Enter.Jika ada Pod yang tercantum, berarti Anda memiliki Pod yang tidak dapat dijadwalkan. Untuk memecahkan masalah Pod yang tidak dapat dijadwalkan, lihat Error: Pod unschedulable. Menyelesaikan penyebab utama Pod yang tidak dapat dijadwalkan sering kali dapat memungkinkan autoscaler cluster untuk melakukan penskalaan. Untuk mengidentifikasi dan menyelesaikan error yang khusus untuk autoscaler cluster, pelajari bagian berikut.
Jika tidak ada Pod yang tercantum, autoscaler cluster tidak perlu diskalakan ke atas dan berfungsi seperti yang diharapkan.
Periksa apakah sebelumnya Anda memiliki Pod yang tidak dapat dijadwalkan
Jika Anda menyelidiki penyebab kegagalan autoscaler cluster sebelumnya, periksa Pod yang sebelumnya tidak dapat dijadwalkan:
Di Konsol Google Cloud, buka halaman Logs Explorer.
Tentukan rentang waktu untuk entri log yang ingin Anda lihat.
Di panel kueri, masukkan kueri berikut:
logName="projects/PROJECT_ID/logs/events" jsonPayload.source.component="default-scheduler" jsonPayload.reason="FailedScheduling"
Ganti
PROJECT_ID
dengan project ID Anda.Klik Run query.
Jika ada hasil yang tercantum, berarti Anda memiliki Pod yang tidak dapat dijadwalkan dalam rentang waktu yang Anda tentukan.
Periksa apakah masalah disebabkan oleh batasan
Setelah mengonfirmasi bahwa Anda memiliki Pod yang tidak terjadwal, pastikan masalah dengan autoscaler cluster tidak disebabkan oleh salah satu batasan untuk autoscaler cluster.
Lihat error
Anda sering kali dapat mendiagnosis penyebab masalah penskalaan dengan melihat pesan error:
Jika Anda sudah melihat pesan error, lihat tabel pesan error untuk mendapatkan saran tentang cara mengatasi error.
Jika Anda belum melihat pesan, gunakan salah satu opsi berikut:
- Masalah yang terjadi kurang dari 72 jam: Lihat notifikasi error di konsol Google Cloud.
- Masalah yang sudah lebih dari 72 jam: Lihat error dalam peristiwa di Cloud Logging.
Melihat error dalam notifikasi
Jika masalah yang Anda amati terjadi kurang dari 72 jam yang lalu, lihat notifikasi tentang error di konsol Google Cloud. Notifikasi ini memberikan insight berharga tentang alasan autoscaler cluster tidak melakukan penskalaan dan menawarkan saran tentang cara menyelesaikan error dan melihat log yang relevan untuk penyelidikan lebih lanjut.
Untuk melihat notifikasi di Konsol Google Cloud, selesaikan langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Kubernetes clusters.
Tinjau kolom Notifikasi. Notifikasi berikut terkait dengan masalah penskalaan:
Can't scale up
Can't scale up pods
Can't scale up a node pool
Klik notifikasi yang relevan untuk melihat panel yang berisi detail tentang penyebab masalah dan tindakan yang disarankan untuk mengatasinya.
Opsional: Untuk melihat log peristiwa ini, klik Log. Tindakan ini akan membawa Anda ke Logs Explorer dengan kueri yang telah diisi otomatis untuk membantu Anda lebih lanjut menyelidiki peristiwa penskalaan. Untuk mempelajari lebih lanjut cara kerja peristiwa peningkatan skala, lihat Melihat peristiwa autoscaler cluster.
Jika Anda masih mengalami masalah setelah meninjau saran dalam notifikasi, lihat tabel pesan error untuk bantuan lebih lanjut.
Melihat error dalam peristiwa
Jika masalah yang Anda amati terjadi lebih dari 72 jam yang lalu, lihat peristiwa di Cloud Logging. Jika terjadi error, error tersebut sering kali dicatat dalam peristiwa.
Untuk melihat log autoscaler cluster di konsol Google Cloud, selesaikan langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Kubernetes clusters.
Pilih nama cluster yang ingin Anda selidiki untuk melihat halaman Cluster details-nya.
Di halaman Cluster details, klik tab Logs.
Di tab Logs, klik tab Autoscaler Logs untuk melihat log.
Opsional: Untuk menerapkan filter lanjutan guna mempersempit hasil, klik tombol dengan tanda panah di sisi kanan halaman untuk melihat log di Logs Explorer.
Untuk mempelajari lebih lanjut cara kerja peristiwa peningkatan skala, lihat Melihat peristiwa autoscaler cluster. Untuk mengetahui salah satu contoh cara menggunakan Cloud Logging, lihat contoh pemecahan masalah berikut.
Contoh: Memecahkan masalah yang sudah lebih dari 72 jam
Contoh berikut menunjukkan cara menyelidiki dan menyelesaikan masalah dengan cluster yang tidak diskalakan.
Skenario: Selama satu jam terakhir, Pod telah ditandai sebagai tidak dapat dijadwalkan. Autoscaler cluster tidak menyediakan node baru untuk menjadwalkan Pod.
Solusi:
- Karena masalah terjadi lebih dari 72 jam yang lalu, Anda menyelidiki masalah tersebut menggunakan Cloud Logging, bukan melihat pesan notifikasi.
- Di Cloud Logging, Anda akan menemukan detail logging untuk peristiwa autoscaler cluster, seperti yang dijelaskan dalam Melihat error dalam peristiwa.
Anda menelusuri peristiwa
scaleUp
yang berisi Pod yang sedang Anda selidiki di kolomtriggeringPods
. Anda dapat memfilter entri log, termasuk memfilter berdasarkan nilai kolom JSON tertentu. Pelajari lebih lanjut di Kueri log lanjutan.Anda tidak menemukan peristiwa peningkatan skala. Namun, jika Anda melakukannya, Anda dapat mencoba menemukan
EventResult
yang berisieventId
yang sama dengan peristiwascaleUp
. Kemudian, Anda dapat melihat kolomerrorMsg
dan melihat daftar kemungkinan pesan error scaleUp.Karena tidak menemukan peristiwa
scaleUp
, Anda terus menelusuri peristiwanoScaleUp
dan meninjau kolom berikut:unhandledPodGroups
: berisi informasi tentang Pod (atau pengontrol Pod).reason
: memberikan alasan global yang menunjukkan peningkatan skala dapat diblokir.skippedMigs
: memberikan alasan mengapa beberapa MIG dapat dilewati.
Anda menemukan peristiwa
noScaleUp
untuk Pod, dan semua MIG di kolomrejectedMigs
memiliki ID pesan"no.scale.up.mig.failing.predicate"
alasan yang sama dengan dua parameter:"NodeAffinity"
dan"node(s) did not match node selector"
.
Resolusi:
Setelah melihat daftar pesan error, Anda mendapati bahwa autoscaler cluster tidak dapat meningkatkan skala node pool karena predikat penjadwalan yang gagal untuk Pod yang tertunda. Parameternya adalah nama predikat yang gagal dan alasan kegagalannya.
Untuk mengatasi masalah ini, tinjau manifes Pod, dan temukan bahwa pemilih node tidak cocok dengan MIG mana pun di cluster. Anda menghapus pemilih dari manifes Pod dan membuat ulang Pod. Autoscaler cluster menambahkan node baru dan Pod dijadwalkan.
Mengatasi error penskalaan
Setelah mengidentifikasi error, gunakan tabel berikut untuk membantu Anda memahami penyebab error dan cara mengatasinya.
Error ScaleUp
Anda dapat menemukan pesan error peristiwa untuk peristiwa scaleUp
dalam peristiwa eventResult
yang sesuai, di kolom resultInfo.results[].errorMsg
.
Pesan | Detail | Parameter | Mitigasi |
---|---|---|---|
"scale.up.error.out.of.resources" |
Error resource terjadi saat Anda mencoba meminta resource baru di zona yang tidak dapat mengakomodasi permintaan karena saat ini tidak tersedianya resource Compute Engine, seperti GPU atau CPU. | ID MIG gagal. | Ikuti langkah-langkah pemecahan masalah ketersediaan resource dalam dokumentasi Compute Engine. |
"scale.up.error.quota.exceeded" |
Peristiwa scaleUp gagal karena beberapa MIG tidak dapat ditingkatkan, karena melampaui kuota Compute Engine. | ID MIG gagal. | Periksa tab Error pada MIG di Konsol Google Cloud untuk melihat kuota yang terlampaui. Setelah mengetahui kuota mana yang terlampaui, ikuti petunjuk untuk meminta penambahan kuota. |
"scale.up.error.waiting.for.instances.timeout" |
Peningkatan skala grup instance terkelola gagal karena waktu tunggu habis. | ID MIG gagal. | Pesan ini harus bersifat sementara. Jika masalah berlanjut, hubungi Cloud Customer Care untuk penyelidikan lebih lanjut. |
"scale.up.error.ip.space.exhausted" |
Tidak dapat diskalakan karena instance di beberapa grup instance terkelola kehabisan IP. Artinya, cluster tidak memiliki cukup ruang alamat IP yang belum dialokasikan untuk digunakan guna menambahkan node atau Pod baru. | ID MIG gagal. | Ikuti langkah-langkah pemecahan masalah di Ruang alamat IP yang kosong tidak cukup untuk Pod. |
"scale.up.error.service.account.deleted" |
Tidak dapat menskalakan karena akun layanan dihapus. | ID MIG gagal. | Coba batalkan penghapusan akun layanan. Jika prosedur tersebut tidak berhasil, hubungi Cloud Customer Care untuk penyelidikan lebih lanjut. |
Alasan peristiwa noScaleUp
Peristiwa noScaleUp
akan dihasilkan secara berkala saat ada Pod yang tidak dapat dijadwalkan di cluster dan autoscaler cluster tidak dapat meningkatkan skala cluster untuk menjadwalkan Pod. Peristiwa noScaleUp
adalah upaya terbaik, dan tidak mencakup semua kemungkinan kasus.
Alasan tingkat atas NoScaleUp
Pesan alasan tingkat atas untuk peristiwa noScaleUp
muncul di kolom noDecisionStatus.noScaleUp.reason
. Pesan ini berisi alasan tingkat atas mengapa autoscaler cluster tidak dapat meningkatkan skala cluster.
Pesan | Detail | Mitigasi |
---|---|---|
"no.scale.up.in.backoff" |
Tidak ada peningkatan skala karena peningkatan skala berada dalam periode backoff (diblokir sementara). Pesan ini dapat terjadi selama peristiwa peningkatan skala dengan Pod dalam jumlah besar. | Pesan ini harus bersifat sementara. Periksa error ini setelah beberapa menit. Jika pesan ini terus berlanjut, hubungi Cloud Customer Care untuk penyelidikan lebih lanjut. |
Alasan penyediaan otomatis node tingkat atas NoScaleUp
Pesan alasan penyediaan otomatis node tingkat atas untuk peristiwa noScaleUp
muncul di kolom noDecisionStatus.noScaleUp.napFailureReason
. Pesan ini berisi alasan utama mengapa autoscaler cluster tidak dapat menyediakan node pool baru.
Pesan | Detail | Mitigasi |
---|---|---|
"no.scale.up.nap.disabled" |
Penyediaan otomatis node tidak dapat diskalakan karena penyediaan otomatis node tidak diaktifkan di tingkat cluster. Jika penyediaan otomatis node dinonaktifkan, node baru tidak akan disediakan secara otomatis jika Pod yang tertunda memiliki persyaratan yang tidak dapat dipenuhi oleh node pool yang ada. |
Tinjau konfigurasi cluster dan pertimbangkan untuk mengaktifkan penyediaan otomatis node. |
Alasan tingkat MIG NoScaleUp
Pesan alasan tingkat MIG untuk peristiwa noScaleUp
muncul di kolom noDecisionStatus.noScaleUp.skippedMigs[].reason
dan noDecisionStatus.noScaleUp.unhandledPodGroups[].rejectedMigs[].reason
.
Pesan ini berisi alasan mengapa autoscaler cluster tidak dapat meningkatkan ukuran MIG tertentu.
Pesan | Detail | Parameter | Mitigasi |
---|---|---|---|
"no.scale.up.mig.skipped" |
Tidak dapat meningkatkan skala MIG karena dilewati selama simulasi. | Alasan MIG dilewati (misalnya, persyaratan Pod tidak ada). | Tinjau parameter yang disertakan dalam pesan error dan tangani mengapa MIG dilewati. |
"no.scale.up.mig.failing.predicate" |
Tidak dapat meningkatkan skala node pool karena predikat penjadwalan gagal untuk Pod yang tertunda. | Nama predikat yang gagal dan alasan kegagalannya. | Tinjau persyaratan Pod, seperti aturan afinitas, taint atau toleransi, dan persyaratan resource. |
Alasan penyediaan otomatis node tingkat grup Pod NoScaleUp
Pesan alasan penyediaan otomatis node tingkat grup pod untuk peristiwa noScaleUp
muncul di kolom noDecisionStatus.noScaleUp.unhandledPodGroups[].napFailureReasons[]
. Pesan ini berisi alasan mengapa autoscaler cluster tidak dapat menyediakan node pool baru untuk menjadwalkan grup Pod tertentu.
Pesan | Detail | Parameter | Mitigasi |
---|---|---|---|
"no.scale.up.nap.pod.gpu.no.limit.defined" |
Penyediaan otomatis node tidak dapat menyediakan grup node apa pun karena Pod yang tertunda memiliki permintaan GPU, tetapi batas resource GPU tidak ditetapkan di tingkat cluster. | Jenis GPU yang diminta. | Tinjau permintaan GPU Pod yang tertunda, dan update konfigurasi penyediaan otomatis node tingkat cluster untuk batas GPU. |
"no.scale.up.nap.pod.gpu.type.not.supported" |
Penyediaan otomatis node tidak menyediakan grup node apa pun untuk Pod karena memiliki permintaan untuk jenis GPU yang tidak diketahui. | Jenis GPU yang diminta. | Periksa konfigurasi Pod yang tertunda untuk jenis GPU guna memastikan bahwa jenis GPU tersebut cocok dengan jenis GPU yang didukung. |
"no.scale.up.nap.pod.zonal.resources.exceeded" |
Penyediaan otomatis node tidak menyediakan grup node apa pun untuk Pod di zona ini karena hal tersebut akan melanggar batas resource maksimum seluruh cluster, melebihi resource yang tersedia di zona, atau tidak ada jenis mesin yang sesuai dengan permintaan. | Nama zona yang dipertimbangkan. | Tinjau dan update batas resource maksimum seluruh cluster, permintaan resource Pod, atau zona yang tersedia untuk penyediaan otomatis node. |
"no.scale.up.nap.pod.zonal.failing.predicates" |
Penyediaan otomatis node tidak menyediakan grup node apa pun untuk Pod di zona ini karena predikat yang gagal. | Nama zona yang dipertimbangkan dan alasan kegagalan predikat. | Tinjau persyaratan Pod yang tertunda, seperti aturan afinitas, taint, toleransi, atau persyaratan resource. |
Melakukan penyelidikan lebih lanjut
Bagian berikut memberikan panduan tentang cara menggunakan Logs Explorer dan
gcpdiag
untuk mendapatkan insight tambahan tentang error Anda.
Menyelidiki error di Logs Explorer
Jika Anda ingin menyelidiki pesan error lebih lanjut, lihat log khusus untuk error Anda:
Di Konsol Google Cloud, buka halaman Logs Explorer.
Di panel kueri, masukkan kueri berikut:
resource.type="k8s_cluster" log_id("container.googleapis.com/cluster-autoscaler-visibility") jsonPayload.resultInfo.results.errorMsg.messageId="ERROR_MESSAGE"
Ganti
ERROR_MESSAGE
dengan pesan yang ingin Anda selidiki. Contoh,scale.up.error.out.of.resources
.Klik Run query.
Men-debug beberapa error dengan gcpdiag
gcpdiag
adalah alat open source yang dibuat dengan dukungan dari engineer teknis Google Cloud. Ini bukan produk Google Cloud yang didukung secara resmi.
Jika Anda mengalami salah satu pesan error berikut, Anda dapat menggunakan gcpdiag
untuk membantu memecahkan masalah:
scale.up.error.out.of.resources
scale.up.error.quota.exceeded
scale.up.error.waiting.for.instances.timeout
scale.up.error.ip.space.exhausted
scale.up.error.service.account.deleted
Untuk mengetahui daftar dan deskripsi semua flag alat gcpdiag
, lihat petunjuk penggunaan
gcpdiag
.
Mengatasi error penskalaan yang kompleks
Bagian berikut menawarkan panduan untuk mengatasi error yang mitigasinya melibatkan beberapa langkah dan error yang tidak memiliki pesan peristiwa autoscaler cluster yang terkait dengannya.
Masalah: Pod tidak sesuai dengan node
Autoscaler cluster hanya menjadwalkan Pod di node jika ada node dengan resource yang memadai seperti GPU, memori, dan penyimpanan untuk memenuhi persyaratan Pod. Untuk menentukan apakah ini alasan autoscaler cluster tidak diskalakan, bandingkan permintaan resource dengan resource yang disediakan.
Contoh berikut menunjukkan cara memeriksa resource CPU, tetapi langkah yang sama berlaku untuk resource GPU, memori, dan penyimpanan. Untuk membandingkan permintaan CPU dengan CPU yang disediakan, selesaikan langkah-langkah berikut:
Di konsol Google Cloud, buka halaman Workload.
Klik pesan error
PodUnschedulable
.Di panel Details, klik nama Pod. Jika ada beberapa Pod, mulailah dengan Pod pertama dan ulangi proses berikut untuk setiap Pod.
Di halaman Pod details, buka tab Events.
Dari tab Events, buka tab YAML.
Catat permintaan resource setiap container di Pod untuk menemukan total permintaan resource. Misalnya, dalam konfigurasi Pod berikut, Pod memerlukan 2 vCPU:
resources: limits: cpu: "3" requests: cpu: "2"
Lihat detail node pool dari cluster dengan Pod yang tidak terjadwal:
Di konsol Google Cloud, buka halaman Kubernetes clusters.
Klik nama cluster yang memiliki pesan error
Pods unschedulable
.Di halaman Cluster details, buka tab Nodes.
Di bagian Node pool, catat nilai di kolom Machine type. Misalnya,
n1-standard-1
.Bandingkan permintaan resource dengan vCPU yang disediakan oleh jenis mesin. Misalnya, jika Pod meminta 2 vCPU, tetapi node yang tersedia memiliki jenis mesin
n1-standard-1
, node tersebut hanya akan memiliki 1 vCPU. Dengan konfigurasi seperti ini, autoscaler cluster tidak akan memicu peningkatan skala karena meskipun menambahkan node baru, Pod ini tidak akan muat di dalamnya. Jika Anda ingin mengetahui lebih lanjut jenis mesin yang tersedia, lihat Panduan perbandingan dan resource kelompok mesin dalam dokumentasi Compute Engine.
Perlu diingat juga bahwa resource yang dapat dialokasikan dari node kurang dari total resource, karena sebagian diperlukan untuk menjalankan komponen sistem. Untuk mempelajari lebih lanjut cara penghitungannya, lihat Resource yang dapat dialokasikan node.
Untuk mengatasi masalah ini, tentukan apakah permintaan resource yang ditentukan untuk workload cocok dengan kebutuhan Anda. Jika jenis mesin tidak boleh diubah, buat node pool dengan jenis mesin yang dapat mendukung permintaan yang berasal dari Pod. Jika permintaan resource Pod tidak akurat, perbarui definisi Pod agar Pod dapat muat di node.
Masalah: Cluster yang tidak responsif mencegah peningkatan skala
Autoscaler cluster mungkin tidak melakukan penskalaan jika menganggap cluster tidak sehat. Kondisi tidak sehat cluster tidak didasarkan pada kondisi bidang kontrol yang sehat, tetapi pada rasio node yang sehat dan siap. Jika 45% node dalam cluster tidak responsif atau tidak siap, autoscaler cluster akan menghentikan semua operasi.
Jika ini adalah alasan autoscaler cluster Anda tidak meningkatkan skala, akan ada peristiwa di ConfigMap autoscaler cluster dengan jenis Warning
dengan ClusterUnhealthy
tercantum sebagai alasannya.
Untuk melihat ConfigMap, jalankan perintah berikut:
kubectl describe configmap cluster-autoscaler-status -n kube-system
Untuk mengatasi masalah ini, kurangi jumlah node yang tidak responsif.
Beberapa node juga mungkin sudah siap, meskipun tidak dianggap siap oleh autoscaler cluster. Hal ini terjadi saat taint dengan awalan
ignore-taint.cluster-autoscaler.kubernetes.io/
ada di node. Autoscaler
cluster menganggap node sebagai NotReady
selama taint tersebut ada.
Jika perilaku disebabkan oleh adanya
kontaminasi ignore-taint.cluster-autoscaler.kubernetes.io/.*
, hapus.
Langkah selanjutnya
- Tinjau FAQ autoscaler cluster Kubernetes.
- Tonton video YouTube tentang cara memecahkan masalah dan menyelesaikan masalah penskalaan.
- Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.