Halaman ini menjelaskan cara kerja perbaikan otomatis node dan cara menggunakan fitur ini untuk cluster Google Kubernetes Engine (GKE) Standard.
Perbaikan otomatis node membantu menjaga node di cluster GKE Anda dalam keadaan aktif dan berjalan. Jika diaktifkan, GKE melakukan pemeriksaan berkala pada status respons setiap node di cluster Anda. Jika health check node gagal berturut-turut dalam jangka waktu yang lama, GKE memulai proses perbaikan untuk node tersebut.
Setelan untuk Autopilot dan Standar
Cluster Autopilot selalu memperbaiki node secara otomatis. Anda tidak dapat menonaktifkan setelan ini.
Pada cluster Standar, perbaikan otomatis node diaktifkan secara default untuk node pool baru. Anda dapat menonaktifkan perbaikan otomatis untuk node pool yang ada, tetapi sebaiknya pertahankan konfigurasi default-nya.
Kriteria perbaikan
GKE menggunakan status kondisi node untuk menentukan apakah node perlu diperbaiki. Node yang melaporkan status Ready
dianggap responsif.
GKE memicu tindakan perbaikan jika node melaporkan laporan status yang tidak responsif secara berturut-turut selama batas waktu tertentu.
Status tidak sehat dapat berarti:
- Node melaporkan status
NotReady
pada pemeriksaan berturut-turut selama batas waktu yang ditentukan (sekitar 10 menit). - Node tidak melaporkan status apa pun selama batas waktu tertentu (sekitar 10 menit).
- Boot disk node kehabisan ruang disk untuk jangka waktu yang lebih lama (sekitar 30 menit).
Anda dapat memeriksa sinyal kondisi node secara manual kapan saja menggunakan perintah kubectl get nodes
.
Proses perbaikan node
Jika GKE mendeteksi bahwa node memerlukan perbaikan, node tersebut akan dikosongkan dan dibuat ulang. Proses ini mempertahankan nama asli node. GKE menunggu satu jam hingga pengosongan selesai. Jika pembuangan tidak selesai, node akan dimatikan dan node baru akan dibuat.
Jika beberapa node perlu diperbaiki, GKE dapat memperbaiki node secara paralel. GKE menyeimbangkan jumlah perbaikan, bergantung pada ukuran cluster dan jumlah node yang rusak. GKE akan memperbaiki lebih banyak node secara paralel pada cluster yang lebih besar, tetapi akan mengurangi node seiring bertambahnya jumlah node yang tidak responsif.
Jika Anda menonaktifkan perbaikan otomatis node kapan saja selama proses perbaikan, perbaikan yang sedang berlangsung tidak akan dibatalkan dan dilanjutkan untuk node yang sedang diperbaiki.
Histori perbaikan node
GKE menghasilkan entri log untuk peristiwa perbaikan otomatis. Anda dapat memeriksa log dengan menjalankan perintah berikut:
gcloud container operations list
Perbaikan otomatis node di node slice TPU
Jika TPU node dalam node pool slice TPU multi-host tidak responsif dan memerlukan perbaikan otomatis, seluruh node pool akan dibuat ulang. Untuk mempelajari lebih lanjut kondisi node slice TPU, lihat Perbaikan otomatis node slice TPU.
Aktifkan perbaikan otomatis untuk node pool Standar yang sudah ada
Anda mengaktifkan perbaikan otomatis node berdasarkan node pool.
Jika perbaikan otomatis dinonaktifkan pada node pool yang ada di cluster Standar, gunakan petunjuk berikut untuk mengaktifkannya:
gcloud
gcloud container node-pools update POOL_NAME \
--cluster CLUSTER_NAME \
--region=COMPUTE_REGION \
--enable-autorepair
Ganti kode berikut:
POOL_NAME
: nama node pool Anda.CLUSTER_NAME
: nama cluster Standar.COMPUTE_REGION
: region Compute Engine untuk cluster. Untuk cluster zona, gunakan opsi--zone COMPUTE_ZONE
.
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Di daftar cluster, klik nama cluster yang ingin diubah.
Klik tab Node.
Di bagian Node Pool, klik nama node pool yang ingin Anda ubah.
Di halaman Node pool details, klik edit Edit.
Di bagian Pengelolaan, centang kotak Aktifkan perbaikan otomatis.
Klik Simpan.
Pastikan perbaikan otomatis node diaktifkan untuk node pool Standar
Perbaikan otomatis node diaktifkan berdasarkan node pool. Anda dapat memverifikasi bahwa node pool di cluster Anda telah mengaktifkan perbaikan otomatis node dengan Google Cloud CLI atau Google Cloud Console.
gcloud
Jelaskan node pool:
gcloud container node-pools describe NODE_POOL_NAME \
--cluster=CLUSTER_NAME
Jika perbaikan otomatis node diaktifkan, output perintah ini akan menyertakan baris berikut:
management:
...
autoRepair: true
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Di halaman Google Kubernetes Engine, klik nama cluster node pool yang ingin diperiksa.
Klik tab Nodes.
Di bagian Node Pools, klik nama node pool yang ingin Anda periksa.
Di bagian Management, di kolom Auto-repair, pastikan perbaikan otomatis diaktifkan.
Menonaktifkan perbaikan otomatis node
Anda dapat menonaktifkan perbaikan otomatis node untuk node pool yang ada dalam cluster Standar menggunakan gcloud CLI atau Google Cloud Console.
gcloud
gcloud container node-pools update POOL_NAME \
--cluster CLUSTER_NAME \
--region=COMPUTE_REGION \
--no-enable-autorepair
Ganti kode berikut:
POOL_NAME
: nama node pool Anda.CLUSTER_NAME
: nama cluster Standar.COMPUTE_REGION
: region Compute Engine untuk cluster. Untuk cluster zona, gunakan opsi--zone COMPUTE_ZONE
.
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Di daftar cluster, klik nama cluster yang ingin diubah.
Klik tab Node.
Di bagian Node Pool, klik nama node pool yang ingin Anda ubah.
Di halaman Node pool details, klik edit Edit.
Di bagian Management, hapus centang pada kotak Enable auto-repair.
Klik Save.