Otomatis memperbaiki node


Halaman ini menjelaskan cara kerja perbaikan otomatis node dan cara menggunakan fitur ini untuk cluster Google Kubernetes Engine (GKE) Standard.

Perbaikan otomatis node membantu menjaga node di cluster GKE Anda dalam keadaan aktif dan berjalan. Jika diaktifkan, GKE melakukan pemeriksaan berkala pada status respons setiap node di cluster Anda. Jika health check node gagal berturut-turut dalam jangka waktu yang lama, GKE memulai proses perbaikan untuk node tersebut.

Setelan untuk Autopilot dan Standar

Cluster Autopilot selalu memperbaiki node secara otomatis. Anda tidak dapat menonaktifkan setelan ini.

Pada cluster Standar, perbaikan otomatis node diaktifkan secara default untuk node pool baru. Anda dapat menonaktifkan perbaikan otomatis untuk node pool yang ada, tetapi sebaiknya pertahankan konfigurasi default-nya.

Kriteria perbaikan

GKE menggunakan status kondisi node untuk menentukan apakah node perlu diperbaiki. Node yang melaporkan status Ready dianggap responsif. GKE memicu tindakan perbaikan jika node melaporkan laporan status yang tidak responsif secara berturut-turut selama batas waktu tertentu. Status tidak sehat dapat berarti:

  • Node melaporkan status NotReady pada pemeriksaan berturut-turut selama batas waktu yang ditentukan (sekitar 10 menit).
  • Node tidak melaporkan status apa pun selama batas waktu tertentu (sekitar 10 menit).
  • Boot disk node kehabisan ruang disk untuk jangka waktu yang lebih lama (sekitar 30 menit).

Anda dapat memeriksa sinyal kondisi node secara manual kapan saja menggunakan perintah kubectl get nodes.

Proses perbaikan node

Jika GKE mendeteksi bahwa node memerlukan perbaikan, node tersebut akan dikosongkan dan dibuat ulang. Proses ini mempertahankan nama asli node. GKE menunggu satu jam hingga pengosongan selesai. Jika pembuangan tidak selesai, node akan dimatikan dan node baru akan dibuat.

Jika beberapa node perlu diperbaiki, GKE dapat memperbaiki node secara paralel. GKE menyeimbangkan jumlah perbaikan, bergantung pada ukuran cluster dan jumlah node yang rusak. GKE akan memperbaiki lebih banyak node secara paralel pada cluster yang lebih besar, tetapi akan mengurangi node seiring bertambahnya jumlah node yang tidak responsif.

Jika Anda menonaktifkan perbaikan otomatis node kapan saja selama proses perbaikan, perbaikan yang sedang berlangsung tidak akan dibatalkan dan dilanjutkan untuk node yang sedang diperbaiki.

Histori perbaikan node

GKE menghasilkan entri log untuk peristiwa perbaikan otomatis. Anda dapat memeriksa log dengan menjalankan perintah berikut:

gcloud container operations list

Perbaikan otomatis node di node slice TPU

Jika TPU node dalam node pool slice TPU multi-host tidak responsif dan memerlukan perbaikan otomatis, seluruh node pool akan dibuat ulang. Untuk mempelajari lebih lanjut kondisi node slice TPU, lihat Perbaikan otomatis node slice TPU.

Aktifkan perbaikan otomatis untuk node pool Standar yang sudah ada

Anda mengaktifkan perbaikan otomatis node berdasarkan node pool.

Jika perbaikan otomatis dinonaktifkan pada node pool yang ada di cluster Standar, gunakan petunjuk berikut untuk mengaktifkannya:

gcloud

gcloud container node-pools update POOL_NAME \
    --cluster CLUSTER_NAME \
    --region=COMPUTE_REGION \
    --enable-autorepair

Ganti kode berikut:

  • POOL_NAME: nama node pool Anda.
  • CLUSTER_NAME: nama cluster Standar.
  • COMPUTE_REGION: region Compute Engine untuk cluster. Untuk cluster zona, gunakan opsi --zone COMPUTE_ZONE.

Konsol

  1. Buka halaman Google Kubernetes Engine di konsol Google Cloud.

    Buka Google Kubernetes Engine

  2. Di daftar cluster, klik nama cluster yang ingin diubah.

  3. Klik tab Node.

  4. Di bagian Node Pool, klik nama node pool yang ingin Anda ubah.

  5. Di halaman Node pool details, klik Edit.

  6. Di bagian Pengelolaan, centang kotak Aktifkan perbaikan otomatis.

  7. Klik Simpan.

Pastikan perbaikan otomatis node diaktifkan untuk node pool Standar

Perbaikan otomatis node diaktifkan berdasarkan node pool. Anda dapat memverifikasi bahwa node pool di cluster Anda telah mengaktifkan perbaikan otomatis node dengan Google Cloud CLI atau Google Cloud Console.

gcloud

Jelaskan node pool:

gcloud container node-pools describe NODE_POOL_NAME \
--cluster=CLUSTER_NAME

Jika perbaikan otomatis node diaktifkan, output perintah ini akan menyertakan baris berikut:

management:
  ...
  autoRepair: true

Konsol

  1. Buka halaman Google Kubernetes Engine di konsol Google Cloud.

    Buka Google Kubernetes Engine

  2. Di halaman Google Kubernetes Engine, klik nama cluster node pool yang ingin diperiksa.

  3. Klik tab Nodes.

  4. Di bagian Node Pools, klik nama node pool yang ingin Anda periksa.

  5. Di bagian Management, di kolom Auto-repair, pastikan perbaikan otomatis diaktifkan.

Menonaktifkan perbaikan otomatis node

Anda dapat menonaktifkan perbaikan otomatis node untuk node pool yang ada dalam cluster Standar menggunakan gcloud CLI atau Google Cloud Console.

gcloud

gcloud container node-pools update POOL_NAME \
    --cluster CLUSTER_NAME \
    --region=COMPUTE_REGION \
    --no-enable-autorepair

Ganti kode berikut:

  • POOL_NAME: nama node pool Anda.
  • CLUSTER_NAME: nama cluster Standar.
  • COMPUTE_REGION: region Compute Engine untuk cluster. Untuk cluster zona, gunakan opsi --zone COMPUTE_ZONE.

Konsol

  1. Buka halaman Google Kubernetes Engine di konsol Google Cloud.

    Buka Google Kubernetes Engine

  2. Di daftar cluster, klik nama cluster yang ingin diubah.

  3. Klik tab Node.

  4. Di bagian Node Pool, klik nama node pool yang ingin Anda ubah.

  5. Di halaman Node pool details, klik Edit.

  6. Di bagian Management, hapus centang pada kotak Enable auto-repair.

  7. Klik Save.

Langkah berikutnya