Men-debug masalah node

Halaman ini menjelaskan cara men-debug masalah node di Google Distributed Cloud menggunakan serangkaian alat proses debug bawaan.

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.

Ringkasan

Setiap cluster Google Distributed Cloud yang Anda buat terdiri dari beberapa node. Setiap node mencakup distribusi toolbox CoreOS, skrip shell yang mengekstrak dan menjalankan container proses debug, debug-toolbox. debug-toolbox adalah image container yang menyertakan beberapa tools proses debug yang berguna.

Jika mengalami masalah dengan node tertentu, Anda dapat mencoba melakukan proses debug dengan terhubung ke node yang terpengaruh, menjalankan skrip toolbox untuk mengekstrak dan menjalankan container debug-toolbox, dan menjalankan alat yang disertakan dalam container.

Alat disertakan dalam penampung debug-toolbox

Container debug-toolbox menjalankan image dasar Debian yang menyertakan paket berikut:

  • bash
  • curl
  • {i>dnsutils<i}
  • hping3
  • iperf3
  • {i>lsof<i}
  • {i>netcat<i}
  • mtr
  • procps
  • pelan
  • tcpdump
  • traceroute
  • util-linux

Karena alat ini disertakan dalam penampung, alat ini tidak memerlukan koneksi internet. Jika ingin menginstal alat proses debug tambahan, gunakan apt-get, yang memang memerlukan koneksi internet.

Menggunakan toolbox

  1. SSH ke node cluster.

  2. Jalankan perintah toolbox:

    sudo toolbox

    Perintah ini memulai container debug-toolbox.

  3. Saat berada di dalam container, jalankan salah satu tools. Misalnya, tcpdump.

  4. Setelah selesai, keluar dari container dan tutup koneksi SSH ke node.

Pendeteksi Masalah Node

Mulai dari Google Distributed Cloud versi 1.4, Node Problem Detector, yang diaktifkan untuk semua node dalam cluster, membantu mendeteksi beberapa masalah node umum dengan cepat. Detektor Masalah Node terus memeriksa kemungkinan masalah dan melaporkan peristiwa yang sama seperti peristiwa dan kondisi pada node. Jika node mengalami gangguan, Anda dapat memeriksa apakah Node Problem Detector mendeteksi masalah dengan menjalankan kubectl describe pada node dan mencari peristiwa dan kondisi yang sesuai.

Detektor Masalah Node menghasilkan beberapa kondisi pada node. Jika kondisi yang dilaporkan adalah KubeletUnhealthy atau ContainerRuntimeUnhealthy, mulai ulang layanan systemd yang sesuai (kubelet atau Docker) dapat membantu membuat node responsif kembali.

Mulai dari Google Distributed Cloud versi 1.5, perbaikan otomatis layanan kubelet dan docker systemd diaktifkan di Node Problem Detector. Jika Node Problem Detector mendeteksi kondisi KubeletUnhealthy atau ContainerRuntimeUnhealthy pada node, node tersebut akan otomatis mencoba memulai ulang layanan kubelet atau docker jika durasi sejak mulai ulang terakhir di atas batas tertentu.

Langkah selanjutnya

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.