Men-debug masalah node

Halaman ini menjelaskan cara men-debug masalah node di Google Distributed Cloud (khusus software) untuk VMware menggunakan rangkaian alat proses debug bawaan.

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.

Ringkasan

Setiap cluster Google Distributed Cloud yang Anda buat terdiri dari beberapa node. Setiap {i>node<i} mencakup distribusi CoreOS toolbox, shell skrip yang mengekstrak dan menjalankan penampung proses debug, debug-toolbox. debug-toolbox adalah image container yang menyertakan beberapa proses debug berguna alat.

Jika Anda mengalami masalah dengan {i>node<i} tertentu, Anda dapat mencoba melakukan {i>debugging<i} dengan yang terhubung ke node yang terpengaruh, jalankan skrip toolbox untuk mengekstrak dan menjalankan debug-toolbox, lalu jalankan alat yang disertakan dalam container.

Alat disertakan dalam penampung debug-toolbox

Container debug-toolbox menjalankan image dasar Debian yang menyertakan paket berikut:

  • bash
  • curl
  • dnsutils
  • hping3
  • iperf3
  • {i>lsof<i}
  • netcat
  • mtr
  • procps
  • pelan
  • tcpdump
  • {i>traceroute<i}
  • util-linux

Alat ini tidak memerlukan koneksi internet karena disertakan dalam container koneksi jarak jauh. Jika Anda ingin menginstal alat {i>debugging<i} tambahan, Anda menggunakan apt-get, yang memerlukan koneksi internet.

Menggunakan toolbox

  1. SSH ke node cluster.

  2. Jalankan perintah toolbox:

    sudo toolbox

    Perintah ini memulai container debug-toolbox.

  3. Saat berada di dalam container, jalankan salah satu alat. Contoh, tcpdump.

  4. Setelah selesai, keluar dari container dan tutup koneksi SSH ke {i>node<i}.

Pendeteksi Masalah Node

Pendeteksi Masalah Node, yang diaktifkan untuk semua {i>node<i} dalam cluster, membantu deteksi cepat beberapa masalah yang umum terkait {i>node<i}. Pendeteksi Masalah Node terus memeriksa kemungkinan masalah dan laporan yang sama seperti peristiwa dan kondisi pada {i>node<i}. Jika node tidak berfungsi, Anda dapat memeriksa apakah {i> Node Problem Detector<i} mendeteksi masalah dengan menjalankan kubectl describe pada node dan mencari peristiwa yang sesuai kondisi data.

Detektor Masalah Node menghasilkan beberapa kondisi pada node. Jika kondisi yang dilaporkan adalah KubeletUnhealthy atau ContainerRuntimeUnhealthy, memulai ulang layanan systemd yang sesuai (kubelet atau Docker) mungkin akan membantu membuat node responsif kembali.

Diawali dengan Google Distributed Cloud versi 1.5, kubelet, dan Docker perbaikan otomatis layanan systemd diaktifkan di Detektor Masalah Node. Jika Pendeteksi Masalah Node mendeteksi KubeletUnhealthy atau Kondisi ContainerRuntimeUnhealthy pada node, node akan mencoba memulai ulang layanan {i>kubelet<i} atau Docker secara otomatis jika durasi sejak {i>restart<i} terakhir di atas batas tertentu.

Langkah selanjutnya

Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.