Halaman ini menjelaskan cara men-debug masalah node di Google Distributed Cloud menggunakan serangkaian alat proses debug bawaan.
Jika Anda memerlukan bantuan tambahan, hubungi Cloud Customer Care.Ringkasan
Setiap cluster Google Distributed Cloud yang Anda buat terdiri dari beberapa node. Setiap node mencakup distribusi
toolbox
CoreOS, skrip shell
yang mengekstrak dan menjalankan container proses debug, debug-toolbox
.
debug-toolbox
adalah image container yang menyertakan beberapa tools proses debug yang berguna.
Jika mengalami masalah dengan node tertentu, Anda dapat mencoba melakukan proses debug dengan
terhubung ke node yang terpengaruh, menjalankan skrip toolbox
untuk mengekstrak dan menjalankan
container debug-toolbox
, dan menjalankan alat yang disertakan dalam container.
Alat disertakan dalam penampung debug-toolbox
Container debug-toolbox
menjalankan image dasar Debian yang menyertakan
paket berikut:
- bash
- curl
- {i>dnsutils<i}
- hping3
- iperf3
- {i>lsof<i}
- {i>netcat<i}
- mtr
- procps
- pelan
- tcpdump
- traceroute
- util-linux
Karena alat ini disertakan dalam penampung, alat ini tidak memerlukan koneksi
internet. Jika ingin menginstal alat proses debug tambahan, gunakan
apt-get
, yang memang memerlukan koneksi internet.
Menggunakan toolbox
Jalankan perintah
toolbox
:sudo toolbox
Perintah ini memulai container
debug-toolbox
.Saat berada di dalam container, jalankan salah satu tools. Misalnya,
tcpdump
.Setelah selesai, keluar dari container dan tutup koneksi SSH ke node.
Pendeteksi Masalah Node
Mulai dari Google Distributed Cloud versi 1.4, Node Problem Detector,
yang diaktifkan untuk semua node dalam cluster, membantu mendeteksi beberapa masalah node umum dengan cepat. Detektor Masalah Node terus memeriksa kemungkinan masalah dan melaporkan peristiwa yang sama seperti peristiwa dan kondisi pada node. Jika node mengalami gangguan, Anda dapat memeriksa apakah Node Problem Detector mendeteksi masalah dengan menjalankan kubectl describe
pada node dan mencari peristiwa dan kondisi yang sesuai.
Detektor Masalah Node menghasilkan beberapa kondisi pada node. Jika kondisi yang dilaporkan adalah KubeletUnhealthy
atau ContainerRuntimeUnhealthy
, mulai ulang layanan systemd
yang sesuai (kubelet atau Docker) dapat membantu membuat node responsif kembali.
Mulai dari Google Distributed Cloud versi 1.5, perbaikan otomatis layanan kubelet dan docker
systemd diaktifkan di Node Problem Detector. Jika
Node Problem Detector mendeteksi kondisi KubeletUnhealthy
atau
ContainerRuntimeUnhealthy
pada node, node tersebut akan otomatis mencoba memulai ulang
layanan kubelet atau docker jika durasi sejak mulai ulang terakhir
di atas batas tertentu.