Menilai kondisi cluster dan workload di konsol Google Cloud


Saat Anda perlu memeriksa kondisi cluster dan workload Google Kubernetes Engine (GKE) dengan cepat, Anda mungkin kesulitan mengetahui dari mana harus memulai. Memvisualisasikan kondisi cluster dan workload Anda di konsol Google Cloud membantu Anda menilai kondisi lingkungan dengan cepat. Kondisi cluster mengacu pada kondisi infrastruktur GKE yang mendasarinya seperti node dan jaringan, sedangkan kondisi workload mengacu pada status dan performa aplikasi yang berjalan di cluster.

Gunakan halaman ini untuk mempelajari cara menavigasi halaman cluster dan workload Kubernetes untuk mendapatkan ringkasan tingkat tinggi, mengidentifikasi potensi masalah (seperti node yang mengalami tekanan resource atau Pod yang gagal), dan melihat perincian resource tertentu untuk mengetahui detail selengkapnya.

Informasi ini penting bagi admin dan operator Platform yang bertanggung jawab untuk menjaga stabilitas cluster dan perlu melakukan penilaian kondisi dan pemeriksaan resource dengan cepat. Hal ini juga penting bagi developer Aplikasi yang perlu memahami status runtime deployment mereka dan menyelidiki kegagalan. Untuk mengetahui informasi selengkapnya tentang peran umum dan contoh tugas yang kami referensikan dalam konten Google Cloud , lihat Peran dan tugas pengguna GKE umum.

Untuk memberikan gambaran lengkap tentang kesehatan aplikasi Anda, konsol Google Cloud juga memberi Anda akses ke alat logging dan pemantauan yang canggih, sehingga Anda dapat menyelidiki penyebab utama kegagalan di masa lalu dan mencegahnya secara proaktif di masa mendatang. Untuk mengetahui informasi selengkapnya tentang alat ini, lihat Melakukan analisis historis dengan Cloud Logging dan Melakukan pemantauan proaktif dengan Cloud Monitoring.

Menemukan masalah cluster

Halaman Kubernetes clusters memberi Anda ringkasan performa cluster Anda. Untuk mengidentifikasi masalah pada cluster Anda, mulai di halaman ini.

Berikut beberapa contoh cara menggunakan halaman ini untuk memecahkan masalah:

  • Untuk mendapatkan saran tentang cara meningkatkan kualitas cluster, strategi upgrade, dan pengoptimalan biaya, klik Lihat rekomendasi.
  • Untuk mengidentifikasi cluster yang tidak responsif, tinjau kolom Status. Setiap kelompok yang tidak memiliki tanda centang hijau perlu diperhatikan.
  • Untuk melihat potensi masalah, tinjau kolom Notifikasi. Klik pesan notifikasi untuk mengetahui informasi selengkapnya.

Menyelidiki cluster tertentu

Setelah menemukan masalah pada cluster, jelajahi halaman Detail cluster untuk mendapatkan informasi mendalam yang membantu Anda memecahkan masalah cluster dan memahami konfigurasinya.

Untuk membuka halaman Detail cluster, lakukan langkah berikut:

  1. Buka halaman cluster Kubernetes.

    Buka cluster Kubernetes

  2. Tinjau kolom Nama, lalu klik nama cluster yang ingin Anda selidiki.

Berikut beberapa contoh cara menggunakan halaman Details cluster untuk memecahkan masalah cluster Anda:

  • Untuk pemeriksaan kesehatan umum, coba opsi berikut:

    • Untuk melihat dasbor tingkat cluster, buka tab Observability. Secara default, GKE mengaktifkan Cloud Monitoring saat Anda membuat cluster. Jika Cloud Monitoring diaktifkan, GKE akan otomatis menyiapkan dasbor di halaman ini. Berikut beberapa tampilan yang mungkin paling berguna untuk pemecahan masalah:

      • Ringkasan: lihat ringkasan umum tentang performa, pemanfaatan resource, dan peristiwa utama cluster Anda. Dasbor ini membantu Anda menilai dengan cepat kondisi keseluruhan cluster dan mengidentifikasi potensi masalah.
      • Metrik traffic: melihat metrik jaringan berbasis node untuk mendapatkan insight tentang traffic antara beban kerja Kubernetes Anda.
      • Status workload: melihat status Deployment, Pod, dan container. Identifikasi instance yang gagal atau tidak responsif, dan deteksi batasan resource.
      • Bidang kontrol: melihat kesehatan dan performa bidang kontrol. Dasbor ini memungkinkan Anda memantau metrik utama komponen seperti kube-apiserver dan etcd, mengidentifikasi hambatan performa, dan mendeteksi kegagalan komponen.

    • Untuk melihat error aplikasi terbaru, buka tab Error aplikasi. Informasi di tab ini dapat membantu Anda memprioritaskan dan menyelesaikan error dengan menunjukkan jumlah kemunculan, kapan error pertama kali muncul, dan kapan terakhir kali terjadi.

      Untuk menyelidiki error lebih lanjut, klik pesan error untuk melihat laporan error mendetail, termasuk link ke log yang relevan.

  • Jika Anda memecahkan masalah setelah upgrade atau perubahan terbaru, periksa bagian Dasar-dasar cluster di tab Detail cluster. Pastikan bahwa versi yang tercantum di kolom Versi adalah versi yang Anda harapkan. Untuk penyelidikan lebih lanjut, klik Tampilkan histori upgrade di bagian Upgrade.

  • Jika Anda menggunakan cluster Standard dan Pod Anda macet dalam status Pending, atau Anda mencurigai bahwa node kelebihan beban, periksa tab Nodes. Tab Nodes tidak tersedia untuk cluster Autopilot karena GKE mengelola node untuk Anda.

    • Di bagian Node Pools, periksa apakah penskalaan otomatis dikonfigurasi dengan benar dan jenis mesin sesuai untuk beban kerja Anda.
    • Di bagian Node, cari node dengan status selain Ready. Status NotReady menunjukkan masalah pada node itu sendiri, seperti tekanan resource atau masalah pada kubelet (kubelet adalah agen yang berjalan di setiap node untuk mengelola container).

Menemukan masalah workload

Jika Anda mencurigai adanya masalah pada aplikasi tertentu, seperti Deployment yang gagal, buka halaman Workloads di konsol Google Cloud . Halaman ini memberikan tampilan terpusat dari semua aplikasi yang berjalan dalam cluster Anda.

  • Untuk memulai, di konsol Google Cloud , buka halaman Workloads.

    Buka Workloads

Berikut beberapa contoh cara menggunakan halaman ini untuk memecahkan masalah:

  • Untuk mengidentifikasi workload yang tidak responsif, tinjau kolom Status. Setiap workload yang tidak memiliki tanda centang hijau perlu diperhatikan.
  • Jika aplikasi tidak merespons, tinjau kolom Pod. Misalnya, status seperti 1/3 berarti hanya satu dari tiga replika aplikasi yang berjalan, yang menunjukkan adanya masalah.

Menyelidiki workload tertentu

Setelah mengidentifikasi beban kerja yang bermasalah dari ringkasan, buka halaman Detail beban kerja untuk mulai mengisolasi penyebab utamanya.

Untuk membuka halaman Detail workload, lakukan hal berikut:

  1. Buka halaman Workloads.

    Buka Workloads

  2. Lihat kolom Nama dan klik nama workload yang ingin Anda selidiki.

Berikut beberapa contoh cara menggunakan halaman Detail workload untuk memecahkan masalah workload Anda:

  • Untuk memeriksa konfigurasi workload, gunakan tab Overview dan Details workload. Anda dapat menggunakan informasi ini untuk memverifikasi peristiwa seperti apakah tag image container yang benar telah di-deploy atau memeriksa permintaan dan batas resource beban kerja.

  • Untuk menemukan nama Pod tertentu yang mengalami error, buka bagian Managed Pods. Anda mungkin memerlukan informasi ini untuk perintah kubectl. Bagian ini mencantumkan semua Pod yang dikontrol oleh workload, beserta statusnya.

  • Untuk melihat histori perubahan terbaru pada workload, buka tab Histori revisi. Jika Anda melihat masalah performa setelah Deployment baru, gunakan bagian ini untuk mengidentifikasi revisi mana yang aktif. Kemudian, Anda dapat membandingkan konfigurasi revisi saat ini dengan revisi sebelumnya untuk menentukan sumber masalah. Jika tab ini tidak terlihat, beban kerja adalah jenis yang tidak menggunakan revisi atau belum memiliki update.

  • Jika Deployment tampaknya gagal, buka tab Events. Halaman ini sering kali menjadi sumber informasi yang paling berharga karena menampilkan peristiwa tingkat Kubernetes.

  • Untuk melihat log aplikasi, klik tab Log. Halaman ini membantu Anda memahami apa yang terjadi di dalam cluster Anda. Lihat di sini untuk menemukan pesan error dan stack trace yang dapat membantu Anda mendiagnosis masalah.

  • Untuk mengonfirmasi apa yang di-deploy, lihat tab YAML. Halaman ini menampilkan manifes YAML langsung untuk workload sebagaimana adanya di cluster. Informasi ini berguna untuk menemukan perbedaan dari manifes yang dikontrol sumber Anda. Jika Anda melihat manifes YAML satu Pod, tab ini juga menampilkan status Pod, yang memberikan insight tentang kegagalan tingkat Pod.

Langkah berikutnya