Logging dan pemantauan

GKE di VMware mencakup beberapa opsi untuk logging dan pemantauan cluster, termasuk layanan terkelola berbasis cloud, alat open source, dan kompatibilitas yang divalidasi dengan solusi komersial pihak ketiga. Dokumen ini menjelaskan opsi ini dan memberikan beberapa panduan dasar tentang cara memilih solusi yang tepat untuk lingkungan Anda.

Opsi untuk GKE di VMware

Anda memiliki beberapa opsi logging dan pemantauan untuk GKE di VMware:

Cloud Logging dan Cloud Monitoring

Kemampuan observasi Google Cloud (sebelumnya bernama Stackdriver) adalah solusi kemampuan observasi bawaan untuk Google Cloud. Layanan ini menawarkan solusi logging yang terkelola sepenuhnya, pengumpulan metrik, pemantauan, dasbor, dan pemberitahuan. Cloud Monitoring memantau GKE di cluster VMware dengan cara yang sama seperti cluster GKE berbasis cloud.

Anda dapat mengonfigurasi agen dalam cluster untuk cakupan pemantauan dan logging, serta level metrik yang dikumpulkan:

  • Cakupan logging dan pemantauan dapat ditetapkan hanya untuk komponen sistem (default) atau untuk komponen sistem dan aplikasi
  • Tingkat metrik yang dikumpulkan dapat dikonfigurasi untuk kumpulan metrik yang dioptimalkan atau untuk metrik lengkap

Lihat Mengonfigurasi agen logging dan pemantauan untuk cluster Anthos di VMware dalam dokumen ini untuk mengetahui informasi selengkapnya.

Cloud Logging dan Cloud Monitoring menyediakan solusi ideal bagi pelanggan yang menginginkan satu solusi berbasis cloud yang mudah dikonfigurasi dan andal. Kami sangat merekomendasikan Logging dan Monitoring saat menjalankan workload hanya di GKE di VMware, atau workload di GKE dan GKE di VMware. Untuk aplikasi dengan komponen yang berjalan di GKE di VMware dan infrastruktur lokal tradisional, Anda dapat mempertimbangkan solusi lain untuk melihat aplikasi tersebut secara menyeluruh.

  • Untuk mengetahui detail tentang arsitektur, konfigurasi, dan data yang direplikasi ke project Google Cloud Anda secara default untuk GKE di VMware, lihat bagian Cara kerja logging dan pemantauan GKE di VMware.

  • Untuk mengetahui informasi selengkapnya tentang Cloud Logging, lihat dokumentasi Cloud Logging.

  • Untuk mengetahui informasi selengkapnya tentang Cloud Monitoring, baca dokumentasi Cloud Monitoring.

Prometheus dan Grafana

Prometheus dan Grafana adalah dua produk pemantauan open source yang populer:

  • Prometheus mengumpulkan metrik aplikasi dan sistem.

  • Alertmanager menangani pengiriman pemberitahuan dengan beberapa mekanisme pemberitahuan yang berbeda.

  • Grafana adalah alat dasbor.

Prometheus dan Grafana dapat diaktifkan di setiap cluster admin dan cluster pengguna. Prometheus dan Grafana direkomendasikan untuk tim aplikasi yang sudah memiliki pengalaman sebelumnya dengan produk tersebut, atau untuk tim operasional yang lebih memilih untuk mempertahankan metrik aplikasi dalam cluster dan untuk memecahkan masalah saat konektivitas jaringan terputus.

Solusi pihak ketiga

Google telah bekerja sama dengan beberapa penyedia solusi logging dan pemantauan pihak ketiga agar produk mereka berfungsi baik dengan GKE di VMware. Ini termasuk Datadog, Elastic, dan Splunk. Pihak ketiga tambahan yang divalidasi akan ditambahkan di masa mendatang.

Untuk mengetahui informasi selengkapnya tentang penggunaan solusi pihak ketiga dengan GKE di VMware, lihat artikel berikut:

Cara kerja logging dan pemantauan untuk GKE di VMware

Agen logging dan pemantauan diinstal dan diaktifkan di setiap cluster saat Anda membuat admin atau cluster pengguna baru. Agen mengumpulkan data tentang komponen sistem—cakupan yang dapat Anda konfigurasi.

Untuk melihat data yang dikumpulkan di konsol Google Cloud, Anda harus mengonfigurasi project Google Cloud yang menyimpan log dan metrik yang ingin Anda lihat.

Agen logging dan pemantauan di setiap cluster meliputi:

  • Agen metrik GKE (gke-metrics-agent). DaemonSet yang mengirimkan metrik ke Cloud Monitoring API.

  • Penerusan log (stackdriver-log-forwarder). DaemonSet Fluent Bit yang meneruskan log dari setiap mesin ke Cloud Logging. Forwarder log melakukan buffering entri log pada node secara lokal, lalu mengirimnya ulang hingga empat jam. Jika buffer sudah penuh atau jika penerusan log tidak dapat menjangkau Cloud Logging API selama lebih dari empat jam, log akan dihapus.

  • Agen metrik GKE global (gke-metrics-agent-global). Deployment yang mengirimkan metrik ke Cloud Monitoring API.

  • Agen metadata (stackdriver-metadata-agent). Deployment yang mengirimkan metadata untuk resource Kubernetes seperti pod, deployment, atau node ke Stackdriver Resource Metadata API; data ini digunakan untuk memperkaya kueri metrik dengan memungkinkan Anda membuat kueri berdasarkan nama deployment, nama node, atau bahkan nama layanan Kubernetes.

Anda dapat melihat semua agen Deployment dengan menjalankan perintah berikut:

  kubectl --kubeconfig CLUSTER_KUBECONFIG get deployments -l "managed-by=stackdriver" --all-namespaces

dengan CLUSTER_KUBECONFIG adalah jalur ke file kubeconfig Anda untuk cluster tersebut.

Output perintah ini akan mirip dengan berikut ini:

gke-metrics-agent-global                      1/1     Running   0   4h31m
stackdriver-metadata-agent-cluster-level      1/1     Running   0   4h31m

Anda dapat melihat semua agen DaemonSet dengan menjalankan perintah berikut:

  kubectl --kubeconfig CLUSTER_KUBECONFIG get daemonsets -l "managed-by=stackdriver" --all-namespaces

Output perintah ini akan mirip dengan berikut ini:

gke-metrics-agent                             1/1     Running   0   4h31m
stackdriver-log-forwarder                     1/1     Running   0   4h31m

Mengonfigurasi agen logging dan pemantauan untuk GKE di VMware

Agen yang diinstal dengan GKE di VMware mengumpulkan data tentang komponen sistem, sesuai dengan setelan dan konfigurasi Anda, untuk tujuan mengelola dan memecahkan masalah pada cluster Anda.

Hanya komponen sistem (cakupan default)

Setelah penginstalan, agen mengumpulkan log dan metrik, termasuk detail performa (misalnya, pemakaian CPU dan memori) dan metadata serupa, untuk komponen sistem yang disediakan Google. Ini mencakup semua beban kerja di cluster admin, dan untuk cluster pengguna, beban kerja dalam namespace kube-system, gke-system, gke-connect, istio-system, dan config-management-system. Anda dapat mengonfigurasi atau menonaktifkan agen seperti yang dijelaskan di bagian berikut.

Cakupan log dan metrik yang dikumpulkan dapat diperluas untuk menyertakan aplikasi. Untuk mengetahui petunjuk cara mengaktifkan logging dan pemantauan aplikasi, baca Mengaktifkan Logging dan Pemantauan untuk aplikasi pengguna.

Metrik yang dioptimalkan (metrik default)

Secara default, agen metrik yang berjalan di cluster mengumpulkan dan melaporkan serangkaian metrik container, kubelet, dan kube-state-metrics yang dioptimalkan ke Google Cloud Observability (sebelumnya bernama Stackdriver).

Perlu lebih sedikit resource untuk mengumpulkan rangkaian metrik yang dioptimalkan ini, sehingga meningkatkan performa dan skalabilitas secara keseluruhan. Hal ini sangat penting untuk metrik level container dan level kube, karena banyaknya objek yang harus dipantau.

Untuk menonaktifkan metrik metrik kube-state yang dioptimalkan (tidak direkomendasikan), tetapkan kolom optimizedMetrics ke false di resource kustom Stackdriver Anda. Untuk mengetahui informasi lebih lanjut mengenai cara mengubah resource kustom Stackdriver, lihat Mengonfigurasi resource komponen Stackdriver. Semua metrik GKE pada VMware, termasuk yang dikecualikan secara default, dijelaskan dalam metrik GKE Enterprise.

Mengaktifkan dan menonaktifkan Stackdriver

Anda dapat mengaktifkan atau menonaktifkan agen logging dan pemantauan sepenuhnya dengan mengaktifkan atau menonaktifkan resource kustom Stackdriver. Fitur ini ada dalam Pratinjau.

Sebelum menonaktifkan agen logging dan pemantauan, lihat halaman dukungan untuk mengetahui detail tentang pengaruhnya terhadap SLA Dukungan Google Cloud.

Agen logging dan pemantauan mengambil data yang disimpan secara lokal, sesuai dengan konfigurasi penyimpanan dan retensi Anda. Data tersebut direplikasi ke project Google Cloud yang ditentukan saat penginstalan menggunakan akun layanan yang diberi otorisasi untuk menulis data ke project tersebut. Anda dapat menonaktifkan agen ini kapan saja, seperti dijelaskan sebelumnya.

Anda juga dapat mengelola dan menghapus data yang telah dikirim oleh agen logging dan pemantauan ke Cloud Logging dan Cloud Monitoring. Untuk mengetahui informasi selengkapnya, lihat dokumentasi Cloud Monitoring.

Persyaratan konfigurasi untuk logging dan pemantauan

Untuk melihat data Cloud Logging dan Cloud Monitoring, Anda harus mengonfigurasi project Google Cloud yang menyimpan log dan metrik yang ingin Anda lihat. Project Google Cloud ini disebut project pemantauan logging.

  1. Aktifkan API berikut dalam project pemantauan logging Anda:

  2. Berikan peran IAM berikut ke akun layanan pemantauan logging pada project pemantauan logging Anda.

    • logging.logWriter
    • monitoring.metricWriter
    • stackdriver.resourceMetadata.writer
    • monitoring.dashboardEditor
    • opsconfigmonitoring.resourceMetadata.writer

Harga

Log sistem dan metrik GKE Enterprise tidak dikenai biaya. Log bidang kontrol, metrik bidang kontrol, dan subset metrik status Kube yang dipilih diaktifkan secara default untuk cluster GKE di Google Cloud yang terdaftar pada saat pembuatan cluster di project yang mengaktifkan GKE Enterprise. Log bidang kontrol dikenakan biaya Cloud Logging, sementara metrik yang aktif secara default disertakan tanpa biaya tambahan.

Untuk mengetahui daftar log dan metrik GKE yang disertakan, lihat Log yang tersedia dan Metrik yang tersedia.

Dalam cluster GKE di VMware, log dan metrik sistem GKE Enterprise mencakup hal berikut:

  • Log dan metrik dari semua komponen dalam cluster admin
  • Log dan metrik dari komponen dalam namespace ini di cluster pengguna: kube-system, gke-system, gke-connect, knative-serving, istio-system, monitoring-system, config-management-system, gatekeeper-system, cnrm-system

Untuk mengetahui informasi selengkapnya, lihat Harga untuk Kemampuan Observasi Google Cloud.

Guna mempelajari kredit untuk metrik Cloud Logging, hubungi bagian penjualan untuk mengetahui harga.

Cara kerja Prometheus dan Grafana untuk GKE di VMware

Setiap GKE di cluster VMware dibuat dengan Prometheus dan Grafana dinonaktifkan secara default. Anda dapat mengikuti panduan penginstalan untuk mengaktifkannya.

Server Prometheus disiapkan dalam konfigurasi yang sangat tersedia dengan dua replika yang berjalan pada dua node terpisah. Persyaratan resource disesuaikan untuk mendukung cluster yang menjalankan hingga lima node, dengan masing-masing menangani hingga 30 Pod yang menyalurkan metrik kustom. Prometheus memiliki PersistentVolume khusus dengan ruang disk yang telah dialokasikan sebelumnya agar sesuai dengan data selama periode retensi empat hari ditambah buffer keamanan tambahan.

Bidang kontrol admin, serta setiap cluster pengguna, memiliki stack pemantauan khusus yang dapat dikonfigurasi secara terpisah. Setiap admin dan cluster pengguna menyertakan stack pemantauan yang memberikan serangkaian fitur lengkap: Prometheus Server untuk pemantauan, Grafana untuk kemampuan observasi, dan Prometheus Alertsmanager untuk pemberitahuan.

Semua endpoint pemantauan, data metrik yang ditransfer, dan API pemantauan diamankan dengan komponen Istio menggunakan aturan mTLS dan RBAC. Akses ke data pemantauan dibatasi hanya untuk administrator cluster.

Metrik yang dikumpulkan oleh Prometheus

Prometheus mengumpulkan metrik dan metadata berikut dari bidang kontrol admin dan cluster pengguna:

  • Penggunaan resource, seperti pemakaian CPU di Pod dan node.
  • Metrik bidang kontrol Kubernetes.
  • Metrik dari add-on dan komponen sistem Kubernetes yang berjalan pada node, seperti kubelet.
  • Status cluster, seperti kondisi Pod dalam Deployment.
  • Metrik aplikasi.
  • Metrik mesin, seperti jaringan, entropi, dan inode.

Pemantauan multi-cluster

Instance Prometheus dan Grafana yang diinstal di cluster admin dikonfigurasi secara khusus untuk memberikan insight di seluruh instance GKE di VMware, termasuk cluster admin dan setiap cluster pengguna. Hal ini memungkinkan Anda untuk:

  • Gunakan dasbor Grafana untuk mengakses metrik dari semua cluster pengguna dan cluster admin.
  • Melihat metrik dari masing-masing cluster pengguna di dasbor Grafana; metrik tersedia untuk kueri langsung dalam resolusi penuh.
  • Mengakses metrik workload dan tingkat node cluster pengguna untuk kueri, dasbor, dan pemberitahuan gabungan (metrik workload terbatas pada workload yang berjalan di namespace sistem kube).
  • Konfigurasi pemberitahuan untuk cluster tertentu.

Langkah selanjutnya