Dokumen ini menjelaskan jenis peristiwa yang dapat Anda tampilkan di diagram. Peristiwa adalah aktivitas, seperti mulai ulang atau error, yang memengaruhi operasi sistem. Menampilkan peristiwa dapat membantu Anda menghubungkan data dari berbagai sumber saat Anda memecahkan masalah.
Untuk setiap jenis peristiwa, informasi berikut diberikan:
- Kueri yang cocok untuk digunakan dengan Logs Explorer atau dengan kebijakan pemberitahuan berbasis log.
- Referensi ke informasi umum atau dokumentasi pemecahan masalah.
Screenshot berikut mengilustrasikan diagram yang menampilkan satu anotasi, dengan tooltip untuk anotasi yang diaktifkan:
Setiap anotasi dapat mencantumkan beberapa peristiwa. Di screenshot sebelumnya, peristiwa untuk deployment GKE dicantumkan.
Untuk mempelajari cara menampilkan peristiwa di dasbor kustom, lihat Menampilkan peristiwa di dasbor.
Jenis peristiwa Google Kubernetes Engine
Bagian ini menjelaskan jenis peristiwa Google Kubernetes Engine yang dapat ditampilkan di dasbor.
Workload GKE yang di-patch atau diupdate
Jenis peristiwa ini membantu Anda memecahkan masalah deployment workload GKE atau perubahan stateful, karena peristiwa ini dapat berkorelasi dengan regresi performa atau masalah performa lainnya. Jenis peristiwa ini ditampilkan saat beban kerja dibuat, diperbarui, atau dihapus.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=k8s_cluster protoPayload.methodName=( io.k8s.apps.v1.deployments.create OR io.k8s.apps.v1.deployments.patch OR io.k8s.apps.v1.deployments.update OR io.k8s.apps.v1.deployments.delete OR io.k8s.apps.v1.deployments.deletecollection OR io.k8s.apps.v1.statefulsets.create OR io.k8s.apps.v1.statefulsets.patch OR io.k8s.apps.v1.statefulsets.update OR io.k8s.apps.v1.statefulsets.delete OR io.k8s.apps.v1.statefulsets.deletecollection OR io.k8s.apps.v1.daemonsets.create OR io.k8s.apps.v1.daemonsets.patch OR io.k8s.apps.v1.daemonsets.update OR io.k8s.apps.v1.daemonsets.delete OR io.k8s.apps.v1.daemonsets.deletecollection ) -protoPayload.authenticationInfo.principalEmail="system:addon-manager" -protoPayload.request.metadata.namespace=(kube-system OR gmp-system OR gmp-public OR gke-gmp-system)
Untuk mengetahui informasi tambahan, lihat Ringkasan deployment workload dan Melihat metrik kemampuan observasi.
Error pod GKE
Jenis peristiwa ini membantu Anda mengidentifikasi dan memecahkan masalah error pod GKE. Error pod dapat disebabkan oleh kehabisan memori atau error aplikasi. Jenis peristiwa ini ditampilkan jika salah satu dari hal berikut terjadi:
- Status pod adalah
CrashLoopBackoff
- Pod diakhiri dengan kode keluar bukan nol.
- Pod dihentikan dengan kondisi kehabisan memori.
- Pod dikeluarkan.
- Pemeriksaan Kesiapan/Keaktifan gagal.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
( log_id(events) ( (resource.type=k8s_pod jsonPayload.reason=(BackOff OR Unhealthy OR Killing OR Evicted)) OR (resource.type=k8s_node jsonPayload.reason=OOMKilling) ) severity=WARNING ) OR ( log_id(cloudaudit.googleapis.com%2Factivity) resource.type=k8s_cluster (protoPayload.methodName=io.k8s.core.v1.pods.eviction.create OR (protoPayload.methodName=io.k8s.core.v1.pods.delete protoPayload.response.status.containerStatuses.state.terminated.exitCode:* -protoPayload.response.status.containerStatuses.state.terminated.exitCode=0 ) ) )
Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah: CrashLoopBackOff.
Gagal menjadwalkan pod GKE
Jenis peristiwa ini membantu Anda mengidentifikasi dan memecahkan masalah saat pod yang tidak dapat dijadwalkan pada node. Jenis peristiwa ini ditampilkan saat penjadwalan pod gagal karena salah satu alasan berikut:
- CPU node tidak cukup.
- Memori node tidak cukup.
- Tidak ada node untuk taint atau toleransi.
- Node pada batas pod maksimum.
- Kumpulan node dengan ukuran maksimum.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
( log_id(events) resource.type=k8s_pod jsonPayload.reason=(NotTriggerScaleUp OR FailedScheduling) ) OR ( log_id(container.googleapis.com/cluster-autoscaler-visibility) resource.type=k8s_cluster jsonPayload.noDecisionStatus.noScaleUp:* )
Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah: Pod tidak dapat dijadwalkan.
Gagal membuat container GKE
Jenis peristiwa ini membantu Anda mengidentifikasi dan memecahkan masalah kegagalan untuk membuat container GKE. Pembuatan container mungkin gagal karena alasan seperti kegagalan pemasangan volume atau kegagalan penarikan image.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
log_id(events) resource.type=k8s_pod jsonPayload.reason=(Failed OR FailedMount) severity=WARNING
Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah: ImagePullBackOff dan ErrImagePull.
Meningkatkan dan menurunkan skala penskalaan otomatis pod
Peristiwa ini memberi Anda visibilitas terkait perubahan skala Autoscaler Pod Horizontal, yang meningkatkan atau mengurangi jumlah pod yang berjalan untuk workload. Untuk informasi selengkapnya, lihat Penskalaan otomatis Pod Horizontal.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=k8s_cluster log_id(events) jsonPayload.involvedObject.kind=HorizontalPodAutoscaler jsonPayload.reason=SuccessfulRescale
Meningkatkan dan menurunkan skala penskalaan otomatis cluster
Peristiwa ini memberi Anda visibilitas terkait kapan penskalaan otomatis cluster meningkatkan atau menurunkan jumlah node dalam kumpulan node cluster Anda. Untuk mengetahui informasi selengkapnya, lihat Tentang penskalaan otomatis cluster dan Melihat peristiwa penskalaan otomatis cluster.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
(resource.type=k8s_cluster log_id(container.googleapis.com%2Fcluster-autoscaler-visibility) jsonPayload.decision:*)
Membuat dan menghapus cluster
Peristiwa ini melacak tindakan pembuatan dan penghapusan cluster GKE. Untuk mengetahui informasi selengkapnya, lihat Membuat cluster Autopilot, Membuat cluster zona, dan Menghapus cluster.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity) protoPayload.methodName=( google.container.v1alpha1.ClusterManager.CreateCluster OR google.container.v1beta1.ClusterManager.CreateCluster OR google.container.v1.ClusterManager.CreateCluster OR google.container.v1alpha1.ClusterManager.DeleteCluster OR google.container.v1beta1.ClusterManager.DeleteCluster OR google.container.v1.ClusterManager.DeleteCluster ) operation.first=true
Update cluster
Peristiwa ini melacak update cluster GKE. Update mencakup upgrade versi bidang kontrol otomatis serta upgrade manual dan perubahan konfigurasi cluster. Untuk mengetahui informasi selengkapnya, lihat Mengupgrade cluster atau kumpulan node secara manual dan Upgrade cluster standar.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity) ( protoPayload.methodName=( google.container.internal.ClusterManagerInternal.PatchCluster OR google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR google.container.internal.ClusterManagerInternal.UpdateCluster ) ) OR ( protoPayload.methodName=( google.container.v1beta1.ClusterManager.UpdateCluster OR google.container.v1.ClusterManager.UpdateCluster ) operation.first=true ) protoPayload.metadata.operationType=(UPGRADE_MASTER OR REPAIR_CLUSTER OR UPDATE_CLUSTER)
Update kumpulan node
Peristiwa ini melacak update node pool GKE. Update mencakup upgrade versi kumpulan node otomatis serta upgrade manual, perubahan konfigurasi, dan perubahan ukuran. Untuk mengetahui informasi selengkapnya, lihat Mengupgrade cluster atau kumpulan node secara manual dan Upgrade cluster standar.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=gke_nodepool log_id(cloudaudit.googleapis.com%2Factivity) ( protoPayload.methodName=( google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR google.container.internal.ClusterManagerInternal.RepairNodePool ) ) OR ( protoPayload.methodName=( google.container.v1beta1.ClusterManager.UpdateNodePool OR google.container.v1.ClusterManager.UpdateNodePool OR google.container.v1beta1.ClusterManager.SetNodePoolSize OR google.container.v1.ClusterManager.SetNodePoolSize OR google.container.v1beta1.ClusterManager.SetNodePoolManagement OR google.container.v1.ClusterManager.SetNodePoolManagement OR google.container.v1beta1.ClusterManager.SetNodePoolAutoscaling OR google.container.v1.ClusterManager.SetNodePoolAutoscaling ) operation.first=true )
Jenis peristiwa Cloud Run
Bagian ini menjelaskan jenis peristiwa Cloud Run yang dapat ditampilkan di dasbor.
Deployment Cloud Run
Jenis peristiwa ini membantu Anda mengidentifikasi dan memecahkan masalah kegagalan deployment Cloud Run. Deployment dapat gagal karena beberapa alasan seperti akun layanan dihapus, izin yang salah, impor penampung gagal, atau container gagal dimulai.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloud_run_revision protoPayload.methodName=google.cloud.run.v1.Services.ReplaceService
Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah: Masalah Cloud Run.
Jenis peristiwa Cloud SQL
Bagian ini menjelaskan jenis peristiwa Cloud SQL yang dapat ditampilkan di dasbor.
Failover Cloud SQL
Jenis peristiwa ini membantu Anda mengidentifikasi saat terjadi failover manual atau otomatis. Failover terjadi saat ada kegagalan instance atau zona dan instance standby menjadi instance utama baru. Selama failover, Cloud SQL otomatis beralih ke data penyaluran dari instance standby.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=cloudsql_database ( ( log_id(cloudaudit.googleapis.com%2Factivity) protoPayload.methodName=cloudsql.instances.failover operation.last=true ) OR ( log_id(cloudaudit.googleapis.com%2Fsystem_event) protoPayload.methodName=cloudsql.instances.autoFailover ) )
Untuk informasi tambahan, lihat Tentang ketersediaan tinggi.
Memulai atau menghentikan Cloud SQL
Jenis peristiwa ini membantu Anda mengidentifikasi bahwa instance Cloud SQL telah dimulai, dihentikan, atau dimulai ulang secara manual. Saat instance dihentikan, semua koneksi, file yang terbuka, dan operasi yang sedang berjalan juga akan dihentikan.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloudsql_database protoPayload.methodName=cloudsql.instances.update operation.last=true protoPayload.metadata.intents.intent=(START_INSTANCE OR STOP_INSTANCE)
Untuk mengetahui informasi tambahan, lihat Tentang ketersediaan tinggi dan Memulai, menghentikan, dan memulai ulang instance.
Penyimpanan Cloud SQL
Jenis peristiwa ini membantu Anda mengidentifikasi peristiwa yang terkait dengan penyimpanan Cloud SQL, termasuk saat penyimpanan database penuh, dan saat database dimatikan karena kapasitas penyimpanan telah tercapai. Database yang berada dalam kapasitas penyimpanan dan tanpa mengaktifkan penyimpanan otomatis dapat dinonaktifkan untuk mencegah kerusakan data.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=cloudsql_database ( ( (log_id(cloudsql.googleapis.com%2Fpostgres.log) OR log_id(cloudsql.googleapis.com%2Fmysql.err)) textPayload=~"No space left on device" severity=(ERROR OR EMERGENCY) ) OR ( log_id(cloudaudit.googleapis.com%2Fsystem_event) protoPayload.methodName=cloudsql.instances.databaseShutdownOutOfStorage ) )
Jenis peristiwa Compute Engine
Bagian ini menjelaskan jenis peristiwa Compute Engine yang dapat ditampilkan di dasbor.
Penghentian mesin virtual
Jenis peristiwa ini membantu Anda mengidentifikasi penghentian virtual machine (VM), termasuk reset dan penghentian yang dipicu secara manual, penghentian OS tamu, penghentian pemeliharaan, dan error host.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=gce_instance ( ( log_id(cloudaudit.googleapis.com%2Factivity) protoPayload.methodName=( beta.compute.instances.reset OR v1.compute.instances.reset OR beta.compute.instances.stop OR v1.compute.instances.stop ) operation.first=true ) OR ( log_id(cloudaudit.googleapis.com%2Fsystem_event) protoPayload.methodName=( compute.instances.hostError OR compute.instances.guestTerminate OR compute.instances.terminateOnHostMaintenance ) ) )
Untuk informasi tambahan, baca Menghentikan dan memulai VM serta Memecahkan masalah penonaktifan dan reboot VM.
Gagal memulai instance VM
Peristiwa ini melacak kegagalan memulai instance VM Compute Engine. Peristiwa ini menampilkan kegagalan awal karena kehabisan stok, kehabisan ruang IP, kuota terlampaui, atau error integritas shielded VM.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=gce_instance ( ( log_id(cloudaudit.googleapis.com%2Factivity) protoPayload.methodName=(beta.compute.instances.insert OR v1.compute.instances.insert) protoPayload.status.message=(ZONE_RESOURCE_POOL_EXHAUSTED OR IP_SPACE_EXHAUSTED OR QUOTA_EXCEEDED) ) OR ( log_id(compute.googleapis.com%2Fshielded_vm_integrity) severity="ERROR" ) )
Error OS tamu instance VM
Peristiwa ini melacak error OS Tamu instance Compute Engine tertentu seperti yang dicatat oleh log konsol seri. Error yang dilacak adalah disk penuh, pemasangan sistem file gagal, dan kegagalan booting yang mengaktifkan mode darurat Linux.
Agar peristiwa ini terlihat, Anda harus mengaktifkan logging output port serial ke Cloud Logging dengan menyetel serial-port-logging-enable=true
di VM atau di metadata project. Untuk mengetahui informasi selengkapnya, lihat
Mengaktifkan dan menonaktifkan logging output port serial.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=gce_instance log_id(serialconsole.googleapis.com%2Fserial_port_1_output) textPayload=~("No space left on device" OR "Failed to mount" OR "You are in emergency mode")
Update grup instance terkelola
Jenis peristiwa ini membantu Anda mengidentifikasi kapan Grup Instance Terkelola (MIG) Anda telah diupdate. Misalnya, VM telah ditambahkan atau dihapus, atau batas ukurannya telah diperbarui. Untuk mengetahui informasi selengkapnya, lihat Menerapkan update konfigurasi VM secara otomatis di MIG.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=gce_instance_group_manager log_id(cloudaudit.googleapis.com%2Factivity) operation.first=true protoPayload.methodName=(beta.compute.instanceGroupManagers.patch OR v1.compute.instanceGroupManagers.patch)
Untuk informasi tambahan, lihat Menangani instance terkelola dan Memecahkan masalah grup instance terkelola.
Penskala otomatis grup instance terkelola
Peristiwa ini melacak keputusan penskalaan yang dibuat oleh penskala otomatis MIG. Keputusan ini dapat mencakup perubahan pada ukuran yang direkomendasikan untuk MIG, atau perubahan status penskalaan otomatis itu sendiri. Untuk mengetahui informasi selengkapnya, lihat Penskalaan otomatis grup instance.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
resource.type=autoscaler log_id(cloudaudit.googleapis.com%2Fsystem_event) protoPayload.methodName=(compute.autoscalers.resize OR compute.autoscalers.changeStatus)
Jenis peristiwa cek uptime
Bagian ini menjelaskan jenis peristiwa cek uptime yang dapat ditampilkan di dasbor.
Kegagalan cek uptime
Jenis peristiwa ini membantu Anda mengidentifikasi kegagalan cek uptime dari region yang dikonfigurasi.
Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:
log_id(monitoring.googleapis.com%2Fuptime_checks) ( resource.type=uptime_url OR resource.type=gce_instance OR resource.type=gae_app OR resource.type=k8s_service OR resource.type=servicedirectory_service OR resource.type=cloud_run_revision OR resource.type=aws_ec2_instance OR resource.type=aws_elb_load_balancer ) labels.uptime_result_type=UptimeCheckResult severity=NOTICE
Untuk informasi pemecahan masalah, lihat Memecahkan masalah monitor sintetis dan cek uptime.
Langkah selanjutnya
Untuk mempelajari cara menampilkan peristiwa di dasbor, lihat Menampilkan peristiwa di dasbor.