Jenis peristiwa

Dokumen ini menjelaskan jenis peristiwa yang dapat Anda tampilkan di diagram. Peristiwa adalah aktivitas, seperti mulai ulang atau error, yang memengaruhi operasi sistem. Menampilkan peristiwa dapat membantu Anda menghubungkan data dari berbagai sumber saat Anda memecahkan masalah.

Untuk setiap jenis peristiwa, informasi berikut diberikan:

  • Kueri yang cocok untuk digunakan dengan Logs Explorer atau dengan kebijakan pemberitahuan berbasis log.
  • Referensi ke informasi umum atau dokumentasi pemecahan masalah.

Screenshot berikut mengilustrasikan diagram yang menampilkan satu anotasi, dengan tooltip untuk anotasi yang diaktifkan:

Diagram yang menampilkan peringatan dan anotasi peristiwa informasi.

Setiap anotasi dapat mencantumkan beberapa peristiwa. Di screenshot sebelumnya, peristiwa untuk deployment GKE dicantumkan.

Untuk mempelajari cara menampilkan peristiwa di dasbor kustom, lihat Menampilkan peristiwa di dasbor.

Jenis peristiwa Google Kubernetes Engine

Bagian ini menjelaskan jenis peristiwa Google Kubernetes Engine yang dapat ditampilkan di dasbor.

Workload GKE yang di-patch atau diupdate

Jenis peristiwa ini membantu Anda memecahkan masalah deployment workload GKE atau perubahan stateful, karena peristiwa ini dapat berkorelasi dengan regresi performa atau masalah performa lainnya. Jenis peristiwa ini ditampilkan saat beban kerja dibuat, diperbarui, atau dihapus.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=k8s_cluster protoPayload.methodName=(
    io.k8s.apps.v1.deployments.create OR io.k8s.apps.v1.deployments.patch OR
    io.k8s.apps.v1.deployments.update OR io.k8s.apps.v1.deployments.delete OR
    io.k8s.apps.v1.deployments.deletecollection OR io.k8s.apps.v1.statefulsets.create OR
    io.k8s.apps.v1.statefulsets.patch OR io.k8s.apps.v1.statefulsets.update OR
    io.k8s.apps.v1.statefulsets.delete OR io.k8s.apps.v1.statefulsets.deletecollection OR
    io.k8s.apps.v1.daemonsets.create OR io.k8s.apps.v1.daemonsets.patch OR
    io.k8s.apps.v1.daemonsets.update OR io.k8s.apps.v1.daemonsets.delete OR
    io.k8s.apps.v1.daemonsets.deletecollection
)
-protoPayload.authenticationInfo.principalEmail="system:addon-manager"
-protoPayload.request.metadata.namespace=(kube-system OR gmp-system OR gmp-public OR gke-gmp-system)

Untuk mengetahui informasi tambahan, lihat Ringkasan deployment workload dan Melihat metrik kemampuan observasi.

Error pod GKE

Jenis peristiwa ini membantu Anda mengidentifikasi dan memecahkan masalah error pod GKE. Error pod dapat disebabkan oleh kehabisan memori atau error aplikasi. Jenis peristiwa ini ditampilkan jika salah satu dari hal berikut terjadi:

  • Status pod adalah CrashLoopBackoff
  • Pod diakhiri dengan kode keluar bukan nol.
  • Pod dihentikan dengan kondisi kehabisan memori.
  • Pod dikeluarkan.
  • Pemeriksaan Kesiapan/Keaktifan gagal.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

(
    log_id(events)
    (
        (resource.type=k8s_pod jsonPayload.reason=(BackOff OR Unhealthy OR Killing OR Evicted)) OR
        (resource.type=k8s_node jsonPayload.reason=OOMKilling)
    )
    severity=WARNING
) OR (
    log_id(cloudaudit.googleapis.com%2Factivity) resource.type=k8s_cluster
    (protoPayload.methodName=io.k8s.core.v1.pods.eviction.create OR
        (protoPayload.methodName=io.k8s.core.v1.pods.delete
        protoPayload.response.status.containerStatuses.state.terminated.exitCode:*
        -protoPayload.response.status.containerStatuses.state.terminated.exitCode=0
        )
    )
)

Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah: CrashLoopBackOff.

Gagal menjadwalkan pod GKE

Jenis peristiwa ini membantu Anda mengidentifikasi dan memecahkan masalah saat pod yang tidak dapat dijadwalkan pada node. Jenis peristiwa ini ditampilkan saat penjadwalan pod gagal karena salah satu alasan berikut:

  • CPU node tidak cukup.
  • Memori node tidak cukup.
  • Tidak ada node untuk taint atau toleransi.
  • Node pada batas pod maksimum.
  • Kumpulan node dengan ukuran maksimum.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

(
    log_id(events) resource.type=k8s_pod jsonPayload.reason=(NotTriggerScaleUp OR FailedScheduling)
) OR (
    log_id(container.googleapis.com/cluster-autoscaler-visibility)
    resource.type=k8s_cluster jsonPayload.noDecisionStatus.noScaleUp:*
)

Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah: Pod tidak dapat dijadwalkan.

Gagal membuat container GKE

Jenis peristiwa ini membantu Anda mengidentifikasi dan memecahkan masalah kegagalan untuk membuat container GKE. Pembuatan container mungkin gagal karena alasan seperti kegagalan pemasangan volume atau kegagalan penarikan image.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

log_id(events) resource.type=k8s_pod jsonPayload.reason=(Failed OR FailedMount) severity=WARNING

Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah: ImagePullBackOff dan ErrImagePull.

Meningkatkan dan menurunkan skala penskalaan otomatis pod

Peristiwa ini memberi Anda visibilitas terkait perubahan skala Autoscaler Pod Horizontal, yang meningkatkan atau mengurangi jumlah pod yang berjalan untuk workload. Untuk informasi selengkapnya, lihat Penskalaan otomatis Pod Horizontal.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=k8s_cluster log_id(events)
jsonPayload.involvedObject.kind=HorizontalPodAutoscaler jsonPayload.reason=SuccessfulRescale

Meningkatkan dan menurunkan skala penskalaan otomatis cluster

Peristiwa ini memberi Anda visibilitas terkait kapan penskalaan otomatis cluster meningkatkan atau menurunkan jumlah node dalam kumpulan node cluster Anda. Untuk mengetahui informasi selengkapnya, lihat Tentang penskalaan otomatis cluster dan Melihat peristiwa penskalaan otomatis cluster.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

(resource.type=k8s_cluster log_id(container.googleapis.com%2Fcluster-autoscaler-visibility)
jsonPayload.decision:*)

Membuat dan menghapus cluster

Peristiwa ini melacak tindakan pembuatan dan penghapusan cluster GKE. Untuk mengetahui informasi selengkapnya, lihat Membuat cluster Autopilot, Membuat cluster zona, dan Menghapus cluster.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity)
protoPayload.methodName=(
    google.container.v1alpha1.ClusterManager.CreateCluster OR
    google.container.v1beta1.ClusterManager.CreateCluster OR
    google.container.v1.ClusterManager.CreateCluster OR
    google.container.v1alpha1.ClusterManager.DeleteCluster OR
    google.container.v1beta1.ClusterManager.DeleteCluster OR
    google.container.v1.ClusterManager.DeleteCluster
)
operation.first=true

Update cluster

Peristiwa ini melacak update cluster GKE. Update mencakup upgrade versi bidang kontrol otomatis serta upgrade manual dan perubahan konfigurasi cluster. Untuk mengetahui informasi selengkapnya, lihat Mengupgrade cluster atau kumpulan node secara manual dan Upgrade cluster standar.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity)
(
    protoPayload.methodName=(
        google.container.internal.ClusterManagerInternal.PatchCluster OR
        google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR
        google.container.internal.ClusterManagerInternal.UpdateCluster
    )
) OR (
    protoPayload.methodName=(
        google.container.v1beta1.ClusterManager.UpdateCluster OR
        google.container.v1.ClusterManager.UpdateCluster
    )
    operation.first=true
)
protoPayload.metadata.operationType=(UPGRADE_MASTER OR REPAIR_CLUSTER OR UPDATE_CLUSTER)

Update kumpulan node

Peristiwa ini melacak update node pool GKE. Update mencakup upgrade versi kumpulan node otomatis serta upgrade manual, perubahan konfigurasi, dan perubahan ukuran. Untuk mengetahui informasi selengkapnya, lihat Mengupgrade cluster atau kumpulan node secara manual dan Upgrade cluster standar.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=gke_nodepool log_id(cloudaudit.googleapis.com%2Factivity)
(
    protoPayload.methodName=(
        google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR
        google.container.internal.ClusterManagerInternal.RepairNodePool
    )
) OR (
    protoPayload.methodName=(
        google.container.v1beta1.ClusterManager.UpdateNodePool OR
        google.container.v1.ClusterManager.UpdateNodePool OR
        google.container.v1beta1.ClusterManager.SetNodePoolSize OR
        google.container.v1.ClusterManager.SetNodePoolSize OR
        google.container.v1beta1.ClusterManager.SetNodePoolManagement OR
        google.container.v1.ClusterManager.SetNodePoolManagement OR
        google.container.v1beta1.ClusterManager.SetNodePoolAutoscaling OR
        google.container.v1.ClusterManager.SetNodePoolAutoscaling
    )
    operation.first=true
)

Jenis peristiwa Cloud Run

Bagian ini menjelaskan jenis peristiwa Cloud Run yang dapat ditampilkan di dasbor.

Deployment Cloud Run

Jenis peristiwa ini membantu Anda mengidentifikasi dan memecahkan masalah kegagalan deployment Cloud Run. Deployment dapat gagal karena beberapa alasan seperti akun layanan dihapus, izin yang salah, impor penampung gagal, atau container gagal dimulai.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloud_run_revision
protoPayload.methodName=google.cloud.run.v1.Services.ReplaceService

Untuk mengetahui informasi pemecahan masalah, lihat Memecahkan masalah: Masalah Cloud Run.

Jenis peristiwa Cloud SQL

Bagian ini menjelaskan jenis peristiwa Cloud SQL yang dapat ditampilkan di dasbor.

Failover Cloud SQL

Jenis peristiwa ini membantu Anda mengidentifikasi saat terjadi failover manual atau otomatis. Failover terjadi saat ada kegagalan instance atau zona dan instance standby menjadi instance utama baru. Selama failover, Cloud SQL otomatis beralih ke data penyaluran dari instance standby.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=cloudsql_database
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=cloudsql.instances.failover
        operation.last=true
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=cloudsql.instances.autoFailover
    )
)

Untuk informasi tambahan, lihat Tentang ketersediaan tinggi.

Memulai atau menghentikan Cloud SQL

Jenis peristiwa ini membantu Anda mengidentifikasi bahwa instance Cloud SQL telah dimulai, dihentikan, atau dimulai ulang secara manual. Saat instance dihentikan, semua koneksi, file yang terbuka, dan operasi yang sedang berjalan juga akan dihentikan.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloudsql_database
protoPayload.methodName=cloudsql.instances.update operation.last=true
protoPayload.metadata.intents.intent=(START_INSTANCE OR STOP_INSTANCE)

Untuk mengetahui informasi tambahan, lihat Tentang ketersediaan tinggi dan Memulai, menghentikan, dan memulai ulang instance.

Penyimpanan Cloud SQL

Jenis peristiwa ini membantu Anda mengidentifikasi peristiwa yang terkait dengan penyimpanan Cloud SQL, termasuk saat penyimpanan database penuh, dan saat database dimatikan karena kapasitas penyimpanan telah tercapai. Database yang berada dalam kapasitas penyimpanan dan tanpa mengaktifkan penyimpanan otomatis dapat dinonaktifkan untuk mencegah kerusakan data.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=cloudsql_database
(
    (
        (log_id(cloudsql.googleapis.com%2Fpostgres.log) OR log_id(cloudsql.googleapis.com%2Fmysql.err))
        textPayload=~"No space left on device"
        severity=(ERROR OR EMERGENCY)
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=cloudsql.instances.databaseShutdownOutOfStorage
    )
)

Jenis peristiwa Compute Engine

Bagian ini menjelaskan jenis peristiwa Compute Engine yang dapat ditampilkan di dasbor.

Penghentian mesin virtual

Jenis peristiwa ini membantu Anda mengidentifikasi penghentian virtual machine (VM), termasuk reset dan penghentian yang dipicu secara manual, penghentian OS tamu, penghentian pemeliharaan, dan error host.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=gce_instance
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=(
            beta.compute.instances.reset OR v1.compute.instances.reset OR
            beta.compute.instances.stop OR v1.compute.instances.stop
        )
        operation.first=true
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=(
            compute.instances.hostError OR
            compute.instances.guestTerminate OR
            compute.instances.terminateOnHostMaintenance
        )
    )
)

Untuk informasi tambahan, baca Menghentikan dan memulai VM serta Memecahkan masalah penonaktifan dan reboot VM.

Gagal memulai instance VM

Peristiwa ini melacak kegagalan memulai instance VM Compute Engine. Peristiwa ini menampilkan kegagalan awal karena kehabisan stok, kehabisan ruang IP, kuota terlampaui, atau error integritas shielded VM.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=gce_instance
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=(beta.compute.instances.insert OR v1.compute.instances.insert)
        protoPayload.status.message=(ZONE_RESOURCE_POOL_EXHAUSTED OR IP_SPACE_EXHAUSTED OR QUOTA_EXCEEDED)
    ) OR (
        log_id(compute.googleapis.com%2Fshielded_vm_integrity)
        severity="ERROR"
    )
)

Error OS tamu instance VM

Peristiwa ini melacak error OS Tamu instance Compute Engine tertentu seperti yang dicatat oleh log konsol seri. Error yang dilacak adalah disk penuh, pemasangan sistem file gagal, dan kegagalan booting yang mengaktifkan mode darurat Linux.

Agar peristiwa ini terlihat, Anda harus mengaktifkan logging output port serial ke Cloud Logging dengan menyetel serial-port-logging-enable=true di VM atau di metadata project. Untuk mengetahui informasi selengkapnya, lihat Mengaktifkan dan menonaktifkan logging output port serial.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=gce_instance
log_id(serialconsole.googleapis.com%2Fserial_port_1_output)
textPayload=~("No space left on device" OR "Failed to mount" OR "You are in emergency mode")

Update grup instance terkelola

Jenis peristiwa ini membantu Anda mengidentifikasi kapan Grup Instance Terkelola (MIG) Anda telah diupdate. Misalnya, VM telah ditambahkan atau dihapus, atau batas ukurannya telah diperbarui. Untuk mengetahui informasi selengkapnya, lihat Menerapkan update konfigurasi VM secara otomatis di MIG.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=gce_instance_group_manager
log_id(cloudaudit.googleapis.com%2Factivity) operation.first=true
protoPayload.methodName=(beta.compute.instanceGroupManagers.patch OR v1.compute.instanceGroupManagers.patch)

Untuk informasi tambahan, lihat Menangani instance terkelola dan Memecahkan masalah grup instance terkelola.

Penskala otomatis grup instance terkelola

Peristiwa ini melacak keputusan penskalaan yang dibuat oleh penskala otomatis MIG. Keputusan ini dapat mencakup perubahan pada ukuran yang direkomendasikan untuk MIG, atau perubahan status penskalaan otomatis itu sendiri. Untuk mengetahui informasi selengkapnya, lihat Penskalaan otomatis grup instance.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

resource.type=autoscaler log_id(cloudaudit.googleapis.com%2Fsystem_event)
protoPayload.methodName=(compute.autoscalers.resize OR compute.autoscalers.changeStatus)

Jenis peristiwa cek uptime

Bagian ini menjelaskan jenis peristiwa cek uptime yang dapat ditampilkan di dasbor.

Kegagalan cek uptime

Jenis peristiwa ini membantu Anda mengidentifikasi kegagalan cek uptime dari region yang dikonfigurasi.

Jika Anda ingin membuat kebijakan pemberitahuan berbasis log untuk jenis peristiwa ini, gunakan kueri berikut:

log_id(monitoring.googleapis.com%2Fuptime_checks)
(
  resource.type=uptime_url OR resource.type=gce_instance OR
  resource.type=gae_app OR resource.type=k8s_service OR
  resource.type=servicedirectory_service OR resource.type=cloud_run_revision OR
  resource.type=aws_ec2_instance OR resource.type=aws_elb_load_balancer
)
labels.uptime_result_type=UptimeCheckResult
severity=NOTICE

Untuk informasi pemecahan masalah, lihat Memecahkan masalah monitor sintetis dan cek uptime.

Langkah selanjutnya

Untuk mempelajari cara menampilkan peristiwa di dasbor, lihat Menampilkan peristiwa di dasbor.