イベントタイプ

このドキュメントでは、グラフに表示するイベントタイプについて説明します。イベントは、システムのオペレーションに影響する再起動やクラッシュなどのアクティビティです。イベントを表示することで、問題のトラブルシューティング時に異なるソースのデータを関連付けることができます。

イベントタイプごとに、次の情報が提供されます。

  • ログ エクスプローラまたはログベースのアラート ポリシーでの使用に適したクエリ。
  • 一般的な情報またはトラブルシューティングのドキュメントの参照。

次のスクリーンショットは、1 つのアノテーションを表示しているグラフで、アノテーションが有効になったツールチップを示しています。

警告と情報イベントのアノテーションを示すグラフ。

各アノテーションには、複数のイベントを含めることができます。上のスクリーンショットでは、GKE のデプロイのイベントが表示されています。

カスタム ダッシュボードでイベントを表示する方法については、ダッシュボードでイベントを表示するをご覧ください。

Google Kubernetes Engine のイベントタイプ

このセクションでは、ダッシュボードに表示される Google Kubernetes Engine のイベントタイプについて説明します。

パッチ適用または更新された GKE ワークロード

このイベントタイプは、パフォーマンスの低下や他のパフォーマンスの問題と相関する可能性があるため、GKE ワークロードのデプロイや StatefulSet の変更のトラブルシューティングに役立ちます。このイベントタイプは、ワークロードが作成、更新、削除されたときに表示されます。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=k8s_cluster protoPayload.methodName=(
    io.k8s.apps.v1.deployments.create OR io.k8s.apps.v1.deployments.patch OR
    io.k8s.apps.v1.deployments.update OR io.k8s.apps.v1.deployments.delete OR
    io.k8s.apps.v1.deployments.deletecollection OR io.k8s.apps.v1.statefulsets.create OR
    io.k8s.apps.v1.statefulsets.patch OR io.k8s.apps.v1.statefulsets.update OR
    io.k8s.apps.v1.statefulsets.delete OR io.k8s.apps.v1.statefulsets.deletecollection OR
    io.k8s.apps.v1.daemonsets.create OR io.k8s.apps.v1.daemonsets.patch OR
    io.k8s.apps.v1.daemonsets.update OR io.k8s.apps.v1.daemonsets.delete OR
    io.k8s.apps.v1.daemonsets.deletecollection
)
-protoPayload.authenticationInfo.principalEmail="system:addon-manager"
-protoPayload.request.metadata.namespace=(kube-system OR gmp-system OR gmp-public OR gke-gmp-system)

詳細については、ワークロードのデプロイの概要オブザーバビリティ指標を表示するをご覧ください。

GKE Pod のクラッシュ

このイベントタイプは、GKE Pod のクラッシュを特定してトラブルシューティングするのに役立ちます。Pod のクラッシュは、メモリの枯渇またはアプリケーション エラーが原因で発生する可能性があります。このイベントタイプは、次のいずれかが発生した場合に表示されます。

  • Pod のステータスが CrashLoopBackoff
  • Pod がゼロ以外の終了コードで終了する。
  • Pod がメモリ不足状態で終了する。
  • Pod が強制排除される。
  • readiness/liveliness プローブが失敗する。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

(
    log_id(events)
    (
        (resource.type=k8s_pod jsonPayload.reason=(BackOff OR Unhealthy OR Killing OR Evicted)) OR
        (resource.type=k8s_node jsonPayload.reason=OOMKilling)
    )
    severity=WARNING
) OR (
    log_id(cloudaudit.googleapis.com%2Factivity) resource.type=k8s_cluster
    (protoPayload.methodName=io.k8s.core.v1.pods.eviction.create OR
        (protoPayload.methodName=io.k8s.core.v1.pods.delete
        protoPayload.response.status.containerStatuses.state.terminated.exitCode:*
        -protoPayload.response.status.containerStatuses.state.terminated.exitCode=0
        )
    )
)

トラブルシューティング情報については、トラブルシューティング: CrashLoopBackOff をご覧ください。

GKE Pod のスケジュールに失敗する

このイベントタイプは、ノードでスケジュールできない Pod を特定してトラブルシューティングするのに役立ちます。このイベントタイプは、次のいずれかの理由で Pod のスケジューリングが失敗した場合に表示されます。

  • ノード CPU の不足。
  • ノードメモリの不足。
  • taint またはtoleration のノードがない。
  • ノードが Pod の最大数の上限に達している。
  • ノードプールが最大サイズ。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

(
    log_id(events) resource.type=k8s_pod jsonPayload.reason=(NotTriggerScaleUp OR FailedScheduling)
) OR (
    log_id(container.googleapis.com/cluster-autoscaler-visibility)
    resource.type=k8s_cluster jsonPayload.noDecisionStatus.noScaleUp:*
)

トラブルシューティング情報については、トラブルシューティング: Pod をスケジュールできないをご覧ください。

GKE コンテナの作成に失敗する

このイベントタイプは、GKE コンテナの作成エラーを特定してトラブルシューティングするのに役立ちます。コンテナの作成は、ボリュームのマウントの失敗やイメージの pull の失敗などの理由により失敗する可能性があります。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

log_id(events) resource.type=k8s_pod jsonPayload.reason=(Failed OR FailedMount) severity=WARNING

トラブルシューティング情報については、トラブルシューティング: ImagePullBackOff と ErrImagePull をご覧ください。

Pod オートスケーラーのスケールアップとスケールダウン

このイベントにより、ワークロードに対して実行中の Pod の数を増減する HorizontalPodAutoscaler の再スケーリングが可視化されます。詳細については、水平 Pod 自動スケーリングをご覧ください。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=k8s_cluster log_id(events)
jsonPayload.involvedObject.kind=HorizontalPodAutoscaler jsonPayload.reason=SuccessfulRescale

クラスタ オートスケーラーのスケールアップとスケールダウン

このイベントにより、クラスタ オートスケーラーがクラスタのノードプール内のノード数をいつスケールアップまたはスケールダウンするかが可視化されます。詳細については、クラスタの自動スケーリングについてクラスタのオートスケーラー イベントの表示をご覧ください。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

(resource.type=k8s_cluster log_id(container.googleapis.com%2Fcluster-autoscaler-visibility)
jsonPayload.decision:*)

クラスタの作成と削除

このイベントは、GKE クラスタの作成と削除のアクションを追跡します。詳細については、Autopilot クラスタの作成ゾーンクラスタの作成クラスタの削除をご覧ください。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity)
protoPayload.methodName=(
    google.container.v1alpha1.ClusterManager.CreateCluster OR
    google.container.v1beta1.ClusterManager.CreateCluster OR
    google.container.v1.ClusterManager.CreateCluster OR
    google.container.v1alpha1.ClusterManager.DeleteCluster OR
    google.container.v1beta1.ClusterManager.DeleteCluster OR
    google.container.v1.ClusterManager.DeleteCluster
)
operation.first=true

クラスタの更新

このイベントは、GKE クラスタの更新を追跡します。更新には、コントロール プレーン バージョンの自動アップグレード、手動アップグレード、クラスタ構成の変更が含まれます。詳細については、クラスタまたはノードプールの手動アップグレードStandard クラスタのアップグレードをご覧ください。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity)
(
    protoPayload.methodName=(
        google.container.internal.ClusterManagerInternal.PatchCluster OR
        google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR
        google.container.internal.ClusterManagerInternal.UpdateCluster
    )
) OR (
    protoPayload.methodName=(
        google.container.v1beta1.ClusterManager.UpdateCluster OR
        google.container.v1.ClusterManager.UpdateCluster
    )
    operation.first=true
)
protoPayload.metadata.operationType=(UPGRADE_MASTER OR REPAIR_CLUSTER OR UPDATE_CLUSTER)

ノードプールの更新

このイベントは、GKE ノードプールの更新を追跡します。更新には、ノードプール バージョンの自動アップグレード、手動アップグレード、構成の変更、サイズ変更が含まれます。詳細については、クラスタまたはノードプールの手動アップグレードStandard クラスタのアップグレードをご覧ください。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=gke_nodepool log_id(cloudaudit.googleapis.com%2Factivity)
(
    protoPayload.methodName=(
        google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR
        google.container.internal.ClusterManagerInternal.RepairNodePool
    )
) OR (
    protoPayload.methodName=(
        google.container.v1beta1.ClusterManager.UpdateNodePool OR
        google.container.v1.ClusterManager.UpdateNodePool OR
        google.container.v1beta1.ClusterManager.SetNodePoolSize OR
        google.container.v1.ClusterManager.SetNodePoolSize OR
        google.container.v1beta1.ClusterManager.SetNodePoolManagement OR
        google.container.v1.ClusterManager.SetNodePoolManagement OR
        google.container.v1beta1.ClusterManager.SetNodePoolAutoscaling OR
        google.container.v1.ClusterManager.SetNodePoolAutoscaling
    )
    operation.first=true
)

Cloud Run のイベントタイプ

このセクションでは、ダッシュボードに表示される Cloud Run のイベントタイプについて説明します。

Cloud Run のデプロイ

このイベントタイプは、Cloud Run のデプロイエラーを特定してトラブルシューティングするのに役立ちます。削除されたサービス アカウント、不適切な権限、コンテナのインポートの失敗、コンテナの起動の失敗などにより、デプロイが失敗することがあります。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloud_run_revision
protoPayload.methodName=google.cloud.run.v1.Services.ReplaceService

トラブルシューティング情報については、トラブルシューティング: Cloud Run の問題をご覧ください。

Cloud SQL のイベントタイプ

このセクションでは、ダッシュボードに表示される Cloud SQL のイベントタイプについて説明します。

Cloud SQL フェイルオーバー

このイベントタイプは、手動フェイルオーバーと自動フェイルオーバーがいつ発生したかを特定するのに役立ちます。フェイルオーバーは、インスタンスまたはゾーンに障害が発生し、スタンバイ インスタンスが新しいプライマリ インスタンスになると発生します。フェイルオーバーの際、Cloud SQL は自動的にスタンバイ インスタンスからデータを提供するように切り替えます。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=cloudsql_database
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=cloudsql.instances.failover
        operation.last=true
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=cloudsql.instances.autoFailover
    )
)

詳細については、高可用性についてをご覧ください。

Cloud SQL の開始または停止

このイベントタイプは、Cloud SQL インスタンスを手動で開始、停止、再起動したことを識別するのに役立ちます。インスタンスを停止すると、すべての接続、開いているファイル、実行中のオペレーションも停止します。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloudsql_database
protoPayload.methodName=cloudsql.instances.update operation.last=true
protoPayload.metadata.intents.intent=(START_INSTANCE OR STOP_INSTANCE)

詳細については、高可用性についてインスタンスの開始、停止、再起動をご覧ください。

Cloud SQL ストレージ

このイベントタイプは、データベース ストレージがいっぱいになったときや、ストレージ容量に達した際にデータベースがシャットダウンされたときなど、Cloud SQL ストレージに関連するイベントを識別するために役立ちます。ストレージ容量に達していて自動ストレージが有効になっていないデータベースは、データの破損を防ぐためにシャットダウンされる場合があります。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=cloudsql_database
(
    (
        (log_id(cloudsql.googleapis.com%2Fpostgres.log) OR log_id(cloudsql.googleapis.com%2Fmysql.err))
        textPayload=~"No space left on device"
        severity=(ERROR OR EMERGENCY)
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=cloudsql.instances.databaseShutdownOutOfStorage
    )
)

Compute Engine のイベントタイプ

このセクションでは、ダッシュボードに表示される Compute Engine のイベントタイプについて説明します。

仮想マシンの終了

このイベントタイプは、手動でトリガーされたリセットと停止、ゲスト OS の終了、メンテナンスの終了、ホストエラーなど、仮想マシン(VM)の終了を識別するのに役立ちます。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=gce_instance
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=(
            beta.compute.instances.reset OR v1.compute.instances.reset OR
            beta.compute.instances.stop OR v1.compute.instances.stop
        )
        operation.first=true
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=(
            compute.instances.hostError OR
            compute.instances.guestTerminate OR
            compute.instances.terminateOnHostMaintenance
        )
    )
)

詳細については、VM の停止と起動VM のシャットダウンおよび再起動のトラブルシューティングをご覧ください。

VM インスタンスの開始エラー

このイベントは、Compute Engine VM インスタンスの開始エラーを追跡します。このイベントには、容量不足、IP スペースの枯渇、割り当て超過、Shielded VM の整合性エラーによる開始エラーが表示されます。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=gce_instance
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=(beta.compute.instances.insert OR v1.compute.instances.insert)
        protoPayload.status.message=(ZONE_RESOURCE_POOL_EXHAUSTED OR IP_SPACE_EXHAUSTED OR QUOTA_EXCEEDED)
    ) OR (
        log_id(compute.googleapis.com%2Fshielded_vm_integrity)
        severity="ERROR"
    )
)

VM インスタンスのゲスト OS エラー

このイベントは、シリアル コンソールのログに記録された特定の Compute Engine VM インスタンスのゲスト OS エラーを追跡します。トラッキングされるエラーは、ディスクの空き容量不足、ファイル システムのマウント失敗、Linux 緊急モードがアクティブになる起動の失敗などです。

これらのイベントを表示するには、VM またはプロジェクトのメタデータで serial-port-logging-enable=true を設定して、Cloud Logging へのシリアルポート出力のロギングを有効にする必要があります。詳細については、シリアルポート出力のロギングを有効または無効にするをご覧ください。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=gce_instance
log_id(serialconsole.googleapis.com%2Fserial_port_1_output)
textPayload=~("No space left on device" OR "Failed to mount" OR "You are in emergency mode")

マネージド インスタンス グループの更新

このイベントタイプは、マネージド インスタンス グループ(MIG)が更新されたタイミングを特定するのに役立ちます。たとえば、VM が追加または削除された場合、サイズ上限が変更された場合などです。詳細については、MIG で VM 構成の更新を自動的に適用するをご覧ください。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=gce_instance_group_manager
log_id(cloudaudit.googleapis.com%2Factivity) operation.first=true
protoPayload.methodName=(beta.compute.instanceGroupManagers.patch OR v1.compute.instanceGroupManagers.patch)

詳細については、マネージド インスタンスを操作するマネージド インスタンス グループのトラブルシューティングをご覧ください。

マネージド インスタンス グループのオートスケーラー

このイベントは、MIG のオートスケーラーによって行われたスケーリングの決定を追跡します。この決定には、MIG の推奨されるサイズの変更、またはオートスケーラー自体のステータスの変更が含まれる場合があります。詳細については、インスタンスのグループの自動スケーリングをご覧ください。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

resource.type=autoscaler log_id(cloudaudit.googleapis.com%2Fsystem_event)
protoPayload.methodName=(compute.autoscalers.resize OR compute.autoscalers.changeStatus)

稼働時間チェック イベントタイプ

このセクションでは、ダッシュボードに表示される稼働時間チェックのイベントタイプについて説明します。

稼働時間チェックの失敗

このイベントタイプは、構成されたリージョンからの稼働時間チェックの失敗を識別するのに役立ちます。

このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。

log_id(monitoring.googleapis.com%2Fuptime_checks)
(
  resource.type=uptime_url OR resource.type=gce_instance OR
  resource.type=gae_app OR resource.type=k8s_service OR
  resource.type=servicedirectory_service OR resource.type=cloud_run_revision OR
  resource.type=aws_ec2_instance OR resource.type=aws_elb_load_balancer
)
labels.uptime_result_type=UptimeCheckResult
severity=NOTICE

トラブルシューティング情報については、合成モニターと稼働時間チェックのトラブルシューティングをご覧ください。

次のステップ

ダッシュボードでイベントを表示する方法については、ダッシュボードでイベントを表示するをご覧ください。