このドキュメントでは、グラフに表示するイベントタイプについて説明します。イベントは、システムのオペレーションに影響する再起動やクラッシュなどのアクティビティです。イベントを表示することで、問題のトラブルシューティング時に異なるソースのデータを関連付けることができます。
イベントタイプごとに、次の情報が提供されます。
- ログ エクスプローラまたはログベースのアラート ポリシーでの使用に適したクエリ。
- 一般的な情報またはトラブルシューティングのドキュメントの参照。
次のスクリーンショットは、1 つのアノテーションを表示しているグラフで、アノテーションが有効になったツールチップを示しています。
各アノテーションには、複数のイベントを含めることができます。上のスクリーンショットでは、GKE のデプロイのイベントが表示されています。
カスタム ダッシュボードでイベントを表示する方法については、ダッシュボードでイベントを表示するをご覧ください。
Google Kubernetes Engine のイベントタイプ
このセクションでは、ダッシュボードに表示される Google Kubernetes Engine のイベントタイプについて説明します。
パッチ適用または更新された GKE ワークロード
このイベントタイプは、パフォーマンスの低下や他のパフォーマンスの問題と相関する可能性があるため、GKE ワークロードのデプロイや StatefulSet の変更のトラブルシューティングに役立ちます。このイベントタイプは、ワークロードが作成、更新、削除されたときに表示されます。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=k8s_cluster protoPayload.methodName=( io.k8s.apps.v1.deployments.create OR io.k8s.apps.v1.deployments.patch OR io.k8s.apps.v1.deployments.update OR io.k8s.apps.v1.deployments.delete OR io.k8s.apps.v1.deployments.deletecollection OR io.k8s.apps.v1.statefulsets.create OR io.k8s.apps.v1.statefulsets.patch OR io.k8s.apps.v1.statefulsets.update OR io.k8s.apps.v1.statefulsets.delete OR io.k8s.apps.v1.statefulsets.deletecollection OR io.k8s.apps.v1.daemonsets.create OR io.k8s.apps.v1.daemonsets.patch OR io.k8s.apps.v1.daemonsets.update OR io.k8s.apps.v1.daemonsets.delete OR io.k8s.apps.v1.daemonsets.deletecollection ) -protoPayload.authenticationInfo.principalEmail="system:addon-manager" -protoPayload.request.metadata.namespace=(kube-system OR gmp-system OR gmp-public OR gke-gmp-system)
詳細については、ワークロードのデプロイの概要とオブザーバビリティ指標を表示するをご覧ください。
GKE Pod のクラッシュ
このイベントタイプは、GKE Pod のクラッシュを特定してトラブルシューティングするのに役立ちます。Pod のクラッシュは、メモリの枯渇またはアプリケーション エラーが原因で発生する可能性があります。このイベントタイプは、次のいずれかが発生した場合に表示されます。
- Pod のステータスが
CrashLoopBackoff
- Pod がゼロ以外の終了コードで終了する。
- Pod がメモリ不足状態で終了する。
- Pod が強制排除される。
- readiness/liveliness プローブが失敗する。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
( log_id(events) ( (resource.type=k8s_pod jsonPayload.reason=(BackOff OR Unhealthy OR Killing OR Evicted)) OR (resource.type=k8s_node jsonPayload.reason=OOMKilling) ) severity=WARNING ) OR ( log_id(cloudaudit.googleapis.com%2Factivity) resource.type=k8s_cluster (protoPayload.methodName=io.k8s.core.v1.pods.eviction.create OR (protoPayload.methodName=io.k8s.core.v1.pods.delete protoPayload.response.status.containerStatuses.state.terminated.exitCode:* -protoPayload.response.status.containerStatuses.state.terminated.exitCode=0 ) ) )
トラブルシューティング情報については、トラブルシューティング: CrashLoopBackOff をご覧ください。
GKE Pod のスケジュールに失敗する
このイベントタイプは、ノードでスケジュールできない Pod を特定してトラブルシューティングするのに役立ちます。このイベントタイプは、次のいずれかの理由で Pod のスケジューリングが失敗した場合に表示されます。
- ノード CPU の不足。
- ノードメモリの不足。
- taint またはtoleration のノードがない。
- ノードが Pod の最大数の上限に達している。
- ノードプールが最大サイズ。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
( log_id(events) resource.type=k8s_pod jsonPayload.reason=(NotTriggerScaleUp OR FailedScheduling) ) OR ( log_id(container.googleapis.com/cluster-autoscaler-visibility) resource.type=k8s_cluster jsonPayload.noDecisionStatus.noScaleUp:* )
トラブルシューティング情報については、トラブルシューティング: Pod をスケジュールできないをご覧ください。
GKE コンテナの作成に失敗する
このイベントタイプは、GKE コンテナの作成エラーを特定してトラブルシューティングするのに役立ちます。コンテナの作成は、ボリュームのマウントの失敗やイメージの pull の失敗などの理由により失敗する可能性があります。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
log_id(events) resource.type=k8s_pod jsonPayload.reason=(Failed OR FailedMount) severity=WARNING
トラブルシューティング情報については、トラブルシューティング: ImagePullBackOff と ErrImagePull をご覧ください。
Pod オートスケーラーのスケールアップとスケールダウン
このイベントにより、ワークロードに対して実行中の Pod の数を増減する HorizontalPodAutoscaler の再スケーリングが可視化されます。詳細については、水平 Pod 自動スケーリングをご覧ください。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=k8s_cluster log_id(events) jsonPayload.involvedObject.kind=HorizontalPodAutoscaler jsonPayload.reason=SuccessfulRescale
クラスタ オートスケーラーのスケールアップとスケールダウン
このイベントにより、クラスタ オートスケーラーがクラスタのノードプール内のノード数をいつスケールアップまたはスケールダウンするかが可視化されます。詳細については、クラスタの自動スケーリングについてとクラスタのオートスケーラー イベントの表示をご覧ください。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
(resource.type=k8s_cluster log_id(container.googleapis.com%2Fcluster-autoscaler-visibility) jsonPayload.decision:*)
クラスタの作成と削除
このイベントは、GKE クラスタの作成と削除のアクションを追跡します。詳細については、Autopilot クラスタの作成、ゾーンクラスタの作成、クラスタの削除をご覧ください。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity) protoPayload.methodName=( google.container.v1alpha1.ClusterManager.CreateCluster OR google.container.v1beta1.ClusterManager.CreateCluster OR google.container.v1.ClusterManager.CreateCluster OR google.container.v1alpha1.ClusterManager.DeleteCluster OR google.container.v1beta1.ClusterManager.DeleteCluster OR google.container.v1.ClusterManager.DeleteCluster ) operation.first=true
クラスタの更新
このイベントは、GKE クラスタの更新を追跡します。更新には、コントロール プレーン バージョンの自動アップグレード、手動アップグレード、クラスタ構成の変更が含まれます。詳細については、クラスタまたはノードプールの手動アップグレードと Standard クラスタのアップグレードをご覧ください。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity) ( protoPayload.methodName=( google.container.internal.ClusterManagerInternal.PatchCluster OR google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR google.container.internal.ClusterManagerInternal.UpdateCluster ) ) OR ( protoPayload.methodName=( google.container.v1beta1.ClusterManager.UpdateCluster OR google.container.v1.ClusterManager.UpdateCluster ) operation.first=true ) protoPayload.metadata.operationType=(UPGRADE_MASTER OR REPAIR_CLUSTER OR UPDATE_CLUSTER)
ノードプールの更新
このイベントは、GKE ノードプールの更新を追跡します。更新には、ノードプール バージョンの自動アップグレード、手動アップグレード、構成の変更、サイズ変更が含まれます。詳細については、クラスタまたはノードプールの手動アップグレードと Standard クラスタのアップグレードをご覧ください。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=gke_nodepool log_id(cloudaudit.googleapis.com%2Factivity) ( protoPayload.methodName=( google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR google.container.internal.ClusterManagerInternal.RepairNodePool ) ) OR ( protoPayload.methodName=( google.container.v1beta1.ClusterManager.UpdateNodePool OR google.container.v1.ClusterManager.UpdateNodePool OR google.container.v1beta1.ClusterManager.SetNodePoolSize OR google.container.v1.ClusterManager.SetNodePoolSize OR google.container.v1beta1.ClusterManager.SetNodePoolManagement OR google.container.v1.ClusterManager.SetNodePoolManagement OR google.container.v1beta1.ClusterManager.SetNodePoolAutoscaling OR google.container.v1.ClusterManager.SetNodePoolAutoscaling ) operation.first=true )
Cloud Run のイベントタイプ
このセクションでは、ダッシュボードに表示される Cloud Run のイベントタイプについて説明します。
Cloud Run のデプロイ
このイベントタイプは、Cloud Run のデプロイエラーを特定してトラブルシューティングするのに役立ちます。削除されたサービス アカウント、不適切な権限、コンテナのインポートの失敗、コンテナの起動の失敗などにより、デプロイが失敗することがあります。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloud_run_revision protoPayload.methodName=google.cloud.run.v1.Services.ReplaceService
トラブルシューティング情報については、トラブルシューティング: Cloud Run の問題をご覧ください。
Cloud SQL のイベントタイプ
このセクションでは、ダッシュボードに表示される Cloud SQL のイベントタイプについて説明します。
Cloud SQL フェイルオーバー
このイベントタイプは、手動フェイルオーバーと自動フェイルオーバーがいつ発生したかを特定するのに役立ちます。フェイルオーバーは、インスタンスまたはゾーンに障害が発生し、スタンバイ インスタンスが新しいプライマリ インスタンスになると発生します。フェイルオーバーの際、Cloud SQL は自動的にスタンバイ インスタンスからデータを提供するように切り替えます。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=cloudsql_database ( ( log_id(cloudaudit.googleapis.com%2Factivity) protoPayload.methodName=cloudsql.instances.failover operation.last=true ) OR ( log_id(cloudaudit.googleapis.com%2Fsystem_event) protoPayload.methodName=cloudsql.instances.autoFailover ) )
詳細については、高可用性についてをご覧ください。
Cloud SQL の開始または停止
このイベントタイプは、Cloud SQL インスタンスを手動で開始、停止、再起動したことを識別するのに役立ちます。インスタンスを停止すると、すべての接続、開いているファイル、実行中のオペレーションも停止します。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloudsql_database protoPayload.methodName=cloudsql.instances.update operation.last=true protoPayload.metadata.intents.intent=(START_INSTANCE OR STOP_INSTANCE)
詳細については、高可用性についてとインスタンスの開始、停止、再起動をご覧ください。
Cloud SQL ストレージ
このイベントタイプは、データベース ストレージがいっぱいになったときや、ストレージ容量に達した際にデータベースがシャットダウンされたときなど、Cloud SQL ストレージに関連するイベントを識別するために役立ちます。ストレージ容量に達していて自動ストレージが有効になっていないデータベースは、データの破損を防ぐためにシャットダウンされる場合があります。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=cloudsql_database ( ( (log_id(cloudsql.googleapis.com%2Fpostgres.log) OR log_id(cloudsql.googleapis.com%2Fmysql.err)) textPayload=~"No space left on device" severity=(ERROR OR EMERGENCY) ) OR ( log_id(cloudaudit.googleapis.com%2Fsystem_event) protoPayload.methodName=cloudsql.instances.databaseShutdownOutOfStorage ) )
Compute Engine のイベントタイプ
このセクションでは、ダッシュボードに表示される Compute Engine のイベントタイプについて説明します。
仮想マシンの終了
このイベントタイプは、手動でトリガーされたリセットと停止、ゲスト OS の終了、メンテナンスの終了、ホストエラーなど、仮想マシン(VM)の終了を識別するのに役立ちます。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=gce_instance ( ( log_id(cloudaudit.googleapis.com%2Factivity) protoPayload.methodName=( beta.compute.instances.reset OR v1.compute.instances.reset OR beta.compute.instances.stop OR v1.compute.instances.stop ) operation.first=true ) OR ( log_id(cloudaudit.googleapis.com%2Fsystem_event) protoPayload.methodName=( compute.instances.hostError OR compute.instances.guestTerminate OR compute.instances.terminateOnHostMaintenance ) ) )
詳細については、VM の停止と起動と VM のシャットダウンおよび再起動のトラブルシューティングをご覧ください。
VM インスタンスの開始エラー
このイベントは、Compute Engine VM インスタンスの開始エラーを追跡します。このイベントには、容量不足、IP スペースの枯渇、割り当て超過、Shielded VM の整合性エラーによる開始エラーが表示されます。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=gce_instance ( ( log_id(cloudaudit.googleapis.com%2Factivity) protoPayload.methodName=(beta.compute.instances.insert OR v1.compute.instances.insert) protoPayload.status.message=(ZONE_RESOURCE_POOL_EXHAUSTED OR IP_SPACE_EXHAUSTED OR QUOTA_EXCEEDED) ) OR ( log_id(compute.googleapis.com%2Fshielded_vm_integrity) severity="ERROR" ) )
VM インスタンスのゲスト OS エラー
このイベントは、シリアル コンソールのログに記録された特定の Compute Engine VM インスタンスのゲスト OS エラーを追跡します。トラッキングされるエラーは、ディスクの空き容量不足、ファイル システムのマウント失敗、Linux 緊急モードがアクティブになる起動の失敗などです。
これらのイベントを表示するには、VM またはプロジェクトのメタデータで serial-port-logging-enable=true
を設定して、Cloud Logging へのシリアルポート出力のロギングを有効にする必要があります。詳細については、シリアルポート出力のロギングを有効または無効にするをご覧ください。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=gce_instance log_id(serialconsole.googleapis.com%2Fserial_port_1_output) textPayload=~("No space left on device" OR "Failed to mount" OR "You are in emergency mode")
マネージド インスタンス グループの更新
このイベントタイプは、マネージド インスタンス グループ(MIG)が更新されたタイミングを特定するのに役立ちます。たとえば、VM が追加または削除された場合、サイズ上限が変更された場合などです。詳細については、MIG で VM 構成の更新を自動的に適用するをご覧ください。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=gce_instance_group_manager log_id(cloudaudit.googleapis.com%2Factivity) operation.first=true protoPayload.methodName=(beta.compute.instanceGroupManagers.patch OR v1.compute.instanceGroupManagers.patch)
詳細については、マネージド インスタンスを操作するとマネージド インスタンス グループのトラブルシューティングをご覧ください。
マネージド インスタンス グループのオートスケーラー
このイベントは、MIG のオートスケーラーによって行われたスケーリングの決定を追跡します。この決定には、MIG の推奨されるサイズの変更、またはオートスケーラー自体のステータスの変更が含まれる場合があります。詳細については、インスタンスのグループの自動スケーリングをご覧ください。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
resource.type=autoscaler log_id(cloudaudit.googleapis.com%2Fsystem_event) protoPayload.methodName=(compute.autoscalers.resize OR compute.autoscalers.changeStatus)
稼働時間チェック イベントタイプ
このセクションでは、ダッシュボードに表示される稼働時間チェックのイベントタイプについて説明します。
稼働時間チェックの失敗
このイベントタイプは、構成されたリージョンからの稼働時間チェックの失敗を識別するのに役立ちます。
このイベントタイプに対してログベースのアラート ポリシーを作成する場合は、次のクエリを使用します。
log_id(monitoring.googleapis.com%2Fuptime_checks) ( resource.type=uptime_url OR resource.type=gce_instance OR resource.type=gae_app OR resource.type=k8s_service OR resource.type=servicedirectory_service OR resource.type=cloud_run_revision OR resource.type=aws_ec2_instance OR resource.type=aws_elb_load_balancer ) labels.uptime_result_type=UptimeCheckResult severity=NOTICE
トラブルシューティング情報については、合成モニターと稼働時間チェックのトラブルシューティングをご覧ください。
次のステップ
ダッシュボードでイベントを表示する方法については、ダッシュボードでイベントを表示するをご覧ください。