Tipos de evento

Este documento descreve os tipos de eventos que podem ser mostrados como anotações nos gráficos. Um evento é uma atividade, como uma reinicialização ou uma falha, que afeta a operação de um sistema. A exibição de eventos pode ajudar a correlacionar dados de diferentes fontes ao resolver um problema.

Para cada evento, são fornecidos links para referências ou documentação de solução de problemas, além de informações sobre como consultar o evento. Por exemplo, quando os eventos são identificados pela análise dos registros, uma consulta adequada para uso com o Explorador de registros ou com uma política de alertas com base em registros é fornecida.

Para adicionar anotações aos gráficos, configure o painel ou a guia que mostra o gráfico. Por exemplo, é possível configurar a maioria dos painéis listados na página Painéis do console do Google Cloud para mostrar eventos. Da mesma forma, é possível configurar algumas guias de Observabilidade específicas do serviço, como as do Compute Engine e do Google Kubernetes Engine, para mostrar eventos. Para informações de configuração, consulte Mostrar eventos em um painel.

A captura de tela a seguir ilustra um gráfico que mostra vários eventos identificados pela análise de entradas de registro e um evento de Service Health:

Gráfico mostrando anotações de eventos de aviso e informativos.

Cada anotação pode listar vários eventos. Na captura de tela anterior, um evento de implantação do GKE está listado.

Tipos de evento de alerta

Esta seção descreve os tipos de evento de alerta que podem ser mostrados em um painel.

Alerta aberto

Os eventos de alerta abertos ajudam a correlacionar os dados do gráfico com o momento em que os incidentes foram abertos. Um evento de alerta aberto é mostrado quando o seguinte é verdadeiro:

  • O incidente correspondente foi aberto durante o período especificado pelo painel.
  • O incidente correspondente não foi encerrado.

Não há anotações feitas para incidentes abertos fora do intervalo de tempo especificado pelo painel. Da mesma forma, um evento de alerta aberto não é mostrado quando o incidente correspondente foi aberto e fechado no período especificado pelo painel.

A dica de ferramenta para um evento de alerta aberto inclui o seguinte:

  • Nome da política de alertas.
  • Informações resumidas, quando disponíveis. Por exemplo, essas informações podem incluir o limite e o valor medido.
  • A duração do incidente e a data e a hora em que ele foi aberto.
  • Rótulos de métricas e recursos. A dica de ferramenta pode não mostrar todos os rótulos.
  • Um botão Visualizar, que abre a página Detalhes do incidente.

Tipos de eventos do Google Kubernetes Engine

Esta seção descreve os tipos de eventos do Google Kubernetes Engine que podem ser mostrados em um painel.

Carga de trabalho do GKE atualizada ou com patch

Esse tipo de evento ajuda a resolver problemas de implantação de carga de trabalho do GKE ou mudanças de statefulset, já que esses eventos podem se correlacionar com regressões de desempenho ou outros problemas de desempenho. Esse tipo de evento é mostrado quando uma carga de trabalho é criada, atualizada ou excluída.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

resource.type=k8s_cluster protoPayload.methodName=(
    io.k8s.apps.v1.deployments.create OR io.k8s.apps.v1.deployments.patch OR
    io.k8s.apps.v1.deployments.update OR io.k8s.apps.v1.deployments.delete OR
    io.k8s.apps.v1.deployments.deletecollection OR io.k8s.apps.v1.statefulsets.create OR
    io.k8s.apps.v1.statefulsets.patch OR io.k8s.apps.v1.statefulsets.update OR
    io.k8s.apps.v1.statefulsets.delete OR io.k8s.apps.v1.statefulsets.deletecollection OR
    io.k8s.apps.v1.daemonsets.create OR io.k8s.apps.v1.daemonsets.patch OR
    io.k8s.apps.v1.daemonsets.update OR io.k8s.apps.v1.daemonsets.delete OR
    io.k8s.apps.v1.daemonsets.deletecollection
)
-protoPayload.authenticationInfo.principalEmail="system:addon-manager"
-protoPayload.request.metadata.namespace=(kube-system OR gmp-system OR gmp-public OR gke-gmp-system)

Para mais informações, consulte Visão geral de como implantar cargas de trabalho e Conferir métricas de observabilidade.

Falha de um pod do GKE

Esse tipo de evento ajuda a identificar e resolver falhas no pod do GKE. As falhas no pod podem ser causadas por esgotamento da memória ou um erro de aplicativo. Esse tipo de evento é mostrado quando ocorre uma das seguintes situações:

  • O status do pod é CrashLoopBackoff
  • O pod é encerrado com um código de saída diferente de zero.
  • O pod é encerrado com uma condição de falta de memória.
  • O pod é despejado.
  • A sondagem de prontidão/atividade falha.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

(
    log_id(events)
    (
        (resource.type=k8s_pod jsonPayload.reason=(BackOff OR Unhealthy OR Killing OR Evicted)) OR
        (resource.type=k8s_node jsonPayload.reason=OOMKilling)
    )
    severity=WARNING
) OR (
    log_id(cloudaudit.googleapis.com%2Factivity) resource.type=k8s_cluster
    (protoPayload.methodName=io.k8s.core.v1.pods.eviction.create OR
        (protoPayload.methodName=io.k8s.core.v1.pods.delete
        protoPayload.response.status.containerStatuses.state.terminated.exitCode:*
        -protoPayload.response.status.containerStatuses.state.terminated.exitCode=0
        )
    )
)

Para informações sobre solução de problemas, consulte Solução de problemas: CrashLoopBackOff.

Falha ao agendar um pod do GKE

Esse tipo de evento ajuda a identificar e resolver problemas quando pods não podem ser programados em um nó. Esse tipo de evento é mostrado quando a programação de pods falha por um dos seguintes motivos:

  • CPU do nó insuficiente.
  • Memória de nó insuficiente.
  • Nenhum nó para taints ou tolerâncias.
  • Nós no limite máximo de pods.
  • Pool de nós no tamanho máximo.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

(
    log_id(events) resource.type=k8s_pod jsonPayload.reason=(NotTriggerScaleUp OR FailedScheduling)
) OR (
    log_id(container.googleapis.com/cluster-autoscaler-visibility)
    resource.type=k8s_cluster jsonPayload.noDecisionStatus.noScaleUp:*
)

Para mais informações, consulte Solução de problemas: pods não programáveis.

Falha na criação de um contêiner do GKE

Esse tipo de evento ajuda a identificar e resolver falhas na criação de um contêiner do GKE. A criação de contêineres pode falhar por diversos motivos, como falhas nas montagens de volume ou na extração de imagens.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

log_id(events) resource.type=k8s_pod jsonPayload.reason=(Failed OR FailedMount) severity=WARNING

Para informações sobre solução de problemas, consulte Solução de problemas: ImagePullBackOff e ErrImagePull.

Aumento e redução do escalonador automático de pods

Esse evento mostra as redimensionamentos do escalonador automático horizontal de pods, que aumentam ou diminuem o número de pods em execução para uma carga de trabalho. Para mais informações, consulte Escalonamento automático horizontal de pods.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a seguinte consulta:

resource.type=k8s_cluster log_id(events)
jsonPayload.involvedObject.kind=HorizontalPodAutoscaler jsonPayload.reason=SuccessfulRescale

O escalonador automático de clusters escalonar verticalmente e reduz a escala vertical

Esse evento mostra quando o escalonador automático de cluster aumenta ou diminui o número de nós em um pool de nós do cluster. Para mais informações, consulte Sobre o escalonamento automático de clusters e Como visualizar eventos do escalonador automático de clusters.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

(resource.type=k8s_cluster log_id(container.googleapis.com%2Fcluster-autoscaler-visibility)
jsonPayload.decision:*)

Criação e exclusão de clusters

Esse evento monitora as ações de criação e exclusão cluster do GKE. Para mais informações, consulte Criar um cluster do Autopilot, Criar um cluster zonal e Excluir um cluster.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity)
protoPayload.methodName=(
    google.container.v1alpha1.ClusterManager.CreateCluster OR
    google.container.v1beta1.ClusterManager.CreateCluster OR
    google.container.v1.ClusterManager.CreateCluster OR
    google.container.v1alpha1.ClusterManager.DeleteCluster OR
    google.container.v1beta1.ClusterManager.DeleteCluster OR
    google.container.v1.ClusterManager.DeleteCluster
)
operation.first=true

Atualização do cluster

Esse evento monitora atualizações de clusters do GKE. Isso inclui upgrades automáticos ou manuais da versão do plano de controle e mudanças na configuração dos clusters. Para mais informações, consulte Como fazer upgrade manual de um cluster ou pool de nós e Upgrades de cluster padrão.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

resource.type=gke_cluster log_id(cloudaudit.googleapis.com%2Factivity)
(
    protoPayload.methodName=(
        google.container.internal.ClusterManagerInternal.PatchCluster OR
        google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR
        google.container.internal.ClusterManagerInternal.UpdateCluster
    )
) OR (
    protoPayload.methodName=(
        google.container.v1beta1.ClusterManager.UpdateCluster OR
        google.container.v1.ClusterManager.UpdateCluster
    )
    operation.first=true
)
protoPayload.metadata.operationType=(UPGRADE_MASTER OR REPAIR_CLUSTER OR UPDATE_CLUSTER)

Atualização do pool de nós

Este evento rastreia atualizações do pool de nós do GKE. Isso inclui upgrades automáticos ou manuais da versão do pool de nós, mudanças na configuração e redimensionamento. Para mais informações, consulte Como fazer upgrade manual de um cluster ou pool de nós e Upgrades de cluster padrão.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

resource.type=gke_nodepool log_id(cloudaudit.googleapis.com%2Factivity)
(
    protoPayload.methodName=(
        google.container.internal.ClusterManagerInternal.UpdateClusterInternal OR
        google.container.internal.ClusterManagerInternal.RepairNodePool
    )
) OR (
    protoPayload.methodName=(
        google.container.v1beta1.ClusterManager.UpdateNodePool OR
        google.container.v1.ClusterManager.UpdateNodePool OR
        google.container.v1beta1.ClusterManager.SetNodePoolSize OR
        google.container.v1.ClusterManager.SetNodePoolSize OR
        google.container.v1beta1.ClusterManager.SetNodePoolManagement OR
        google.container.v1.ClusterManager.SetNodePoolManagement OR
        google.container.v1beta1.ClusterManager.SetNodePoolAutoscaling OR
        google.container.v1.ClusterManager.SetNodePoolAutoscaling
    )
    operation.first=true
)

Tipos de eventos do Cloud Run

Esta seção descreve os tipos de eventos do Cloud Run que podem ser mostrados em um painel.

Implantação do Cloud Run

Esse tipo de evento ajuda a identificar e resolver falhas de implantação do Cloud Run. A implantação pode falhar por motivos como conta de serviço excluída, permissões incorretas, importação de um contêiner com falha ou um contêiner que não foi iniciado.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloud_run_revision
protoPayload.methodName=google.cloud.run.v1.Services.ReplaceService

Para informações sobre solução de problemas, consulte Solução de problemas: problemas do Cloud Run.

Tipos de eventos do Cloud SQL

Esta seção descreve os tipos de evento do Cloud SQL que podem ser mostrados em um painel.

Failover do Cloud SQL

Esse tipo de evento ajuda a identificar quando ocorrem failovers manuais ou automáticos. Um failover ocorre quando há uma falha em uma instância ou zona e a instância de espera se torna a nova instância principal. Durante um failover, o Cloud SQL muda automaticamente para a veiculação de dados da instância de espera.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

resource.type=cloudsql_database
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=cloudsql.instances.failover
        operation.last=true
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=cloudsql.instances.autoFailover
    )
)

Para mais informações, consulte Sobre a alta disponibilidade.

Iniciar ou interromper o Cloud SQL

Esse tipo de evento ajuda a identificar se uma instância do Cloud SQL foi manualmente iniciada, interrompida ou reiniciada. Quando uma instância é interrompida, todas as conexões, arquivos abertos e operações em execução também são.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a seguinte consulta:

log_id(cloudaudit.googleapis.com%2Factivity) resource.type=cloudsql_database
protoPayload.methodName=cloudsql.instances.update operation.last=true
protoPayload.metadata.intents.intent=(START_INSTANCE OR STOP_INSTANCE)

Para mais informações, consulte Sobre a alta disponibilidade e Iniciar, interromper e reiniciar instâncias.

Armazenamento do Cloud SQL

Esse tipo de evento ajuda a identificar eventos relacionados ao armazenamento do Cloud SQL, incluindo quando o armazenamento do banco de dados está cheio e quando um banco de dados é encerrado devido ao alcance da capacidade de armazenamento. Bancos de dados que estiverem no máximo de capacidade de armazenamento e sem o armazenamento automático ativado podem ser encerrados para evitar a corrupção de dados.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a seguinte consulta:

resource.type=cloudsql_database
(
    (
        (log_id(cloudsql.googleapis.com%2Fpostgres.log) OR log_id(cloudsql.googleapis.com%2Fmysql.err))
        textPayload=~"No space left on device"
        severity=(ERROR OR EMERGENCY)
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=cloudsql.instances.databaseShutdownOutOfStorage
    )
)

Tipos de eventos do Compute Engine

Esta seção descreve os tipos de eventos do Compute Engine que podem ser mostrados em um painel.

Encerramentos de máquinas virtuais

Esse tipo de evento ajuda a identificar encerramentos de máquinas virtuais (VMs), incluindo redefinições e interrupções acionadas manualmente, encerramentos do SO convidado, encerramentos de manutenção e erros do host.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

resource.type=gce_instance
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=(
            beta.compute.instances.reset OR v1.compute.instances.reset OR
            beta.compute.instances.stop OR v1.compute.instances.stop
        )
        operation.first=true
    ) OR (
        log_id(cloudaudit.googleapis.com%2Fsystem_event)
        protoPayload.methodName=(
            compute.instances.hostError OR
            compute.instances.guestTerminate OR
            compute.instances.terminateOnHostMaintenance
        )
    )
)

Para mais informações, consulte Interromper e iniciar uma VM e Resolver problemas de desligamento e reinicializações de VM.

Falha na inicialização da instância da VM

Esse evento acompanha falhas na inicialização de instâncias de VMs do Compute Engine. O evento mostra falhas de inicialização devido a esgotamentos, limite no espaço IP, cota excedida ou erros de integridade da VM protegida.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

resource.type=gce_instance
(
    (
        log_id(cloudaudit.googleapis.com%2Factivity)
        protoPayload.methodName=(beta.compute.instances.insert OR v1.compute.instances.insert)
        protoPayload.status.message=(ZONE_RESOURCE_POOL_EXHAUSTED OR IP_SPACE_EXHAUSTED OR QUOTA_EXCEEDED)
    ) OR (
        log_id(compute.googleapis.com%2Fshielded_vm_integrity)
        severity="ERROR"
    )
)

Erro do SO convidado da instância de VM

Esse evento rastreia erros específicos do SO convidado da instância de VM do Compute Engine, conforme indicado pelos registros do console serial. Os erros rastreados são: disco cheio, falha na montagem do sistema de arquivos e falhas na inicialização que ativam o modo de emergência do Linux.

Para que esses eventos fiquem visíveis, é necessário ativar a geração de registros de saída da porta serial para o Cloud Logging. Para isso, defina serial-port-logging-enable=true na VM ou nos metadados do projeto. Para mais informações, consulte Como ativar e desativar o registro de saída da porta serial.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a seguinte consulta:

resource.type=gce_instance
log_id(serialconsole.googleapis.com%2Fserial_port_1_output)
textPayload=~("No space left on device" OR "Failed to mount" OR "You are in emergency mode")

Atualização do grupo gerenciado de instâncias

Esse tipo de evento ajuda a identificar quando o grupo gerenciado de instâncias (MIG) foi atualizado. Por exemplo, VMs foram adicionadas ou removidas, ou o limite de tamanho foi atualizado. Para mais informações, consulte Aplicar atualizações de configuração de VM automaticamente em um MIG.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a seguinte consulta:

resource.type=gce_instance_group_manager
log_id(cloudaudit.googleapis.com%2Factivity) operation.first=true
protoPayload.methodName=(beta.compute.instanceGroupManagers.patch OR v1.compute.instanceGroupManagers.patch)

Para mais informações, consulte Trabalhar com instâncias gerenciadas e Resolver problemas de grupos de instâncias gerenciadas.

Escalonamento automático do grupo de instâncias gerenciadas

Este evento monitora as decisões de dimensionamento tomadas pelo escalonador automático de um MIG. Isso pode incluir alterações no tamanho recomendado para um MIG ou no status do próprio escalonador automático. Para mais informações, consulte Escalonamento automático de grupos de instâncias.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

resource.type=autoscaler log_id(cloudaudit.googleapis.com%2Fsystem_event)
protoPayload.methodName=(compute.autoscalers.resize OR compute.autoscalers.changeStatus)

Tipos de eventos do Personalized Service Health

Esta seção descreve os tipos de integridade do serviço personalizado que podem ser mostrados em um painel.

Google Cloud incidente

Ao solucionar problemas, é possível diferenciar entre falhas causadas por um serviço que você possui e por um serviçoGoogle Cloud que você usa. Ao ativar as anotações da integridade do serviço personalizada em um painel, é possível conferir interrupções ou eventos de integridade do serviço para Google Cloud serviços. Para uma lista de serviços integrados ao Service Health, consulte Produtos do Google compatíveis.

Ao contrário de outros tipos de eventos, Google Cloud os incidentes não são identificados pela análise das entradas de registro. Se você quiser receber uma notificação quando esses eventos ocorrerem, crie uma política de alertas. É possível selecionar uma política de alerta predefinida usando as opções na página Painel de controle de integridade do serviço. Para mais informações, consulte Guia de início rápido: configurar um alerta.

O monitoramento identifica Google Cloud incidentes e emite uma solicitação para a API Service Health. Em seguida, filtra a resposta para os incidentes relevantes aos dados que você está visualizando. A solicitação tem a seguinte configuração:

  • A enumeração Relevance é definida como RELATED, IMPACTED ou PARTIALLY_RELATED. Essa restrição garante que o painel mostre apenas eventos dos serviços Google Cloud que o projeto do Google Cloud está usando.

  • A enumeração DetailedState não está definida como FALSE_POSITIVE.

As anotações de integridade do serviço são exibidas com um horário de início e uma duração. A duração é mostrada mudando a cor de fundo do gráfico. A dica de ferramenta de um incidente Google Cloud identifica o seguinte:

  • O serviço Google Cloud .
  • Se o incidente está aberto ou resolvido.
  • Data e hora de início do evento.
  • ícones que mostram o número de produtos e locais afetados; Para listar os produtos ou locais afetados, posicione o cursor no ícone correspondente.
  • Um botão View que, quando selecionado, abre a página de detalhes do incidente.

Para informações sobre como emitir uma solicitação para a API Service Health, consulte Verificar interrupções com a API Service Health.

Para informações sobre a solução de problemas, consulte Resolver problemas comuns no Service Health.

Tipos de evento de verificação de tempo de atividade

Esta seção descreve os tipos de eventos de verificação de tempo de atividade que podem ser mostrados em um painel.

Falha na verificação de tempo de atividade

Esse tipo de evento ajuda a identificar falhas na verificação de tempo de atividade das regiões configuradas.

Se você quiser criar uma política de alertas com base em registros para esse tipo de evento, use a consulta a seguir:

log_id(monitoring.googleapis.com%2Fuptime_checks)
(
  resource.type=uptime_url OR resource.type=gce_instance OR
  resource.type=gae_app OR resource.type=k8s_service OR
  resource.type=servicedirectory_service OR resource.type=cloud_run_revision OR
  resource.type=aws_ec2_instance OR resource.type=aws_elb_load_balancer
)
labels.uptime_result_type=UptimeCheckResult
severity=NOTICE

Para informações sobre solução de problemas, consulte Resolver problemas em monitores sintéticos e verificações de tempo de atividade.

A seguir

Para saber como mostrar eventos nos seus painéis, consulte Mostrar eventos em um painel.