Reveja o estado de funcionamento do serviço e os incidentes


Quando os seus clusters ou aplicações do Google Kubernetes Engine (GKE) têm problemas, é fundamental determinar rapidamente se a causa é interna ou relacionada com uma Google Cloud interrupção do serviço mais ampla. Perder tempo na depuração local é ineficiente se a causa principal for um incidente conhecido da plataforma.

Use esta página para determinar se um problema com o seu cluster do GKE é causado por uma interrupção do serviço mais ampla. Google Cloud Saiba onde encontrar atualizações de estado oficiais, eventos de saúde personalizados e estatísticas de incidentes de serviços das seguintes origens:

  • Google Cloud Estado do serviço: informações sobre o estado dos Google Cloud serviços, por região.
  • Personalized Service Health: interrupções de serviço relevantes para os seus projetos.
  • Estatísticas e recomendações de incidentes de serviço: clusters do GKE afetados por um incidente de serviço em curso.

Estas informações são importantes para os administradores e os operadores da plataforma, bem como para os programadores de aplicações que estão a resolver problemas e precisam de compreender se os problemas observados estão associados a um evento de estado do serviço mais amplo. Google Cloud Para mais informações sobre as funções comuns e as tarefas de exemplo a que fazemos referência no Google Cloud conteúdo, consulte Funções e tarefas comuns de utilizadores do GKE.

Reveja o Google Cloud estado de funcionamento do serviço

A página Google Cloud Estado do serviço fornece informações sobre o estado dos serviços que fazem parte do produto Google Cloud.

Para rever incidentes relacionados com o GKE, aceda à página Google Cloud Estado do serviço.

Aceda a todos os incidentes comunicados para o Google Kubernetes Engine

Reveja o Personalized Service Health

O Personalized Service Health permite-lhe identificar Google Cloud interrupções de serviço relevantes para os seus projetos. Estas interrupções são denominadas eventos de estado de funcionamento do serviço, e as informações sobre as mesmas estão disponíveis na Google Cloud consola e numa variedade de pontos de integração.

Para rever incidentes relacionados com o GKE relevantes para os seus projetos, veja eventos de estado do serviço no painel de controlo Personalized Service Health na consola do Google Cloud .

Aceda ao Personalized Service Health

Pode filtrar incidentes por serviço, localização, relevância e estado. O painel de controlo também fornece detalhes sobre o incidente, como o âmbito do impacto, os sintomas, as soluções alternativas e as atualizações do progresso da resolução. Para começar, consulte o Início rápido: Veja eventos de estado de funcionamento do serviço na Google Cloud consola.

Reveja as recomendações e as estatísticas de incidentes de serviço

As estatísticas e as recomendações de incidentes de serviço permitem-lhe identificar clusters do GKE afetados por um incidente de serviço em curso.

Para receber estatísticas de incidentes de serviço, veja estatísticas e recomendações para o subtipo GKE_RELIABILITY_INCIDENT. Pode aceder a estatísticas através da Google Cloud consola, da CLI Google Cloud ou da API Recommender. Para mais informações, consulte o artigo Veja estatísticas e recomendações.

As estatísticas e as recomendações incluem as seguintes informações:

  • Cluster afetado: um cluster afetado pelo incidente.
  • Nome do incidente: um identificador do incidente para referência quando comunica com o apoio técnico ao cliente do Google Cloud.
  • Descrição do incidente: informações sobre o incidente da equipa de resposta a incidentes.
  • Última hora de entrada em vigor: a última vez que as informações sobre o incidente foram atualizadas.
  • Ação de mitigação: ação de mitigação recomendada pela equipa de resposta a incidentes, se disponível.

A estatística de incidente de serviço permanece visível até que a equipa de resposta a incidentes Google Cloud mitigue o incidente e determine que a estatística já não é relevante. Vai existir um atraso entre o momento em que o incidente é mitigado e deixa de afetar os seus recursos, e o momento em que a estatística é removida. Se implementou uma solução alternativa e já não quer ver a estatística, pode ignorá-la.

O que se segue?