Este documento apresenta uma visão geral da integridade do serviço personalizado, que permite identificar Google Cloud interrupções de serviço relevantes para seus projetos e gerenciar e responder a elas com eficiência. Essas interrupções são chamadas de eventos de integridade do serviço e estão disponíveis no console do Google Cloud e em vários pontos de integração.
Como o Personalized Service Health funciona
O diagrama a seguir mostra como o Service Health personalizado disponibiliza eventos de integridade do serviço.
É possível acessar os eventos de integridade do serviço com:
- Painel de integridade do serviço: acompanhe os incidentes emergentes e ativos do Google CloudGoogle Cloud relevantes para seus projetos.
- API Service Health: extrai informações de eventos de integridade do serviço por projeto ou organização.
- Alertas: receba notificações sobre eventos relevantes para seus projetos. Os alertas são baseados em registros no Cloud Logging.
- Registros: exporte registros relacionados a eventos Google Cloud .
Conferir incidentes Google Cloud ativos e anteriores no painel "Saúde do serviço"
O painel de integridade do serviço no console do Google Cloud mostra incidentes relevantes para seu projeto, o estado deles e os produtos e locais Google Cloud afetados.
Consulte o guia de início rápido para saber como acessar o painel de integridade do serviço.
Conferir Google Cloud incidentes e receber alertas em um dispositivo móvel
O painel "Saúde do serviço" também está disponível em dispositivos móveis.
Para receber alertas no seu dispositivo móvel, você pode configurar uma política de alertas para enviar alertas para o dispositivo móvel.
Solicitar eventos de integridade do serviço usando a API Service Health
A API Service Health permite receber eventos de integridade do serviço que podem estar afetando ou terem afetado seu projeto ou receber detalhes de eventos, como atualizações, horários de início/término, produtos e locais Google Cloud afetados e estado.
Consulte a referência da API Service Health para mais informações.
Configurar alertas ou exportar registros pelo Cloud Logging
A integridade personalizada de serviço registra eventos de integridade do serviço no Cloud Logging e permite que você configure alertas com base nesses registros. É possível configurar alertas para condições como quando novos incidentes são informados, quando incidentes existentes são atualizados ou quando incidentes de produtos ou locais Google Cloud específicos são criados ou atualizados.
Consulte o guia de início rápido para configurar um alerta no painel "Saúde do serviço".
Conceitos
O Personalized Service Health usa os seguintes conceitos para indicar eventos que afetam seu projeto e como eles estão conectados a ele.
Evento de integridade do serviço
Um evento de integridade de serviço (v1,v1beta) é qualquer evento disruptivo que afete um produto Google Cloud que seja relevante para seus projetos ou recursos. Exemplos incluem falhas de rede, erros de configuração e problemas de desempenho.
Cada evento contém detalhes sobre o impacto geral do evento, atualizações do Google e informações específicas do projeto Google Cloud .
Incidente
Incidentes são interrupções ou degradações de serviço relevantes para seus projetos no Google Cloud Google Cloud. É uma categoria de um evento de integridade de serviço.
Um incidente inclui o seguinte:
- Impacto do incidente: detalhes do escopo do evento, como produtos e locais Google Cloud afetados.
- Atualizações de Google Cloud: atualizações periódicas do Google Cloud suporte.
- Relevância personalizada: relevância do incidente para seu projeto Google Cloud.
- Sintomas, soluções alternativas e ETAs: informações para ajudar a avaliar o impacto, aplicar uma solução alternativa ou saber mais sobre a causa raiz.
Um incidente pode ter um relatório, que inclui os fatores que contribuíram para o incidente e as etapas Google Cloud que devem ser tomadas para evitar que incidentes semelhantes ocorram novamente. Os relatórios de incidentes estão disponíveis para incidentes que atendem às seguintes condições:
- O incidente tem impacto global ou está afetando uma porcentagem significativa de projetos de clientes em uma ou mais regiões.
- Um ou mais produtos estão indisponíveis ou com problemas graves.
Estados de eventos e estados detalhados
Um evento tem dois campos que indicam o estado dele. Os valores desses campos mudam à medida que o evento evolui.
Estado do evento: indica o estado geral do evento. Pode ser um dos seguintes:
- Ativo: o evento está afetando Google Cloud e vai continuar recebendo atualizações.
- Fechado: o evento não afeta mais nenhum Google Cloud produto ou foi mesclado a outro evento.
Estado detalhado: fornece mais informações sobre o estado do evento. Ele se aplica apenas a incidentes e pode ser um dos seguintes valores, dependendo do estado do evento:
Emergência: os engenheiros do Google estão investigando ativamente o incidente para determinar o impacto. Um incidente emergente se tornará um incidente confirmado ou resolvido quando a avaliação de impacto for concluída. Um incidente ativo pode ser um incidente emergente.
O suporte a incidentes emergentes está disponível apenas para produtos de rede Google Cloud.
Confirmado: o incidente foi confirmado pelos engenheiros do Google e está afetando pelo menos um Google Cloud produto. Atualizações de status continuas serão fornecidas até que o problema seja resolvido.
Um incidente ativo pode ser um incidente confirmado.
Mesclado: o incidente foi mesclado em um incidente pai. Todas as outras atualizações serão publicadas apenas para a conta principal.
Resolvido: o incidente não afeta mais nenhum Google Cloud produto depois que a ação foi realizada. Não haverá mais atualizações.
Um incidente fechado geralmente é um incidente resolvido.
Falso positivo: após a investigação, os engenheiros do Google concluíram que o incidente não está afetando um Google Cloud produto. Esse estado pode mudar se o incidente for analisado novamente.
Fechado automaticamente: o incidente foi fechado automaticamente pelos seguintes motivos:
- Não foi possível confirmar o impacto do incidente.
- O incidente foi intermitente ou se resolveu sozinho.
O incidente não tem uma resolução porque nenhuma ação ou investigação aconteceu. Se for intermitente, o incidente pode ser reaberto.
Relevância
O Personalized Service Health avalia o impacto de todos os incidentes no seu projeto. Se o impacto do incidente no seu projeto for possível ou confirmado, ele vai ficar disponível no painel e na API do Service Health.
A relevância descreve como um incidente afeta seu projeto. A relevância pode mudar à medida que o incidente avança.
A relevância pode ter os seguintes valores:
- Afetado: foi verificado que o incidente está afetando seu projeto. Disponível apenas para alguns Google Cloud produtos.
- Relacionado: o incidente tem uma conexão direta com o projeto e impacta um produto Google Cloud em um local usado por ele.
- Parcialmente relacionado: o incidente está associado a um produto Google Cloud que o projeto usa, mas talvez ele não esteja afetando o projeto. Por exemplo, o incidente pode estar afetando um produto Google Cloud que o projeto usa, mas em um local que não é usado por ele.
- Não afetado: o incidente não está afetando seu projeto.
- Desconhecido: o impacto no projeto não é conhecido neste momento.