Monitorar incidentes do Service Health do Google Cloud

Para se manter informado sobre a integridade e o status dos seus Google Cloud produtos, Google Cloud o Service Health fornece informações sobre incidentes em andamento que atendem a determinados critérios. Essas informações podem incluir interrupções de produtos, falhas ou mensagens informativas sobre um problema temporário.

O Google Cloud Service Health foi projetado para estar disponível no raro caso em que o próprio Personalized Service Health esteja indisponível ou afetado por uma interrupção ou se o produto afetado ainda não tiver sido integrado ao Personalized Service Health.

A integridade personalizada de serviço mostra uma visualização personalizada dos produtos e locais Google Cloud compatíveis em toda a organização. Use o Personalized Service Health como a primeira parada ao enfrentar uma interrupção de serviço e verifique as comunicações sobre incidentesGoogle Cloud ativos e anteriores que podem afetar seus projetos. A integridade personalizada de serviço sempre terá mais informações disponíveis para Google Cloud clientes. É possível acessar a integridade personalizada do serviço pelo console do Google Cloud, configurando alertas e usando a API Personalizada de integridade do serviço.

Este documento se concentra na Google Cloud saúde do serviço.

Acessar Google Cloud Service Health

É possível acessar a Google Cloud integridade do serviço da seguinte forma:

  • Um painel de status público: Google Cloud Integridade do serviço
  • Um feed RSS público
  • O console do Google Cloud

    1. No console do Google Cloud, acesse a página Suporte > Casos.

      Acessar "Casos"

    2. Usando o seletor de recursos na barra de ferramentas do console, selecione o recurso para o qual você quer listar os problemas conhecidos.

    3. Clique na guia Problemas conhecidos.

      Os problemas conhecidos também incluem incidentes menores e de escopo limitado. É possível vincular um caso de suporte a um problema conhecido para receber atualizações regulares e se comunicar com a equipe de suporte. Os casos de suporte são adequados para problemas que não se qualificam como incidentes ou quando é necessária interação direta. Se você tiver suporte Premium, Enhanced ou padrão, crie um caso de suporte para relatar um incidente.

Se não for possível acessar a Google Cloud Saúde do serviço pelos recursos anteriores, use o formulário de perguntas sobre o suporte da plataformaGoogle Cloud .

Incidentes do Service Health Google Cloud com suporte

Na maioria dos Google Cloud incidentes, os clientes afetados recebem comunicações diretamente pelo recurso Personalized Service Health no console do Google Cloud. Se eles atenderem às condições de alerta, esses incidentes também vão acionar todos os alertas de integridade do serviço configurados.

Os incidentes que atendem a qualquer um dos seguintes critérios aparecem na Google Cloud integridade do serviço:

  • Incidentes públicos graves
  • Incidentes de Google Cloud produtos que ainda não têm suporte do Personalized Service Health
  • Incidentes que ocorrem quando o painel do Personalized Service Health está indisponível

Incidente grave

OGoogle Cloud define um incidente como grave se ele atender a todas as seguintes condições:

  • Escopo alto: o incidente tem impacto global ou está afetando uma porcentagem significativa de projetos de clientes em uma ou mais regiões.
  • Alta gravidade: um ou mais produtos estão indisponíveis ou com problemas graves.

No raro caso de um incidente grave, agimos com urgência para resolver os problemas.

Durante um incidente grave, o status do problema é comunicado pelo Painel de integridade do serviço do Google Cloud. Um incidente grave é marcado como Falha temporária de serviço no painel. Depois que o problema é resolvido, publicamos um relatório de incidente público que inclui os detalhes dos fatores que contribuíram para o incidente e as etapas que planejamos para evitar que esses incidentes aconteçam novamente.

No caso de incidentes de menor escopo, um relatório não público pode ser disponibilizado para os clientes.

Ciclo de vida de um incidente

Quando a degradação de um produto é detectada, a Google Cloud equipe de suporte e a equipe de engenharia de produto trabalham juntas para resolver o incidente e fornecer atualizações.

O diagrama a seguir mostra as responsabilidades das equipes de engenharia de produto e de suporte:

Diagrama do ciclo de vida

Leia mais sobre cada uma dessas responsabilidades nas seções a seguir.

Detecção

Google Cloud usa monitoramento interno e sintético para detectar incidentes. Para mais informações, consulte o capítulo 6 do manual Engenharia de confiabilidade do site.

Resposta inicial

Quando um incidente é detectado, a Google Cloud equipe de atendimento ao cliente gerencia as comunicações com o cliente. A notificação inicial de um incidente geralmente é esparsa e quase sempre é mencionado apenas o nome do produto em questão. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes. Os detalhes serão fornecidos nas atualizações subsequentes.

Para fornecer o máximo de informações possível, sem sobrecarregar você com problemas que não atingem você, são usados diferentes canais de comunicação, dependendo do escopo e da gravidade de um problema:

Diagrama de comunicação

Investigar

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também é realizado por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o Capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação e correção

Um problema é considerado corrigido somente quando o Google tiver certeza de que as alterações feitas terminarão com o impacto de uma vez por todas. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Enquanto um incidente está em andamento, o Customer Care e a equipe do produto tentam mitigar o problema. A mitigação ocorre quando o impacto ou o escopo de um problema pode ser reduzido, por exemplo, ao fornecer temporariamente mais recursos a um produto que está sobrecarregado.

Se nenhuma mitigação for possível, a equipe do Customer Care encontrará e informará soluções alternativas. Soluções alternativas são as etapas que você executa para solucionar o problema subjacente, apesar do incidente. Uma exemplo de solução alternativa é o uso de configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

Acompanhar

Durante um incidente, a equipe do Customer Care fornece atualizações regulares. Normalmente, as atualizações fornecem o seguinte:

  • Mais informações sobre o incidente, como mensagens de erro, zonas ou regiões afetadas, quais recursos foram afetados ou o percentual de impacto.

  • O progresso da atenuação, incluindo quaisquer soluções alternativas.

  • Cronogramas de comunicação adaptados ao incidente.

  • Alterações no status, por exemplo, quando um incidente é corrigido.

Retrospectiva

Todos os incidentes passam por uma análise retrospectiva interna para que sejam entendidos por completo e para que sejam identificadas melhorias de confiabilidade que o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações, consulte o capítulo 15 do manual Engenharia de confiabilidade do site.

Relatórios de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios de incidentes que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura de incidentes. Assim como nas retrospectivas, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e divulgar análises retrospectivas é ser transparente e demonstrar nosso compromisso em criar produtos estáveis para nossos clientes.

Modelo de dados de incidentes

Um incidente pode afetar um ou mais produtos em um ou mais locais. Os incidentes têm um horário de início e de término e uma gravidade geral. Um incidente tem atualizações que descrevem como ele muda ao longo do tempo, incluindo o status e os locais afetados. As informações do incidente são disponibilizadas por um esquema JSON.

O esquema JSON tem campos marcados como Stable e Unstable. Em geral, os campos de ID são considerados estáveis, enquanto campos como nomes de exibição são considerados instáveis e podem mudar sem aviso. Use campos estáveis somente ao integrar com um sistema externo ou automação de construção. Para mais informações, consulte este documento: Posso criar integrações para consumir dados de integridade do serviço Google Cloud de forma programática?.

Perguntas frequentes

As perguntas frequentes a seguir podem ajudar você a monitorar a saúde e o status dos seus Google Cloud produtos.

Onde encontro informações sobre interrupções e falhas temporárias de produtos anteriores?

Google Cloud A integridade do serviço mantém um registro de interrupções e falhas de Google Cloud produtos por até cinco anos. O painel mostra o status atual dos produtos por localidade. Para conferir informações sobre interrupções e falhas de produtos no último ano, clique em Ver histórico de incidentes. Para conferir o histórico de interrupção de um produto nos últimos cinco anos, clique em Ver mais para esse produto.

Como posso conferir informações de status regionalizadas para Google Cloud produtos?

AGoogle Cloud integridade do serviço mostra o status de todos os Google Cloud produtos organizados por região e localidade global. Para conferir o status de uma multirregional, selecione a guia específica da região.

Posso criar integrações para consumir dados de Google Cloud saúde do serviço de forma programática?

Sim, é possível consumir os dados mostrados pelo Google Cloud Service Health das seguintes maneiras:

O feed RSS e o arquivo de histórico JSON fornecem informações sobre o status do incidente que podem ser consumidas por integrações.

Use os campos marcados como Stable no arquivo de histórico JSON, em vez dos campos marcados como Unstable. Por exemplo, se você estiver tentando identificar de forma programática incidentes que afetam um conjunto específico de produtos, use os IDs dos produtos (affected_products>id), não os nomes de exibição.

IDs de produtos x nomes de produtos

Historicamente, Google Cloud o Service Health não oferecia um mecanismo para localizar o ID de um determinado produto. Desde o início de 2023, Google Cloud o Service Health disponibilizou um catálogo de produtos que fornece esse mapeamento para todos os produtos. Um ID de produto fornece um campo estável para chaves e permite que o nome de exibição de um produto seja alterado. É necessário referenciar o ID do produto ao identificar de forma programática incidentes que afetam um conjunto de produtos.

E se eu tiver integrações baseadas em implementações anteriores do Google Cloud Service Health?

No feed RSS e no arquivo JSON, as informações de status regionais são uma adição às informações que já estavam sendo publicadas antes da introdução do relatório de status regionalizado e da mudança no nome de Google Cloud Saúde do serviço. Portanto, esperamos que suas integrações continuem funcionando. No entanto, se você quiser consumir as informações de status regional com suas integrações, será necessário modificá-las.

Confira uma descrição detalhada de como as informações regionais são apresentadas no feed RSS e no arquivo JSON:

  • Feed RSS

    As informações de status regional são uma nova adição às informações do feed que foram fornecidas antes da introdução do status regional. Todos os locais que são informados como afetados são anexados à mensagem RSS.

  • Arquivo JSON

    Antes da atualização regional de status, Google Cloud publicou um fluxo de incidentes em que cada incidente continha uma lista de produtos afetados e uma lista de atualizações de status para cada um deles, se houver. Essas atualizações de status continham um campo de string não estruturado que tinha ou não as informações de local.

    Agora, Google Cloud publica um fluxo de incidentes, como antes. No entanto, para cada incidente, cada atualização de status contém os seguintes novos campos:

    • updates.affected_locations: contém uma lista estruturada dos locais afetados no momento em que a atualização foi postada. Todos os registros de atualização e o most_recent_update contêm esse campo.
    • currently_affected_locations: contém as informações mais recentes sobre os locais que foram afetados pelo incidente. Ao contrário de updates.affected_locations, essa lista fica vazia depois que o incidente é resolvido, ou seja, quando end é definido como um valor não vazio.
    • previously_affected_locations: contém uma lista de locais que foram afetados anteriormente durante um incidente, mas não estão atualmente. À medida que o incidente avança, alguns locais podem ter uma resolução de interrupção. Esses locais ainda vão existir no previously_affected_locations field. Quando o incidente é resolvido (ou seja, quando end é definido como um valor não vazio), esse campo contém uma lista de todos os locais afetados durante o incidente.

E se eu tiver um problema, mas ele não estiver listado pelo Google Cloud Status do serviço?

OGoogle Cloud Service Health fornece informações de status atuais e históricas para qualquer incidente importante que afete Google Cloud produtos e serviços. Se você estiver com um problema que não está listado no Google Cloud Estado do serviço, ele pode estar isolado dos seus projetos ou instâncias ou afetar um número limitado de clientes. Incidentes que têm menos escopo podem ser listados no Portal de suporte. Entre em contato com o atendimento ao cliente se tiver algum problema que não esteja listado pelo Google Cloud Service Health.

Se você já estiver usando o Personalized Service Health, verifique se o problema está listado para determinar se o projeto ou a instância está afetado.

Se você estiver usando o console do Google Cloud, na barra de ferramentas de cima, selecione > Enviar feedback.

Quem atualiza Google Cloud a integridade do serviço?

A equipe global de atendimento ao cliente monitora o status dos produtos usando vários tipos diferentes de indicadores e atualiza a Google Cloud saúde do serviço em caso de um problema generalizado. Se necessário, ela vai publicar um relatório de análise detalhado sobre o incidente depois que ele tiver sido resolvido.

A seguir