Incidentes e o painel do Google Cloud Service Health

O painel do Google Cloud Service Health (CSH) fornece informações de status dos produtos do Google Cloud organizados por região e localidade global.

Incidente grave

O Google Cloud define um incidente como um incidente grave se ele atender a todas as condições a seguir:

  • Alto escopo: o incidente tem impacto global ou está afetando uma porcentagem significativa de projetos de clientes em uma ou mais regiões.
  • Gravidade alta: um ou mais produtos estão indisponíveis ou foram muito degradados.

Na rara ocorrência de um grande incidente, agimos com urgência para resolver todos os problemas.

Durante um incidente grave, o status do problema é comunicado pelo Painel de integridade do serviço do Google Cloud. Um incidente grave é marcado como falha temporária do serviço nos painéis de status. Depois que o problema é resolvido, publicamos um relatório de incidente público com os detalhes dos fatores que contribuíram para ele e as medidas que planejamos seguir para evitar que esses incidentes ocorram novamente.

No caso de incidentes de escopo menor, um relatório não público pode ser disponibilizado aos clientes.

Ciclo de vida de um incidente

Quando uma degradação do produto é detectada, as equipes de suporte do Google Cloud e de engenharia de produto trabalham juntas para resolver o incidente e fornecer atualizações.

O diagrama a seguir mostra as responsabilidades das equipes de engenharia de produto e suporte:

Diagrama do ciclo de vida

Leia mais sobre cada uma dessas responsabilidades nas seções a seguir.

Detecção

O Google Cloud usa monitoramento interno e de caixa preta para detectar incidentes. Para mais informações, consulte o Capítulo 6 do manual Engenharia de confiabilidade do site.

Se você tiver o Suporte Premium, Avançado ou Padrão, poderá relatar um incidente criando um caso de suporte no console do Google Cloud. Caso contrário, use este formulário.

Resposta inicial

Quando um incidente é detectado, a equipe de atendimento ao cliente do Google Cloud gerencia as comunicações com o cliente. A notificação inicial de um incidente geralmente é esparsa e quase sempre é mencionado apenas o nome do produto em questão. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes. Os detalhes serão fornecidos nas atualizações subsequentes.

Para fornecer o máximo de informações possível, sem sobrecarregar você com problemas não relacionados ao seu incidentes, são usados diferentes canais de comunicação, dependendo do escopo e da gravidade de um problema:

Diagrama de comunicação

Recomendamos que o Custom Service Health seja a primeira parada ao enfrentar uma interrupção de serviço. Com o serviço Custom Service Health, é possível conferir interrupções relevantes para seus projetos, com base nos projetos e nos produtos do Google Cloud que você usa. Saiba mais sobre o Custom Service Health e como integrá-lo ao seu fluxo de trabalho de gerenciamento de incidentes.

O Painel do Google Cloud Service Health exibe os principais incidentes e foi projetado para ser disponibilizado no raro evento "Custom Service Health" (Saúde do serviço personalizado) não estiver disponível ou for afetado por uma interrupção.

Se você não ativou ou fez a integração com o Personalized Service Health, recomendamos verificar se há interrupções ativas na página de suporte do console do Google Cloud ou no Portal de atendimento ao cliente. Os problemas conhecidos exibidos na página de suporte do console do Google Cloud e no Portal de Cloud Customer Care também incluem incidentes pequenos e de escopo limitado.

Os casos de suporte são adequados para problemas que não se qualificam como incidentes ou em que é necessária interação humana. A página de problemas conhecidos permite criar um caso com base em um incidente publicado. Assim, você recebe atualizações regulares e pode conversar com a equipe de suporte.

Investigar

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também é realizado por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o Capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação/correção

Um problema é considerado corrigido somente quando o Google tiver certeza de que as alterações feitas terminarão com o impacto de uma vez por todas. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Enquanto um incidente está em andamento, o Customer Care e a equipe do produto tentam mitigar o problema. A mitigação ocorre quando o impacto ou o escopo de um problema pode ser reduzido, por exemplo, ao fornecer temporariamente mais recursos a um produto com sobrecarga.

Se nenhuma mitigação for possível, a equipe do Customer Care encontrará e informará soluções alternativas. Soluções alternativas são as etapas que você executa para solucionar o problema subjacente, apesar do incidente. Uma exemplo de solução alternativa é o uso de configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

faça o acompanhamento

Durante um incidente, a equipe do Customer Care fornece atualizações regulares. Normalmente, as atualizações fornecem o seguinte:

  • Mais informações sobre o incidente, como mensagens de erro, zonas ou regiões afetadas, quais recursos foram afetados ou o percentual de impacto.

  • O progresso da atenuação, incluindo quaisquer soluções alternativas.

  • Cronogramas de comunicação adaptados ao incidente.

  • Alterações no status, por exemplo, quando um incidente é corrigido.

Post mortem

Todos os incidentes têm um post mortem internamente para que seja entendidos por completo e para identificar melhorias de confiabilidade que o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações sobre postmortems no Google, consulte o Capítulo 15 do manual Engenharia de confiabilidade do site.

Relatório de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios de incidentes que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura de incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e divulgar análises posteriores é ser transparente e demonstrar nosso compromisso em criar produtos estáveis para nossos clientes.

Modelo de dados de incidentes

Um incidente afeta um ou mais produtos em um ou mais locais. Os incidentes têm um horário de início e um de término, além de uma gravidade geral. Um incidente tem atualizações que descrevem como ele muda ao longo do tempo, incluindo o status e os locais afetados. As informações do incidente são disponibilizadas por meio de um esquema JSON.

O esquema JSON tem campos marcados como Stable e Instable. Em geral, os campos de ID são considerados Estáveis, enquanto os campos como nomes de exibição são considerados Instáveis e podem ser alterados sem aviso prévio. Use campos Stable apenas ao fazer a integração com um sistema externo ou a automação de edifícios. Consulte Posso criar integrações para consumir os dados exibidos no Painel do Service Health do Google Cloud de maneira programática?.

Perguntas frequentes

Que tipo de informação de status está disponível no Painel de CSH do Google?

O Painel do CSH do Google fornece informações de status sobre produtos que fazem parte do Google Cloud. O status pode incluir interrupções de produtos, falhas temporárias ou mensagens informativas sobre um problema temporário.

Quando um incidente é postado no Painel de CSH do Google?

Os incidentes que atendem a qualquer um dos seguintes critérios aparecem no painel de CSH:

Onde encontro informações sobre interrupções e falhas temporárias de produtos anteriores?

O Painel do CSH do Google mantém um registro de interrupções e falhas temporárias nos produtos do Google Cloud por até cinco anos. A guia Visão geral do painel mostra o status atual dos produtos por localidade. Para ver informações sobre interrupções e falhas temporárias do produto no último ano, clique em Ver histórico no painel. Para visualizar o histórico de falhas temporárias de um produto nos últimos cinco anos, clique na opção Ver mais do produto.

Como consultar informações sobre o status regionalizado dos produtos do Google Cloud?

O Painel do CSH do Google exibe o status de todos os produtos do Google Cloud organizados por região e localidade global. Para ver o status de uma multirregião, clique na guia específica da região.

Posso criar integrações para consumir de maneira programática os dados exibidos no Painel de integridade do serviço do Google Cloud?

Sim, é possível consumir os dados exibidos no Painel de CSH do Google das seguintes maneiras:

  • Por um feed RSS
  • Em um arquivo JSON de histórico

    Você pode fazer o download do esquema para o arquivo JSON aqui.

O feed RSS e o arquivo de histórico JSON fornecem informações sobre o status do incidente que podem ser consumidas por meio de integrações.

Use os campos marcados como Stable no arquivo de histórico JSON, em vez dos campos marcados como Instável. Exemplo: se você está tentando identificar programaticamente incidentes que afetam um determinado conjunto de produtos, use os IDs dos produtos (affected_products>id), e não os nomes de exibição deles.

IDs e nomes de produtos

Antes, o Painel de integridade do serviço do Google Cloud não fornecia um mecanismo para localizar o ID de um determinado produto. Desde o início de 2023, o Painel do Google Cloud Service Health disponibilizou um catálogo de produtos que fornece esse mapeamento para todos os produtos. Um ID do produto fornece um campo estável para identificar e permite que o nome de exibição de um produto mude. Prefira referenciar o ID do produto ao identificar programaticamente incidentes que afetam um conjunto de produtos.

E se eu tiver integrações predefinidas com base no Painel de status do Google Cloud antes da introdução dos relatórios de status regionalizados e da mudança de nome no Painel de integridade do serviço do Google Cloud?

No feed RSS e no arquivo JSON, as informações de status regional são adicionadas às informações que já estavam sendo publicadas antes da introdução dos relatórios de status regionalizados e da mudança no nome do Painel de status do Google Cloud. Portanto, esperamos que as integrações atuais continuem funcionando. No entanto, se você quiser consumir as informações de status regional usando suas integrações, modifique-as.

Veja uma descrição detalhada de como as informações regionais são apresentadas no feed RSS e no arquivo JSON:

  • Feed RSS

    As informações de status regional são uma nova adição às informações do feed fornecidas antes da introdução do status regionalizado. Todos os locais informados como afetados são anexados à mensagem RSS.

  • Arquivo JSON

    Antes da atualização do status regional, o Google Cloud publicou um fluxo de incidentes em que cada incidente continha uma lista de produtos afetados e uma lista de atualizações de status para cada um, se houver. Essas atualizações de status continham um campo de string não estruturado que continha ou não as informações de local.

    Agora o Google Cloud publica um fluxo de incidentes como antes. No entanto, para cada incidente, cada atualização de status contém os seguintes campos novos:

    • updates.affected_locations: contém uma lista estruturada dos locais afetados no momento em que a atualização foi postada. Todos os registros de atualização e most_recent_update contêm esse campo.
    • currently_affected_locations: contém as informações mais recentes sobre os locais que são ativamente afetados pelo incidente. Ao contrário de updates.affected_locations, essa lista fica vazia depois que o incidente é resolvido, ou seja, quando end é definido como um valor não vazio.
    • previously_affected_locations: contém uma lista dos locais que foram afetados durante um incidente, mas não são. À medida que o incidente avança, alguns locais podem ter uma resolução de interrupção. Esses locais ainda existirão no previously_affected_locations field. Depois que o incidente for resolvido (ou seja, quando end estiver definido como um valor não vazio), esse campo vai conter uma lista de todos os locais que foram afetados durante o incidente.

O que fazer se eu estiver enfrentando um problema que não está listado no painel?

O painel do Google Cloud Service Health fornece informações de status atuais e históricas de qualquer incidente importante que afete os produtos e serviços do Google Cloud. Se você tiver um problema que não está listado no painel, talvez ele esteja isolado dos projetos ou instâncias ou afetando um número limitado de clientes. Incidentes com menos escopo podem ser listados no Portal de atendimento ao cliente. Entre em contato com o atendimento ao cliente para tratar de problemas que não estão listados no painel.

Se você já estiver usando o painel Custom Service Health, verifique se o problema está listado para determinar se o projeto ou a instância foi afetado.

Se você estiver usando o console do Google Cloud, clique na ferramenta Enviar feedback no canto superior direito para relatar problemas.

Quem atualiza o painel?

A equipe global de atendimento ao cliente monitora o status dos produtos usando muitos tipos diferentes de indicadores e atualiza o painel em caso de um problema generalizado. Se necessário, ela publicará um relatório de análise detalhado sobre o incidente depois que ele tiver sido resolvido.