Incidentes e o painel de integridade do serviço do Google Cloud

O painel de integridade do serviço do Google Cloud (CSH, na sigla em inglês) fornece informações de status dos serviços do Google Cloud organizados por região e localidade global.

Incidente grave

O impacto de um incidente grave se estende a dois ou mais dos seguintes cenários:

  • Vários serviços
  • Várias regiões
  • Várias horas
  • Vários clientes

Se ocorrer um incidente grave, agiremos com urgência para resolver os problemas.

Durante um incidente grave, o status do problema é comunicado pelo Painel de status do Google Workspace e pelo Painel de integridade do serviço do Google Cloud. Um incidente grave é marcado como Falha temporária do serviço nos painéis de status. Depois que o problema for resolvido, publicamos um relatório de incidente público que inclui os detalhes dos fatores que contribuíram para o problema e as etapas que planejamos realizar para evitar que esses incidentes ocorram novamente.

No caso de incidentes com escopo menor, um relatório não público pode ser disponibilizado para os clientes.

Ciclo de vida de um incidente

Quando uma degradação do produto é detectada, a equipe do Cloud Customer Care e a equipe de engenharia de produto trabalham juntas para resolver o incidente e comunicá-lo a você.

Diagrama do ciclo de vida

Detecção

O Google Cloud usa o monitoramento interno e de caixa preta para detectar incidentes. Para mais informações, consulte o Capítulo 6 do manual Engenharia de confiabilidade do site.

Se você tem Suporte Premium, Enhanced ou Standard, é possível relatar um incidente criando um caso de suporte no Console do Google Cloud. Caso contrário, use este formulário.

Resposta inicial

Quando um incidente é detectado, a equipe do Customer Care lidera a comunicação com você. A notificação inicial de um incidente geralmente é esparsa e quase sempre é mencionado apenas o nome do produto em questão. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes. Os detalhes serão fornecidos nas atualizações subsequentes.

Para fornecer o máximo de informações possível, sem sobrecarregar você com problemas não relacionados ao seu incidentes, são usados diferentes canais de comunicação, dependendo do escopo e da gravidade de um problema:

Diagrama de comunicação

O Painel do Google CSH é o primeiro lugar para verificar quando um problema está afetando você. O painel mostra incidentes que afetam muitos clientes. Portanto, se você observar um incidente listado, ele provavelmente está relacionado ao seu problema. Para indicar a gravidade, o painel marca os incidentes como interrupção ou falha temporária. Problemas menores, mas muito comuns, são postados como avisos temporários.

Quando um produto ou serviço relevante do Google Cloud informa um problema no painel do CSH do Google, você também pode ver um aviso de falha temporária no Console do Google Cloud. Se um aviso de falha temporária aparecer no Console do Google Cloud, clique nele para saber mais sobre o status do problema.

Alguns produtos do Google Cloud têm Grupos do Google em que você pode se inscrever para receber anúncios e notificações sobre novos incidentes no Painel do Google CSH.

Os problemas conhecidos exibidos na Central de suporte do Google Cloud e na página de suporte do Console do Google Cloud são a visão mais abrangente de problemas e incluem aqueles que afetam menos pessoas do que as exibidas no painel. Se você suspeita de um problema do GCP, mas não vê nada no painel, verifique aqui.

Os casos de suporte são adequados para problemas que não se qualificam como incidentes ou quando é necessária intervenção humana. A página de problemas conhecidos permite criar um caso com base em um incidente publicado. Assim, você recebe atualizações regulares e pode conversar com a equipe de suporte.

Investigar

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também é realizado por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o Capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação/correção

Um problema é considerado corrigido somente quando o Google tiver certeza de que as alterações feitas terminarão com o impacto de uma vez por todas. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Enquanto um incidente está em andamento, o Customer Care e a equipe do produto tentam mitigar o problema. A mitigação ocorre quando for possível reduzir o impacto ou o escopo de um problema, por exemplo, ao fornecer temporariamente mais recursos a um serviço sobrecarregado.

Se nenhuma mitigação for possível, a equipe do Customer Care encontrará e informará soluções alternativas. Soluções alternativas são as etapas que você executa para solucionar o problema subjacente, apesar do incidente. Uma exemplo de solução alternativa é o uso de configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

A seguir

Durante um incidente, a equipe do Customer Care fornece atualizações regulares. Normalmente, as atualizações fornecem o seguinte:

  • Mais informações sobre o incidente, como mensagens de erro, zonas ou regiões afetadas, quais recursos foram afetados ou o percentual de impacto.

  • O progresso da atenuação, incluindo quaisquer soluções alternativas.

  • Cronogramas de comunicação adaptados ao incidente.

  • Alterações no status, por exemplo, quando um incidente é corrigido.

Post mortem

Todos os incidentes têm um post mortem internamente para que seja entendidos por completo e para identificar melhorias de confiabilidade que o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações sobre postmortems no Google, consulte o Capítulo 15 do manual Engenharia de confiabilidade do site.

Relatório de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios de incidentes que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura de incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e liberar post mortems é ser transparente e demonstrar nosso compromisso em criar serviços estáveis para nossos clientes.

Perguntas frequentes

Que tipo de informação de status posso encontrar no painel do CSH do Google?

O painel do Google CSH fornece informações de status sobre serviços que fazem parte do Google Cloud. O status pode incluir interrupções no serviço, paralisações ou mensagens de informações sobre um problema temporário.

Onde encontro informações sobre interrupções e falhas de serviço anteriores?

O painel do CSH do Google mantém um registro das interrupções e falhas temporárias dos serviços do Google Cloud por até cinco anos. A guia Visão geral do painel mostra o status atual dos serviços por localidade. Para ver informações sobre interrupções e falhas temporárias do serviço no último ano, clique em Ver histórico no painel. Para ver um histórico de falha temporária de um serviço nos últimos cinco anos, clique em Ver mais para esse serviço.

Como posso ver informações de status regionalizadas para serviços do Google Cloud?

O painel do Google CSH exibe o status de todos os serviços do Google Cloud organizados por região e localidade global. Para ver o status do serviço de uma multirregião, clique na guia específica da região.

Posso criar integrações para consumir os dados exibidos no painel do Google CSH de maneira programática?

Sim, você pode consumir os dados exibidos no painel do Google CSH das seguintes maneiras:

O feed RSS e o arquivo de histórico JSON fornecem informações de status do incidente que podem ser consumidas pelas integrações.

E se eu tiver integrações pré-criadas com base no Painel de status do Google Cloud antes da introdução dos relatórios de status regionalizados e da alteração do nome no Painel de integridade do serviço do Google Cloud?

Tanto no feed RSS quanto no arquivo JSON, as informações de status regional são adicionadas às informações que já estavam sendo publicadas antes da introdução dos relatórios de status regionalizados e da mudança no nome do Painel de status do Google Cloud. Portanto, esperamos que as integrações atuais continuem funcionando. No entanto, se você quiser consumir as informações de status regional por meio das suas integrações, precisará modificá-las.

Veja uma descrição detalhada de como as informações regionais são apresentadas no feed RSS e no arquivo JSON:

  • Feed RSS

    As informações de status regional são uma nova adição às informações do feed que foram fornecidas antes da introdução do status regionalizado. Todos os locais que são informados como afetados são anexados à mensagem RSS.

  • Arquivo JSON

    Antes da atualização do status regional, o Google Cloud publicava um fluxo de incidentes em que cada incidente continha uma lista de produtos afetados e uma lista de atualizações de status para cada um, se houver. Essas atualizações de status continham um campo de string não estruturado que continha ou não as informações de localização.

    Agora o Google Cloud publica um fluxo de incidentes como fez anteriormente. No entanto, para cada incidente, cada atualização de status contém os novos campos a seguir:

    • updates.affected_locations: contém uma lista estruturada de locais afetados no momento em que a atualização foi postada. Cada registro de atualização e o registro most_recent_update contêm esse campo.
    • currently_affected_locations: contém as informações mais recentes sobre os locais que estão sendo afetados pelo incidente. Ao contrário de updates.affected_locations, essa lista fica vazia depois que o incidente é resolvido, ou seja, quando end é definido como um valor não vazio.
    • previously_affected_locations: contém uma lista dos locais que foram afetados durante um incidente, mas não estão no momento. À medida que o incidente progride, alguns locais podem ter uma resolução de falha temporária. Esses locais ainda existirão na previously_affected_locations field. Depois que o incidente for resolvido (ou seja, quando end for definido como um valor não vazio), esse campo conterá uma lista de todos os locais que foram afetados durante o incidente.

O que fazer se eu estiver enfrentando um problema que não está listado no painel?

O problema pode estar isolado dos projetos ou das instâncias ou afetando um número limitado de clientes. Entre em contato com o Customer Care se tiver algum problema que não esteja listado no painel.

Se você estiver usando o Console do Google Cloud, clique na ferramenta Enviar feedback no canto superior direito para relatar problemas.

Quem atualiza o painel?

A equipe global do Customer Care monitora o status dos serviços usando vários tipos de sinais e atualiza o painel em caso de um problema generalizado. Se necessário, ela publicará um relatório de análise detalhado sobre o incidente depois que ele tiver sido resolvido.

Qual é a diferença entre um incidente e uma interrupção?

Embora esses termos sejam frequentemente usados como sinônimos, o painel do CSH do Google e nossas comunicações externas usam incidente para se referir a qualquer período de serviço com capacidade reduzida e falha temporária para se referir apenas ao mais grave, em que um produto não funciona em grande escala.