Incidentes e o Painel de status do Google Cloud

Ciclo de vida de um incidente

Quando a degradação de um produto é detectada, a equipe de atendimento ao cliente do Cloud e a equipe de engenharia de produtos trabalham juntos para resolver o incidente e comunicá-lo a você.

Diagrama do ciclo de vida

Detecção

O Google usa monitoramento interno de caixa preta para detectar incidentes. Para mais informações, consulte o Capítulo 6 do manual Engenharia de confiabilidade do site.

Se você tiver suporte premium, avançado, padrão, com base no papel atribuído ou empresarial, será possível informar um incidente criando um caso de suporte no Console do Google Cloud. Se você tiver Suporte Platinum, Gold ou Silver, poderá relatar um incidente criando um caso de suporte na Central de suporte do Google Cloud. Ou então, use este formulário.

Resposta inicial

Quando um incidente é detectado, a equipe do atendimento ao cliente lidera a comunicação com você. A notificação inicial de um incidente geralmente é esparsa e quase sempre é mencionado apenas o nome do produto em questão. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes. Eles são fornecidos nas atualizações subsequentes.

Para fornecer o máximo de informações possível, sem sobrecarregar você com problemas não relacionados ao seu incidentes, são usados diferentes canais de comunicação, dependendo do escopo e da gravidade de um problema:

Diagrama de comunicação

Ao descobrir que um problema está afetando você, o Painel de status do Cloud é o primeiro lugar a ser consultado. O painel mostra incidentes que afetam muitos clientes. Portanto, se você observar um incidente listado, ele provavelmente está relacionado ao seu problema. Para indicar a gravidade, o painel de status marca incidentes como uma interrupção ou falha. Problemas menores, mas muito comuns, são postados como avisos temporários.

Quando um produto ou serviço do Google Cloud relevante informa um problema no Painel de status do Cloud, você também pode ver um aviso de interrupção no Console do Cloud. Se um aviso de interrupção aparecer no Console do Cloud, clique no aviso para saber mais sobre o status do problema.

Alguns produtos do Google Cloud têm Grupos do Google em que é possível se inscrever para receber anúncios e notificações sobre novos incidentes no painel de status do Cloud.

A lista de problemas conhecidos exibida na Central de suporte do Google Cloud e na página de suporte do Console do Cloud é a mais abrangente e inclui problemas que afetam menos pessoas em relação ao que é mostrado no painel. Se você suspeita de um problema do GCP, mas não vê nada no painel, verifique aqui.

Os casos de suporte são adequados para problemas que não se qualificam como incidentes ou quando é necessária intervenção humana. A página de problemas conhecidos permite criar um caso com base em um incidente publicado. Assim, você recebe atualizações regulares e pode conversar com a equipe de suporte.

Investigar

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também é realizado por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o Capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação/correção

Um problema é considerado corrigido somente quando o Google tiver certeza de que as alterações feitas terminarão com o impacto de uma vez por todas. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Enquanto um incidente estiver em andamento, o atendimento ao cliente e a equipe de produto tentam mitigar o problema. A mitigação ocorre quando for possível reduzir o impacto ou o escopo de um problema, por exemplo, ao fornecer temporariamente mais recursos a um serviço sobrecarregado.

Se nenhuma atenuação for encontrada, quando possível, a equipe de atendimento ao cliente encontrará e informará soluções alternativas. Soluções alternativas são as etapas que você executa para solucionar o problema subjacente, apesar do incidente. Uma exemplo de solução alternativa é o uso de configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

A seguir

Enquanto um incidente está em andamento, a equipe do atendimento ao cliente fornece atualizações regulares. Normalmente, as atualizações trazem o seguinte:

  • Mais informações sobre o incidente, como mensagens de erro, zonas ou regiões afetadas, quais recursos foram afetados ou o percentual de impacto.

  • O progresso da atenuação, incluindo quaisquer soluções alternativas.

  • Cronogramas de comunicação adaptados ao incidente.

  • Alterações no status, por exemplo, quando um incidente é corrigido.

Post mortem

Todos os incidentes têm um post mortem internamente para que seja entendidos por completo e para identificar melhorias de confiabilidade que o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações sobre postmortems no Google, consulte o Capítulo 15 do manual Engenharia de confiabilidade do site.

Relatório de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios de incidentes que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura de incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e liberar post mortems é ser transparente e demonstrar nosso compromisso em criar serviços estáveis para nossos clientes.

Perguntas frequentes

Que tipo de informação de status posso encontrar na página inicial do painel?

O painel de status do Google Cloud fornece informações de status sobre os serviços que fazem parte do Google Cloud Platform. O status pode incluir interrupções no serviço, paralisações ou mensagens de informações sobre um problema temporário.

Onde posso encontrar informações sobre interrupções e falhas de serviço anteriores?

A página Resumo e histórico é um repositório que documenta interrupções e falhas ocorridas nos últimos 365 dias. Clique no número de um incidente para ver as postagens sobre o incidente enquanto ele estava em andamento, bem como todos os relatórios de resumo do incidente escritos pela equipe de atendimento ao cliente.

O que fazer se eu estiver enfrentando um problema que não está listado no painel?

O problema pode estar isolado dos projetos ou das instâncias ou afetando um número limitado de clientes. Entre em contato com o Atendimento ao cliente se houver algum problema que não esteja listado no painel.

Se você estiver usando o Console do Google Cloud, clique na ferramenta Enviar feedback no canto superior direito para relatar problemas.

Quem atualiza o painel?

A equipe de atendimento ao cliente global monitora o status de serviços que usam muitos tipos diferentes de sinais e atualiza o painel caso algum problema seja disseminado. Se necessário, ela publicará um relatório de análise detalhado sobre o incidente depois que ele tiver sido resolvido.

Qual é a diferença entre um incidente e uma interrupção?

Embora esses termos sejam frequentemente usados como sinônimos, o Painel de status do Cloud e as nossas comunicações externas usam incidente para se referir a qualquer período de serviço com capacidade reduzida e interrupção para indicar apenas mais graves, em que um produto não funciona em grande escala.