Incidentes e o painel do Google Cloud Service Health

O painel do Google Cloud Service Health (CSH) fornece informações de status de os produtos do Google Cloud organizados por região e localidade global.

Incidente grave

O Google Cloud define um incidente como um incidente grave se ele atende a todos estas condições:

  • Alto escopo: o incidente tem impacto global ou está afetando a porcentagem de projetos de clientes em uma ou mais regiões.
  • Gravidade alta: um ou mais produtos estão indisponíveis ou muito degradados.

Em casos raros de incidentes graves, agimos com urgência para resolver os problemas.

Durante um incidente grave, o status do problema é comunicado por meio do Painel do Google Cloud Service Health. Um incidente grave é marcado como Interrupção do serviço nos painéis de status. Após a resolução do problema, nós publicar um relatório de incidente público que inclua os detalhes dos fatores contribuíram para o incidente e as medidas que planejamos tomar para prevenir tais na ocorrência de incidentes.

No caso de incidentes de menor escopo, um relatório não público pode ser feito disponíveis para os clientes.

Ciclo de vida de um incidente

Quando uma degradação do produto é detectada, a equipe de suporte do Google Cloud e de engenharia de produto trabalham em conjunto para resolver o incidente com atualizações.

O diagrama a seguir mostra as responsabilidades da engenharia e equipes de suporte:

Diagrama do ciclo de vida

Você pode ler mais sobre cada uma dessas responsabilidades a seguir em outras seções.

Detecção

O Google Cloud usa monitoramento interno e de caixa preta para detectar incidentes. Para mais informações, consulte o Capítulo 6 do manual Engenharia de confiabilidade do site.

Se você tiver o Suporte Premium, Enhanced ou Standard, um incidente criando um caso de suporte Console do Google Cloud: Caso contrário, use este formulário.

Resposta inicial

Quando um incidente é detectado, a equipe do Google Cloud Customer Care gerencia comunicações. A notificação inicial de um incidente geralmente é esparsa e quase sempre é mencionado apenas o nome do produto em questão. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes. Os detalhes serão fornecidos nas atualizações subsequentes.

Para fornecer o máximo de informações possível, sem sobrecarregar você com problemas não relacionados ao seu incidentes, são usados diferentes canais de comunicação, dependendo do escopo e da gravidade de um problema:

Diagrama de comunicação

Recomendamos usar Personalized Service Health (em inglês) como primeira parada ao enfrentar uma interrupção do serviço produtos específicos. Até No Personalized Service Health, é possível visualizar as interrupções relevantes para seus projetos. Leia mais sobre o Personalized Service Health e como integrá-lo ao incidente de gerenciamento de projetos.

O Painel do Google Cloud Service Health exibe incidentes graves e está disponível para casos raros O Personalized Service Health não está disponível ou foi afetado por uma interrupção.

Se você não ativou o Personalized Service Health para seu projeto ou se o produto ainda não tiver suporte do Personalized Service Health, não recomendamos verificar se há interrupções ativas nos seguintes itens:

Os problemas conhecidos exibidos na página de suporte do console do Google Cloud também incluem a incidentes pequenos e de escopo limitado.

Os casos de suporte são adequados para problemas que não se qualificam como incidentes ou em que é necessário um toque humano. Na página "Problemas conhecidos", crie um caso a partir de um incidente publicado para obter atualizações regulares e poder falar com a equipe de suporte.

Investigar

As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também é realizado por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o Capítulo 12 do manual Engenharia de confiabilidade do site.

Mitigação/correção

Um problema é considerado corrigido somente quando o Google tiver certeza de que as alterações feitas terminarão com o impacto de uma vez por todas. Por exemplo, a correção reverte uma alteração que acionou um incidente.

Enquanto um incidente está em andamento, o Customer Care e a equipe do produto tentam mitigar o problema. A mitigação ocorre quando o impacto ou o escopo de uma problema pode ser reduzido, por exemplo, fornecendo temporariamente recursos adicionais a um produto com sobrecarga.

Se nenhuma mitigação for possível, a equipe do Customer Care encontrará e informará soluções alternativas. Soluções alternativas são as etapas que você executa para solucionar o problema subjacente, apesar do incidente. Uma exemplo de solução alternativa é o uso de configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.

Acompanhar

Durante um incidente, a equipe do Customer Care fornece atualizações regulares. Normalmente, as atualizações fornecem o seguinte:

  • Mais informações sobre o incidente, como mensagens de erro, zonas ou regiões afetadas, quais recursos foram afetados ou o percentual de impacto.

  • O progresso da atenuação, incluindo quaisquer soluções alternativas.

  • Cronogramas de comunicação adaptados ao incidente.

  • Alterações no status, por exemplo, quando um incidente é corrigido.

Post mortem

Todos os incidentes têm um post mortem internamente para que seja entendidos por completo e para identificar melhorias de confiabilidade que o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações sobre postmortems no Google, consulte o Capítulo 15 do manual Engenharia de confiabilidade do site.

Relatório de incidentes

Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios de incidentes que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura de incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e divulgar análises post-mortem a ser transparente e demonstrar nosso compromisso com a criação de produtos estáveis para nossos clientes.

Modelo de dados do incidente

um incidente afetou um ou mais produtos em um ou mais locais; Os incidentes têm um horário de início e de término, além de uma gravidade geral. Um incidente tem atualizações que descrevem como o incidente muda ao longo do tempo, incluindo o status e os locais afetados. Informações do incidente é disponibilizado por um esquema JSON.

O esquema JSON tem campos marcados como Estável e Instável. Em geral, o ID campos são considerados estáveis, enquanto campos como nomes de exibição são considerada Instável e pode ser alterada sem aviso. Use o Stable. campos somente ao integrar com um sistema externo ou criar automação. Consulte Posso criar integrações para consumir os dados exibidos na Painel do Google Cloud Service Health de maneira programática?.

Perguntas frequentes

Que tipo de informação de status posso encontrar no Painel de CSH do Google?

O painel de CSH do Google fornece informações de status sobre produtos que que fazem parte do Google Cloud. O status pode incluir interrupções no produto, falhas temporárias ou mensagens informativas sobre um problema temporário.

Quando um incidente é postado no painel de CSH do Google?

Os incidentes que atendem a qualquer um dos seguintes critérios aparecem no painel do CSH:

Onde encontro informações sobre falhas e interrupções anteriores do produto?

O painel do Google CSH mantém um registro das interrupções e falhas temporárias do produtos do Google Cloud há até cinco anos. O guia Visão geral do O painel mostra o status atual dos produtos por localidade. Para visualizar informações sobre interrupções e falhas temporárias de produtos no último ano, clique Histórico de visualização no painel. Para ver o histórico de falhas temporárias de um produto nos últimos cinco anos, clique em Ver mais. para esse produto.

Como posso visualizar informações de status regionalizado dos produtos do Google Cloud?

O painel do Google CSH exibe o status de todos os produtos do Google Cloud organizados por região e localidade global. Para conferir o status de uma multirregião, clique na guia específica da região.

Posso criar integrações para consumir programaticamente os dados exibidos no painel do Service Health do Google Cloud?

Sim, você pode acessar os dados exibidos no Painel de CSH do Google na da seguinte maneira:

  • Por um feed RSS
  • Por um arquivo de histórico JSON

    Faça o download do esquema para o arquivo JSON aqui.

O feed RSS e o arquivo de histórico JSON fornecem informações de status do incidente que podem consumidos pelas integrações.

Use os campos marcados como Estável no arquivo de histórico JSON em vez dos campos marcado como Instável. Exemplo: se você está tentando identificar programaticamente incidentes que afetam um determinado conjunto de produtos, use os IDs dos produtos (affected_products>id), e não os nomes de exibição.

IDs de produtos versus nomes de produtos

Historicamente, o painel do Google Cloud Service Health não fornece uma mecanismo para localizar o ID de um determinado produto. Desde o início de 2023, O painel do Google Cloud Service Health disponibilizou catálogo de produtos, que oferece esse mapeamento para todos os produtos. Um ID do produto fornece um campo estável para a chave. permitindo que o nome de exibição do produto mude. Prefere mencionar o ID do produto ao identificar programaticamente incidentes que afetam um conjunto de produtos.

E se eu tiver integrações pré-criadas com base no Painel de status do Google Cloud antes da introdução dos relatórios de status regionalizados e da mudança de nome no Painel do Google Cloud Service Health?

No feed RSS e no arquivo JSON, as informações de status regional são além das informações que já estavam sendo publicadas antes da introdução dos relatórios de status regionalizados e mudança no nome Painel de status do Google Cloud. Portanto, esperamos que sua para continuar funcionando. No entanto, se você quiser consumir o status regional informações usando suas integrações, então você precisa modificá-las.

Veja uma descrição detalhada de como as informações regionais são apresentadas em ambos Feed RSS e arquivo JSON:

  • Feed RSS

    As informações de status regional são uma nova adição às informações do feed que eram fornecidas antes da introdução do status regionalizado. Todos os locais relatadas como afetadas são anexadas à mensagem RSS.

  • Arquivo JSON

    Antes da atualização do status regional, o Google Cloud publicou um fluxo incidentes, em que cada incidente continha uma lista dos produtos afetados de atualizações de status para cada um, se houver. Essas atualizações de status continham uma um campo de string não estruturado que continha ou não o local informações imprecisas ou inadequadas.

    Agora, o Google Cloud publica um fluxo de incidentes como antes. No entanto, para cada incidente, cada atualização de status contém as seguintes :

    • updates.affected_locations: contém uma lista estruturada de objetos afetados locais no momento em que a atualização foi postada. Cada registro de atualização O registro most_recent_update contém este campo.
    • currently_affected_locations: contém as informações mais recentes sobre o que foram ativamente impactados pelo incidente. Não gostei updates.affected_locations, esta lista ficará vazia depois que o incidente for resolvido (ou seja, quando end é definido como um valor não vazio).
    • previously_affected_locations: contém uma lista de locais que foram afetadas anteriormente durante um incidente, mas não estão. Conforme o o andamento do incidente, alguns locais podem ter uma resolução de interrupção. Esses locais ainda existirão no previously_affected_locations field. Depois que o incidente for resolvido (ou seja, quando end for definido com um valor não vazio), este campo contém uma lista de todos os locais que foram afetados durante esse o incidente.

O que fazer se eu estiver enfrentando um problema que não está listado no painel?

O painel do Google Cloud Service Health fornece informações de status atuais e históricas de qualquer incidente importante que afete os produtos e serviços do Google Cloud. Se você estiver com um problema que não está listado no painel, talvez ele esteja isolado dos seus projetos ou das suas instâncias ou esteja afetando um número limitado de clientes. Incidentes com menos escopo podem ser listados no Portal de atendimento ao cliente. Você pode entrar em contato com o atendimento ao cliente sobre qualquer problema que não esteja listado no painel.

Se você já usa o painel Personalized Service Health, verifique se o problema está listado para determinar se o projeto ou a instância foram afetados.

Se você estiver usando o console do Google Cloud, clique na ferramenta Enviar feedback no no canto superior direito para informar problemas.

Quem atualiza o painel?

A equipe global de atendimento ao cliente monitora o status dos produtos usando muitos tipos diferentes de sinais e atualiza o painel em caso de um problema generalizado. Se necessário, ela publicará um relatório de análise detalhado sobre o incidente depois que ele tiver sido resolvido.