Gerenciar e monitorar sua infraestrutura do Google Cloud

Last reviewed 2023-11-13 UTC

Depois de implantar um aplicativo na produção no Google Cloud, talvez seja necessário modificar a infraestrutura usada. Por exemplo, talvez seja necessário alterar os tipos de máquina das VMs ou a classe de armazenamento dos buckets do Cloud Storage. Nesta parte do Guia de confiabilidade da infraestrutura do Google Cloud, resumimos as diretrizes de gestão da mudança que você pode seguir para reduzir o risco de confiabilidade dos recursos de infraestrutura. Nesta parte, também descrevemos como monitorar a disponibilidade da infraestrutura do Google Cloud.

Implantar mudanças na infraestrutura de maneira progressiva

Quando for preciso alterar o máximo possível da infraestrutura do Google Cloud, implante as alterações na produção progressivamente. Por exemplo, se for preciso alterar os tipos de máquina das VMs, implante as alterações em algumas VMs em uma zona e monitore os efeitos das alterações. Se você observar algum problema, reverta a infraestrutura rapidamente para o estado estável anterior. Faça o diagnóstico e resolva os problemas, em seguida, reinicie o processo de implantação progressiva. Depois de verificar se a carga de trabalho é executada conforme o esperado, implante gradualmente as alterações em toda a infraestrutura.

Para mais informações sobre estratégias para testar e implantar as mudanças de maneira confiável na infraestrutura e nos aplicativos do Google Cloud, consulte Estratégias de implantação e teste de aplicativos.

Controlar alterações nos recursos globais

Ao modificar recursos globais como redes VPC e balanceadores de carga globais, verifique as alterações antes de implantá-las em produção.

Como os recursos globais são resilientes a falhas de zona e região, é possível decidir usar instâncias únicas de determinados recursos globais na sua arquitetura. Nessas implantações, os recursos globais podem se tornar pontos únicos de falha. Por exemplo, se você configurar de maneira acidental uma regra de encaminhamento do balanceador de carga global, o front-end poderá parar de receber ou processar solicitações do usuário. Efetivamente, o aplicativo não está disponível para os usuários nesse caso, embora o back-end esteja intacto. Para evitar essas situações, tenha um controle rigoroso sobre as mudanças nos recursos globais. Por exemplo, no seu processo de revisão de alterações, é possível classificar modificações de recursos globais como mudanças de alto risco que outros revisores precisam verificar e aprovar.

Monitorar a disponibilidade da infraestrutura do Google Cloud

É possível monitorar o status atual dos serviços do Google Cloud em todas as regiões usando o Painel de integridade do serviço do Google Cloud. Também é possível ver um histórico de falhas de infraestrutura (chamadas de incidentes) para cada serviço. A página do histórico fornece os detalhes de cada incidente, como a duração, as regiões e as zonas afetadas, os serviços afetados e as soluções recomendadas.

Também é possível visualizar incidentes relevantes para seu projeto usando o Custom Service Health. O Service Health também permite solicitar informações de incidentes usando uma API por projeto ou organização e configurar alertas.

O Google fornece atualizações regulares sobre o status de cada incidente, incluindo um tempo estimado para a próxima atualização. É possível receber atualizações de status de maneira programática para incidentes usando um feed RSS. Para mais informações, consulte Incidentes e o Painel de integridade do serviço do Google Cloud.