Monitoramento em um ambiente de Solução Bare Metal
A Solução Bare Metal permite executar cargas de trabalho especializadas em extensões regionais localizadas perto dos data centers do Google Cloud. Ao implementar um ambiente da Solução Bare Metal, é possível reduzir os custos gerais e os riscos associados à migração para a nuvem.
Visão geral do Monitoring
Uma das nossas principais prioridades é fornecer a maior disponibilidade para o ambiente da Solução Bare Metal. Por esse motivo, o Google Cloud e nossos parceiros realizam várias atividades de monitoramento. Veja a seguir uma lista de dispositivos de infraestrutura em um ambiente da Solução Bare Metal que monitoramos:
Infraestrutura de computação
- Hardware do servidor
Infraestrutura de armazenamento
- Dispositivos de armazenamento
- Interruptores de SAN
Infraestrutura de rede
- Roteadores
- Chaves
- Infraestrutura de interconexão
O Google Cloud também monitora o ambiente do data center, incluindo a temperatura e a umidade do servidor.
Não monitoramos sistemas operacionais, atividades e cargas de trabalho no nível do aplicativo e o tráfego de rede que chega e sai dos servidores da Solução Bare Metal. Para visualizar um utilitário que permita usar o Operações do Cloud para monitorar a atividade no nível do SO, entre em contato com o Google Cloud Sales.
Ferramentas de monitoramento
Nosso parceiro usa soluções de software de nível comercial para monitoramento em conformidade com a Biblioteca de Infraestrutura de Tecnologia da Informação (ITIL, na sigla em inglês). O Google Cloud e nosso parceiro também usam os serviços do Google Cloud, como Pub/Sub, funções do Cloud Run e Cloud Monitoring, para coletar e processar esses dados de monitoramento. Nossos sistemas internos de tíquetes e notificações funcionam diretamente com esses serviços.
Dados de monitoramento
Em alto nível, nossos dados de monitoramento vêm das seguintes fontes:
- Armadilhas SNMP
- Mensagens Syslog
- Mensagens de um software de gerenciamento dedicado
- Interface de gerenciamento de plataforma inteligente (IPMI, na sigla em inglês)
Métricas comuns dos dispositivos monitorados:
- Uso de CPU
- Interface de rede:
- Uso da largura de banda
- Descarte de pacotes
- Erros
Alertas
O Google Cloud realizou atividades extensivas de normalização e validação para os requisitos específicos do ambiente da Solução Bare Metal. Se um evento certificado estiver fora do intervalo normal, o sistema de monitoramento aciona um alerta.
Gerenciamento de incidentes
O Google Cloud e nosso provedor de infraestrutura parceiro têm uma equipe dedicada 24 horas responsável por respostas a incidentes. Uma equipe de ponte também está disponível 24 horas para realizar a análise inicial de cada tíquete de suporte e tomar as ações necessárias para mitigar o problema. Com base na gravidade do incidente, implantamos as equipes apropriadas para resolvê-lo.
O Cloud Customer Care trabalha com a Equipe de SysOps do Google Cloud Engineering. Ele pode fornecer atualizações e coordenar qualquer ação que precise de ajuda. Conforme necessário, a equipe do Google Cloud Engineering trabalha com o parceiro de provedor de infraestrutura ou fornecedores de hardware para ajudar a resolver o problema.
Processo de análise da causa raiz
Quando os incidentes têm um impacto amplo e grave, o Google fornece relatórios de incidentes que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura de incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade.
Esperamos que esse resumo dos nossos recursos de monitoramento ajude você a confiar no ambiente da Solução Bare Metal à medida que migrar sua infraestrutura e seus aplicativos para a nuvem.