Monitoramento em um ambiente de Solução Bare Metal

A Solução Bare Metal permite executar cargas de trabalho especializadas em extensões regionais localizadas perto dos data centers do Google Cloud. Ao implementar um ambiente da Solução Bare Metal, é possível reduzir os custos gerais e os riscos associados à migração para a nuvem.

Visão geral do Monitoring

Uma das nossas principais prioridades é fornecer a maior disponibilidade para o ambiente da Solução Bare Metal. Por esse motivo, o Google Cloud e nossos parceiros realizam várias atividades de monitoramento. Veja a seguir uma lista de dispositivos de infraestrutura em um ambiente da Solução Bare Metal que monitoramos:

Infraestrutura de computação

  • Hardware do servidor

Infraestrutura de armazenamento

  • Dispositivos de armazenamento
  • Interruptores de SAN

Infraestrutura de rede

  • Roteadores
  • Chaves
  • Infraestrutura de interconexão

O Google Cloud também monitora o ambiente do data center, incluindo a temperatura e a umidade do servidor.

Não monitoramos sistemas operacionais, atividades e cargas de trabalho no nível do aplicativo e o tráfego de rede que chega e sai dos servidores da Solução Bare Metal. Para visualizar um utilitário que permita usar o Operações do Cloud para monitorar a atividade no nível do SO, entre em contato com o Google Cloud Sales.

Ferramentas de monitoramento

Nosso parceiro usa soluções de software de nível comercial para monitoramento em conformidade com a Biblioteca de Infraestrutura de Tecnologia da Informação (ITIL, na sigla em inglês). O Google Cloud e nosso parceiro também usam os serviços do Google Cloud, como Pub/Sub, funções do Cloud Run e Cloud Monitoring, para coletar e processar esses dados de monitoramento. Nossos sistemas internos de tíquetes e notificações funcionam diretamente com esses serviços.

Dados de monitoramento

Em alto nível, nossos dados de monitoramento vêm das seguintes fontes:

  • Armadilhas SNMP
  • Mensagens Syslog
  • Mensagens de um software de gerenciamento dedicado
  • Interface de gerenciamento de plataforma inteligente (IPMI, na sigla em inglês)

Métricas comuns dos dispositivos monitorados:

  • Uso de CPU
  • Interface de rede:
    • Uso da largura de banda
    • Descarte de pacotes
    • Erros

Alertas

O Google Cloud realizou atividades extensivas de normalização e validação para os requisitos específicos do ambiente da Solução Bare Metal. Se um evento certificado estiver fora do intervalo normal, o sistema de monitoramento aciona um alerta.

Gerenciamento de incidentes

O Google Cloud e nosso provedor de infraestrutura parceiro têm uma equipe dedicada 24 horas responsável por respostas a incidentes. Uma equipe de ponte também está disponível 24 horas para realizar a análise inicial de cada tíquete de suporte e tomar as ações necessárias para mitigar o problema. Com base na gravidade do incidente, implantamos as equipes apropriadas para resolvê-lo.

O Cloud Customer Care trabalha com a Equipe de SysOps do Google Cloud Engineering. Ele pode fornecer atualizações e coordenar qualquer ação que precise de ajuda. Conforme necessário, a equipe do Google Cloud Engineering trabalha com o parceiro de provedor de infraestrutura ou fornecedores de hardware para ajudar a resolver o problema.

Processo de análise da causa raiz

Quando os incidentes têm um impacto amplo e grave, o Google fornece relatórios de incidentes que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura de incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade.

Esperamos que esse resumo dos nossos recursos de monitoramento ajude você a confiar no ambiente da Solução Bare Metal à medida que migrar sua infraestrutura e seus aplicativos para a nuvem.