Como a Google protege o espaço físico para lógico num centro de dados

Este conteúdo foi atualizado pela última vez em maio de 2024 e representa o status quo no momento em que foi escrito. As políticas e os sistemas de segurança da Google podem mudar no futuro, à medida que melhoramos continuamente a proteção dos nossos clientes.

Cada centro de dados da Google é um ambiente grande e diversificado de máquinas, dispositivos de rede e sistemas de controlo. Os centros de dados são concebidos como complexos industriais que requerem uma vasta gama de funções e competências para gerir, manter e operar.

Nestes ambientes complexos, a segurança dos seus dados é a nossa principal prioridade. A Google implementa seis camadas de controlos físicos (vídeo) e muitos controlos lógicos nas próprias máquinas. Também modelamos continuamente cenários de ameaças nos quais determinados controlos falham ou não são aplicados.

Alguns cenários de ameaças modelam o risco interno e partem do princípio de que um atacante já tem acesso legítimo ao espaço do centro de dados. Estes cenários revelam um espaço entre os controlos físicos e lógicos que também requerem uma defesa em profundidade. Esse espaço, definido como a distância de um braço de uma máquina num rack ao ambiente de tempo de execução da máquina,é conhecido como o espaço físico para lógico.

O espaço físico para lógico é semelhante ao ambiente físico à volta do seu telemóvel. Mesmo que o telemóvel esteja bloqueado, só deve dar acesso físico a pessoas que tenham um motivo válido para o acesso. A Google adota a mesma abordagem em relação às máquinas que contêm os seus dados.

Resumo dos controlos físico-lógicos

No espaço físico para lógico, a Google usa três controlos que funcionam em conjunto:

  • Proteção de hardware: reduza os caminhos de acesso físico de cada máquina, conhecidos como superfície de ataque, das seguintes formas:
    • Minimize os vetores de acesso físico, como as portas.
    • Bloqueie os caminhos restantes ao nível do firmware, incluindo o sistema básico de entrada/saída (BIOS), quaisquer controladores de gestão e dispositivos periféricos.
  • Deteção de eventos anómalos: gere alertas quando os controlos físico-lógicos detetam eventos anómalos.
  • Autodefesa do sistema: reconhecer uma alteração no ambiente físico e responder a ameaças com ações defensivas.

Em conjunto, estes controlos oferecem uma resposta de defesa em profundidade a eventos de segurança que ocorrem no espaço físico para lógico. O diagrama seguinte mostra todos os três controlos que estão ativos num invólucro de rack seguro.

Os três controlos que estão ativos num invólucro de rack seguro.

Fortalecimento do hardware

A proteção do hardware ajuda a reduzir a superfície de ataque físico para minimizar os riscos residuais.

Um centro de dados empresarial convencional tem uma planta aberta e filas de racks sem barreiras entre o painel frontal e as pessoas no piso do centro de dados. Um centro de dados deste tipo pode ter máquinas com muitas portas externas, como USB-A, micro USB ou RJ-45, que aumentam o risco de um ataque. Qualquer pessoa com acesso físico ao espaço do centro de dados pode aceder de forma rápida e fácil ao armazenamento removível ou ligar uma pen USB com software malicioso a uma porta do painel frontal exposta. Os centros de dados da Google usam a proteção de hardware como um controlo fundamental para ajudar a mitigar estes riscos.

O reforço de hardware é um conjunto de medidas preventivas no rack e nas respetivas máquinas que ajuda a reduzir a superfície de ataque físico o máximo possível. O reforço da segurança nas máquinas inclui o seguinte:

  • Remova ou desative as portas expostas e bloqueie as portas restantes ao nível do firmware.
  • Monitorize suportes de armazenamento com sinais de deteção de violação de alta fidelidade.
  • Encripte dados em repouso.
  • Quando suportado pelo hardware, use a atestação de dispositivos para ajudar a impedir que dispositivos não autorizados sejam implementados no ambiente de tempo de execução.

Em determinados cenários, para ajudar a garantir que nenhum funcionário tem acesso físico às máquinas, a Google também instala caixas de racks seguras que ajudam a impedir ou dissuadir a adulteração. Os invólucros seguros para racks oferecem uma barreira física imediata para os transeuntes e também podem acionar alarmes e notificações para o pessoal de segurança. Os recintos, combinados com as correções automáticas abordadas anteriormente, oferecem uma camada de proteção avançada para o espaço físico-lógico.

As imagens seguintes ilustram a progressão desde racks totalmente abertos a recintos de racks seguros com fortalecimento total do hardware.

  • A imagem seguinte mostra um rack sem reforço de hardware:

    Um rack sem reforço de hardware.

  • A imagem seguinte mostra um rack com algum reforço de hardware:

    Um rack com algum reforço de hardware.

  • A imagem seguinte mostra a parte frontal e posterior de um rack com proteção total do hardware:

    A parte frontal e posterior de um rack com reforço de hardware completo.

Deteção de eventos anómalos

A deteção de eventos anómalos permite que a equipa de segurança saiba quando as máquinas têm eventos inesperados.

A nível da indústria, as organizações podem demorar meses ou anos a descobrir violações de segurança e, muitas vezes, só depois de ocorrerem danos ou perdas significativos. O indicador de comprometimento (IoC) crítico pode perder-se num volume elevado de dados de registo e telemetria de milhões de máquinas de produção. No entanto, a Google usa várias streams de dados para ajudar a identificar potenciais eventos de segurança físico-lógicos em tempo real. Este controlo é denominado deteção de eventos anómalos.

As máquinas modernas monitorizam e registam o respetivo estado físico, bem como os eventos que ocorrem no espaço físico para o espaço lógico. As máquinas recebem estas informações através de software de sistema automatizado sempre presente. Este software pode ser executado em computadores em miniatura no interior da máquina, denominados controladores de gestão da placa base (BMCs), ou como parte de um daemon do sistema operativo. Este software comunica eventos importantes, como tentativas de início de sessão, inserção de dispositivos físicos e alarmes de sensores, como um sensor de violação do invólucro.

Para máquinas com raiz de confiança de hardware, os sinais de deteção de eventos anómalos tornam-se ainda mais fortes. A raiz de confiança de hardware permite que o software do sistema, como o firmware do BMC, ateste que foi iniciado em segurança. Por conseguinte, os sistemas de deteção da Google têm um grau de confiança ainda mais elevado de que os eventos comunicados são válidos. Para mais informações sobre origens de fidedignidade independentes, consulte o artigo Atestação remota de máquinas desagregadas.

Autodefesa do sistema

A autodefesa do sistema permite que os sistemas respondam a potenciais comprometimentos com uma ação defensiva imediata.

Alguns cenários de ameaças partem do princípio de que um atacante no espaço físico para o lógico pode derrotar as medidas de acesso físico abordadas no artigo Proteção de hardware. Um atacante deste tipo pode estar a segmentar dados do utilizador ou um processo sensível que esteja a ser executado numa máquina.

Para mitigar este risco, a Google implementa a autodefesa do sistema: um controlo que fornece uma resposta imediata e decisiva a qualquer potencial comprometimento. Este controlo usa a telemetria do ambiente físico para atuar no ambiente lógico.

A maioria dos ambientes de produção em grande escala tem várias máquinas físicas num rack. Cada máquina física executa várias cargas de trabalho, como máquinas virtuais (VMs) ou contentores do Kubernetes. Cada MV executa o seu próprio sistema operativo com memória e armazenamento dedicados.

Para determinar que cargas de trabalho estão expostas a eventos de segurança, a Google agrega os dados de telemetria dos controlos de reforço de hardware e a deteção de eventos anómalos. Em seguida, correlacionamos os dados para gerar um pequeno conjunto de eventos de alto risco que requerem ação imediata. Por exemplo, a combinação de um alarme de porta do rack seguro e um sinal de abertura do chassis da máquina pode constituir um evento de alto risco.

Quando a Google deteta estes eventos, os sistemas podem tomar medidas imediatas:

  • As cargas de trabalho expostas podem terminar imediatamente os serviços confidenciais e limpar todos os dados confidenciais.
  • A estrutura de rede pode isolar o rack afetado.
  • As cargas de trabalho afetadas podem ser reagendadas noutras máquinas ou até mesmo centros de dados, consoante a situação.

Devido ao controlo de autodefesa do sistema, mesmo que um atacante consiga obter acesso físico a uma máquina, não pode extrair dados nem mover-se lateralmente no ambiente.

O que se segue?