Como o Google protege o espaço físico–lógico em um data center

Este conteúdo foi atualizado pela última vez em maio de 2023 e representa o estado do momento em que foi escrito. Os sistemas e as políticas de segurança do Google podem mudar no futuro, à medida que a proteção dos clientes é aprimorada.

Cada data center do Google é um ambiente grande e diversificado de máquinas, dispositivos de rede e sistemas de controle. Os data centers são projetados como complexos industriais que exigem uma ampla variedade de papéis e habilidades para serem gerenciados, mantidos e operados.

Nesses ambientes complexos, a segurança dos seus dados é nossa maior prioridade. O Google implementa seis camadas de controles físicos (vídeo) e muitos controles lógicos nas máquinas. Também simulamos continuamente cenários de ameaça em que alguns controles falham ou não são aplicados.

Alguns cenários de ameaça simulam o risco de pessoas com informações privilegiadas e supõem que um invasor já tem acesso legítimo ao andar do data center. Esses cenários revelam um espaço entre controles físicos e lógicos que também exigem defesa em profundidade. Esse espaço, definido pelo distanciamento entre uma máquina e o ambiente de execução dessa máquina, é conhecido como o espaço físico–lógico.

O espaço físico–lógico é semelhante ao ambiente físico em torno do seu smartphone. Mesmo que seu smartphone esteja bloqueado, você só concede acesso físico a pessoas que tenham um motivo válido para acessá-lo. O Google usa a mesma abordagem para as máquinas que armazenam seus dados.

Resumo dos controles físicos–lógicos

No espaço físico–lógico, o Google usa quatro controles que funcionam em conjunto:

  • Aumento da proteção do hardware: reduz os caminhos de acesso físico de cada máquina, conhecidos como superfície de ataque, das seguintes maneiras:
    • Minimiza vetores de acesso físico, como portas.
    • Bloqueia os caminhos restantes no nível do firmware, incluindo o sistema básico de entrada/saída (BIOS, na sigla em inglês) e todos os controladores de gerenciamento e dispositivos periféricos.
  • Controle de acesso baseado em tarefas: concede acesso a gabinetes de rack seguros apenas para funcionários que tenham uma justificativa de negócios válida e por tempo limitado.
  • Detecção de eventos anômalos: gera alertas quando os controles físicos–lógicos detectam eventos anômalos.
  • Autodefesa do sistema: reconhece alterações no ambiente físico e responde a ameaças com ações de defesa.

Juntos, esses controles fornecem uma resposta de defesa em profundidade a ocorrências de segurança no espaço físico–lógico. O diagrama a seguir mostra os quatro controles ativos em um gabinete de rack seguro.

Os quatro controles ativos em um gabinete de rack seguro.

Aumento da proteção do hardware

O aumento da proteção do hardware ajuda a reduzir a superfície de ataque físico para minimizar os riscos residuais.

Um data center corporativo convencional tem uma planta baixa aberta e fileiras de racks sem barreiras entre o painel frontal e as pessoas no andar do data center. Esse data center pode ter máquinas com muitas portas externas, como USB-A, Micro USB ou RJ-45, que aumentam o risco de um ataque. Qualquer pessoa com acesso físico ao andar do data center pode acessar o armazenamento removível com rapidez e facilidade ou conectar um dispositivo USB com malware a uma porta exposta no painel frontal. Os data centers do Google usam o aumento da proteção do hardware como controle básico para ajudar a reduzir esses riscos.

O aumento da proteção do hardware é um conjunto de medidas preventivas no rack e nas respectivas máquinas que ajuda a reduzir o máximo possível a superfície de ataque físico. O aumento da proteção nas máquinas inclui as seguintes ações:

  • Remover ou desativar as portas expostas e bloquear as portas restantes no nível do firmware.
  • Monitorar a mídia de armazenamento com sinais de detecção de adulterações de alta fidelidade.
  • Criptografar dados em repouso.
  • Quando compatível com o hardware, usar o atestado do dispositivo para impedir que dispositivos não autorizados sejam implantados no ambiente de execução.

Em alguns cenários, para garantir que nenhuma pessoa tenha acesso físico às máquinas, o Google também instala gabinetes de rack seguros que ajudam a impedir adulterações. Os gabinetes de rack seguros oferecem uma barreira física imediata aos transeuntes e também podem acionar alarmes e notificações para a equipe de segurança. Os gabinetes, combinados com as correções de máquina discutidas anteriormente, oferecem uma camada de proteção poderosa ao espaço físico–lógico.

As imagens a seguir ilustram a progressão de racks totalmente abertos para gabinetes de rack seguros com aumento da proteção do hardware completo.

  • A imagem a seguir mostra um rack sem aumento da proteção do hardware:

    Um rack sem aumento da proteção do hardware.

  • A imagem a seguir mostra um rack com um pouco de aumento da proteção do hardware:

    Um rack com um pouco de aumento da proteção do hardware.

  • A imagem a seguir mostra as partes frontal e traseira de um rack com aumento da proteção do hardware completo:

    As partes frontal e traseira de um rack com aumento da proteção do hardware completo.

Controle de acesso baseado em tarefas

Os controles de acesso baseados em tarefas (TBAC, na sigla em inglês) ajudam a garantir que apenas pessoas com uma necessidade comercial válida possam acessar máquinas sensíveis.

Os gabinetes de rack seguros precisam equilibrar a segurança física com o acesso por motivos válidos. Para manter nossa complexa infraestrutura aos clientes, o Google precisa conceder acesso rápido e confiável a necessidades comerciais válidas, como reparos de máquinas. Além disso, as tentativas de acesso não autorizado precisam ser registradas e sinalizadas para investigação.

O TBAC permite os dois recursos. A equipe do data center recebe acesso por tempo limitado a um gabinete de rack seguro individual com base em tarefas comerciais específicas, e os sistemas TBAC aplicam esse acesso. O TBAC registra todas as tentativas de acesso e alerta a equipe de segurança quando possíveis ocorrências de segurança são detectadas.

Por exemplo: depois de receber uma solicitação de trabalho, um supervisor pode gerar uma tarefa para uma máquina que está hospedada em um rack chamado Gabinete de rack seguro 123. Em seguida, o supervisor define um período para o trabalho (por exemplo, duas horas). Quando um técnico assume o tíquete de trabalho, o TBAC permite acesso ao Gabinete de rack seguro 123 para essa pessoa e inicia um timer de duas horas quando a porta do gabinete é aberta. O TBAC revoga o acesso ao Gabinete de rack seguro 123 quando as duas horas terminam ou quando o técnico encerra a tarefa, o que marca o trabalho como concluído.

Os gabinetes de rack seguros têm vários mecanismos de autenticação e autorização. O gabinete mais básico usa uma chave física, que concede autenticação junto com autorização. Ou seja, fornece apenas um controle de segurança de baixa granularidade. Para maior valor de segurança, alguns gabinetes usam teclados com PINs rotativos e atribuídos individualmente.

Em alguns casos, o Google emprega autenticação de dois fatores combinada com outro mecanismo de autorização. A autenticação começa com o indivíduo passando seu respectivo crachá, e o segundo fator pode ser um PIN atribuído ao usuário ou um fator mais sofisticado, como biometria.

Detecção de eventos anômalos

A detecção de eventos anômalos permite à equipe de segurança saber quando as máquinas sofrem eventos inesperados.

Em todo o setor, as organizações podem levar meses ou anos para descobrir violações de segurança e, geralmente, apenas depois de ocorrerem perdas ou danos significativos. O indicador de comprometimento (IoC) crítico pode se perder em um alto volume de dados de geração de registros e telemetria de milhões de máquinas de produção. No entanto, o Google usa o TBAC e vários fluxos de dados para ajudar a identificar eventos de segurança físicos–lógicos em tempo real. Esse controle é chamado de detecção de eventos anômalos.

Máquinas modernas monitoram e registram seus estados físicos e os eventos que ocorrem no espaço físico–lógico. As máquinas recebem essas informações através de software de sistema automatizado constante. Esse software pode ser executado em minicomputadores dentro da máquina, chamados controladores de gerenciamento da placa base (BMCs, na sigla em inglês), ou como parte de um daemon do sistema operacional. Esse software relata eventos importantes, como tentativas de login, inserção de dispositivos físicos e alarmes de sensor, como um sensor de adulteração de gabinete.

Com a detecção de eventos anômalos, o Google combina o contexto dos eventos informados pelo sistema com o rastreamento de trabalho do TBAC para detectar atividades incomuns. Por exemplo, se uma máquina no Gabinete de rack seguro 123 relatar que um disco rígido foi removido, nossos sistemas verificarão se uma troca de disco rígido foi autorizada nessa máquina. Se não houver autorização, o evento relatado, combinado com os dados de autorização baseados em tarefas, acionará um alerta à equipe de segurança para maior investigação.

Em máquinas com raiz de confiança do hardware, os sinais de detecção de eventos anômalos são ainda mais fortes. A raiz de confiança do hardware permite ao software do sistema, como o firmware BMC, atestar que ele foi inicializado com segurança. Por isso, os sistemas de detecção do Google têm um grau de confiança ainda mais alto de que os eventos relatados são válidos. Para mais informações sobre raízes de confiança independentes, consulte Certificação remota de máquinas desagregadas.

Autodefesa do sistema

A autodefesa do sistema permite aos sistemas responderem a possíveis violações com ações de defesa imediatas.

Em alguns cenários de ameaça, consideramos que um invasor no espaço físico–lógico pode burlar as medidas de acesso físico discutidas em Aumento da proteção do hardware. Esse invasor pode estar atacando os dados dos usuários ou um processo sensível em execução em alguma máquina.

Para reduzir esse risco, o Google implementa a autodefesa do sistema: um controle que envia uma resposta imediata e decisiva a qualquer possível violação. Esse controle usa a telemetria do ambiente físico para agir no ambiente lógico.

A maioria dos ambientes de produção de grande escala tem várias máquinas físicas em um só rack. Cada máquina física executa várias cargas de trabalho, como máquinas virtuais (VMs) ou contêineres do Kubernetes. Cada VM executa o próprio sistema operacional usando memória e armazenamento dedicados.

Para determinar quais cargas de trabalho são expostas a ocorrências de segurança, o Google agrega os dados de telemetria dos controles de aumento da proteção do hardware, do TBAC e da detecção de eventos anômalos. Em seguida, correlacionamos os dados para gerar um pequeno conjunto de eventos que são de alto risco e exigem ação imediata. Por exemplo, a combinação de um alarme da porta do rack seguro, um sinal de abertura do chassi da máquina e a falta de uma autorização de trabalho válida pode ser um evento de alto risco.

Quando o Google detecta esses eventos, os sistemas podem realizar ações imediatas:

  • As cargas de trabalho expostas podem encerrar serviços sensíveis de forma imediata e excluir permanentemente dados sensíveis.
  • A malha de rede de computadores pode isolar o rack afetado.
  • As cargas de trabalho afetadas podem ser reprogramadas em outras máquinas ou até mesmo em data centers, dependendo da situação.

Graças ao controle de autodefesa do sistema, mesmo que um invasor consiga acessar fisicamente uma máquina, ele não conseguirá extrair dados nem se mover lateralmente no ambiente.

A seguir


Autores: Thomas Koh e Kevin Plybon