Cómo Google protege el espacio físico-lógico en un centro de datos

Este contenido se actualizó por última vez en mayo de 2023 y representa el statu quo en el momento de su redacción. Es posible que cambien las políticas y los sistemas de seguridad de Google de ahora en adelante, ya que mejoramos la protección de nuestros clientes de forma continua.

Cada centro de datos de Google es un entorno grande y diverso de máquinas, dispositivos de herramientas de redes y sistemas de control. Los centros de datos están diseñados como complejos industriales que requieren una amplia variedad de funciones y habilidades para administrar, mantener y operar.

En estos entornos complejos, la seguridad de tus datos es nuestra prioridad principal. Google implementa seis capas de controles físicos (video) y muchos controles lógicos en las máquinas. También modelamos de manera continua situaciones de amenaza en las que fallan ciertos controles o estos no se aplican.

Algunas situaciones de amenazas modelan el riesgo de tener usuarios con información privilegiada y suponen que un atacante ya tiene acceso legítimo al piso del centro de datos. En estas situaciones, se revela un espacio entre los controles físicos y lógicos que también requiere una defensa en profundidad. Ese espacio, definido como longitud de brazos desde una máquina en un bastidor para el entorno de ejecución de la máquina, se conoce como el espacio físico-lógico.

El espacio físico-lógico es similar al entorno físico alrededor de tu smartphone. Aunque el teléfono esté bloqueado, solo debes otorgar acceso físico a las personas que tienen un motivo válido para acceder. Google adopta el mismo enfoque para las máquinas que contienen tus datos.

Resumen de controles fisicológicos

Dentro del espacio fisicológico, Google usa cuatro controles que funcionan juntos:

  • Endurecimiento del hardware: Reduce las rutas de acceso físico de cada máquina, conocidas como la superficie de ataque, de las siguientes maneras:
    • Minimiza los vectores de acceso físico, como los puertos.
    • Bloquea las rutas de acceso restantes en el nivel de firmware, incluidos el sistema básico de entrada y salida (BIOS), los controladores de administración y los dispositivos periféricos.
  • Control de acceso basado en tareas: Proporciona acceso a soportes de bastidor seguros solo al personal que tiene una justificación empresarial válida, limitada por el tiempo.
  • Detección de eventos anómalos: Genera alertas cuando los controles físicos a lógicos detectan eventos anómalos.
  • Defensa del sistema: Reconoce un cambio en el entorno físico y responde a las amenazas con acciones defensivas.

Juntos, estos controles proporcionan una respuesta de defensa en profundidad a los eventos de seguridad que ocurren en el espacio físico-lógico. En el siguiente diagrama, se muestran los cuatro controles que están activos en un soporte de bastidor seguro.

Los cuatro controles que están activos en un soporte de bastidor seguro.

Endurecimiento de hardware

El endurecimiento de hardware ayuda a reducir la superficie de ataque física para minimizar los riesgos restantes.

Un centro de datos empresarial convencional tiene un plan de piso abierto y filas de bastidores sin barreras entre el panel frontal y las personas en el piso del centro de datos. Este centro de datos puede tener máquinas con muchos puertos externos, como USB-A, Micro-USB o RJ-45, que aumentan el riesgo de un ataque. Cualquier persona con acceso físico al piso del centro de datos puede acceder con rapidez y facilidad al almacenamiento extraíble o conectar una memoria USB con software malicioso a un puerto del panel frontal expuesto. Los centros de datos de Google usan el endurecimiento de hardware como control fundamental para mitigar estos riesgos.

El endurecimiento de hardware es un conjunto de medidas preventivas en el bastidor y sus máquinas que ayudan a reducir la superficie de ataque física tanto como sea posible. El endurecimiento en las máquinas incluye lo siguiente:

  • Quitar o inhabilitar los puertos expuestos y bloquear los puertos restantes a nivel del firmware.
  • Supervisar los medios de almacenamiento con señales de detección de alteraciones de alta fidelidad.
  • Encriptar datos en reposo.
  • Cuando sea compatible con el hardware, usar la certificación de dispositivo para evitar que se implementen dispositivos no autorizados en el entorno de ejecución.

En ciertas situaciones, para garantizar que ningún personal tenga acceso físico a las máquinas, Google también instala soportes de bastidor seguros que ayudan a prevenir o alterar la manipulación. Los gabinetes de bastidor seguro proporcionan una barrera física inmediata a los transmisores y también pueden activar alarmas y notificaciones para el personal de seguridad. Los soportes, combinados con las soluciones de máquinas que analizamos antes, proporcionan una capa potente de protección para el espacio físico-lógico.

En las siguientes imágenes, se ilustra el progreso desde los bastidores completamente abiertos hasta los soportes de bastidor seguros con endurecimiento de hardware completo.

  • En la siguiente imagen, se muestra un bastidor sin endurecimiento de hardware:

    Un bastidor sin endurecimiento de hardware.

  • En la siguiente imagen, se muestra un bastidor con endurecimiento de hardware:

    Un bastidor con endurecimiento de hardware.

  • En la siguiente imagen, se muestran el frente y la parte posterior de un bastidor con endurecimiento de hardware completo:

    La parte frontal y posterior de un bastidor con endurecimiento de hardware completo.

Control de acceso basado en tareas

Los controles de acceso basados en tareas (TBAC) ayudan a garantizar que solo el personal con una necesidad empresarial válida pueda acceder a máquinas sensibles.

Los soportes de bastidor seguros deben equilibrar la seguridad física con el acceso por motivos válidos. A fin de mantener nuestra infraestructura compleja para nuestros clientes, Google debe poder otorgar acceso rápido y confiable a las necesidades comerciales válidas, como las reparaciones de máquinas. Además, los intentos de acceso no autorizados se deben registrar y marcar para que se realicen investigaciones.

TBAC habilita ambas funciones. El personal del centro de datos recibe acceso con límite de tiempo a un soporte de bastidor seguro individual basado en tareas empresariales específicas, y los sistemas de TBAC aplican ese acceso. TBAC registra todos los intentos de acceso y alerta al personal de seguridad cuando se detectan posibles eventos de seguridad.

Por ejemplo, después de recibir una solicitud de trabajo, un supervisor puede generar una tarea para una máquina que se aloja en un bastidor llamado Secure Rack Enclosure 123. Luego, el supervisor establece un plazo para el trabajo (por ejemplo, dos horas). Cuando un técnico reclama el ticket de trabajo, TBAC permite el acceso al gabinete seguro de bastidor seguro 123 para esa persona y, luego, inicia un temporizador de dos horas cuando se abre la puerta del soporte. TBAC revoca el acceso al soporte de bastidor seguro 123 cuando pasan dos horas o cuando el técnico cierra la tarea, lo que marca el trabajo como completado.

Los gabinetes seguros de bastidor tienen varios mecanismos de autenticación y autorización. El soporte más básico usa una clave física, que otorga autenticación y autorización juntas, y, por lo tanto, solo proporciona un control de seguridad general. Para mayor valor de seguridad, algunos soportes usan teclados que asignan y rotan PINs de forma individual.

En algunos casos, Google emplea la autenticación de dos factores que se vincula con un mecanismo de autorización separado. La autenticación comienza con una persona que limpia su insignia asignada y el segundo factor puede ser un PIN asignado por el usuario o un factor más sofisticado, como los datos biométricos.

Detección de eventos anómalos

La detección de eventos anómalos permite que el personal de seguridad sepa cuándo las máquinas experimentan eventos inesperados.

En toda la industria, las organizaciones pueden tardar meses o años en descubrir incumplimientos de seguridad y, a menudo, solo después de que se produzcan daños o pérdidas significativos. El indicador crítico de compromiso (IoC) puede perderse en un gran volumen de datos de registro y telemetría de millones de máquinas de producción. Sin embargo, Google usa TBAC y varias transmisiones de datos para ayudar a identificar posibles eventos de seguridad físicos a lógicos en tiempo real. Este control se denomina detección de eventos anómalos.

Las máquinas modernas supervisan y registran su estado físico, así como los eventos que ocurren en el espacio físico a lógico. Las máquinas reciben esta información a través de un software de sistema automatizado siempre presente. Este software puede ejecutarse en computadoras en miniatura dentro de la máquina, llamadas controladores de administración de placas base (BMC), o como parte de un daemon del sistema operativo. Este software informa eventos importantes, como los intentos de acceso, la inserción de dispositivos físicos y las alarmas de sensores, como un sensor de manipulación de soporte.

Con la detección de eventos anómalos, Google combina el contexto de los eventos informados por el sistema con el seguimiento de trabajo de TBAC para detectar la actividad inusual. Por ejemplo, si una máquina en Secure Rack Enclosure 123 informa que se quitó un disco duro, nuestros sistemas verifican si esa máquina se autorizó recientemente para un intercambio de disco duro. Si no existe una autorización, el evento informado, combinado con los datos de autorización basados en tareas, activa una alerta para que el personal de seguridad realice una investigación más exhaustiva.

Para las máquinas con raíz de confianza de hardware, los indicadores de detección de eventos anómalos se vuelven aún más sólidos. La raíz de confianza del hardware permite que el software del sistema, como el firmware BMC, certifica que se inició de forma segura. Por lo tanto, los sistemas de detección de Google tienen un grado de confianza aún mayor que los eventos informados son válidos. Para obtener más información sobre las raíces de confianza independientes, consulta Certificación remota de máquinas desagregadas.

Autodefensa del sistema

La defensa automática del sistema permite que los sistemas respondan a posibles riesgos con acciones defensivas inmediatas.

En algunas situaciones de amenaza, se supone que un atacante en el espacio físico a lógico puede anular las medidas de acceso físico que se analizan en Endurecimiento del hardware. Este atacante podría orientarse a los datos del usuario o a un proceso sensible que se ejecuta en una máquina.

Para mitigar este riesgo, Google implementa una defensa automática del sistema: un control que proporciona una respuesta inmediata y decisiva a cualquier compromiso potencial. Este control usa la telemetría del entorno físico para actuar en el entorno lógico.

La mayoría de los entornos de producción a gran escala tienen varias máquinas físicas en un bastidor. Cada máquina física ejecuta varias cargas de trabajo, como máquinas virtuales (VM) o contenedores de Kubernetes. Cada VM ejecuta su propio sistema operativo con memoria y almacenamiento dedicados.

Para determinar qué cargas de trabajo están expuestas a eventos de seguridad, Google agrega los datos de telemetría de los controles de endurecimiento de hardware, TBAC y la detección de eventos anómalos. Luego, correlacionamos los datos para generar un conjunto pequeño de eventos que sean de alto riesgo y requieran una acción inmediata. Por ejemplo, la combinación de una alarma de puerta de bastidor segura, una señal de apertura de gabinete de máquina y la falta de una autorización de trabajo válida puede constituir un evento de alto riesgo.

Cuando Google detecta estos eventos, los sistemas pueden tomar medidas inmediatas:

  • Las cargas de trabajo expuestas pueden finalizar servicios sensibles y limpiar cualquier dato sensible de inmediato.
  • La estructura de red puede aislar el bastidor afectado.
  • Las cargas de trabajo afectadas se pueden reprogramar en otras máquinas o incluso en centros de datos, según la situación.

Debido al control de autodefensa del sistema, incluso si un atacante logra obtener acceso físico a una máquina, no puede extraer datos y no puede moverse de forma lateral en el entorno.

¿Qué sigue?


Autores: Thomas Koh y Kevin Plybon