Arquitectura de seguridad de hardware de Titanium en Google

Este contenido se actualizó por última vez en septiembre de 2024 y representa el statu quo en el momento de su redacción. Es posible que cambien las políticas y los sistemas de seguridad de Google en el futuro, ya que mejoramos la protección de nuestros clientes de forma continua.

La arquitectura de seguridad de hardware de Titanium sirve como base para los servicios de Google y respalda muchas de las contramedidas de seguridad en la infraestructura de Google. El hardware de Titanium incluye microcontroladores de seguridad, adaptadores de hardware y procesadores de descarga que se desarrollaron específicamente para abordar vectores de ataque específicos para la infraestructura de Google.

El hardware de titanio es el avance más reciente en la seguridad de la infraestructura integral y en constante evolución de Google, y ayuda a proteger la integridad, la confidencialidad y la disponibilidad de los datos del usuario. El hardware de Titanium se basa en infraestructuras como las tarjetas de delegación de hardware criptográfico que proporcionan encriptación en tránsito y microservicios internos que proporcionan encriptación de datos en reposo.

En este documento, se describe cómo los componentes de hardware de Titanium funcionan en conjunto para crear una arquitectura de seguridad que ayuda a proteger la superficie de ataque física de los sistemas de Google y mitigar las amenazas a los datos de los clientes. En este documento, también se describe cómo el hardware de Titan habilita controles de seguridad específicos en la capa de software, la evolución de la arquitectura más allá de las descargas iniciales de hardware criptográfico y las amenazas del mundo real que la arquitectura de seguridad de hardware de Titan está diseñada para mitigar en la base de clientes y de implementación de Google.

Arquitectura de seguridad de hardware de Titan

La arquitectura de seguridad de hardware de Titan está diseñada para proteger contra una variedad de situaciones y agentes de amenazas. En el siguiente diagrama de arquitectura, se muestran los componentes independientes, pero entrelazados, de Titanium.

Componentes de la arquitectura de Titanium

La arquitectura de seguridad de hardware de Titanium incluye los siguientes componentes:

  • Raíz de confianza de Caliptra para la medición (RTM): Ayuda a aplicar un perímetro de seguridad para cada paquete de silicio. Caliptra RTM proporciona certificación y un ID único a los servicios criptográficos raíz.
  • RoT del chip Titan: Se interpone entre la memoria flash de inicio de una plataforma y sus dispositivos de inicio principales, como el controlador de administración de la placa base (BMC), el concentrador de controlador de plataforma (PCH) y la CPU. Los chips Titan proporcionan una RoT basada en hardware que es resistente a la manipulación física y ayuda a establecer una identidad sólida. Los chips Titan también ayudan con la autorización y revocación de código para máquinas, tarjetas o periféricos.
  • Procesador de descarga de Titanium (TOPS): Proporciona controles criptográficos para ayudar a proteger la confidencialidad y la integridad de los datos en reposo y en tránsito.
  • Motherboards personalizadas: Proporcionan resiliencia a gran escala contra ataques DoS de software defectuoso o malicioso, así como protección contra ataques físicos. En el diagrama, por ejemplo, el paquete de chips y la RoT de Titan están en una motherboard personalizada que está separada de las motherboards personalizadas para Titanium TOP o las motherboards para otra infraestructura.
  • Enclaves de Confidential Computing: Ayudan a aplicar el aislamiento contra los privilegios administrativos de Google, mejorar el aislamiento con otros inquilinos y agregar verificabilidad mediante la certificación. La certificación puede garantizar que el entorno no se haya alterado.
  • Servicios regionalizados tolerantes a errores del backend: Ayudan a evitar la derivación de privilegios entre servicios, zonas o desde el acceso de administrador.

En el diagrama, Otra infraestructura hace referencia a las tramas de red y al almacenamiento de backend replicado.

Principios de diseño de la arquitectura de seguridad de hardware de Titanium

Nuestros componentes de hardware de Titanium y sus interacciones se desarrollan con los siguientes principios fundamentales:

  • Sin puntos únicos de fallo: La arquitectura de Google está diseñada para evitar puntos únicos de fallo, como componentes de carga únicos con varias responsabilidades. En Building Secure and Reliable Systems, se analiza la importancia de evitar puntos únicos de fallo. Este principio se aplica a toda nuestra infraestructura física, en todas las regiones y hasta en el silicio de los chips. Esta capacidad de recuperación en toda nuestra infraestructura global ayuda a mantener los datos del cliente seguros y disponibles.

    Por ejemplo, la migración en vivo con Confidential Computing ayuda a preservar la memoria encriptada en las máquinas anfritrión compatibles. La migración en vivo ayuda a garantizar que una VM de larga duración no sea un punto único de fallo debido a eventos de mantenimiento o a responder a vulnerabilidades.

  • El perímetro es el paquete de silicio: como un sistema de servidor contiene varios sistemas en chip interconectados y separados, nuestra arquitectura desconfía fundamentalmente de todos los conectores, tejidos, ensamblados de placas de circuitos impresos (PCBAs), trazos de PCBA y cables. Si bien la separación de componentes es útil para la modularidad, también puede convertirse en una debilidad cuando ofrece a los adversarios objetivos bien definidos desde los que espiar datos de texto simple. Los datos dentro del paquete de silicio se encriptan y autentican con recursos de criptografía privados dentro del paquete.

    Mover el perímetro al silicio ayuda a minimizar la confianza implícita. Este principio aborda las amenazas contra la confidencialidad de los datos que se producen a medida que las condiciones de entrega de los centros de datos se vuelven cada vez más diversas. Por ejemplo, configurar el perímetro en el paquete de silicio ayuda a abordar las amenazas de las operaciones de hardware no autorizadas.

  • Confianza cero y compartimentación de riesgos: Los controles de varias partes sobre las acciones administrativas ayudan a garantizar que ninguna cuenta de personal (o cuenta de personal comprometida) pueda causar unilateralmente las amenazas que se analizan en este documento. La arquitectura separa los servicios en capas y zonas para compartimentar y contener el riesgo. Incluso con enclaves, que suelen estar arraigados en el hardware, la arquitectura tiene en cuenta el descubrimiento de vulnerabilidades de hardware y la necesidad de corregirlas mientras los componentes permanecen en funcionamiento.

    Por ejemplo, si un atacante vulnera de forma maliciosa el comportamiento de un chip dentro de un sistema activo que ejecuta cargas de trabajo de los clientes en nuestros centros de datos, la arquitectura está diseñada para identificar y aislar ese chip vulnerado. Luego, se puede retirar esa máquina del servicio. Incluso si la máquina no se inhabilita, el atacante debe vencer límites de confianza adicionales y vulnerar varias credenciales para moverse lateralmente y obtener influencia sobre otros sistemas, usuarios o regiones.

    Los dominios con fallas independientes y las tecnologías de aislamiento ayudan a limitar el área afectada de una vulneración. Estos dominios y tecnologías agregan puntos de control naturales para la detección y limitan la cantidad de complejidad adicional que se debe ingresar.

    Para obtener más información sobre nuestra implementación de confianza cero, consulta BeyondProd.

  • Seguridad transparente: Google invierte en varios esfuerzos de transparencia, como el código abierto, la divulgación responsable de investigaciones y hallazgos, y la asociación con el ecosistema de fabricantes de hardware. La infraestructura global de Google aplica el principio de Kerckhoffs, que establece que un criptosistema debe ser seguro, incluso si todo sobre el sistema, excepto la clave, es de conocimiento público.

    Por ejemplo, contribuimos a proyectos de código abierto y los usamos en nuestros diseños de hardware y software de seguridad. En la siguiente tabla, se describen algunos de los proyectos de código abierto a los que contribuimos y que usamos.

    Proyecto de código abierto Descripción Componente de Titanium

    BoringSSL

    Se usa en las bibliotecas de encriptación del nivel 1 del estándar FIPS 140-3.

    BoringSSL

    Caliptra

    Se usa en las raíces de confianza (RoT) a nivel del silicio.

    Caliptra RTM

    OpenTitan

    Se usa en RoT para un chip en una arquitectura de sistema.

    Chips Titan

    Syzkaller

    Se usa para el fuzzing del kernel guiado por la cobertura

    Distribuciones de ring0 del host y de VM de usuario

    PSP

    Se usa en las bibliotecas de encriptación del nivel 1 del estándar FIPS 140-3.

    Procesador de transferencia de Titanium

  • Defensa en profundidad física y lógica: Google se basa en la seguridad física del centro de datos para ayudar a proteger nuestras inversiones de capital y nuestros sistemas. Estos controles de seguridad son una capa inicial de defensa, por lo que invertimos de forma deliberada en controles lógicos adicionales para endurecer nuestros sistemas contra amenazas físicas. Titan mejora nuestra defensa en profundidad, ya que agrega compartimentación en nuestro hardware que proporciona defensas adicionales contra amenazas específicas de la infraestructura.

    Por ejemplo, nuestros centros de datos tienen detectores de metales que pueden detectar con precisión intentos de robo de medios de almacenamiento. Sin embargo, nuestra estrategia de encriptación de datos en reposo está diseñada de forma deliberada para no depender de la custodia de soportes físicos de comunicación. Estos controles físicos y lógicos son capas independientes y complementarias.

    Nuestros controles de seguridad físicos y lógicos combinados nos ayudan a estar atentos contra las amenazas internas y a proteger la confidencialidad de los datos de nuestros usuarios.

Beneficios de seguridad de los componentes de la arquitectura de Titanium

En la siguiente tabla, se destacan algunos beneficios de seguridad importantes que se logran con los componentes de la arquitectura de seguridad de Titanium, tanto en la capa de hardware como en la de software. Estos beneficios de seguridad se describen con más detalle en las siguientes secciones.

Beneficios de seguridad Componente de la arquitectura

Perímetro de confianza a nivel de silicio en sistemas en chip (SoC), como CPUs o GPUs

Caliptra RTM

Verificabilidad a nivel de la silicona

Caliptra RTM

Identidad criptográfica a nivel del hardware

Caliptra RTM, Titan RoT

Verificación de que se estén ejecutando los objetos binarios esperados

Caliptra RTM, Titan RoT

Mitigación de amenazas persistentes en todos los arranques

Caliptra RTM, Titan RoT

Protección de la confidencialidad de los datos en reposo y en tránsito

TOPs para criptografía

Transferencia de la protección a nivel del procesador (más allá de una tarjeta física)

TOPs para criptografía

Seguridad como prioridad en el diseño, resistencia a ataques físicos y capacidades de resiliencia que admiten la recuperación completa del firmware del sistema desde una sola RoT de Titan

Motherboards personalizadas

Placas diseñadas con solo los conectores esenciales, lo que ayuda a mitigar los intentos de manipulación física

Motherboards personalizadas

Aislamiento de la carga de trabajo criptográfica del software del sistema de toda la máquina y acceso humano administrativo

Enclaves de Confidential Computing

Resistencia a la manipulación mediante encriptación de DRAM (para habilitar la encriptación de datos en uso)

Enclaves de Confidential Computing

Área afectada y división minimizadas para un atacante con acceso local

Servicios regionalizados tolerantes a errores del backend

Varios niveles de compartimentación

Servicios regionalizados tolerantes a errores del backend

Raíz de confianza de Caliptra para la medición

Caliptra RTM ayuda a generar confianza y transparencia en el firmware de nuestro ecosistema que se ejecuta en sistemas integrados en chips (SoC), como CPUs, GPUs y TPU.

Caliptra RTM tiene los siguientes beneficios:

  • Proporciona un servicio criptográfico raíz: Caliptra RTM ayuda a detectar la configuración y el código críticos dañados a través de una verificación de integridad criptográfica de extremo a extremo sólida. Caliptra RTM puede medir criptográficamente su código y configuración, firmar estas mediciones con una clave de certificación única y protegida por hardware, y generar informes de mediciones que acrediten la autenticidad y la integridad del dispositivo. Caliptra RTM proporciona una identidad de dispositivo criptográfica y un conjunto de mediciones de integridad de firmware y configuración para la motherboard.
  • Mitiga la seguridad de la cadena de suministro física: Caliptra RTM ayuda a garantizar que el hardware sea auténtico y ejecute el firmware y el software previstos. En combinación con la seguridad de la cadena de suministro de software, Caliptra RTM permite que el sistema verifique la autenticidad y la integridad del firmware y el software, ya sea que lo haya creado Google o un tercero. Este proceso de verificación permite que Caliptra RTM mantenga la autenticidad y la integridad en todas las actualizaciones autorizadas y ayuda a garantizar que las configuraciones permanezcan como se espera y estén certificadas.
  • Protege contra intrusiones físicas que requieren acceso directo al hardware en ejecución: Debido a que Caliptra RTM está integrada en las capas de silicio del chip, un intercalador de PCBA o un chip no autorizado que intente entregar el firmware incorrecto a un circuito integrado específico de la aplicación (ASIC) no puede atacar con éxito el RoT. Por ejemplo, los atacantes pueden eludir las capacidades de detección de un RoT externo manipulando el bus SPI de velocidad relativamente baja. Sin embargo, un RoT incorporado en un SoC o ASIC es más difícil de vulnerar para un atacante.

Raíz de confianza del chip Titan

Titan está diseñado para mantener criptográficamente la identidad del dispositivo, protegerlo contra los envíos de software no deseados y aplicar la autenticidad del código mediante la revocación.

Una identidad de dispositivo criptográfico sólida ayuda a garantizar que la flota esté compuesta exclusivamente por máquinas validadas que ejecutan los objetos binarios esperados y que pueden identificar y autenticar el acceso legítimo. El acceso legítimo se arraiga a nivel del hardware.

De forma predeterminada, las máquinas de producción usan el inicio confiable para garantizar que solo se ejecute software autenticado. El inicio confiable verifica la firma digital de todos los componentes de inicio y no permite que una máquina participe en el entorno de producción si falla la autenticación.

Como control preventivo adicional, la revocación del código máquina evita que se apliquen cambios de software que ya no están autorizados. La función de revocación en los chips Titan ayuda a mitigar no solo los ataques maliciosos (por ejemplo, ataques de reversión o repetición), sino también los errores de estabilidad o resiliencia no maliciosos (por ejemplo, evitando la reinstalación accidental de firmware antiguo con errores).

Para obtener más información, consulta Cómo Google aplica la integridad de inicio en las máquinas de producción.

Procesadores de descarga de Titanium para criptografía

Los procesadores de descarga Titanium (TOPs) para criptografía ayudan a proporcionar seguridad durante la descarga de E/S. Estos TOPs están protegidos con Titan o Caliptra RTM. Los TOPs implementan una encriptación autenticada generalizada de los datos en tránsito y de los datos en reposo a bajo costo. La encriptación autenticada significa que los datos del cliente tienen una garantía criptográfica de confidencialidad e integridad. Debido a que los TOPs administran la criptografía, privan de privilegios a muchos componentes del sistema. Los TOPs permiten propiedades arquitectónicas mejoradas, como la disponibilidad, a la vez que minimizan el potencial de pérdida de la confidencialidad de los datos.

Motherboards personalizadas

Las motherboards personalizadas de la infraestructura de Google están diseñadas para proporcionar proveniencia del hardware. Las motherboards admiten la certificación en varias capas. Los diseños de las motherboards protegen los datos de los clientes, incluso en el caso poco probable de que un atacante conecte físicamente un dispositivo malicioso a una máquina. Los diseños de las motherboards de titanio ayudan a permitir la implementación confiable de mecanismos de endurecimiento adicionales, como puertos de depuración despoblados, consolas en serie de solo lectura, intrusión de conectores de bus y señalización de extrusión.

TLS y ALTS son los únicos protocolos aceptados que expone nuestra pila de red de BMC cuando se enciende una máquina. En el caso de las máquinas que usan un diseño COTS de terceros, como nuestras instancias X4, TOPs proxy cualquier tráfico de administración que sea exclusivo de ese diseño de terceros. El uso de proxy para el tráfico de administración significa que nuestra infraestructura no depende de diseños de terceros para la autenticación, la autorización, la seguridad de transporte ni la seguridad de red.

Las motherboards personalizadas de Titanium están diseñadas para tener mecanismos de copia de seguridad y recuperación integrados que garantizan la disponibilidad y la capacidad de recuperación. Se pueden restablecer de la mayoría de las fallas o de la corrupción del firmware. Nuestros diseños más recientes permiten volver a compilar toda la máquina a partir de una sola RoT de Titan en funcionamiento. Estas motherboards usan componentes de alimentación dedicados a las funciones y señalización de restablecimiento para ayudar a garantizar la independencia eléctrica de los RoTs de Titan del resto de la plataforma y proteger su control sobre las cargas útiles de firmware de la plataforma para la autenticación y la recuperación.

Enclaves de Confidential Computing

Confidential Computing crea un entorno de ejecución confiable (TEE) o un enclave para ayudar a aislar las cargas de trabajo sensibles del cliente del acceso de admnistrador de Google. Cuando la CPU o la GPU controlan los datos, Confidential Computing proporciona un control preventivo técnico a través del aislamiento de procesamiento y la encriptación en memoria. Confidential Computing ayuda a garantizar que incluso un hipervisor malicioso no pueda acceder a una VM. En el caso de las cargas de trabajo de los clientes, Confidential Computing proporciona una capa de aislamiento de confidencialidad de los datos contra la posibilidad de acceso no deseado del personal de Google o acciones automatizadas defectuosas del software del sistema a gran escala.

Un ejemplo de seguridad avanzada que habilita la arquitectura de Titanium es el modo confidencial para Hyperdisk Balanced. El modo confidencial de Hyperdisk Balanced combina las descargas de almacenamiento en bloque basado en Titanium, Confidential Computing y el HSM de Cloud para crear un TEE con raíz de hardware. En otras palabras, el modo confidencial para Hyperdisk Balanced es una oferta de hiperdisco balanceado. El modo confidencial de Hyperdisk Balanced aísla la infraestructura para que las claves sensibles se procesen exclusivamente en un TEE con raíz de hardware. Para obtener información sobre la revisión de terceros de las operaciones de criptografía, consulta el Informe público: Hyperdisk en modo confidencial: Análisis de protección de DEK.

Servicios regionalizados tolerantes a errores del backend

Los servicios regionalizados tolerantes a errores del backend ayudan a minimizar el área afectada de un atacante con acceso local. La infraestructura de Google está diseñada para compartimentar los servicios, los sistemas y las zonas del movimiento lateral de personas internas con privilegios o servicios comprometidos.

Estamos trabajando para incluir información regional en un conjunto cada vez más amplio de nuestros sistemas internos de administración de identidades y accesos. La información regional fortalece el aislamiento criptográfico para que un atacante que obtenga acceso local deba vulnerar varias credenciales de distintos servicios de infraestructura para seguir moviéndose lateralmente.

Si un ataque activa un control preventivo que sacaría una máquina de producción del entorno (por ejemplo, hace que el sistema se apague), nuestra infraestructura de backend tolerante a errores ayuda a garantizar la disponibilidad continua de los datos y los servicios de los clientes en máquinas cercanas. Para obtener más información sobre nuestros controles de infraestructura, consulta BeyondProd y Cómo protege Google sus servicios de producción.

Vectores de ataque para la infraestructura de Google Cloud

En esta sección, se describen amenazas físicas y lógicas específicas que conforman parte de la superficie de ataque de Google Cloud. La arquitectura de seguridad de hardware de Titanium se diseñó específicamente para abordar un conjunto único de amenazas a la infraestructura de Google y los datos del usuario que almacenamos.

Amenazas a la infraestructura

La arquitectura de Titanium está diseñada para ofrecer protección contra las siguientes categorías de amenazas:

  • Acciones maliciosas de un empleado con acceso físico: Nuestro personal necesita acceso a los dispositivos físicos de los centros de datos para implementar, mantener y reparar el hardware. Este acceso representa un posible vector de ataque porque el personal o los contratistas no autorizados tienen un motivo comercial legítimo para reparar físicamente algunas de las máquinas de nuestros centros de datos.
  • Acciones maliciosas de un empleado con acceso lógico: Al igual que con el acceso físico al centro de datos, el personal debe desarrollar, mantener, probar, depurar, ajustar y admitir varios niveles de la pila de software de Google. Este personal incluye desarrolladores, SRE y, además, ingenieros de nube orientados al cliente.

    Para obtener más información sobre nuestras defensas contra esta amenaza, consulta Cómo protege Google sus servicios de producción.

  • Atacante externo con acceso lógico: Los atacantes externos pueden obtener un punto de apoyo dentro de un entorno de Google Cloud y tratar de transferirse lateralmente a otras máquinas para obtener acceso a datos sensibles. Una táctica común que usan los atacantes externos es comenzar por vulnerar una cuenta legítima de personal o contratista.

En el siguiente diagrama, se muestra qué parte del entorno de nube es más vulnerable a estas amenazas.

Vulnerabilidades a estas amenazas

Superficie de ataque a los servidores del centro de datos

En la siguiente tabla, se describen las superficies de ataque que son aspectos típicos de los servidores de centros de datos. La arquitectura de seguridad de hardware de Titan está diseñada para proporcionar defensas sólidas contra esas amenazas.

Atacante Objetivo Superficie de ataque Riesgo

Persona privilegiada no autorizada con acceso físico

Medios de almacenamiento (SSD, HDD o unidades de arranque)

Unidades y conectores físicos

Este ataque podría robar una unidad y tratar de acceder a ella con las herramientas del atacante.

DIMM

Conectores de memoria física

Este ataque podría inhabilitar la DIMM, sacarla del centro de datos y tratar de acceder a los datos con las herramientas del atacante. A veces, esta amenaza se denomina ataque de inicio en frío.

Servidor

Conectores USB o PCIe

Este ataque podría conectar hardware malicioso al servidor. Con el hardware malicioso, el atacante podría intentar obtener la ejecución de código o robar datos residentes.

Motherboard

Puerto de depuración extendido (XDP) del grupo de acceso de prueba conjunta (JTAG)

Este ataque podría conectar una herramienta de depuración de hardware para obtener la ejecución de código o el acceso a los datos que se procesan en la CPU.

Red

Cables Ethernet

Este ataque podría aprovechar un cable Ethernet para obtener acceso a todos los datos que se transfieren entre dispositivos. Luego, se podría observar cualquier tráfico de texto simple.

Motherboard

Firmware

Este ataque podría ingresar un firmware malicioso persistente. Este firmware podría estar preinstalado por un fabricante comprometido, interceptado en tránsito o actualizado por una persona interna. Esta amenaza puede generar hardware hackeado con rootkits que proporcionan acceso a la puerta trasera del servidor.

Persona privilegiada no autorizada con acceso lógico

Carga de trabajo de procesamiento (por ejemplo, VMs)

Puntos de acceso

Este ataque podría usar credenciales de personas internas para acceder directamente a las VMs o a los hosts, y a los datos que contienen.

Router de Fabric

Acceso físico o de administrador

Este ataque podría obtener el control de raíz sobre un router de la infraestructura para escuchar todo el tráfico y robar o manipular cualquier dato de texto simple que esté en tránsito en la infraestructura.

Motherboard

Firmware

Este ataque podría enviar imágenes de firmware defectuosas a las motherboards, lo que las dejaría inoperables de forma permanente y los datos irrecuperables.

Un atacante podría enviar firmware vulnerable conocido a las máquinas para recuperar el control con exploits que habilitan la ejecución de código remota.

Atacante externo con acceso lógico

Servidor

VMs

Este ataque podría iniciar patrones de ataque de canal lateral públicos en las VMs. Estos ataques podrían filtrar datos de instancias que se ejecutan en el mismo hardware o del software del sistema host.

SSD

VMs

Este ataque podría usar el acceso directo a las SSD PCIe para intentar inferir datos de coarrendatario.

Memoria

VMs

Este vector de ataque podría usar canales laterales para buscar claves de encriptación valiosas en la memoria.

Servidor

VMs sin sistema operativo

Este vector de ataque podría usar instancias de bare metal para analizar todos los periféricos y encontrar un componente vulnerable que les permita persistir en la máquina y atacar a inquilinos posteriores.

Asigna componentes de hardware de Titanium a amenazas

La arquitectura de seguridad de hardware de Titan usa un enfoque de varias capas para ayudar a abordar amenazas de infraestructura específicas y evitar puntos únicos de fallo. Estas amenazas pueden provenir de errores o de agentes no autorizados. Las amenazas abarcan las operaciones de hardware y pueden aprovechar vulnerabilidades en los servidores, las redes y el plano de control. No existe una sola solución que pueda abordar todos estos vectores de ataque, pero las funciones combinadas de Titanium ayudan a proteger los datos de nuestros usuarios y nuestras instancias de computación en la nube.

Situación: Operaciones de hardware no autorizadas

Las operaciones de hardware no autorizadas representan una amenaza para la seguridad de los datos, ya que pueden provocar el robo de datos de los centros de datos y la modificación del hardware y el firmware. La arquitectura de seguridad de hardware de Titan de Google ayuda a defenderse contra estas amenazas mediante una variedad de medidas de seguridad, como RoTs de criptografía, motherboards personalizadas y procesadores de E/S. Estos componentes trabajan juntos para proporcionar una defensa en capas que sea resistente a una amplia variedad de ataques.

En la siguiente tabla, se describen algunas de las amenazas de hardware no autorizadas y cómo la arquitectura de Titanium puede mitigarlas.

Amenaza Mitigación de Titanium

Un atacante extrae unidades de datos individuales de los centros de datos para acceder a los datos que contienen.

Las claves de encriptación de datos en reposo de los productos y servicios de almacenamiento nunca se almacenan de forma persistente en las máquinas a las que se conectan los medios de almacenamiento. Las funciones de autoencriptación integradas de los medios de almacenamiento también están habilitadas para la defensa en profundidad y usan claves que nunca se almacenan de forma persistente en el propio medio.

Las Caliptra RTMs permiten que Google incluya la identidad de hardware de la raíz de confianza y la integridad del firmware entre las condiciones de autorización que se requieren para liberar claves de un servicio de administración de claves a instancias de servicios de almacenamiento. Las máquinas que se configuran de forma maliciosa con un firmware no deseado no pueden acceder a las claves necesarias para desencriptar los datos almacenados. Los RoTs integrados en los paquetes de silicio fijan las identidades criptográficamente relevantes dentro del paquete de chips.

Los intercesores de una sola función son la parte principal de la seguridad de nuestro plano de datos y encriptan los datos en cada paso de procesamiento. Los TOPs proporcionan los siguientes beneficios:

  • Sirven como intercaladores de silicio para garantizar que todos los comandos NVMe que se originan en las cargas de trabajo se limpien de forma adecuada antes de que los comandos lleguen a los medios SSD externos.
  • Incluye diseños personalizados de SSD de Google con controladores criptográficos privados para administrar claves y realizar la encriptación directamente en la ruta de datos del hardware.
  • Habilita un almacenamiento escalable rentable que esté encriptado y protegido contra la integridad.

Las soluciones de software comprobadas, como dm-crypt, se usan para unidades de menor rendimiento en las que reducir la superficie de ataque es fundamental, como en algunos casos de uso de unidades de arranque.

Un atacante conecta un cable de red y lee bytes en el cable o la fibra.

Los TOPs encriptan los datos en tránsito, lo que quita la oportunidad de que una amenaza sniffee datos valiosos en la red.

Nuestras NICs usan el estándar de delegación de hardware de PSP. Este estándar proporciona una encriptación rentable con una disminución mínima del rendimiento. Estas implementaciones cumplen con el estándar FIPS.

Los datos del cliente se encriptan cuando pasan por switches Top of Rack (ToR) o de la infraestructura. Algunas infraestructuras de aprendizaje automático usan mecanismos de seguridad de transporte propietarios.

Un atacante reemplaza los chips de memoria flash que contienen código mutable en el centro de datos o la cadena de suministro para ejecutar código malicioso en los servidores.

Los chips Titan están diseñados para rechazar el ataque y no proporcionan acceso a las credenciales que se almacenan en ellos. Incluso si un atacante reescribe el contenido de los chips de memoria flash no volátil, la RoT de Titan informa de forma segura una medición del código al plano de control de Google, que está diseñado para bloquear el dispositivo. Google revoca de forma rutinaria el código obsoleto o conocido como vulnerable a escala global en nuestra flota con chips Titan.

Un atacante inserta dispositivos adversarios en interfaces físicas de servidores o tarjetas de centros de datos para ejecutar código malicioso o robar datos.

Los diseños de motherboards personalizados quitan las interfaces que se usan para insertar dispositivos adversos.

Las configuraciones de la unidad de administración de memoria de entrada y salida (IOMMU) están implementadas para evitar los screamers de PCIe en todo nuestro firmware. (Los screamers de PCIe están diseñados para leer y escribir paquetes arbitrarios en el tejido PCIe). A medida que la industria madura, complementamos esta protección con el IDE de PCI para mitigar, además, los interposers de PCI más sofisticados.

ALTS y TLS son las únicas conexiones de red de autenticación y autorización aceptadas para las funciones de control y administración en TOP y BMC.

Las Caliptra RTMs bloquean cualquier firmware no aprobado. Nuestros periféricos de confianza certifican su identidad de hardware y la integridad del código a nuestro plano de control, y no se admite ningún servidor en producción si el registro de certificación no coincide con la intención de hardware y software.

Un atacante usa un ataque de inicio en frío en el centro de datos para acceder a los datos de la RAM.

La encriptación en memoria de Confidential Computing protege los datos sensibles o las claves de encriptación en la RAM. La encriptación de DRAM también está habilitada en las máquinas que se implementan sin Confidential Computing en centros de datos perimetrales de menor garantía.

Situación: Usuarios no autorizados explotan servidores o redes

Los atacantes pueden usar la nube pública para alojar sus cargas de trabajo maliciosas en nuestra infraestructura compartida y depositar datos en nuestros servicios públicos. Los adversarios externos, desde personas individuales hasta estados nacionales, también pueden intentar obtener acceso remoto con privilegios.

Para mitigar estas acciones, la arquitectura de seguridad de hardware de Titanium usa chips Titan y Caliptra RTM para aprovisionar credenciales de tiempo de ejecución de forma segura y limitar los privilegios en el hardware y los sistemas operativos. Confidential Computing ayuda a proteger contra la manipulación de la memoria del sistema, ya sea física o mediante ataques de hipervisor, y los chips Titan rechazan o detectan actualizaciones de software no autorizadas.

En la siguiente tabla, se describen algunas de las amenazas de explotación de servidores y redes, y cómo la arquitectura de Titanium puede mitigarlas.

Amenaza Mitigación de Titanium

Un atacante explota una vulnerabilidad para escapar de su VM y obtener acceso a los datos y a otras VMs que se ejecutan en la misma máquina.

Los enclaves de Confidential Computing limitan el robo de datos de la carga de trabajo, ya sea en proceso o en reposo. Esta mitigación impide que un atacante que escapó de la VM acceda a los datos en uso.

Los chips Titan y Caliptra RTMs impiden que el atacante tenga acceso persistente. Es probable que se detecten todos los intentos de acceso persistente porque la configuración de la máquina no coincidirá con la configuración y la política de código de ese servidor. Esta coincidencia es obligatoria para que la máquina pueda alojar cargas de trabajo de producción después de un reinicio.

Un atacante lanza patrones de ataque de canal lateral públicos en las VMs.

Nuestro sistema de administración de flotas, que usa chips Titan, puede revocar el software vulnerable conocido. La revocación puede bloquear cualquier ataque posterior que se oriente a estas vulnerabilidades conocidas. Las mediciones de integridad basadas en Titan también proporcionan una alta confianza de que las mitigaciones, que podrían necesitar implementarse con urgencia, se implementaron en las máquinas de destino.

Para reforzar este enfoque, mantenemos la vanguardia en la investigación y mitigación de canales laterales a través de técnicas como retpoline y programación de núcleos, y la investigación avanzada sobre Meltdown, Spectre, Zenbleed, Downfall y otras.

Un atacante usa el acceso directo a SSD que proporcionan almacenamiento a varios inquilinos para intentar inferir datos de coarrendatarios.

La encriptación de datos en reposo ayuda a proteger contra ataques lógicos y físicos con una variedad de intermediarios. En el caso de los recursos que no se comparten, los datos de cada usuario se encriptan con claves diferentes, lo que mitiga la oportunidad de ataques de acceso directo contra la SSD.

Un atacante escanea la memoria y usa canales laterales para buscar credenciales o claves de encriptación de datos.

Los chips Titan habilitan el aprovisionamiento de credenciales selladas por máquina. Incluso si un atacante obtiene acceso de raíz en una máquina, sus credenciales están vinculadas únicamente a la identidad privada del chip Titan local.

Un atacante compra instancias de bare metal y analiza todos los periféricos para intentar obtener acceso persistente.

Los chips Titan rechazan cualquier actualización de software no autorizada, incluidos los envíos maliciosos para el control persistente. Nuestro flujo de trabajo de máquinas confirma de forma positiva las mediciones de integridad esperadas en un ciclo de energía certificado completo del sistema entre los clientes de bare metal.

Situación: Aprovechamiento de servidores o redes por comportamiento no autorizado del plano de control

Las personas que tengan acceso no autorizado al plano de control pueden intentar explotar los sistemas de Google de varias maneras, como intentar obtener el control de raíz sobre un router de tejido, enviar imágenes de firmware defectuosas a las motherboards y escuchar el tráfico de red. La arquitectura de seguridad de hardware de Titanium se defiende contra estas amenazas con una variedad de mecanismos, incluidos chips Titan, Caliptra RTM, motherboards personalizadas y servicios aislados tolerantes a errores del backend.

En la siguiente tabla, se describen algunas de las amenazas del plano de control y cómo la arquitectura de Titanium puede mitigarlas.

Amenaza Mitigación de Titanium

Un atacante usa credenciales de personas internas para acceder a las VMs de Compute Engine que funcionan como la capa fundamental de los entornos de los clientes.

Los TOPs ayudan a garantizar que los administradores no tengan acceso a los entornos de los clientes. Sin acceso, el personal de Google no puede usar sus credenciales para acceder a la capa de hardware y software privilegiada que se encuentra debajo de las VMs de nuestros clientes. El acceso de los empleados de Google a los datos de los clientes está bloqueado porque solo se puede acceder a los datos a través de APIs definidas.

Un atacante envía imágenes de firmware defectuosas a gran escala a las motherboards, lo que las inutiliza de forma permanente.

Los RoT de los chips Titan rechazan cualquier actualización de software no autorizada, incluidos los envíos maliciosos para el control persistente.

Los diseños personalizados de las motherboards usan una red alternativa de indicadores que interconecta todos nuestros RoT con el RoT de la plataforma. El RoT de la plataforma contiene un firmware de copia de seguridad para dispositivos críticos. Incluso si un atacante inutiliza las redes y la PCI, la red fuera de banda (OOB) puede reparar el sistema.

Un atacante envía un firmware de producción obsoleto y conocido como vulnerable a las máquinas para recuperar el control con vulnerabilidades públicas.

Los chips Titan rechazan los envíos incorrectos y ayudan a aplicar la revocación del código vulnerable conocido. Certifican la versión de firmware que se implementa en la máquina y rechazan la máquina en el plano de control. Esta mitigación ayuda a evitar que se ejecuten trabajos en una máquina con problemas y activa la investigación o la reparación según sea necesario.

Un atacante abusa de las capacidades de depuración de silicio que son necesarias para la continuidad del negocio, que proporcionan el nivel más alto de acceso a los datos en los sistemas de servidores.

Caliptra RTM ayuda a garantizar que todos los parámetros que habilitan interfaces de depuración invasivas, ya sea que estén conectadas de forma lógica o a través de una inserción física directa, se configuren de forma confiable, se midan criptográficamente y se informen a nuestro plano de control mediante un protocolo de certificación. Solo las máquinas en el estado previsto obtienen acceso para entregar cargas de trabajo de producción.

Un atacante obtiene el control de un servicio de backend para poder acceder a los entornos de los clientes.

Los servicios regionalizados tolerantes a errores del backend son una infraestructura de credenciales regionalizada que no permite el acceso humano unilateral. Además de evitar que los operadores accedan a los nodos de procesamiento, los operadores tampoco pueden acceder al plano de control para recuperar material clave.

Los enclaves de Confidential Computing en la arquitectura de Titanium aíslan nuestros servicios de autorización de backend y aprovisionamiento de claves de los privilegios de raíz de la máquina.

Las jerarquías de claves ayudan a proteger las claves de firma y autorización de la mayoría de los servicios. Con las jerarquías de claves, las claves raíz están en claves con aislamiento físico que se guardan en HSM y en cajas fuertes, o bien en claves que se mantienen en producción con un quórum de Paxos de almacenes de datos en memoria.

¿Qué sigue?

Autores: Andrés Lagar-Cavilla, Erlander Lo, Jon McCune y Chris Perry