Eliminación de datos en Google Cloud Platform

Miniatura del video de eliminación de datos

Data deletion on Google Cloud Platform

Descripción general

Resumen para directores generales de información

  • Google adopta un enfoque basado en principios para el almacenamiento y la eliminación de datos del cliente. Google Cloud Platform se diseñó para lograr un alto grado de velocidad, disponibilidad, durabilidad y coherencia, y el diseño de los sistemas optimizados para estos atributos de rendimiento debe equilibrarse cuidadosamente a fin de que los datos se eliminen de forma oportuna.
  • Cuando borras los datos del cliente, la canalización de eliminación de Google comienza cuando se confirma la solicitud correspondiente y se eliminan los datos de manera iterativa de las capas de aplicación y almacenamiento, tanto de los sistemas de almacenamiento activos como de los de copia de seguridad. Este proceso se describe en términos generales en la declaración de Google sobre la eliminación y retención.
  • La eliminación lógica ocurre en fases y comienza con el marcado de los datos para que se eliminen de inmediato de los sistemas de almacenamiento activos y se aíslen del procesamiento común en la capa de aplicación. Los ciclos sucesivos de compactación y de eliminación mediante marcado y barrido (mark-and-sweep) en las capas de almacenamiento de Google sirven para reemplazar los datos borrados conforme pasa el tiempo. También se utiliza el borrado criptográfico para que los datos eliminados sean irrecuperables. Por último, los sistemas de copia de seguridad que contienen instantáneas de los sistemas activos de Google se retiran en un ciclo estándar.
  • Los datos de las capas de aplicación y almacenamiento se pueden borrar inmediatamente según cómo se haya configurado el almacenamiento de los datos y la programación de los ciclos de eliminación en curso en las capas de almacenamiento y los centros de datos correspondientes. Por lo general, la eliminación de los datos de los sistemas activos se completa en unos dos meses a partir de la solicitud de eliminación. Por último, los datos del cliente se quitan de los sistemas de copia de seguridad a largo plazo de Google, los cuales conservan instantáneas de los sistemas de Google por un máximo de seis meses (180 días) como protección contra desastres naturales y eventos catastróficos.

Introducción

En este documento, se ofrece una descripción general del proceso seguro que ocurre cuando borras los datos del cliente (según las Condiciones del Servicio de Google Cloud Platform) almacenados en Google Cloud Platform. Uno de los aspectos básicos del trabajo con datos en cualquier plataforma informática es garantizar la eliminación segura de los datos del cliente al final de su ciclo de vida.

Trabajar con datos en cualquier plataforma en la nube que se compromete con altos niveles de disponibilidad, velocidad y accesibilidad desde cualquier ubicación, y de durabilidad contra la pérdida de datos o desastres, requiere innovación técnica para lograr una eliminación rápida a gran escala. Google, como pionero en el diseño de plataformas de almacenamiento para productos que procesan billones de billones de elementos de datos, aporta más de una década de experiencia en la industria que respalda la optimización de los sistemas de almacenamiento de alto rendimiento para esta tarea.

En este informe se comenzará con una descripción general de cómo los datos del cliente se almacenan en Google Cloud Platform. Luego, describiremos la canalización de eliminación de Google y el tiempo que suele demorar en cada etapa. Por último, describiremos cómo impedimos la reconstrucción de los datos almacenados en nuestra plataforma a través de un proceso seguro de retiro y limpieza del hardware.

Almacenamiento y replicación de datos

Para explicar cómo Google Cloud Platform borra los datos del cliente, comenzamos con una breve descripción de cómo funciona el almacenamiento de datos en la infraestructura de Google. Google Cloud Platform ofrece servicios de almacenamiento como Cloud Bigtable y Cloud Spanner. La mayoría de las aplicaciones y servicios de Google Cloud Platform acceden a los sistemas de almacenamiento de Google indirectamente a través de estos servicios de almacenamiento de Cloud o mediante otros servicios de almacenamiento interno que Google usa.

Google Cloud Platform se diseñó para proporcionar soluciones de baja latencia, con alta disponibilidad, escalabilidad y durabilidad. La replicación de datos es fundamental para lograr estos objetivos de rendimiento clave. Las copias redundantes de los datos del cliente se pueden guardar a nivel local, regional y también global, según tu configuración y las exigencias de los proyectos del cliente. Las acciones que se realizan en los datos en Google Cloud Platform pueden replicarse simultáneamente en varios centros de datos a fin de que los datos del cliente tengan una alta disponibilidad. Cuando ocurren cambios en el hardware, el software o el entorno de red, que tienen un impacto en el rendimiento, los datos del cliente se transfieren automáticamente de un sistema (o instalación) a otro, dependiendo de la configuración definida por el cliente, de modo que sus proyectos continúen funcionando a gran escala y sin interrupciones.

En el nivel de almacenamiento físico, los datos del cliente se almacenan en reposo en dos tipos de sistemas: uno de almacenamiento activo y otro de copia de seguridad. Cada tipo de sistema procesa los datos de manera diferente. Los sistemas de almacenamiento activos son los servidores de producción de Google Cloud Platform que ejecutan las capas de aplicación y de almacenamiento de Google. Los sistemas activos son arreglos masivos de discos y unidades que se usan para escribir nuevos datos, así como almacenar y recuperar datos en varias copias replicadas. Los sistemas de almacenamiento activos están optimizados para realizar operaciones de lectura y escritura en vivo en los datos del cliente con rapidez y a escala.

Los sistemas de almacenamiento de copia de seguridad de Google albergan copias incrementales y completas de los sistemas activos de Google durante un período definido a fin de asistir a Google en la recuperación de datos y sistemas en caso de que ocurra una interrupción catastrófica o un desastre. A diferencia de los sistemas activos, los sistemas de copia de seguridad se diseñaron para recibir instantáneas periódicas de los sistemas de Google, por lo que las copias de seguridad se retiran después de un período limitado a medida que se crean nuevas copias de seguridad.

En los sistemas de almacenamiento que se describen más arriba, los datos del cliente se encriptan cuando se guardan en reposo. Los detalles de las técnicas de encriptación de Google se describen de forma más detallada en los informes técnicos de Google sobre la seguridad de sus servicios en la nube. La encriptación de los datos en reposo se realiza en las capas de aplicación y de almacenamiento, tanto en los medios de almacenamiento activos como en los de copia de seguridad.

Eliminación de datos segura y eficaz

Canalización de eliminación de datos

Una vez que los datos del cliente se almacenan en Google Cloud Platform, nuestros sistemas están diseñados para almacenarlos de forma segura hasta que completen las etapas de la canalización de eliminación de datos de Google. Esta sección describe este proceso en detalle.

Etapa 1: Solicitud de eliminación

La eliminación de los datos del cliente comienza cuando el cliente inicia una solicitud de eliminación. Por lo general, esta solicitud se dirige a un recurso específico, un proyecto de Google Cloud Platform o la Cuenta de Google del cliente. Las solicitudes de eliminación se pueden manejar de diferentes maneras según el alcance de la solicitud del cliente:

  • Eliminación de recursos: Los recursos individuales que contienen datos del cliente, como los buckets de Google Cloud Storage, se pueden borrar de varias formas desde Cloud Console o mediante una API. Por ejemplo, los clientes pueden ejecutar el comando rb o rm -r para quitar un bucket a través de la línea de comandos o pueden seleccionar un bucket de almacenamiento y borrarlo desde el navegador de Cloud Storage.
  • Eliminación de proyectos: Como propietario de un proyecto de Google Cloud Platform, puedes cerrarlo. Borrar un proyecto actúa como una solicitud de eliminación masiva de todos los recursos asociados al project_number correspondiente.
  • Eliminación de cuentas: Cuando borras tu Cuenta de Google, se borran todos los proyectos de Google Cloud Platform de los que eres el único propietario. Ten en cuenta que cuando un proyecto tiene varios propietarios, no se borrará hasta que se quiten todos los propietarios del proyecto o se borren sus Cuentas de Google. Esto garantiza que los proyectos de Google Cloud Platform continúen mientras tengan un propietario.

Si bien las solicitudes de eliminación se diseñaron principalmente para que los clientes las usen para administrar sus datos, Google puede emitir solicitudes de eliminación automáticamente, por ejemplo, cuando un cliente termina su relación con Google.

Etapa 2: Eliminación no definitiva

La eliminación no definitiva es el punto natural del proceso que proporciona una breve etapa de pruebas y de recuperación interna a fin de garantizar que haya tiempo de recuperar cualquier dato que se haya marcado para su eliminación por accidente o error. Los productos individuales de Google Cloud Platform pueden adoptar y configurar este período de recuperación definido antes de que se borren los datos de los sistemas de almacenamiento subyacentes, siempre y cuando se ajusten al cronograma general de eliminación de Google.

A modo de ejemplo, cuando se borran proyectos, Google Cloud Platform primero identifica el número de proyecto único; luego, transmite una señal de suspensión a los productos de Google Cloud Platform que contienen ese número de proyecto; por ejemplo, App Engine y Cloud Bigtable. En este caso, App Engine suspende de inmediato las operaciones vinculadas a ese número de proyecto. Las tablas correspondientes en Cloud Bigtable entran en un período de recuperación interno de hasta 30 días. Al final del período de recuperación, Google Cloud Platform transmite una señal a los mismos productos para que inicien la eliminación lógica de los recursos vinculados al número de proyecto único. Luego Google espera (y, si es necesario, vuelve a transmitir la señal) para obtener una señal de confirmación (ACK) de los productos correspondientes a fin de completar la eliminación del proyecto.

Cuando se cierra una cuenta de Google, es posible que Google Cloud Platform imponga un período de recuperación interno de hasta 30 días en función de la actividad de la cuenta anterior. Cuando ese período de gracia expira, se transmite una señal que contiene el ID de usuario de la cuenta de facturación borrada a los productos de Google, y los recursos de Google Cloud Platform vinculados únicamente a ese ID de usuario se marcan para su eliminación.

Etapa 3: Eliminación lógica en los sistemas activos

Una vez que los datos se marcan para su eliminación y cualquier período de recuperación haya expirado, los datos se borran sucesivamente de los sistemas de almacenamiento activos y de copia de seguridad de Google. En los sistemas activos, los datos se borran de dos maneras.

En todos los productos de Cloud que se encuentran en las secciones Procesamiento, Almacenamiento y bases de datos, y Macrodatos, salvo Google Cloud Storage, las copias de los datos borrados se marcan como almacenamiento disponible y se reemplazan conforme pasa el tiempo. En un sistema de almacenamiento activo, como Cloud Bigtable, los datos borrados se almacenan como entradas en una tabla estructurada masiva. Compactar las tablas existentes para reemplazar los datos borrados puede ser costoso, ya que implica reescribir las tablas de datos existentes (no borrados), por lo que la recolección de elementos no utilizados mediante marcado y barrido, y los eventos de compactación principales se programan en intervalos regulares a fin de recuperar espacio de almacenamiento y reemplazar los datos borrados.

En Google Cloud Storage, los datos del cliente también se eliminan a través del borrado criptográfico. Esta es una técnica estándar de la industria que convierte a los datos en ilegibles mediante el borrado de las claves de encriptación necesarias para desencriptar esos datos. Una de las ventajas de usar el borrado criptográfico, sin importar si se trata de claves de encriptación proporcionadas por Google o por el cliente, es que la eliminación lógica se puede completar incluso antes de que todos los bloques eliminados de esos datos se reemplacen en los sistemas de almacenamiento activos y de copia de seguridad de Google Cloud Platform.

Etapa 4: Expiración en los sistemas de copia de seguridad

De manera similar a la eliminación de los sistemas activos de Google, los datos eliminados se borran de los sistemas de copia de seguridad mediante técnicas de reemplazo y criptografía. Sin embargo, en el caso de los sistemas de copia de seguridad, los datos del cliente suelen almacenarse en grandes instantáneas agregadas de sistemas activos que se conservan durante períodos estáticos a fin de garantizar la continuidad del negocio en caso de un desastre (p. ej., una interrupción que afecte un centro de datos completo) si llegara a ser necesario restablecer un sistema completamente desde sistemas de copia de seguridad. De acuerdo con las prácticas razonables de continuidad del negocio, las instantáneas incrementales y completas de los sistemas activos se realizan en ciclos diarios, semanales y mensuales, y se retiran después de un plazo predefinido a fin de dejar espacio para las instantáneas más nuevas.

Cuando se retira una copia de seguridad, se marca como espacio disponible y se reemplaza cuando se realizan nuevas copias de seguridad diarias/semanales/mensuales.

Ten en cuenta que todo ciclo de copia de seguridad razonable impone un retraso predefinido en la propagación de una solicitud de eliminación de datos a través de los sistemas de copia de seguridad. Cuando los datos del cliente se borran de los sistemas activos, ya no se copian en los sistemas de copia de seguridad. Las copias de seguridad realizadas antes de la eliminación caducan regularmente en función del ciclo de copia de seguridad predefinido.

Por último, el borrado criptográfico de los datos eliminados puede ocurrir antes de que caduque la copia de seguridad que contiene los datos del cliente. Sin la clave de encriptación que se usó para encriptar los datos específicos del cliente, estos datos no se podrán recuperar, ni siquiera durante su vida útil restante en los sistemas de copia de seguridad de Google.

Cronograma de eliminación

Google Cloud Platform se diseñó para lograr un alto grado de velocidad, disponibilidad, durabilidad y coherencia, y el diseño de los sistemas optimizados para estos atributos de rendimiento debe equilibrarse cuidadosamente a fin de que los datos se eliminen de forma oportuna. Google Cloud Platform se compromete a borrar los datos del cliente en un plazo máximo de unos seis meses (180 días). Este compromiso incorpora las etapas de la canalización de eliminación de Google descrito anteriormente, que incluyen:

  • Etapa 2: Una vez que se realiza la solicitud de eliminación, los datos suelen marcarse para su eliminación inmediata y nuestro objetivo es realizar este paso en un período máximo de 24 horas. Después de marcar los datos para su eliminación, se puede aplicar un período de recuperación interno de hasta 30 días, según el servicio o la solicitud de eliminación.

  • Etapa 3: El tiempo necesario para completar las tareas de recolección de elementos no utilizados y lograr la eliminación lógica de los sistemas activos. Estos procesos pueden ocurrir inmediatamente después de que se reciba la solicitud de eliminación, dependiendo del nivel de replicación de los datos y la duración de los ciclos de recolección de elementos no utilizados en curso. En general, a partir de la solicitud de eliminación, el borrado de los datos de los sistemas activos tarda unos dos meses, lo que suele ser suficiente para completar dos ciclos principales de recolección de elementos no utilizados y garantizar que se haya completado la eliminación lógica.

  • Etapa 4: El ciclo de copia de seguridad de Google se diseñó para que caduquen los datos borrados en las copias de seguridad del centro de datos en un plazo de seis meses luego de la solicitud de eliminación. La eliminación puede ocurrir antes, según el nivel de replicación de datos y la duración de los ciclos de copia de seguridad en curso de Google.

Diagrama de la canalización de eliminaciónFigura 1: Las etapas de la canalización de eliminación de Google Cloud Platform

Garantiza la limpieza segura de los medios

Además de la canalización de eliminación de Google Cloud Platform, un programa disciplinado de limpieza de medios mejora la seguridad del proceso de eliminación, ya que impide los ataques forenses o de laboratorio en los medios de almacenamiento físico cuando llega al final de su ciclo de vida.

Google rastrea de forma meticulosa la ubicación y el estado de todos los equipos de almacenamiento dentro de nuestros centros de datos a través de la adquisición, la instalación, el retiro y la destrucción mediante códigos de barras y etiquetas de activos que se rastrean en la base de datos de activos de Google. A fin de evitar que los equipos salgan del piso del centro de datos sin autorización, se usan diversas técnicas, como la identificación biométrica, la detección de metales, las cámaras, las barreras para vehículos y los sistemas de detección de intrusiones con láser. Obtén más información en la Descripción general del diseño de seguridad en la infraestructura de Google.

Los medios de almacenamiento físico se pueden dar de baja por varias razones. Si un componente no pasa una prueba de rendimiento en cualquier momento de su ciclo de vida, se quita del inventario y se da de baja. Google también actualiza el hardware obsoleto para mejorar la velocidad de procesamiento y la eficiencia energética, o para aumentar la capacidad de almacenamiento. Ya sea que el hardware se retire debido a una falla, actualización o cualquier otra razón, los medios de almacenamiento se dan de baja usando las medidas de protección apropiadas. Los discos duros de Google usan tecnologías como la encriptación de disco completo (FDE) y el bloqueo de la unidad para proteger los datos en reposo durante el retiro. Cuando se retira un disco duro, las personas autorizadas verifican que el disco se haya borrado reemplazando la unidad con ceros y realizando un proceso de verificación de varios pasos para garantizar que la unidad no contenga datos.

Si los medios de almacenamiento no pueden borrarse por algún motivo, se almacenarán de forma segura hasta que puedan destruirse físicamente. Dependiendo del equipo disponible, aplastamos y deformamos la unidad o la trituramos. En cualquier caso, el disco se recicla en una instalación segura, lo que garantiza que nadie podrá leer los datos de los discos retirados de Google. Cada centro de datos cumple con una política estricta de eliminación y usa las técnicas descritas a fin de cumplir con la Revisión 1 de NIST SP 800-88: “Lineamientos para la limpieza de medios” y DoD 5220.22-M: “Manual de operación del Programa Nacional de Seguridad Industrial”.