Eliminación de datos en Google Cloud Platform

Miniatura del vídeo de eliminación de datos

Eliminación de datos en Google Cloud Platform

Información general

Resumen para directores de sistemas de información

  • En Google, adoptamos un enfoque firme a la hora de almacenar y eliminar los datos de los clientes. Google Cloud Platform funciona a gran velocidad y posee un alto grado de disponibilidad, durabilidad y coherencia. Asimismo, es necesario encontrar un equilibrio entre el diseño de sistemas optimizados para estos atributos de rendimiento y la necesidad de eliminar datos de forma oportuna.
  • Cuando se eliminan los datos de los clientes, el flujo de procesamiento de Google empieza con la confirmación de la solicitud de eliminación. Después, se eliminan de forma iterativa dichos datos de las capas de aplicación y almacenamiento, tanto de los sistemas de almacenamiento activos como de los de copia de seguridad. Este proceso se describe de forma general en la declaración de Google sobre la eliminación y la retención de datos.
  • La eliminación lógica se divide en varias fases. En primer lugar, se marcan inmediatamente los datos que se van a eliminar en los sistemas de almacenamiento activos y, a continuación, se aíslan los datos del procesamiento ordinario en la capa de aplicación. Los datos eliminados se sobrescriben a lo largo del tiempo mediante ciclos sucesivos de compactación y eliminación mediante marcación en las capas de almacenamiento de Google. También se utiliza el borrado criptográfico para hacer que los datos eliminados sean irrecuperables. Finalmente, los sistemas de copia de seguridad que contienen capturas de los sistemas activos de Google se retiran en un ciclo estándar.
  • La eliminación de los datos de las capas de aplicación y almacenamiento puede producirse de forma inmediata. Esto dependerá de la configuración del almacenamiento de los datos, así como de la programación de los ciclos de eliminación en curso en las capas de almacenamiento y en los centros de datos correspondientes. Normalmente, los datos se borran de los sistemas activos en aproximadamente dos meses desde que se solicita su eliminación. Por último, los datos de los clientes se retiran de los sistemas de copia de seguridad a largo plazo de Google, que conservan capturas de los sistemas de Google de hasta 6 meses de antigüedad (es decir, 180 días) para protegerlos contra desastres naturales y eventos catastróficos.

Introducción

En este documento, se ofrece una descripción general del proceso seguro que tiene lugar cuando eliminas los datos de tus clientes (tal y como se definen en las Condiciones del Servicio de Google Cloud Platform) almacenados en Google Cloud Platform. Cuando se trabaja con datos en cualquier plataforma informática, es fundamental garantizar la seguridad de la eliminación de los datos de los clientes al final de su ciclo de vida.

La innovación técnica es primordial para eliminar los datos a escala rápidamente cuando se trabaja con datos en cualquier plataforma en la nube que garantice un alto grado de disponibilidad, velocidad y accesibilidad desde cualquier ubicación, además de durabilidad ante la pérdida de datos o la contingencia de desastres. En Google, somos pioneros en disponer de plataformas de almacenamiento de ingeniería para productos que procesan billones y billones de elementos de datos y, además, contamos con más de una década de experiencia en el sector, lo que nos permite optimizar los sistemas de almacenamiento de alto rendimiento para esta tarea.

En este documento técnico, ofreceremos en primer lugar una descripción general de cómo se almacenan los datos de los clientes en Google Cloud Platform. A continuación, describiremos el flujo de procesamiento de eliminación de Google y lo que suele tardar en completarse la eliminación en cada etapa. Finalmente, explicaremos cómo evitamos que se reconstruyan los datos almacenados en nuestra plataforma a través de un proceso seguro de retirada y corrección de hardware.

Almacenamiento y replicación de datos

Nuestra descripción de la eliminación que hace Google Cloud Platform de los datos de los clientes debe empezar con una breve descripción de cómo funciona el almacenamiento de datos dentro de la infraestructura de Google. Google Cloud Platform ofrece servicios de almacenamiento, como Cloud Bigtable y Cloud Spanner. La mayoría de las aplicaciones y servicios de Google Cloud Platform acceden indirectamente a los sistemas de almacenamiento de Google a través de estos servicios de almacenamiento en la nube o de otros internos que utiliza Google.

Google Cloud Platform está diseñado para proporcionar soluciones de baja latencia y con un alto grado de disponibilidad, escalabilidad y durabilidad. La replicación de datos es un proceso fundamental a la hora de lograr estos objetivos clave de rendimiento. Puedes almacenar las copias redundantes de los datos de los clientes a nivel local, regional e incluso mundial, en función de su configuración y de las necesidades de los proyectos de los clientes. Puedes replicar simultáneamente las acciones que realices en Google Cloud Platform con los datos de los clientes en varios centros de datos, para que dichos datos estén siempre disponibles. Si un cambio en el hardware, software o entorno de red afecta al rendimiento, los datos de los clientes se trasladan automáticamente de un sistema o instalación a otro, en función de la configuración de los clientes, para que los proyectos de los clientes sigan funcionando a escala y sin interrupciones.

En cuanto al almacenamiento físico, almacenamos los datos en reposo de los clientes en los sistemas de almacenamiento activo y en los sistemas de almacenamiento de copia de seguridad, que procesan los datos de manera diferente. Los primeros son los propios servidores de producción de Google Cloud Platform que ejecutan las capas de aplicación y almacenamiento de Google. Son conjuntos de discos y unidades de gran tamaño que se utilizan para escribir datos nuevos, así como para almacenar y recuperar datos en diferentes copias replicadas. Estos sistemas están optimizados para leer y escribir los datos de los clientes en tiempo real, a gran velocidad y con escalabilidad.

Los sistemas de almacenamiento de copia de seguridad de Google albergan copias completas e incrementales de los sistemas activos de Google durante un periodo definido para que Google pueda recuperar datos y sistemas en caso de fallos o interrupciones catastróficas del servicio. A diferencia de los sistemas activos, los sistemas de copia de seguridad están diseñados para recibir capturas periódicas de los sistemas de Google, y las copias de seguridad se retiran después de un periodo limitado a medida que se generan nuevas copias de seguridad.

En los sistemas de almacenamiento descritos, los datos de los clientes se encriptan cuando se almacenan en reposo. Para obtener más información sobre las técnicas de encriptado de Google, consulta los informes sobre la seguridad en Google Cloud. Los datos en reposo se encriptan en las capas de aplicación y almacenamiento, tanto en los medios de almacenamiento activos como de copia de seguridad.

Eliminación de datos segura y efectiva

Flujo de procesamiento de eliminación de datos

Los sistemas de Google Cloud Platform están diseñados para almacenar los datos de los clientes de forma segura hasta que se completan las etapas del flujo de procesamiento de eliminación de datos de Google. En esta sección, se describe este proceso en detalle.

Etapa 1: Solicitud de eliminación

La eliminación de los datos de los clientes se inicia cuando estos la solicitan. Dicha solicitud suele estar relacionada con un recurso específico, un proyecto de Google Cloud Platform o la cuenta de Google del cliente. Además, la gestión de las solicitudes de eliminación varía según el alcance de la solicitud del cliente:

  • Eliminación de recursos: los recursos concretos que contienen datos de clientes, como los segmentos de Google Cloud Storage, se pueden eliminar de varias maneras desde la consola de Cloud o mediante APIs. Por ejemplo, los clientes pueden enviar un segmento de eliminación o un comando rm -r para eliminar un segmento de almacenamiento a través de la línea de comandos. También pueden seleccionar un segmento de almacenamiento y eliminarlo desde el navegador de Cloud Storage.
  • Eliminación de proyectos: si eres el propietario de un proyecto de Google Cloud Platform, puedes cerrarlo. La eliminación de un proyecto tiene el efecto de una solicitud de eliminación en lote para todos los recursos vinculados al número de proyecto correspondiente.
  • Eliminación de cuentas: cuando eliminas tu cuenta de Google, se eliminan todos los proyectos de Google Cloud Platform que te pertenecen únicamente a ti. Cuando un proyecto tiene varios propietarios, no se elimina hasta que todos se retiran del proyecto o eliminan sus cuentas de Google. De este modo, se garantiza que los proyectos de Google Cloud Platform sigan abiertos mientras tengan un propietario.

Las solicitudes de eliminación están diseñadas principalmente para que los clientes gestionen sus datos. No obstante, Google puede emitir solicitudes de eliminación automáticamente, como, por ejemplo, cuando un cliente pone fin a su relación con Google.

Etapa 2: Eliminación no definitiva

La eliminación no definitiva es el punto lógico del proceso para proporcionar un breve periodo interno de almacenamiento en área de stage y recuperación para asegurarse de que hay tiempo para recuperar los datos que se hayan marcado para la eliminación por accidente o error. Los productos individuales de Google Cloud Platform pueden adoptar y configurar dicho periodo de recuperación definido antes de que los datos se eliminen de los sistemas de almacenamiento subyacentes, siempre y cuando se ajusten a la cronología de eliminación general de Google.

Por ejemplo, cuando se eliminan proyectos, Google Cloud Platform primero identifica el número de proyecto único y, después, emite una señal de suspensión a los productos de la plataforma que lo contienen, como, por ejemplo, App Engine y Cloud Bigtable. En este caso, App Engine suspenderá inmediatamente las operaciones que tengan una clave para ese número de proyecto. Además, las tablas pertinentes de Cloud Bigtable entrarán en un periodo de recuperación interno de hasta 30 días. Al final de dicho periodo, Google Cloud Platform transmite una señal a los mismos productos para iniciar la eliminación lógica de los recursos vinculados al número de proyecto único. A continuación, Google espera (y, si es necesario, vuelve a transmitir la señal) para recopilar una señal de confirmación (ACK) de los productos correspondientes y, de este modo, completar la eliminación del proyecto.

Cuando se cierra una cuenta de Google, Google Cloud Platform puede aplicar un periodo de recuperación interno de hasta 30 días, en función de la actividad anterior de la cuenta. Cuando el periodo de gracia caduca, se transmite una señal que contiene el ID de usuario de la cuenta de facturación eliminada a los productos de Google, y los recursos de Google Cloud Platform vinculados únicamente a ese ID usuario se marcan para la eliminación.

Etapa 3: Eliminación lógica de los sistemas activos

Después de marcar los datos que se quieren eliminar y de que los periodos de recuperación caduquen, los datos se eliminan sucesivamente de los sistemas de almacenamiento activo y de copia de seguridad de Google. En los sistemas activos, los datos se eliminan de dos maneras.

En todos los productos de Cloud de las secciones de recursos informáticos, almacenamiento, bases de datos y Big Data (excepto Google Cloud Storage), las copias de los datos eliminados se marcan como "almacenamiento disponible" y se sobrescriben a lo largo del tiempo. En los sistemas de almacenamiento activo, como Cloud Bigtable, los datos eliminados se almacenan como entradas dentro de una tabla estructurada de gran tamaño. Compactar las tablas para sobrescribir los datos eliminados puede ser caro, ya que es necesario reescribir las tablas de datos (no eliminados), por lo que la recolección de memoria residual de marcación y los principales eventos de compactación se programan en intervalos periódicos para recuperar espacio de almacenamiento y sobrescribir datos eliminados.

En Google Cloud Storage, los datos de los clientes también se eliminan mediante el borrado criptográfico, una técnica estándar del sector que, para hacer que los datos sean ilegibles, elimina las claves de encriptado necesarias para desencriptar dichos datos. Una ventaja de usar el borrado criptográfico, con independencia de si se utilizan claves de encriptado suministradas por Google o por el cliente, es que la eliminación lógica puede completarse incluso antes de que todos los bloques eliminados de esos datos se sobrescriban en los sistemas de almacenamiento activos y de copia de seguridad de Google Cloud Platform.

Etapa 4: Caducidad de los sistemas de copia de seguridad

Al igual que ocurre con la eliminación en los sistemas activos de Google, los datos eliminados se eliminan en los sistemas de copia de seguridad mediante técnicas de sobrescritura y criptografía. Sin embargo, en el caso de los sistemas de copia de seguridad, los datos de los clientes se suelen almacenar en grandes capturas agregadas de sistemas activos que se conservan durante periodos estáticos, con el objetivo de garantizar la continuidad del negocio en caso de que se produzca algún fallo (por ejemplo, una interrupción que afecte a todo un centro de datos). En efecto, en estos casos es posible que se deba invertir tiempo y dinero para restaurar un sistema por completo a partir de sistemas de copia de seguridad. De acuerdo con las prácticas de continuidad empresarial que cabe esperar, se realizan capturas completas e incrementales de los sistemas activos en ciclos diarios, semanales y mensuales. Además, se retiran después de un periodo predefinido para dejar espacio a las capturas más recientes.

Cuando se retira una copia de seguridad, se marca como "espacio disponible" y se sobrescribe a medida que se realizan nuevas copias de seguridad diarias, semanales o mensuales.

Ten en cuenta que cualquier ciclo de copia de seguridad razonable siempre conlleva un retraso predefinido en la propagación de una solicitud de eliminación de datos a través de los sistemas de copia de seguridad. Cuando los datos de los clientes se eliminan de los sistemas activos, dejan de copiarse en los sistemas de copia de seguridad. Las copias de seguridad realizadas antes de la eliminación caducan periódicamente según el ciclo de copia de seguridad predefinido.

Por último, el borrado criptográfico de los datos eliminados puede producirse antes de que caduque la copia de seguridad que contiene los datos de los clientes. Sin la clave utilizada para encriptar determinados datos de los clientes, estos datos son irrecuperables, incluso durante la vida útil que les quede en los sistemas de copia de seguridad de Google.

Cronología de la eliminación

Google Cloud Platform funciona a gran velocidad y posee un alto grado de disponibilidad, durabilidad y coherencia. Asimismo, es necesario encontrar un equilibrio entre el diseño de sistemas optimizados para estos atributos de rendimiento y la necesidad de eliminar datos de forma oportuna. Google Cloud Platform se compromete a eliminar los datos de los clientes en un periodo máximo de aproximadamente seis meses (180 días). Este compromiso abarca las etapas del flujo de procesamiento de eliminación de Google descrito anteriormente, incluidas las siguientes:

  • Etapa 2: Después de realizar la solicitud de eliminación, los datos normalmente se marcan para su eliminación de forma inmediata, y nuestro objetivo es hacerlo en un plazo máximo de 24 horas. Después de marcar los datos que se quieren eliminar, puede aplicarse un periodo de recuperación interno de hasta 30 días, en función del servicio o de la solicitud de eliminación.

  • Etapa 3: El tiempo necesario para completar las tareas de recolección de memoria residual y lograr la eliminación lógica de los sistemas activos. Estos procesos pueden tener lugar nada más recibir una solicitud de eliminación; ello dependerá del nivel de replicación de datos y de la programación de los ciclos de recolección de memoria residual en curso. A partir del momento en que se solicita la eliminación, los datos suelen tardar aproximadamente dos meses en eliminarse de los sistemas activos. Esto suele dar tiempo suficiente para completar dos ciclos principales de recolección de memoria residual y para garantizar que se complete la eliminación lógica.

  • Etapa 4: El ciclo de copia de seguridad de Google está diseñado para que los datos eliminados caduquen en las copias de seguridad del centro de datos en los seis meses posteriores a la solicitud de eliminación. No obstante, dependiendo del nivel de replicación de los datos y de la programación de los ciclos de copia de seguridad en curso de Google, es posible que se eliminen antes.

Diagrama del flujo de procesamiento de la eliminación Figura 1: Etapas del flujo de procesamiento de la eliminación de datos de Google Cloud Platform

Garantizar un saneamiento de medios seguro

Además del flujo de procesamiento de eliminación de Google Cloud Platform, contamos con un riguroso programa de corrección de medios, el cual mejora la seguridad del proceso de eliminación al evitar ataques forenses o de laboratorio en los medios físicos de almacenamiento cuando llegan al final de su ciclo de vida.

Google hace un seguimiento meticuloso de la ubicación y el estado de todos los equipos de almacenamiento dentro de nuestros centros de datos, a través de la adquisición, instalación, retirada y destrucción con códigos de barras y etiquetas de recursos que se rastrean en la base de datos de recursos de Google. Para evitar que los equipos se extraigan de los centros de datos sin autorización, utilizamos diversas técnicas, como la identificación biométrica, detectores de metales, cámaras, barreras para vehículos y sistemas de detección láser de intrusos. Obtén más información en la sección de información general sobre el diseño de seguridad de la infraestructura de Google.

Existen varias razones por las que se retiran los medios físicos de almacenamiento. Si un componente no pasa una prueba de rendimiento en algún momento de su ciclo de vida, se quita del inventario y se retira. Google también actualiza el hardware obsoleto para mejorar la velocidad de procesamiento y la eficiencia energética o aumentar la capacidad de almacenamiento. Sea cual sea el motivo por el que se retire el hardware (por ejemplo, por un fallo o por una actualización), los medios de almacenamiento se retiran en conformidad con las medidas de seguridad apropiadas. Las unidades de disco duro de Google utilizan tecnologías como el encriptado de disco completo (FDE) y el bloqueo de unidades para proteger los datos en reposo durante la retirada. Cuando se retira una unidad de disco duro, las personas autorizadas sobrescriben la unidad con ceros y llevan a cabo un proceso de verificación en varios pasos para comprobar que la unidad no contiene datos y que el disco se ha borrado.

Si los medios de almacenamiento no se pueden borrar por algún motivo, se almacenan de forma segura hasta que puedan destruirse físicamente. Según el equipo que esté disponible, podemos aplastar y deformar la unidad o romperla en pequeños pedazos. En cualquier caso, reciclamos el disco en una instalación segura para que nadie pueda leer los datos de los discos retirados de Google. Cada centro de datos sigue una política de eliminación estricta y emplea las técnicas descritas para cumplir con la publicación NIST SP 800‑88 Revisión 1 "Guidelines for Media Sanitization" (Directrices para el saneamiento de medios) y con el estándar DoD 5220.22‑M "National Industrial Security Program Operating Manual" (Manual del funcionamiento del programa nacional de seguridad industrial).