Suppression des données sur Google Cloud

Miniature de la vidéo sur la suppression des données

Suppression des données sur Google Cloud

Présentation

Résumé à l'intention des responsables des technologies de l'information

  • Google adopte une approche rigoureuse du stockage et de la suppression des données client. Google Cloud est conçu pour offrir de hautes performances en termes de vitesse, de disponibilité, de durabilité et de cohérence, et il est important que les systèmes optimisés pour ces attributs puissent permettre une suppression rapide des données.
  • Lorsque vous supprimez vos données client, le pipeline de suppression de Google commence par confirmer la demande de suppression, puis élimine de manière itérative les données des couches d'application et de stockage présentes dans les systèmes de stockage actifs et de sauvegarde. Ce processus est décrit de manière générale dans la déclaration de Google concernant la suppression et la conservation des données.
  • La suppression logique s'effectue en plusieurs phases. Les données à supprimer des systèmes de stockage actifs sont tout d'abord immédiatement marquées, puis isolées du traitement ordinaire au niveau de la couche d'application. Les cycles successifs de compactage et de suppression par marquage et libération dans les couches de stockage de Google permettent d'écraser les données supprimées au fil du temps. Vous pouvez également recourir à l'effacement cryptographique pour vous assurer que les données supprimées soient irrécupérables. Enfin, les systèmes de sauvegarde qui contiennent des instantanés des systèmes actifs de Google sont éliminés après une période définie.
  • La suppression des données des couches d'application et de stockage peut se produire de façon immédiate en fonction de la configuration du stockage et de la fréquence des cycles de suppression en cours dans les couches de stockage et dans les centres de données concernés. La suppression des données des systèmes actifs s'effectue généralement dans les deux mois suivant la demande de suppression. Enfin, les données client sont supprimées des systèmes de sauvegarde à long terme de Google, qui conservent les instantanés des systèmes Google pendant un maximum de six mois (180 jours) afin d'offrir une protection contre les sinistres et les catastrophes naturelles.

Présentation

Ce document présente le processus sécurisé de suppression des données client (telles que définies dans les Conditions d'utilisation de Google Cloud Platform) stockées dans Google Cloud. Quand vous exploitez des données sur une plate-forme informatique, il est essentiel que les données client puissent être supprimées de manière sécurisée à la fin de leur cycle de vie.

L'exploitation de données sur une plate-forme cloud qui s'engage à offrir de hautes performances en termes de disponibilité, de rapidité et d'accessibilité en tout lieu, ainsi qu'une haute durabilité contre la perte de données et les sinistres, va de pair avec des innovations techniques permettant d'effectuer des suppressions rapides à grande échelle. Acteur de la première heure dans le domaine de la conception de plates-formes de stockage destinées à des produits traitant des milliards d'éléments de données, Google se consacre depuis plus de dix ans à optimiser les systèmes de stockage hautes performances pour la suppression.

Ce livre blanc vous expliquera tout d'abord la façon dont les données client sont stockées dans Google Cloud. Nous aborderons ensuite en détail le pipeline de suppression de Google et vous indiquerons le temps que prend généralement chaque étape de suppression. Enfin, nous vous décrirons le processus sécurisé de mise hors service et de destruction du matériel qui nous permet d'empêcher toute reconstruction des données stockées sur notre plate-forme.

Stockage et réplication des données

Notre description du processus de suppression des données client sur Google Cloud commence bien évidemment par un bref aperçu du fonctionnement du stockage des données sur l'infrastructure de Google. Google Cloud propose des services de stockage, tels que Cloud Bigtable et Cloud Spanner. La plupart des applications et des services Google Cloud accèdent indirectement aux systèmes de stockage de Google par le biais de ces services de stockage cloud ou via d'autres services de stockage internes utilisés par Google.

Google Cloud est conçu pour fournir des solutions à faible latence, hautement disponibles, évolutives et durables. La réplication des données est essentielle pour atteindre ces objectifs de performances clés. Les copies redondantes des données client peuvent être stockées localement, régionalement et même mondialement, en fonction de votre configuration et des exigences des projets de vos clients. Les actions sur les données dans Google Cloud peuvent être répliquées simultanément dans plusieurs centres de données, ce qui permet aux données client de rester hautement disponibles. Lorsque des modifications affectant les performances surviennent au sein de l'environnement matériel, logiciel ou réseau, les données client sont automatiquement transférées vers un autre système ou site, en fonction des paramètres de configuration des clients. Ainsi, leurs projets restent actifs à grande échelle et sans interruption.

Au niveau du stockage physique, les données client sont stockées au repos dans deux types de systèmes : les systèmes de stockage actifs et les systèmes de stockage de sauvegarde. Ces deux types de systèmes traitent les données différemment. Les systèmes de stockage actifs sont des serveurs de production de Google Cloud Platform qui exécutent les couches d'application et de stockage de Google. Ils se composent de vastes baies de disques qui servent à écrire de nouvelles données, ainsi qu'à stocker et à récupérer des données dans plusieurs copies répliquées. Les systèmes de stockage actifs sont optimisés pour effectuer des opérations de lecture et d'écriture en direct sur les données client, le tout rapidement et à grande échelle.

Les systèmes de stockage de sauvegarde de Google conservent des copies complètes et incrémentielles des systèmes actifs de Google pendant une période définie. Google est ainsi en mesure de récupérer des données et des systèmes en cas d'interruption ou de sinistre. Contrairement aux systèmes actifs, les systèmes de sauvegarde sont conçus pour recevoir des instantanés périodiques des systèmes Google. En outre, les copies de sauvegarde sont éliminées après une certaine période à mesure que de nouvelles sauvegardes sont effectuées.

Dans les systèmes de stockage décrits ci-dessus, les données client sont chiffrées lorsqu'elles sont stockées au repos. Pour en savoir plus sur les techniques de chiffrement de Google, consultez les livres blancs sur la sécurité dans Google Cloud. Le chiffrement des données au repos s'effectue au niveau des couches d'application et de stockage, sur des supports de stockage actifs et de sauvegarde.

Suppression des données performante et sécurisée

Pipeline de suppression des données

Une fois que des données client sont stockées dans Google Cloud, nos systèmes sont conçus pour les conserver de manière sécurisée jusqu'à ce que toutes les étapes du pipeline de suppression des données de Google soient terminées. Cette section décrit ce processus en détail.

Étape 1 – Demande de suppression

La suppression des données client commence lorsque le client effectue une demande de suppression. En règle générale, les demandes de suppression sont dirigées vers une ressource spécifique, vers un projet Google Cloud ou vers le compte Google du client. Les demandes de suppression effectuées par des clients peuvent être traitées de différentes manières selon leur champ d'application :

  • Suppression de ressources : les ressources individuelles qui contiennent des données client (telles que les buckets Google Cloud Storage) peuvent être supprimées de plusieurs façons depuis Cloud Console ou via une API. Par exemple, les clients peuvent exécuter une commande de suppression de bucket ou rm -r pour supprimer un bucket de stockage via la ligne de commande, ou bien en sélectionner un et le supprimer à partir du navigateur Cloud Storage.
  • Suppression de projet : vous pouvez arrêter un projet Google Cloud dont vous êtes propriétaire. La suppression d'un projet fonctionne comme une demande de suppression groupée de toutes les ressources liées au numéro de projet correspondant.
  • Suppression de compte : lorsque vous supprimez votre compte Google, tous les projets Google Cloud dont vous êtes l'unique propriétaire sont supprimés. Notez que, si plusieurs membres détiennent un projet, celui-ci n'est pas supprimé tant que tous les propriétaires n'ont pas été retirés du projet ou n'ont pas supprimé leur compte Google. Ainsi, les projets Google Cloud se poursuivent tant qu'ils ont un propriétaire.

Bien que les demandes de suppression soient principalement conçues pour permettre aux clients de gérer leurs données, Google peut émettre automatiquement ce genre de demande, par exemple lorsqu'un client met fin à sa relation avec Google.

Étape 2 – Suppression réversible

La suppression réversible est le point naturel du processus qui vous offre une brève période interne de préparation et de récupération. Elle vous permet de récupérer des données que vous avez accidentellement marquées pour suppression. Chaque produit Google Cloud Platform permet d'adopter et de configurer une période de récupération définie avant la suppression des données des systèmes de stockage sous-jacents, tant que cette période se conforme au calendrier de suppression global de Google.

Ainsi, lorsque des projets sont supprimés, Google Cloud identifie d'abord le numéro de projet unique, puis diffuse un signal de suspension aux produits Google Cloud Platform contenant ce numéro de projet (App Engine et Cloud Bigtable, par exemple). Dans ce cas, App Engine suspend immédiatement les opérations associées à ce numéro de projet, et les tables correspondantes dans Cloud Bigtable sont soumises à une période de récupération interne de 30 jours maximum. À la fin de la période de récupération, Google Cloud envoie un signal à ces mêmes produits et commence la suppression logique des ressources liées au numéro de projet unique. Google attend ensuite (et, si nécessaire, rediffuse le signal initial) de recevoir un signal de confirmation de la part des produits concernés pour terminer la suppression du projet.

Lorsqu'un compte Google est clôturé, Google Cloud peut imposer une période de récupération interne de 30 jours maximum, en fonction des activités passées du compte. Une fois ce délai écoulé, un signal contenant l'ID utilisateur du compte de facturation supprimé est envoyé aux produits Google, et les ressources Google Cloud qui ne sont associées qu'à cet ID utilisateur sont marquées pour suppression.

Étape 3 – Suppression logique des données des systèmes actifs

Une fois des données marquées pour suppression et l'éventuelle période de récupération écoulée, les données sont supprimées successivement des systèmes de stockage actifs et de sauvegarde de Google. Dans les systèmes actifs, les données sont supprimées de deux manières.

Pour tous les produits Cloud de calcul, de stockage, de bases de données et de big data (sauf Google Cloud Storage), les copies des données supprimées sont marquées en tant qu'espace disponible et sont écrasées au fil du temps. Dans un système de stockage actif (tel que Cloud Bigtable), les données supprimées sont stockées sous forme d'entrées dans une vaste table structurée. Compacter des tables existantes afin d'écraser des données supprimées peut s'avérer coûteux, car cela implique la réécriture de tables de données existantes (non supprimées). Par conséquent, des opérations de récupération de mémoire par marquage et libération, et des événements majeurs de compactage sont planifiées à intervalles réguliers, ce qui permet de regagner de l'espace de stockage et d'écraser les données supprimées.

Dans Google Cloud Storage, les données client sont également supprimées par le biais de l'effacement cryptographique. Il s'agit d'une technique classique qui rend des données illisibles en supprimant les clés de chiffrement nécessaires à leur déchiffrement. Qu'il s'applique à des clés de chiffrement fournies par Google ou par le client, l'effacement cryptographique présente l'avantage de permettre la suppression logique avant même que tous les blocs supprimés au sein des données n'aient été écrasés dans les systèmes de stockage actifs et de sauvegarde de Google Cloud.

Étape 4 – Expiration des systèmes de sauvegarde

Tout comme pour les systèmes actifs de Google, la suppression des données des systèmes de sauvegarde s'effectue à l'aide de techniques d'écrasement et de chiffrement. Toutefois, dans le cas des systèmes de sauvegarde, les données client sont généralement stockées dans de vastes instantanés regroupés de systèmes actifs, qui sont conservés pendant des périodes fixes. Cela permet d'assurer la continuité des activités en cas de sinistre (telle qu'une interruption affectant un centre de données tout entier), lorsqu'il peut s'avérer nécessaire de consacrer du temps et des ressources à la restauration complète d'un système à partir de systèmes de sauvegarde. Conformément aux pratiques raisonnables de continuité des activités, des instantanés complets et incrémentiels des systèmes actifs sont enregistrés à intervalles quotidiens, hebdomadaires ou mensuels et sont éliminés après une période prédéfinie afin de libérer de la place pour des instantanés plus récents.

Lorsqu'une sauvegarde est éliminée, elle est marquée en tant qu'espace disponible et écrasée par de nouvelles sauvegardes quotidiennes, hebdomadaires ou mensuelles.

Notez que tout cycle de sauvegarde raisonnable impose un délai prédéfini lors de la propagation d'une demande de suppression de données via des systèmes de sauvegarde. Lorsque des données client sont supprimées des systèmes actifs, elles ne sont plus copiées dans les systèmes de sauvegarde. Les sauvegardes effectuées avant la suppression expirent régulièrement en fonction du cycle de sauvegarde prédéfini.

Enfin, l'effacement cryptographique des données supprimées peut se produire avant l'expiration de la sauvegarde contenant les données client. Sans la clé de chiffrement permettant de chiffrer des données client spécifiques, celles-ci deviennent irrécupérables, même pendant la durée de vie restante des systèmes de sauvegarde de Google.

Calendrier de suppression

Google Cloud est conçu pour offrir de hautes performances en termes de vitesse, de disponibilité, de durabilité et de cohérence, et il est important que les systèmes optimisés pour ces attributs puissent permettre une suppression rapide des données. Google Cloud s'engage à supprimer les données client dans un délai maximum de six mois (180 jours). Cet engagement s'applique aux étapes du pipeline de suppression de Google décrit ci-dessus, y compris les suivantes :

  • Étape 2 : une fois la demande de suppression effectuée, les données sont généralement immédiatement marquées pour suppression, et notre objectif est d'effectuer cette étape dans un délai maximum de 24 heures. Une fois les données marquées pour suppression, une période de récupération interne de 30 jours maximum peut être appliquée en fonction du service ou de la demande de suppression.

  • Étape 3 : temps nécessaire pour terminer les tâches de récupération de mémoire et de suppression logique des données des systèmes actifs. Ces processus peuvent se produire immédiatement après la réception de la demande de suppression, selon le niveau de réplication des données et la fréquence des cycles de récupération de mémoire en cours. Une fois la suppression demandée, l'opération prend habituellement environ deux mois pour les systèmes actifs, ce qui suffit généralement à effectuer deux cycles majeurs de récupération de mémoire et à garantir la fin de la suppression logique.

  • Étape 4 : le cycle de sauvegarde de Google est conçu pour que les données supprimées des sauvegardes du centre de données expirent dans les six mois suivant la demande de suppression. La suppression peut survenir plus tôt en fonction du niveau de réplication des données et de la fréquence des cycles de sauvegarde en cours de Google.

Schéma du pipeline de suppressionFigure 1 : Étapes du pipeline de suppression de Google Cloud

Assurer la destruction des supports en toute sécurité

En plus du pipeline de suppression de Google Cloud, nous avons créé un programme rigoureux de destruction qui renforce la sécurité du processus de suppression en empêchant toute attaque scientifique à l'encontre des supports de stockage physiques une fois leur cycle de vie terminé.

Google surveille méticuleusement la position et l'état de tous les équipements de stockage de ses centres de données lors des processus d'acquisition, d'installation, de retrait et de destruction. Nous utilisons pour cela des codes-barres et des identifiants d'appareils que nous suivons dans notre base de données. Nous mettons également en œuvre différentes technologies telles que l'identification biométrique, la détection de métaux, les caméras, les barrières de sécurité pour véhicules et les systèmes de détection d'intrusion à laser pour empêcher toute sortie non autorisée du matériel des centres de données. Pour en savoir plus, consultez la présentation de la sécurité sur l'infrastructure de Google.

Les supports de stockage physiques peuvent être mis hors service pour diverses raisons. Lorsqu'un composant rate un test de performance au cours de son cycle de vie, il est retiré de l'inventaire et mis hors service. Google met également à niveau le matériel obsolète afin d'améliorer la vitesse de traitement et l'efficacité énergétique, ou d'augmenter la capacité de stockage. Que la mise hors service d'un support de stockage ait lieu en raison d'une panne, d'une mise à niveau ou pour un autre motif, des mesures de sécurité appropriées sont adoptées. Les disques durs de Google utilisent des technologies telles que le chiffrement intégral de disque (FDE, full disk encryption) et le verrouillage de disque pour protéger les données au repos pendant la mise hors service. Lors du retrait d'un disque dur, les personnes autorisées vérifient que le disque est bien effacé en remplaçant ses données par des zéros et en effectuant un processus de vérification en plusieurs étapes pour garantir que le disque ne contient aucune donnée.

Si le support de stockage ne peut pas être effacé pour une raison quelconque, il est stocké en toute sécurité jusqu'à ce qu'il puisse être détruit physiquement. Selon l'équipement disponible, nous écrasons et déformons le disque dur ou le déchiquetons. Dans les deux cas, le disque est recyclé dans une installation sécurisée pour que personne ne puisse accéder aux données des disques Google mis hors service. Chaque centre de données respecte une politique de destruction très stricte et met en œuvre les techniques décrites ci-dessus pour assurer la conformité avec la norme NIST SP 800-88 Révision 1 "Guidelines for Media Sanitization" (Consignes concernant la destruction des supports) et la réglementation DoD 5220.22-M NISPOM (National Industrial Security Program Operating Manual).