Gegevens verwijderen op Google Cloud Platform

Miniatuur van video over gegevensverwijdering

Gegevens verwijderen op Google Cloud Platform

Overzicht

Samenvatting voor CIO's

  • Google hanteert eigen principes voor het opslaan en verwijderen van klantgegevens. Google Cloud Platform is ontwikkeld om een hoge mate van snelheid, beschikbaarheid, duurzaamheid en consistentie te bereiken. Het ontwerp van systemen die zijn geoptimaliseerd voor deze prestatiekenmerken, moet zorgvuldig worden afgewogen tegen de noodzaak om gegevens snel te kunnen verwijderen.
  • Wanneer u uw klantgegevens verwijdert, begint de verwijderingspipeline van Google met het bevestigen van het verwijderingsverzoek en het herhaaldelijk verwijderen van de gegevens uit app- en opslaglagen, zowel uit actieve opslag als uit opslagsystemen die als back-up worden gebruikt. Deze procedure wordt op hoofdlijnen beschreven in de verklaring over verwijdering en bewaring van Google.
  • Logische verwijdering vindt plaats in fasen. Het begint met het onmiddellijk markeren van de gegevens die moeten worden verwijderd in actieve opslagsystemen en het isoleren van de gegevens voor gewone verwerking in de app-laag. De opeenvolgende cycli voor comprimeren en markering-en-verwijdering in de opslaglagen van Google zorgen ervoor dat de verwijderde gegevens in de loop van de tijd worden overschreven. Verder wordt cryptografisch wissen gebruikt om de verwijderde gegevens onherstelbaar te maken. Ten slotte worden back-upsystemen met momentopnamen van de actieve systemen van Google in een standaardcyclus uit gebruik genomen.
  • Het verwijderen uit app- en opslaglagen kan onmiddellijk plaatsvinden, afhankelijk van de manier waarop de opslag van gegevens is geconfigureerd en de timing van lopende verwijderingscycli in de relevante opslaglagen en datacenters. De verwijdering uit actieve systemen wordt meestal voltooid binnen ongeveer twee maanden na het verwijderingsverzoek. Ten slotte worden klantgegevens verwijderd uit de back-upsystemen van Google voor de lange termijn. Momentopnamen van Google-systemen worden hierin maximaal zes maanden (180 dagen) bewaard als maatregel tegen natuurrampen en catastrofen.

Inleiding

Dit document geeft een overzicht van de beveiligde verwerking die plaatsvindt wanneer u uw klantgegevens (zoals gedefinieerd in de servicevoorwaarden van Google Cloud Platform) verwijdert die zijn opgeslagen op Google Cloud Platform. Gegarandeerde veilige verwijdering van klantgegevens aan het einde van de levenscyclus is een basisaspect van het werken met gegevens op elk computerplatform.

Als u met gegevens werkt op een cloudplatform dat gericht is op een hoge beschikbaarheid, snelheid en toegankelijkheid vanaf elke locatie plus bestendigheid tegen gegevensverlies en rampen, is technische innovatie vereist om gegevens snel en op grote schaal te kunnen verwijderen. Google ontwikkelde als een van de eerste spelers op de markt opslagplatforms voor producten die biljoenen gegevenselementen verwerken, en beschikt daarmee over meer dan tien jaar aan branche-ervaring in de optimalisatie van high-performance opslagsystemen voor deze taak.

Deze whitepaper begint met een overzicht van de manier waarop klantgegevens worden opgeslagen op Google Cloud Platform. Vervolgens beschrijven we de verwijderingspipeline van Google en de periode die doorgaans nodig is om de verwijdering in elke fase te voltooien. Tot slot beschrijven we hoe we met een veilig proces voor het buiten gebruik stellen en opschonen van hardware, voorkomen dat gegevens die op ons platform zijn opgeslagen, opnieuw worden samengesteld.

Gegevensopslag en replicatie

Onze beschrijving van de manier waarop Google Cloud Platform klantgegevens verwijdert, begint noodzakelijkerwijs met een kort overzicht van de manier waarop gegevensopslag werkt binnen de infrastructuur van Google. Google Cloud Platform biedt opslagservices aan, zoals Cloud Bigtable en Cloud Spanner. De meeste Google Cloud Platform-apps en -services hebben indirect toegang tot de opslagsystemen van Google via deze cloudopslagservices of via andere interne opslagservices die door Google worden gebruikt.

Google Cloud Platform is ontworpen voor oplossingen met een korte wachttijd, hoge beschikbaarheid, schaalbaarheid en duurzaamheid. Gegevensreplicatie is noodzakelijk om deze belangrijke prestatiedoelen te bereiken. Redundante kopieën van klantgegevens kunnen lokaal, regionaal en zelfs wereldwijd worden opgeslagen, afhankelijk van uw configuratie en de vereisten van klantprojecten. Acties die worden uitgevoerd op gegevens in Google Cloud Platform, kunnen tegelijkertijd worden gerepliceerd in meerdere datacenters. Zo biedt Google een hoge beschikbaarheid van klantgegevens. Wanneer er wijzigingen optreden die van invloed zijn op prestaties in de hardware-, software- of netwerkomgeving, worden klantgegevens automatisch van het ene systeem of de ene faciliteit naar een andere verplaatst, afhankelijk van de configuratie-instellingen van de klant. Op die manier blijven klantprojecten op schaal en zonder onderbrekingen presteren.

Op fysiek opslagniveau worden klantgegevens op de server bewaard in twee soorten systemen: actieve opslagsystemen en back-upopslagsystemen. Deze twee soorten systemen verwerken gegevens op verschillende manieren. Actieve opslagsystemen zijn productieservers van Google Cloud Platform waarop de app- en opslaglagen van Google worden uitgevoerd. Actieve systemen zijn massale matrices met schijven en stations die worden gebruikt om nieuwe gegevens te schrijven en om gegevens in meerdere gerepliceerde kopieën op te slaan en daaruit op te halen. Actieve opslagsystemen worden geoptimaliseerd om snel en op schaal live lees- en schrijfbewerkingen op klantgegevens uit te voeren.

De back-upopslagsystemen van Google bevatten volledige en incrementele kopieën van actieve Google-systemen gedurende een bepaalde periode. Deze systemen stellen Google in staat om gegevens en systemen beter te herstellen in geval van een catastrofale storing of ramp. In tegenstelling tot actieve systemen, zijn back-upsystemen ontworpen om periodieke momentopnamen van Google-systemen te ontvangen. Back-upkopieën worden bovendien na een beperkte tijd verwijderd naarmate er nieuwe back-upkopieën worden gemaakt.

Als klantgegevens op de hierboven beschreven opslagsystemen niet in gebruik zijn, worden ze versleuteld. Meer informatie over de versleutelingstechnieken van Google vindt u in de whitepapers over cloudbeveiliging van Google. Deze versleuteling van 'data at rest' vindt plaats in de app- en opslaglagen, zowel op actieve opslagmedia als op opslagmedia die voor back-ups worden gebruikt.

Veilig en effectief gegevens verwijderen

Pipeline voor het verwijderen van gegevens

Onze systemen zijn ontworpen om klantgegevens die worden opgeslagen op Google Cloud Platform veilig te bewaren, totdat alle fasen van de pipeline voor gegevensverwijdering zijn voltooid. In dit gedeelte wordt dit proces uitgebreid beschreven.

Fase 1: verzoek tot verwijdering

De verwijdering van klantgegevens begint wanneer de klant een verwijderingsverzoek initieert. Doorgaans wordt een verwijderingsverzoek gericht aan een specifieke resource, een Google Cloud Platform-project of het Google-account van de klant. Verwijderingsverzoeken kunnen op verschillende manieren worden afgehandeld, afhankelijk van de aard van het verzoek van de klant:

  • Verwijderen van resources: Afzonderlijke resources met klantgegevens, zoals Google Cloud Storage-buckets, kunnen op verschillende manieren worden verwijderd uit de Cloud Console of via de API. Klanten kunnen bijvoorbeeld een 'remove bucket'- of rm -r-opdracht geven om een opslagbucket via de opdrachtregel te verwijderen. Klanten kunnen ook een opslagbucket selecteren en deze verwijderen in de Cloud Storage-browser.
  • Verwijderen van projecten: Als eigenaar van een Google Cloud Platform-project kunt u een project afsluiten. Als u een project verwijdert, wordt er een bulkverwijderingsverzoek uitgevoerd voor alle resources die zijn gekoppeld aan het bijbehorende projectnummer.
  • Verwijderen van accounts: Wanneer u uw Google-account verwijdert, worden alle Google Cloud Platform-projecten verwijderd waarvan u de enige eigenaar bent. Houd er rekening mee dat wanneer er meerdere eigenaren zijn voor een project, het project pas wordt verwijderd als alle eigenaren uit het project zijn verwijderd of hun Google-accounts hebben verwijderd. Hierdoor blijven Google Cloud Platform-projecten gegarandeerd bestaan zolang ze een eigenaar hebben.

Hoewel verwijderingsverzoeken met name zijn bedoeld om klanten hun gegevens te laten beheren, kan Google ook automatisch verwijderingsverzoeken indienen, bijvoorbeeld wanneer een klant de relatie met Google beëindigt.

Fase 2: voorlopige verwijdering

Voorlopige verwijdering is een natuurlijk moment in het proces waarmee een korte interne periode voor fasering en herstel wordt geboden. Hierdoor wordt er tijd gegarandeerd om gegevens te herstellen die per ongeluk of door een fout zijn gemarkeerd voor verwijdering. Afzonderlijke Google Cloud Platform-producten kunnen zo'n gedefinieerde herstelperiode toepassen en configureren voordat de gegevens uit de onderliggende opslagsystemen worden verwijderd, op voorwaarde dat de periode past binnen de algehele verwijderingstijdlijn van Google.

Ter illustratie: Wanneer projecten worden verwijderd, identificeert Google Cloud Platform eerst het unieke projectnummer. Vervolgens verzendt het een opschortingssignaal naar de Google Cloud Platform-producten die dat projectnummer bevatten, bijvoorbeeld App Engine en Cloud Bigtable. In dit geval schort App Engine onmiddellijk alle bewerkingen op die aan dat projectnummer zijn gekoppeld. De relevante tabellen in Cloud Bigtable gaan een interne herstelperiode van maximaal 30 dagen in. Aan het einde van de herstelperiode verzendt Google Cloud Platform een signaal naar dezelfde producten. Hiermee begint het logisch verwijderen van resources die zijn gekoppeld aan het unieke projectnummer. Vervolgens wacht Google (en verzendt indien nodig het signaal opnieuw) op een bevestigingssignaal (acknowledgement signal, ACK) van de toepasselijke producten om de verwijdering van het project te voltooien.

Wanneer een Google-account wordt gesloten, kan Google Cloud Platform een interne herstelperiode van maximaal 30 dagen opleggen, afhankelijk van de accountactiviteit in het verleden. Zodra deze respijtperiode is verstreken, wordt er een signaal met de gebruikers-ID van het verwijderde factureringsaccount verzonden naar Google-producten. Google Cloud Platform-resources die uitsluitend aan die gebruikers-ID zijn gekoppeld, worden gemarkeerd voor verwijdering.

Fase 3: logische verwijdering uit actieve systemen

Nadat de gegevens zijn gemarkeerd voor verwijdering en de herstelperiode is verstreken, worden de gegevens achtereenvolgens verwijderd uit de actieve systemen en de back-upopslagsystemen van Google. Op actieve systemen worden gegevens op twee manieren verwijderd.

In alle Cloud-producten onder Compute, Storage & Databases en Big Data, behalve Google Cloud Storage, worden kopieën van de verwijderde gegevens gemarkeerd als beschikbare opslag en na verloop van tijd overschreven. In een actief opslagsysteem, zoals Cloud Bigtable, worden verwijderde gegevens opgeslagen als items binnen een enorme gestructureerde tabel. Het kan duur zijn om bestaande tabellen te comprimeren voor de overschrijving van verwijderde gegevens, omdat hierbij tabellen met bestaande (niet-verwijderde) gegevens opnieuw moeten worden geschreven. Daarom worden garbage collection met markering-en-verwijdering en belangrijke compressiegebeurtenissen met regelmatige tussenpozen gepland, zodat opslagruimte weer kan worden vrijgemaakt en verwijderde gegevens kunnen worden overschreven.

In Google Cloud Storage worden klantgegevens ook verwijderd via cryptografisch wissen. Dit is een standaard branchetechniek waarbij gegevens onleesbaar worden gemaakt door de versleutelingssleutels te verwijderen die nodig zijn om die gegevens te ontsleutelen. Een voordeel van het gebruik van cryptografisch wissen (of het nu om door Google geleverde of door de klant geleverde versleutelingssleutels gaat) is dat de logische verwijdering kan worden voltooid voordat alle verwijderde blokken van die gegevens worden overschreven in het actieve opslagsysteem en de back-upopslagsystemen van Google Cloud Platform.

Fase 4: vervallen van back-upsystemen

Net als bij verwijdering uit de actieve systemen van Google, worden verwijderde gegevens op back-upsystemen opgeschoond met technieken voor overschrijving en cryptografie. In het geval van back-upsystemen worden klantgegevens doorgaans echter opgeslagen in grote verzamelde momentopnamen van actieve systemen. Deze worden gedurende statische perioden bewaard om de bedrijfscontinuïteit te waarborgen in geval van een ramp (bijvoorbeeld een storing die een volledig datacenter treft), wanneer het onvermijdelijk kan zijn om tijd en kosten te besteden aan het volledige herstel van een systeem uit back-upsystemen. In overeenstemming met de billijke procedures voor bedrijfscontinuïteit, worden volledige en incrementele momentopnamen van actieve systemen gemaakt volgens een dagelijkse, wekelijkse en maandelijkse cyclus. Deze momentopnamen worden na een vooraf gedefinieerde tijdsperiode uit gebruik genomen om plaats te maken voor de nieuwste momentopnamen.

Wanneer een back-up uit gebruik wordt genomen, wordt deze als beschikbare ruimte gemarkeerd en overschreven wanneer er nieuwe dagelijkse, wekelijkse of maandelijkse back-ups worden uitgevoerd.

Onder elke redelijke back-upcyclus wordt er een vooraf gedefinieerde vertraging opgelegd wanneer een gegevensverwijderingsverzoek wordt doorgevoerd in back-upsystemen. Wanneer klantgegevens worden verwijderd uit actieve systemen, worden deze niet langer gekopieerd naar back-upsystemen. Back-ups die voorafgaand aan verwijdering zijn uitgevoerd, vervallen volgens een regelmatig patroon op basis van de vooraf gedefinieerde back-upcyclus.

Ten slotte kunnen verwijderde gegevens cryptografisch worden gewist voordat de back-up met de klantgegevens is verlopen. Zonder de versleutelingssleutel die wordt gebruikt om specifieke klantgegevens te versleutelen, kunnen klantgegevens zelfs tijdens de resterende levensduur van de back-upsystemen van Google niet worden hersteld.

Verwijderingstijdlijn

Google Cloud Platform is ontwikkeld om een hoge mate van snelheid, beschikbaarheid, duurzaamheid en consistentie te bereiken. Het ontwerp van systemen die zijn geoptimaliseerd voor deze prestatiekenmerken, moet zorgvuldig worden afgewogen tegen de noodzaak om gegevens snel te kunnen verwijderen. Google Cloud Platform verbindt zichzelf ertoe klantgegevens binnen een maximale periode van ongeveer zes maanden (180 dagen) te verwijderen. Deze verplichting omvat de fasen van de Google-verwijderingspipeline zoals hierboven beschreven, waaronder:

  • Fase 2 - Zodra het verwijderingsverzoek is ingediend, worden gegevens meestal onmiddellijk gemarkeerd voor verwijdering. We streven ernaar om deze stap binnen een maximale periode van 24 uur uit te voeren. Nadat de gegevens zijn gemarkeerd voor verwijdering, kan een interne herstelperiode van maximaal 30 dagen van toepassing zijn, afhankelijk van de service of het verwijderingsverzoek.

  • Fase 3 - De tijd die nodig is om garbagecollection-taken uit te voeren en om logische verwijdering uit actieve systemen te bereiken. Deze processen kunnen direct na de ontvangst van het verwijderingsverzoek plaatsvinden, afhankelijk van de mate van gegevensreplicatie en de timing van de actieve garbagecollection-cycli. Vanaf het moment van het verwijderingsverzoek duurt het ongeveer twee maanden voordat gegevens uit actieve systemen zijn verwijderd. Dit is meestal voldoende tijd om twee grote garbagecollection-cycli en de logische verwijdering te voltooien.

  • Fase 4 - De back-upcyclus van Google is zo ontworpen dat verwijderde gegevens in datacenterback-ups binnen zes maanden na het verwijderingsverzoek vervallen. De verwijdering kan eerder plaatsvinden, afhankelijk van de mate van gegevensreplicatie en de timing van de actieve back-upcycli van Google.

Diagram met verwijderingspipeline Afbeelding 1: de fasen van de verwijderingspipeline van Google Cloud Platform

Veilige en beveiligde media-opschoning waarborgen

Naast de verwijderingspipeline van Google Cloud Platform wordt de beveiliging van het verwijderingsproces ook verbeterd door een gedisciplineerd programma voor media-opschoning. Dit programma voorkomt forensische aanvallen en laboratoriumaanvallen op fysieke opslagmedia die het einde van hun levenscyclus hebben bereikt.

Google volgt nauwgezet de locatie en de status van alle opslagapparatuur in onze datacenters, van acquisitie tot installatie, uitgebruikname en vernietiging. Dit doen we aan de hand van streepjescodes en itemtags die worden bijgehouden in de item-database van Google. Google gebruikt verschillende technieken, zoals biometrische identificatie, metaaldetectie, camera's, slagbomen en intrusion detection systems met lasers, om te voorkomen dat apparatuur zonder toestemming een datacenter verlaat. Meer informatie vindt u in het overzicht van het beveiligingsontwerp van de infrastructuur van Google.

Fysieke opslagmedia kunnen om verschillende redenen uit gebruik worden genomen. Als een component een prestatietest niet doorstaat tijdens de levenscyclus, wordt deze verwijderd uit onze inventaris en uit gebruik genomen, ongeacht de leeftijd. Google upgradet ook verouderde hardware om de verwerkingssnelheid en energie-efficiëntie te verbeteren of de opslagcapaciteit te vergroten. Opslagmedia worden altijd met de juiste voorzorgsmaatregelen uit gebruik genomen, ongeacht of de achterliggende reden een defect, een upgrade of een willekeurige andere oorzaak is. Op de harde schijven van Google worden technologieën als volledige schijfversleuteling (Full Disk Encryption, FDE) en schijfvergrendeling gebruikt om ongebruikte gegevens tijdens de uitgebruikname te beschermen. Wanneer een harde schijf uit gebruik wordt genomen, controleren gemachtigde personen of de schijf is gewist door deze te overschrijven met nullen en een verificatieproces met meerdere stappen uit te voeren. Zo weten zij zeker dat de schijf geen gegevens bevat.

Als de schijf om welke reden dan ook niet kan worden gewist, wordt deze veilig opgeslagen totdat de schijf fysiek kan worden vernietigd. Afhankelijk van de beschikbare apparatuur verpletteren en vervormen we de schijf, of versnipperen we deze tot kleine stukjes. In elk geval wordt de schijf gerecycled op een beveiligde locatie, zodat niemand gegevens op oude Google-schijven kan lezen. Elk datacenter houdt zich aan een strikt afvoerbeleid en gebruikt de beschreven technieken om te voldoen aan NIST SP 800-88 Revisie 1 'Richtlijnen voor de sanering van media' en DoD 5220.22-M. 'National Industrial Security Program Operating Manual'.