Eliminazione dei dati su Google Cloud

Miniatura del video sull'eliminazione dei dati

Eliminazione dei dati su Google Cloud

Panoramica

Riepilogo a livello di CIO

  • Google adotta un solido approccio all'archiviazione ed eliminazione dei dati dei clienti. La piattaforma Google Cloud è progettata per offrire livelli elevati di velocità, disponibilità, durabilità e coerenza, e la progettazione di sistemi ottimizzati per queste caratteristiche prestazionali deve essere attentamente bilanciata dalla necessità di ottenere un'eliminazione tempestiva dei dati.
  • Quando elimini i dati dei clienti, per prima cosa la pipeline di eliminazione di Google conferma la richiesta di eliminazione ed elimina i dati in modo iterativo, dai livelli di applicazione e archiviazione, sia sui sistemi di archiviazione attivi che su quelli di backup. Questo processo è descritto in termini generali nella dichiarazione di Google relativa all'eliminazione e alla conservazione.
  • L'eliminazione logica avviene in più fasi, partendo dalla marcatura immediata dei dati da eliminare nei sistemi di archiviazione attivi e dall'isolamento dei dati dall'elaborazione ordinaria al livello di applicazione. I successivi cicli di compattazione e di eliminazione "mark-and-sweep" nei livelli di archiviazione di Google servono a sovrascrivere i dati eliminati nel tempo. Per rendere irrecuperabili i dati eliminati viene utilizzata anche la cancellazione crittografica. Infine, vengono ritirati in un ciclo standard i sistemi di backup contenenti snapshot dei sistemi attivi di Google.
  • L'eliminazione dai livelli di applicazione e di archiviazione può avvenire immediatamente, a seconda della modalità di configurazione dell'archiviazione dati e della tempistica dei cicli di eliminazione in corso nei data center e nei livelli di archiviazione pertinenti. L'eliminazione dai sistemi attivi viene in genere completata entro due mesi circa dalla richiesta di eliminazione. Infine, i dati dei clienti vengono rimossi dai sistemi di backup a lungo termine di Google, che conservano gli snapshot dei sistemi Google per un massimo di sei mesi (180 giorni) per la protezione da eventi catastrofici e disastri naturali.

Introduzione

Questo documento offre una panoramica del processo sicuro che si verifica quando elimini i dati dei clienti (come definiti nei Termini di servizio di Google Cloud) archiviati in Google Cloud. Garantire l'eliminazione sicura dei dati dei clienti alla fine del loro ciclo di vita è un aspetto fondamentale della gestione dei dati su qualsiasi piattaforma informatica.

L'utilizzo dei dati su qualsiasi piattaforma cloud che si impegna a garantire livelli elevati di disponibilità, velocità e accessibilità da qualsiasi luogo, nonché la durabilità degli stessi anche a fronte di perdite o catastrofi, richiede un processo continuo di innovazione tecnologica, per consentire una rapida eliminazione su larga scala. Google, da lungo tempo impegnata nell'ingegneria delle piattaforme di archiviazione per prodotti che elaborano diversi miliardi di elementi di dati, ha maturato più di un decennio di esperienza nel settore, per ottimizzare i sistemi di archiviazione ad alte prestazioni per questa attività.

Questo white paper inizia con una panoramica della modalità di archiviazione dei dati dei clienti in Google Cloud. A seguire, viene descritta la pipeline di eliminazione di Google e il periodo di tempo generalmente necessario per completare l'eliminazione in ogni fase. Infine, vengono illustrate le modalità con cui impediamo la ricostruzione dei dati archiviati nella nostra piattaforma attraverso un processo sicuro di smantellamento e sanificazione dell'hardware.

Archiviazione e replica dei dati

Per descrivere le modalità con cui Google Cloud elimina i dati dei clienti è necessaria una breve panoramica del funzionamento dell'archiviazione di dati nell'infrastruttura di Google. Google Cloud offre servizi di archiviazione, quali Cloud Bigtable e Cloud Spanner. La maggior parte delle applicazioni e dei servizi di Google Cloud accede indirettamente ai sistemi di archiviazione di Google tramite questi servizi di archiviazione Cloud o altri servizi di archiviazione interni utilizzati da Google.

La piattaforma Google Cloud è progettata per fornire soluzioni caratterizzate da bassa latenza, elevata disponibilità, scalabilità e durabilità. La replica dei dati è fondamentale per raggiungere questi obiettivi di prestazioni. Le copie ridondanti dei dati dei clienti potrebbero essere archiviate in locale, a livello regionale o persino globale, a seconda della configurazione e delle esigenze dei progetti dei clienti. Le azioni intraprese sui dati in Google Cloud possono essere replicate simultaneamente in più data center, affinché i dati dei clienti siano altamente disponibili. Quando nell'hardware, nel software o nell'ambiente di rete si verificano cambiamenti che incidono sulle prestazioni, i dati dei clienti vengono automaticamente spostati da una struttura o da un sistema all'altro, in base alle impostazioni di configurazione dei clienti, in modo che i progetti dei clienti continuino a essere eseguiti su vasta scala e senza interruzioni.

A livello di archiviazione fisica, i dati inattivi dei clienti vengono archiviati in due tipi di sistemi: sistemi di archiviazione attivi e sistemi di archiviazione di backup. Questi due tipi di sistemi elaborano i dati in modo diverso. I sistemi di archiviazione attivi sono i server di produzione di Google Cloud Platform che eseguono i livelli di applicazione e di archiviazione di Google. I sistemi attivi sono costituiti da array di dischi e unità utilizzati per scrivere i nuovi dati, nonché per archiviare e recuperare i dati in più copie replicate. I sistemi di archiviazione attivi sono ottimizzati per eseguire operazioni di lettura/scrittura in tempo reale sui dati dei clienti, con velocità e scalabilità elevate.

I sistemi di archiviazione di backup di Google ospitano copie complete e incrementali dei sistemi attivi di Google per un periodo di tempo definito, consentendo a Google di recuperare dati e sistemi in caso di disastri o interruzioni catastrofiche. A differenza dei sistemi attivi, i sistemi di backup sono progettati per ricevere snapshot periodici dei sistemi Google; le copie di backup vengono ritirate dopo un periodo di tempo limitato quando vengono create nuove copie di backup.

In tutti i sistemi di archiviazione sopra descritti, i dati inattivi dei clienti vengono crittografati. I dettagli delle tecniche di crittografia di Google sono descritti in modo approfondito nei white paper di Google sulla sicurezza del cloud. La crittografia dei dati inattivi avviene nei livelli di applicazione e di archiviazione, sui supporti di archiviazione attivi e di backup.

Eliminazione sicura ed efficace dei dati

Pipeline di eliminazione dei dati

Una volta archiviati i dati dei clienti in Google Cloud, i nostri sistemi sono progettati per conservare i dati in modo sicuro fino al completamento delle fasi della pipeline di eliminazione dei dati di Google. Questa sezione descrive il processo nel dettaglio.

Fase 1 - Richiesta di eliminazione

L'eliminazione dei dati dei clienti inizia quando il cliente avvia una richiesta di eliminazione. In genere, una richiesta di eliminazione viene indirizzata a una risorsa specifica, a un progetto di Google Cloud o all'Account Google del cliente. Le richieste di eliminazione possono essere gestite in modi diversi a seconda dell'ambito della richiesta del cliente:

  • Eliminazione di risorse: le singole risorse contenenti i dati dei clienti, ad esempio i bucket di Google Cloud Storage, possono essere eliminate in molteplici modi da Cloud Console o tramite API. Ad esempio, i clienti possono impartire un comando di rimozione del bucket o rm -r per eliminare un bucket di archiviazione dalla riga di comando; in alternativa, i clienti possono selezionare un bucket di archiviazione ed eliminarlo dal Browser di Cloud Storage.
  • Eliminazione di progetti: come proprietario di un progetto Google Cloud, puoi terminare il progetto. L'eliminazione di un progetto agisce come una richiesta di eliminazione di massa per tutte le risorse legate al project_number corrispondente.
  • Eliminazione di account: quando elimini il tuo Account Google, vengono eliminati anche tutti i progetti Google Cloud di tua proprietà. Tieni presente che, se un progetto ha più proprietari, il progetto non viene eliminato fino a quando tutti i proprietari non vengono rimossi dal progetto o non eliminano i loro Account Google. Questa scelta garantisce che i progetti Google Cloud siano disponibili finché hanno almeno un proprietario.

Anche se le richieste di eliminazione sono progettate principalmente per essere utilizzate dai clienti per gestire i loro dati, Google può generare automaticamente le richieste di eliminazione, ad esempio quando un cliente interrompe il suo rapporto con Google.

Fase 2 - Eliminazione temporanea

L'eliminazione graduale è il punto naturale del processo che fornisce un breve periodo interno di gestione temporanea e di recupero, per assicurare il tempo necessario per recuperare i dati contrassegnati per errore per l'eliminazione. I singoli prodotti Google Cloud Platform possono adottare e configurare tale periodo di recupero prima che i dati vengano eliminati dai sistemi di archiviazione sottostanti, purché rientri nelle tempistiche di eliminazione complessive di Google.

Quando i progetti vengono eliminati, Google Cloud Platform identifica in primo luogo il project_number univoco, quindi trasmette un segnale di sospensione ai prodotti Google Cloud contenenti tale project_number, ad esempio App Engine e Cloud Bigtable. In questo caso, App Engine sospende immediatamente le operazioni associate al project_number, mentre le tabelle pertinenti in Cloud Bigtable entreranno in un periodo di recupero interno per un tempo massimo di 30 giorni. Al termine del periodo di recupero, Google Cloud trasmette un segnale agli stessi prodotti per avviare l'eliminazione logica delle risorse legate al project_number univoco. Successivamente, Google attende (e, se necessario, ritrasmette il segnale) la ricezione di un segnale di conferma (ACK) dai prodotti interessati per completare l'eliminazione del progetto.

Quando si chiude un Account Google, Google Cloud può imporre un periodo di recupero interno della durata massima di 30 giorni, a seconda della precedente attività dell'account. Al termine del periodo di tolleranza, ai prodotti Google viene trasmesso un segnale contenente lo user_id dell'account di fatturazione eliminato e le risorse Google Cloud legate esclusivamente a tale user_id vengono contrassegnate per l'eliminazione.

Fase 3 - Eliminazione logica dai sistemi attivi

Dopo che i dati sono stati contrassegnati per l'eliminazione e qualsiasi periodo di recupero è terminato, i dati vengono eliminati dai sistemi di archiviazione attivi e di backup di Google. Sui sistemi attivi i dati vengono eliminati in due modi.

In tutti i prodotti Cloud in Compute, Archiviazione e database, e Big data (fatta eccezione per Google Cloud Storage), le copie dei dati eliminati sono contrassegnate come spazio di archiviazione disponibile e nel tempo vengono sovrascritte. In un sistema di storage attivo, ad esempio Cloud Bigtable, i dati eliminati vengono archiviati come voci all'interno di un'imponente tabella strutturata. La compattazione delle tabelle esistenti per sovrascrivere i dati eliminati può essere costosa, in quanto richiede la riscrittura di tabelle di dati esistenti (non eliminati); per questo, viene pianificata l'esecuzione a intervalli regolari della garbage collection "mark-and-sweep" e dei principali eventi di compattazione al fine di recuperare spazio di archiviazione e sovrascrivere i dati eliminati.

In Google Cloud Storage, i dati dei clienti vengono eliminati anche con la cancellazione crittografica. È una tecnica standard del settore che rende illeggibili i dati eliminando le chiavi di crittografia necessarie per decriptarli. Un vantaggio dell'utilizzo della cancellazione crittografica, indipendentemente dal fatto che riguardi le chiavi di crittografia fornite da Google o dal cliente, è che l'eliminazione logica può essere completata anche prima che tutti i blocchi eliminati di tali dati vengano sovrascritti nei sistemi di archiviazione attivi e di backup di Google Cloud.

Fase 4 - Scadenza dai sistemi di backup

Analogamente all'eliminazione dai sistemi attivi di Google, i dati eliminati vengono rimossi dai sistemi di backup tramite tecniche di sovrascrittura e di crittografia. Nel caso dei sistemi di backup, tuttavia, i dati dei clienti sono generalmente archiviati all'interno di grandi snapshot aggregati di sistemi attivi, che vengono conservati per periodi di tempo statici per assicurare la continuità aziendale in caso di disastri (ad esempio un'interruzione che interessa un intero data center), quando potrebbe essere necessario investire il tempo e il denaro per il ripristino di un intero sistema dai sistemi di backup. Coerentemente con le ragionevoli pratiche di continuità operativa, gli snapshot completi e incrementali dei sistemi attivi vengono creati con cicli giornalieri, settimanali e mensili e ritirati dopo un periodo di tempo predefinito per fare spazio agli snapshot più recenti.

Un backup ritirato viene contrassegnato come spazio disponibile e sovrascritto nel momento in cui vengono eseguiti nuovi backup giornalieri/settimanali/mensili.

Un ciclo di backup ragionevole impone un ritardo predefinito nella propagazione di una richiesta di eliminazione dei dati attraverso i sistemi di backup. Quando i dati dei clienti vengono eliminati dai sistemi attivi, non vengono più copiati nei sistemi di backup. I backup eseguiti prima dell'eliminazione vengono regolarmente impostati come scaduti in base al ciclo di backup predefinito.

Infine, è possibile che la cancellazione crittografica dei dati eliminati avvenga prima della scadenza del backup contenente i dati dei clienti. Senza la chiave di crittografia utilizzata per crittografare specifici dati dei clienti, tali dati non saranno recuperabili nemmeno nel loro periodo di vita residua sui sistemi di backup di Google.

Cronologia di eliminazione

La piattaforma Google Cloud è progettata per offrire livelli elevati di velocità, disponibilità, durabilità e coerenza, e la progettazione di sistemi ottimizzati per queste caratteristiche prestazionali deve essere attentamente bilanciata dalla necessità di ottenere un'eliminazione tempestiva dei dati. Google Cloud si impegna a eliminare i dati dei clienti entro un periodo massimo di sei mesi (180 giorni) circa. Questo impegno include le fasi della pipeline di eliminazione di Google descritte in precedenza, tra cui:

  • Fase 2: una volta effettuata la richiesta di eliminazione, i dati vengono in genere contrassegnati per l'eliminazione immediata; il nostro obiettivo è eseguire questa operazione entro un tempo massimo di 24 ore. Dopo che i dati sono stati contrassegnati per l'eliminazione, potrebbe essere applicato un periodo di recupero interno della durata massima di 30 giorni, a seconda del servizio o della richiesta di eliminazione.

  • Fase 3: il tempo necessario per completare le attività di garbage collection e ottenere l'eliminazione logica dai sistemi attivi. Questi processi possono avvenire subito dopo la ricezione della richiesta di eliminazione, a seconda del livello di replica dei dati e delle tempistiche dei cicli di garbage collection attivi. Dalla richiesta di eliminazione, in genere servono circa due mesi per eliminare i dati dai sistemi attivi; questo tempo è in genere sufficiente per completare due cicli di garbage collection principali e assicurare il completamento dell'eliminazione logica.

  • Fase 4: il ciclo di backup di Google è progettato per far scadere i dati eliminati all'interno dei backup del data center entro sei mesi dalla richiesta di eliminazione. L'eliminazione potrebbe avvenire in tempi più brevi, a seconda del livello di replica dei dati e delle tempistiche dei cicli di backup in corso di Google.

Schema della pipeline di eliminazione Figura 1: le fasi della pipeline di eliminazione di Google Cloud

Sanitizzazione sicura dei supporti

Oltre alla pipeline di eliminazione di Google Cloud, un programma regolamentato di sanitizzazione dei supporti migliora la sicurezza del processo di eliminazione prevenendo gli attacchi forensi o di laboratorio sui supporti di archiviazione fisica una volta raggiunta la fine del relativo ciclo di vita.

Google monitora meticolosamente la posizione e lo stato di tutte le apparecchiature di archiviazione all'interno dei nostri data center attraverso l'acquisizione, l'installazione, il ritiro e la distruzione, avvalendosi di codici a barre e asset tag monitorati nel database degli asset di Google. Varie tecniche quali l'identificazione biometrica, il rilevamento dei metalli, le telecamere, le barriere per i veicoli e i sistemi di rilevamento delle intrusioni basati su laser sono impiegate per impedire alle apparecchiature di lasciare il piano del data center senza autorizzazione. Ulteriori informazioni sono disponibili nella Panoramica sulla progettazione della sicurezza per l'infrastruttura Google.

I supporti di archiviazione fisica potrebbero essere dismessi per una serie di motivi. Un componente che non riesce a superare un test delle prestazioni in qualsiasi momento durante il suo ciclo di vita viene rimosso dall'inventario e ritirato. Inoltre, Google esegue l'upgrade dell'hardware obsoleto per migliorare la velocità di elaborazione e l'efficienza energetica, o per aumentare la capacità di archiviazione. Se l'hardware viene dismesso a causa di guasti, upgrade o per qualsiasi altra ragione, i supporti di archiviazione vengono dismessi utilizzando le opportune misure di sicurezza. I dischi rigidi di Google utilizzano tecnologie come la crittografia dell'intero disco (FDE, Full Disk Encryption) e il blocco delle unità per proteggere i dati inattivi durante la dismissione. Quando un disco rigido viene ritirato, le persone autorizzate verificano che il disco sia stato cancellato sovrascrivendo l'unità con zeri ed eseguendo un processo di verifica in più fasi per garantire che l'unità non contenga alcun dato.

Se il supporto di archiviazione non può essere per qualche motivo cancellato, viene conservato in modo sicuro finché non può essere distrutto fisicamente. A seconda delle attrezzature disponibili, possiamo schiacciare e deformare l'unità o distruggerla in piccoli pezzi. In entrambi i casi, il disco viene riciclato in una struttura protetta, assicurando che nessuno possa leggere i dati sui dischi di Google ritirati. Ogni data center aderisce a una rigorosa politica di smaltimento e utilizza le tecniche descritte per ottenere la conformità a NIST SP 800-88 Revisione 1 "Guidelines for Media Sanitization" e a DoD 5220.22-M "National Industrial Security Program Operating Manual".