Datenlöschung auf der Google Cloud Platform

Videominiaturansicht: Datenlöschung

Datenlöschung auf der Google Cloud Platform

Übersicht

Zusammenfassung für CIOs

  • Google verfolgt beim Speichern und Löschen von Kundendaten einen konsequenten Ansatz. Google Cloud wurde entwickelt, um ein hohes Maß an Geschwindigkeit, Verfügbarkeit, Langlebigkeit und Konsistenz zu erreichen. Die Gestaltung von Systemen, die für diese Leistungsmerkmale optimiert sind, muss demnach sorgfältig mit der Notwendigkeit einer zeitnahen Datenlöschung in Einklang gebracht werden.
  • Wenn Sie Kundendaten löschen, beginnt die Löschpipeline von Google ab der Bestätigung der Löschanfrage mit der schrittweisen Entfernung der Daten aus den Anwendungs- und Speicherebenen in aktiven Speichersystemen und Sicherungssystemen. Dieser Prozess wird allgemein in der Erklärung von Google zum Löschen und Aufbewahren von Daten beschrieben.
  • Das logische Löschen findet in Phasen statt. Zuerst werden die zu löschenden Daten in aktiven Speichersystemen markiert und von der normalen Verarbeitung auf Anwendungsebene getrennt. Aufeinanderfolgende Verdichtungs- sowie Mark-and-Sweep-Löschzyklen auf den Speicherebenen von Google dienen dazu, die gelöschten Daten im Zeitverlauf zu überschreiben. Außerdem wird das kryptografische Verfahren eingesetzt, damit die gelöschten Daten nicht wiederhergestellt werden können. Schließlich werden Sicherungssysteme, die Snapshots der aktiven Systeme von Google enthalten, in einem Standardzyklus entfernt.
  • Das Löschen der Daten von Anwendungs- und Speicherebenen kann sofort erfolgen. Dies hängt davon ab, wie die Speicherung der Daten und der zeitliche Ablauf aktiver Löschzyklen auf den entsprechenden Speicherebenen in den Rechenzentren konfiguriert sind. Das Löschen der Daten aus aktiven Systemen ist in der Regel innerhalb von zwei Monaten nach der Löschanfrage abgeschlossen. Zuletzt werden Kundendaten aus den langfristigen Sicherungssystemen von Google entfernt, die Snapshots von Google-Systemen bis zu sechs Monate (180 Tage) lang aufbewahren, damit sie bei Naturkatastrophen und anderen Notfällen geschützt sind.

Einführung

In diesem Dokument erhalten Sie eine Übersicht über den sicheren Prozess, durch den Kundendaten (wie in den Google Cloud-Nutzungsbedingungen definiert) aus Google Cloud gelöscht werden. Die sichere Entfernung von Kundendaten am Ende ihres Lebenszyklus ist ein grundlegender Aspekt der Arbeit mit Daten auf jeder Computing-Plattform.

Wenn Sie mit Daten auf einer Cloud-Plattform arbeiten, die auf hohe Verfügbarkeit, Geschwindigkeit, ortsunabhängige Zugänglichkeit und Langlebigkeit ausgerichtet ist, um Schutz bei Datenverlust oder Notfällen zu bieten, sind technische Innovationen erforderlich, um Daten sofort und in großem Umfang löschen zu können. Google war einer der ersten Anbieter und Entwickler von Speicherplattformen für Produkte, die Billionen von Datenelementen verarbeiten. Das Unternehmen kann somit auf mehr als zehn Jahre Branchenerfahrung bei der Optimierung von Speichersystemen mit hoher Leistung zurückblicken.

Dieses Whitepaper beginnt mit einer Übersicht über die Speicherung von Kundendaten in Google Cloud. Es folgen die Beschreibungen der Löschpipeline von Google und der Zeit, die normalerweise zum Löschen der Daten in jeder Phase benötigt wird. Abschließend wird der sichere Prozess zur Außerbetriebnahme und Bereinigung von Hardware beschrieben, um jegliche Wiederherstellung von Daten zu verhindern, die auf unserer Plattform gespeichert sind.

Datenspeicherung und Replikation

Unsere Beschreibung des Vorgangs zum Löschen von Kundendaten aus Google Cloud beginnt mit einer kurzen Übersicht darüber, wie Daten in der Google-Infrastruktur gespeichert werden. Google Cloud bietet Speicherdienste wie Cloud Bigtable und Cloud Spanner. Die meisten Anwendungen und Dienste von Google Cloud greifen indirekt über diese Cloud-Speicherdienste oder andere von Google verwendeten internen Speicherdienste auf die Speichersysteme von Google zu.

Google Cloud bietet Lösungen mit geringer Latenz, hoher Verfügbarkeit, Skalierbarkeit und Langlebigkeit. Die Datenreplikation ist für die Erfüllung dieser zentralen Leistungsziele absolut notwendig. Redundante Kopien von Kundendaten können – der Konfiguration und den Anforderungen von Kundenprojekten entsprechend – lokal, regional oder global gespeichert werden. Aktionen, die an Daten in Google Cloud vorgenommen werden, können gleichzeitig in mehreren Rechenzentren repliziert werden, sodass Kundendaten hochverfügbar sind. Wenn in der Hardware-, Software- oder Netzwerkumgebung Änderungen auftreten, die sich auf die Leistung auswirken, werden die Kundendaten je nach den Konfigurationseinstellungen des Kunden automatisch von einem System oder einer Einrichtung in ein anderes System bzw. eine andere Einrichtung verschoben. Auf diese Weise wird gewährleistet, dass Kundenprojekte ohne Unterbrechung und im geplanten Umfang ausgeführt werden.

Auf der physischen Speicherebene werden inaktive Kundendaten in zwei Arten von Systemen gespeichert: aktive Speichersysteme und Sicherungsspeichersysteme. Diese beiden Arten von Systemen verarbeiten Daten unterschiedlich. Aktive Speichersysteme sind Produktionsserver der Google Cloud Platform, auf denen die Anwendungs- und Speicherebenen von Google ausgeführt werden. Aktive Systeme sind Massenarrays von Festplatten und Laufwerken, die zum Schreiben neuer Daten sowie zum Speichern und Abrufen von Daten in mehreren replizierten Kopien verwendet werden. Aktive Speichersysteme sind optimiert, um Live-Lese-/Schreibvorgänge an Kundendaten schnell und in großem Umfang durchführen zu können.

Die Sicherungsspeichersysteme von Google enthalten für einen definierten Zeitraum vollständige und inkrementelle Kopien der aktiven Systeme von Google, damit Google die Daten und Systeme nach einem Totalausfall oder Notfall leicht wiederherstellen kann. Im Gegensatz zu aktiven Systemen sind Sicherungssysteme so konzipiert, dass sie in regelmäßigen Abständen Snapshots von Google-Systemen empfangen und Sicherungskopien nach einem begrenzten Zeitfenster beim Erstellen neuer Sicherungskopien entfernt werden.

In den oben beschriebenen Speichersystemen werden Kundendaten während der Speicherung verschlüsselt. Eine genauere Beschreibung der Verschlüsselungstechniken von Google finden Sie in den Whitepapers zur Sicherheit der Google Cloud. Die Verschlüsselung inaktiver Daten erfolgt auf den Anwendungs- und Speicherebenen in aktiven Speichermedien und Sicherungsspeichermedien.

Sichere und effektive Datenlöschung

Pipeline zur Datenlöschung

Unsere Systeme sind darauf ausgelegt, Kundendaten in Google Cloud so lange sicher zu speichern, bis sie die Löschpipeline von Google durchlaufen haben. In diesem Abschnitt wird dieser Prozess detailliert beschrieben.

Phase 1 – Löschanfrage

Das Löschen von Kundendaten beginnt mit einer Löschanfrage, die von einem Kunden gesendet wird. In der Regel bezieht sich eine Löschanfrage auf eine bestimmte Ressource, ein bestimmtes Google Cloud-Projekt oder das Google-Konto des Kunden. Löschanfragen von Kunden werden je nach Umfang unterschiedlich behandelt:

  • Löschen von Ressourcen: Einzelne Ressourcen, die Kundendaten enthalten (z. B. Google Cloud Storage-Buckets), können auf verschiedene Arten über die Cloud Console oder die API gelöscht werden. Beispielsweise können Kunden den Befehl „remove bucket“ bzw. rm -r verwenden, um einen Storage-Bucket über die Befehlszeile zu löschen. Sie können aber auch einen Storage-Bucket auswählen und über den Cloud Storage-Browser löschen.
  • Löschen eines Projekts: Als Google Cloud-Projektinhaber können Sie ein Projekt endgültig beenden. Das Löschen eines Projekts dient als Massenlöschanfrage für alle Ressourcen, die mit der entsprechenden Projektnummer verknüpft sind.
  • Löschen eines Kontos: Wenn Sie Ihr Google-Konto löschen, werden alle Google Cloud-Projekte gelöscht, die ausschließlich Ihnen gehören. Beachten Sie, dass ein Projekt bei Vorhandensein mehrerer Inhaber erst gelöscht wird, nachdem alle Inhaber aus dem Projekt entfernt wurden bzw. ihre Google-Konten gelöscht haben. Dadurch wird sichergestellt, dass Google Cloud-Projekte so lange fortgesetzt werden, wie sie einen Inhaber haben.

Löschanfragen werden hauptsächlich von Kunden zur Verwaltung ihrer Daten verwendet. Google kann Löschanfragen jedoch auch automatisch erteilen, beispielsweise wenn ein Kunde seine Beziehung zu Google beendet.

Phase 2 – Vorläufiges Löschen

Das vorläufige Löschen ermöglicht einen kurzen internen Staging- und Wiederherstellungszeitraum, in dem Daten wiederhergestellt werden können, die versehentlich oder aufgrund eines Fehlers zum Löschen markiert wurden. Ein solcher Wiederherstellungszeitraum kann für einzelne Google Cloud Platform-Produkte definiert und konfiguriert werden, bevor die Daten aus den zugrunde liegenden Speichersystemen gelöscht werden. Hierbei muss jedoch die allgemeine Löschzeitachse von Google beachtet werden.

Zur Veranschaulichung: Beim Löschen von Projekten bestimmt Google Cloud zuerst die eindeutige Projektnummer. Anschließend wird ein Sperrsignal an die Google Cloud Platform-Produkte gesendet, die diese Projektnummer enthalten, z. B. App Engine und Cloud Bigtable. In diesem Fall sperrt App Engine mit sofortiger Wirkung alle Vorgänge, die an diese Projektnummer gebunden sind. Daraufhin beginnt für alle relevanten Tabellen in Cloud Bigtable ein interner Wiederherstellungszeitraum von bis zu 30 Tagen. Am Ende des Wiederherstellungszeitraums sendet Google Cloud ein Signal an dieselben Produkte, um mit dem logischen Löschen von Ressourcen zu beginnen, die an die eindeutige Projektnummer gebunden sind. Daraufhin wartet Google auf ein Bestätigungssignal von den entsprechenden Produkten, um das Löschen des Projekts abzuschließen. Bei Bedarf wird das Signal neu gesendet.

Wenn ein Google-Konto geschlossen wird, kann Google Cloud abhängig von früheren Kontoaktivitäten einen internen Wiederherstellungszeitraum von bis zu 30 Tagen festlegen. Nach Ablauf dieser Kulanzfrist wird ein Signal mit der Nutzer-ID des gelöschten Rechnungskontos gesendet. Die Google Cloud-Ressourcen, die ausschließlich mit dieser Nutzer-ID verknüpft sind, werden zum Löschen markiert.

Phase 3: Logisches Löschen aus aktiven Systemen

Nachdem die Daten zum Löschen markiert wurden und alle Wiederherstellungszeiträume abgelaufen sind, werden die Daten nacheinander aus den aktiven Speichersystemen und den Sicherungsspeichersystemen von Google gelöscht. Daten in aktiven Systemen werden auf zwei Arten gelöscht.

In allen Cloud-Produkten der Kategorien „Compute, Storage & Datenbanken“ und „Big Data“ außer Google Cloud Storage werden Kopien der gelöschten Daten als verfügbarer Speicher markiert und im Laufe der Zeit überschrieben. In einem aktiven Speichersystem wie Cloud Bigtable werden gelöschte Daten als Einträge in einer umfangreichen strukturierten Tabelle gespeichert. Das Komprimieren vorhandener Tabellen zum Überschreiben gelöschter Daten kann teuer sein, da Tabellen bereits vorhandener (nicht gelöschter) Daten neu geschrieben werden müssen. Daher werden die Mark-and-Sweep-Speicherbereinigung und wichtige Komprimierungsereignisse in regelmäßigen Intervallen geplant, um Speicherplatz freizugeben und gelöschte Daten zu überschreiben.

In Google Cloud Storage werden Kundendaten auch mit dem kryptografischen Verfahren gelöscht. Diese auf dem Industriestandard beruhende Technik macht Daten unlesbar, indem die zum Entschlüsseln dieser Daten erforderlichen Verschlüsselungsschlüssel gelöscht werden. Ein Vorteil des kryptografischen Löschens besteht darin, dass das logische Löschen abgeschlossen werden kann, bevor alle gelöschten Blöcke dieser Daten in den aktiven Speichersystemen und den Sicherungsspeichersystemen von Google Cloud überschrieben worden sind. Dies geschieht unabhängig davon, ob die Verschlüsselungsschlüssel von Google oder vom Kunden bereitgestellt wurden.

Phase 4: Entfernung aus Sicherungssystemen

Ähnlich wie beim Löschen aus aktiven Systemen von Google werden gelöschte Daten aus Sicherungssystemen sowohl mithilfe von Überschreibungstechniken als auch von kryptografischen Techniken beseitigt. Im Fall von Sicherungssystemen werden Kundendaten jedoch in der Regel in großen zusammengefassten Snapshots aktiver Systeme gespeichert, die für feste Zeiträume aufbewahrt werden, um die Geschäftskontinuität und das Weiterlaufen der Systeme im Katastrophenfall (z. B. bei einem Ausfall eines gesamten Rechenzentrums) zu gewährleisten. In solchen Fällen müssen Zeit und Aufwand für die vollständige Wiederherstellung eines Systems aus Sicherungssystemen veranschlagt werden. In Übereinstimmung mit angemessenen Praktiken zur Geschäftskontinuität werden vollständige und inkrementelle Snapshots aktiver Systeme in täglichen, wöchentlichen und monatlichen Zyklen erstellt und nach einer vordefinierten Zeitspanne entfernt, um Platz für neue Snapshots zu schaffen.

Beim Entfernen einer Sicherung wird diese als verfügbarer Speicherplatz markiert und überschrieben, wenn neue tägliche/wöchentliche/monatliche Sicherungen durchgeführt werden.

Beachten Sie, dass bei jedem angemessenen Sicherungszyklus eine vordefinierte Verzögerung beim Weiterleiten einer Datenlöschanfrage an Sicherungssysteme erfolgt. Aus aktiven Systemen gelöschte Kundendaten werden nicht mehr in Sicherungssysteme kopiert. Vor dem Löschen durchgeführte Sicherungen werden regelmäßig basierend auf dem vordefinierten Sicherungszyklus beendet.

Die kryptografische Beseitigung der gelöschten Daten kann erfolgen, bevor die Sicherung mit den Kundendaten abgelaufen ist. Ohne den Verschlüsselungsschlüssel, der zum Verschlüsseln bestimmter Kundendaten verwendet wird, sind die Kundendaten auch während ihrer verbleibenden Lebensdauer in den Sicherungssystemen von Google nicht wiederherstellbar.

Löschzeitachse

Google Cloud wurde entwickelt, um ein hohes Maß an Geschwindigkeit, Verfügbarkeit, Langlebigkeit und Konsistenz zu erreichen. Die Gestaltung von Systemen, die für diese Leistungsmerkmale optimiert sind, muss demnach sorgfältig mit der Notwendigkeit einer zeitnahen Datenlöschung in Einklang gebracht werden. Kundendaten in Google Cloud werden innerhalb eines Zeitraums von maximal sechs Monaten (180 Tagen) gelöscht. Diese Verpflichtung umfasst die oben beschriebenen Phasen der Löschpipeline von Google, darunter:

  • Phase 2: Nach Eingang der Löschanfrage werden die Daten in der Regel sofort zum Löschen markiert. Unser Ziel ist es, diesen Schritt innerhalb von maximal 24 Stunden durchzuführen. Nachdem die Daten zum Löschen markiert wurden, kann je nach Dienst oder Löschanfrage ein interner Wiederherstellungszeitraum von bis zu 30 Tagen gelten.

  • Phase 3: Die zum Durchführen von Aufgaben zur automatischen Speicherbereinigung und zum logischen Löschen aus aktiven Systemen benötigte Zeit muss beachtet werden. Diese Prozesse können unmittelbar nach Erhalt der Löschanfrage eingeleitet werden. Dies hängt von der Ebene der Datenreplikation und dem Zeitpunkt der aktiven Speicherbereinigungszyklen ab. Nach Eingang der Löschanfrage dauert es in der Regel etwa zwei Monate, bis die Daten aus aktiven Systemen gelöscht wurden. Dieser Zeitraum ist in der Regel ausreichend, um zwei große automatische Speicherbereinigungszyklen abzuschließen und sicherzustellen, dass das logische Löschen erfolgt ist.

  • Phase 4: Der Sicherungszyklus von Google ist so konfiguriert, dass gelöschte Daten in Rechenzentrumssicherungen innerhalb von sechs Monaten nach der Löschanfrage ablaufen. Das Löschen kann je nach Datenreplikationsebene und dem Zeitpunkt der aktiven Sicherungszyklen von Google früher erfolgen.

Diagramm zur Löschpipeline Abbildung 1: Die Phasen der Löschpipeline von Google Cloud

Schutz und Sicherheit bei der Bereinigung von Medien

Zusätzlich zur Löschpipeline von Google Cloud verbessert ein effizientes Programm zur Medienbereinigung die Sicherheit des Löschvorgangs. Mit diesem werden forensische oder labortechnische Angriffe auf die physischen Speichermedien nach Ende des Lebenszyklus verhindert.

Google sorgt mithilfe von Barcodes, Inventaretiketten und der Erfassung in einer Inventardatenbank für eine akribische Verfolgung des Standorts und Status aller Speichergeräte, vom Erwerb über den Einbau bis hin zu deren Entfernung und Vernichtung. Verschiedene Techniken wie biometrische Identifikation, Metallerkennung, Kameras, Fahrzeugschranken und laserbasiertes Intrusion Detection System verhindern, dass Geräte ohne Autorisierung die Räume des Rechenzentrums verlassen. Weitere Informationen finden Sie in der Übersicht über das Sicherheitskonzept der Infrastruktur von Google.

Physische Speichermedien können aus verschiedenen Gründen außer Betrieb genommen werden. Wenn eine Komponente einen Leistungstest an einem beliebigen Zeitpunkt ihres Lebenszyklus nicht besteht, wird sie aus dem Bestand genommen und ausgemustert. Google führt auch Upgrades veralteter Hardware durch, um die Verarbeitungsgeschwindigkeit und Energieeffizienz zu verbessern oder die Speicherkapazität zu erhöhen. Unabhängig davon, ob die Außerbetriebnahme der Hardware aufgrund eines Fehlers, eines Upgrades oder eines anderen Grunds erfolgt, werden Speichermedien mit angemessenen Sicherheitsmaßnahmen außer Betrieb genommen. Google-Festplatten verwenden Technologien wie die Festplattenverschlüsselung (Full Disk Encryption, FDE) und Laufwerkssperren, um inaktive Daten während der Außerbetriebnahme zu schützen. Bei Ausmusterung einer Festplatte sorgen autorisierte Personen für das Löschen der Festplatte. Dabei wird das Laufwerk mit Nullen überschrieben und ein mehrstufiger Verifizierungsprozess durchgeführt. Auf diese Weise wird sichergestellt, dass das Laufwerk keine Daten mehr enthält.

Wenn das Löschen der Speichermedien nicht möglich ist, werden die Medien solange an einem sicheren Ort aufbewahrt, bis sie physisch zerstört werden können. Je nachdem, welche Geräte verfügbar sind, wird das Laufwerk zusammengepresst oder zerkleinert. In beiden Fällen wird das Laufwerk in einer sicheren Einrichtung recycelt. Hiermit wird sichergestellt, dass die Daten auf aussortierten Google-Laufwerken nicht lesbar sind. Jedes Rechenzentrum verfolgt eine strikte Entsorgungspolitik mithilfe der beschriebenen Techniken, um Compliance mit dem National Industrial Security Program Operating Manual (NIST SP 800-88 Revision 1) und dem National Industrial Security Program Operating Manual (DoD 5220.22-M) des National Institute of Standards and Technology (NIST) zu gewährleisten.