Migration zu Google Cloud: Große Datasets übertragen

Für viele Kunden ist der erste Schritt bei der Einführung eines Google Cloud-Produkts das Übertragen ihrer Daten auf Google Cloud. In diesem Dokument wird dieser Prozess von der Planung einer Datenübertragung bis zur Verwendung von Best Practices bei der Umsetzung eines Plans erläutert.

Zur Übertragung großer Datasets müssen Sie das richtige Team zusammenstellen, frühzeitig planen und Ihren Übertragungsplan testen, bevor Sie ihn in einer Produktionsumgebung umsetzen. Obwohl diese Schritte genauso viel Zeit in Anspruch nehmen können wie die Übertragung selbst, lässt sich die Unterbrechung Ihrer Geschäftsvorgänge während der Übertragung mit diesen Vorbereitungen auf ein Mindestmaß reduzieren.

Dieser Artikel ist Teil einer Reihe:

Die folgende Grafik veranschaulicht den Migrationsprozess:

Migrationspfad mit vier Phasen

Die Bereitstellungsphase ist die dritte Phase der Migration zu Google Cloud, in der Sie einen Bereitstellungsvorgang für die Arbeitslasten definieren.

Dieses Dokument bietet nützliche Informationen, wenn Sie von einer lokalen Umgebung, einer privaten Hostingumgebung oder einem anderen Cloud-Anbieter aus eine Migration zu Google Cloud vornehmen möchten oder die Möglichkeit einer Migration prüfen und untersuchen wollen, wie diese aussehen könnte.

Was ist eine Datenübertragung?

In diesem Dokument bezieht sich der Begriff "Datenübertragung" auf das Verschieben von Daten, ohne sie zu transformieren, z. B. das Verschieben von Dateien in Objekte.

Eine Datenübertragung ist nicht so einfach, wie es scheint.

Es scheint naheliegend, sich Datenübertragungen als sehr große FTP-Sitzungen vorzustellen, bei der Sie Ihre Dateien auf einer Seite absenden und darauf warten, dass sie auf der anderen Seite ankommen. In den meisten Umgebungen von Unternehmen umfasst der Übertragungsvorgang jedoch viele Faktoren. Dazu zählen:

  • Die Entwicklung eines Übertragungsplans unter Berücksichtigung des Verwaltungsaufwands, einschließlich der Zeit, um sich für eine Übertragungsoption zu entscheiden, Genehmigungen einzuholen und unvorhergesehene Probleme zu lösen.
  • Die Koordinierung der Personen in Ihrer Organisation, z. B. des Teams, das die Übertragung ausführt, der Mitarbeiter, die die Tools und die Architektur genehmigen, sowie der Stakeholder im Unternehmen, die sich mit den Vor- und Nachteilen befassen, die das Verschieben von Daten mit sich bringen kann.
  • Auswahl des richtigen Übertragungstools basierend auf den Ressourcen, den Kosten, dem zeitlichen Umfang und anderen Aspekten des Projekts.
  • Überwindung von Problemen bei der Datenübertragung, z. B. Probleme mit der "Lichtgeschwindigkeit" (unzureichende Bandbreite), das Verschieben aktiver Datasets, der Schutz und das Monitoring der Daten während der Übertragung sowie das Sicherstellen einer erfolgreichen Übertragung der Daten

Dieses Dokument soll Ihnen den Einstieg in eine erfolgreiche Übertragungsinitiative erleichtern.

Die folgende Liste enthält Ressourcen für andere Arten von Datenübertragungsprojekten, die in diesem Dokument nicht behandelt werden:

  • Wenn Sie Ihre Daten transformieren müssen, z. B. Zeilen kombinieren, Datasets zusammenführen oder personenidentifizierbare Informationen herausfiltern, sollten Sie eine ETL-Lösung (Extrahieren, Transformieren und Laden) in Betracht ziehen, mit der Daten in einem Google Cloud Data Warehouse gespeichert werden können. Ein Beispiel für diese Architektur finden Sie in dieser Dataflow-Anleitung.
  • Wenn Sie eine Datenbank und zugehörige Anwendungen migrieren müssen, z. B. um eine Datenbankanwendung per Lift-and-Shift zu verschieben, lesen Sie die Dokumentation zu Cloud Spanner, Lösungen für PostgreSQL und MySQL und weitere Dokumentation zu Ihrem Datenbanktyp.
  • Wenn Sie eine VM-Instanz verschieben müssen, können Sie das VM-Migrationsprodukt von Google, Migrate for Compute Engine, verwenden.

Schritt 1: Team zusammenstellen

Die Planung einer Übertragung erfordert normalerweise Mitarbeiter mit den folgenden Rollen und Zuständigkeiten:

  • Die erforderlichen Ressourcen für die Übertragung bereitstellen: Speicher-, IT- und Netzwerkadministratoren, ein Executive Sponsor und sonstige Berater (z. B. ein Google Konten-Team oder Integrationspartner)
  • Die Übertragungsentscheidung genehmigen: Dateninhaber oder -verwalter (für interne Richtlinien zur Frage, wer welche Daten übertragen darf), Rechtsberater (für Vorschriften in Bezug auf Daten) und ein Sicherheitsadministrator (für interne Richtlinien zur Frage, wie der Datenzugriff geschützt ist)
  • Die Übertragung ausführen: Ein Teamleiter, ein Projektmanager (für die Durchführung und Verwaltung des Projekts), ein Entwicklerteam und der Empfang und Versand vor Ort (für den Empfang von Gerätehardware)

Es muss bestimmt werden, wer bisher für das Übertragungsprojekt zuständig war. Diese Personen sollten gegebenenfalls in die Planung einbezogen werden und an Besprechungen zur Entscheidungsfindung teilnehmen. Eine schlechte Organisationsplanung ist häufig die Ursache für fehlgeschlagene Übertragungsinitiativen.

Es kann eine Herausforderung sein, Projektanforderungen und Anregungen von diesen Beteiligten zusammenzutragen, aber es lohnt sich, einen Plan zu erstellen und klare Rollen und Verantwortlichkeiten festzulegen. Niemand kann erwarten, dass Sie alle Details Ihrer Daten kennen. Durch das Zusammenstellen eines Teams erhalten Sie einen besseren Einblick in die Anforderungen des Unternehmens. Es empfiehlt sich, mögliche Probleme zu ermitteln, bevor Sie Zeit, Geld und Ressourcen in die Übertragung investieren.

Schritt 2: Anforderungen und verfügbare Ressourcen erfassen

Wenn Sie einen Übertragungsplan entwerfen, sollten Sie zuerst die Anforderungen für Ihre Datenübertragung erfassen und sich dann für eine Übertragungsoption entscheiden. Zum Erfassen der Anforderungen können Sie so vorgehen:

  1. Ermitteln Sie, welche Datasets Sie verschieben müssen.
    • Wählen Sie Tools wie Data Catalog aus, um Ihre Daten in logischen Gruppierungen zu organisieren, die zusammen verschoben und verwendet werden.
    • Arbeiten Sie mit Teams innerhalb Ihrer Organisation zusammen, um diese Gruppierungen zu validieren oder zu aktualisieren.
  2. Ermitteln Sie, welche Datasets Sie verschieben können.
    • Stellen Sie fest, ob die Übertragung bestimmter Datasets aufgrund von Vorschriften, aus Sicherheitsgründen oder aufgrund anderer Faktoren unzulässig ist.
    • Wenn Sie einige Ihrer Daten vor dem Verschieben transformieren müssen, z. B. um sensible Daten zu entfernen oder die Daten neu zu organisieren, sollten Sie ein Datenintegrationsprodukt wie Dataflow oder Cloud Data Fusion oder ein Workflow-Orchestrierungsprodukt wie Cloud Composer verwenden.
  3. Bestimmen Sie bei beweglichen Datasets, wohin die einzelnen Datasets übertragen werden sollen.
    • Notieren Sie die Auswahl der Speicheroption zum Speichern Ihrer Daten. In der Regel ist das Zielspeichersystem in Google Cloud Cloud Storage. Cloud Storage ist eine skalierbare und robuste Speicheroption, auch wenn Sie nach dem Einrichten Ihrer Anwendungen komplexere Lösungen benötigen. Weitere Informationen finden Sie unter Best Practices für Cloud Storage.
    • Informieren Sie sich, welche Datenzugriffsrichtlinien nach der Migration beibehalten werden müssen.
    • Legen Sie fest, ob Sie diese Daten in bestimmten Regionen speichern müssen.
    • Planen Sie die Strukturierung dieser Daten am Ziel. Ist diese beispielsweise gleich wie an der Quelle oder anders?
    • Ermitteln Sie, ob regelmäßig Daten übertragen werden müssen.
  4. Ermitteln Sie für bewegliche Datasets, welche Ressourcen für das Verschieben der Daten zur Verfügung stehen.
    • Zeit: Wann muss die Übertragung abgeschlossen werden?
    • Kosten: Wie hoch ist das verfügbare Budget für das Team und die Übertragungskosten?
    • Personen: Wer kann die Übertragung ausführen?
    • Bandbreite (für Onlineübertragungen): Wie viel Ihrer derzeit für Google Cloud verfügbaren Bandbreite kann für eine Übertragung zugewiesen werden und für welchen Zeitraum?

Bevor Sie in der nächsten Planungsphase Übertragungsoptionen bewerten und auswählen, sollten Sie sich überlegen, ob Teile Ihres IT-Modells verbessert werden können, z. B. Data Governance, Datenorganisation und Datensicherheit.

Ihr Sicherheitsmodell

Vielen Mitgliedern des Übertragungsteams werden im Rahmen Ihres Datenübertragungsprojekts möglicherweise neue Rollen in der Google Cloud-Organisation zugewiesen. Mit der Datenübertragungsplanung können Sie Ihre Berechtigungen für die Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) und die Best Practices für die sichere Verwendung von IAM kontrollieren. Diese Faktoren können sich darauf auswirken, wie Sie Zugriff auf Ihren Speicher gewähren. Beispielsweise können Sie den Schreibzugriff auf Daten, die aus regulatorischen Gründen archiviert wurden, stark einschränken. Sie könnten es hingegen vielen Nutzern und Anwendungen erlauben, Daten in Ihre Testumgebung zu schreiben.

Ihre Google Cloud-Organisation

Wie Sie Ihre Daten in Google Cloud strukturieren, hängt davon ab, wie Sie Google Cloud verwenden möchten. Das Speichern Ihrer Daten im gleichen Cloud-Projekt, in dem Sie Ihre Anwendung ausführen, ist ein einfacher Ansatz, aber möglicherweise in Bezug auf die Verwaltung nicht optimal. Einige Ihrer Entwickler sind unter Umständen nicht berechtigt, die Produktionsdaten aufzurufen. In diesem Fall könnte ein Entwickler Code für Beispieldaten entwickeln, während ein berechtigtes Dienstkonto auf Produktionsdaten zugreifen könnte. Daher sollten Sie Ihr gesamtes Produktions-Dataset in einem separaten Cloud-Projekt speichern und dann ein Dienstkonto verwenden, um den Zugriff auf die Daten über jedes Anwendungsprojekt zu erlauben.

Google Cloud ist nach Projekten strukturiert. Projekte können in Ordnern und Ordner unter Ihrer Organisation gruppiert werden. Rollen werden auf Projektebene eingerichtet und die Zugriffsberechtigungen werden diesen Rollen auf den Ebenen der Cloud Storage-Buckets hinzugefügt. Diese Struktur entspricht der Berechtigungsstruktur anderer Objektspeicheranbieter.

Weitere Informationen zum Strukturieren einer Google Cloud-Organisation finden Sie unter Best Practices für Unternehmen.

Schritt 3: Übertragungsoptionen bewerten

Bei der Bewertung Ihrer Datenübertragungsoptionen muss das Übertragungsteam unter anderem folgende Faktoren berücksichtigen:

  • Kosten
  • Zeit
  • Offline- und Onlineübertragungsoptionen
  • Tools und Technologien für die Übertragung
  • Sicherheit

Kosten

Zu den Kosten im Zusammenhang mit der Datenübertragung gehören vor allem folgende Punkte:

  • Netzwerkkosten
    • Bei Cloud Storage eingehender Traffic ist kostenlos. Wenn Sie Ihre Daten jedoch bei einem Anbieter öffentlicher Clouds hosten, müssen Sie mit einer Gebühr für ausgehenden Traffic und potenziellen Speicherkosten (z. B. Lesevorgänge) für die Übertragung Ihrer Daten rechnen. Diese Gebühr gilt für Daten, die von Google oder einem anderen Cloud-Anbieter kommen.
    • Wenn Ihre Daten in einem von Ihnen betriebenen privaten Rechenzentrum gehostet werden, können zusätzliche Kosten für das Einrichten einer größeren Bandbreite zu Google Cloud anfallen.
  • Speicher- und Betriebskosten für Cloud Storage während und nach der Datenübertragung
  • Produktkosten (z. B. eine Transfer Appliance)
  • Personalkosten für das Zusammenstellen Ihres Teams und die Inanspruchnahme logistischer Unterstützung

Zeit

Die Übertragung großer Datenmengen ist eine der wenigen Aktivitäten beim Computing, bei denen die Hardwarebeschränkungen von Netzwerken in den Vordergrund rücken. Normalerweise können Sie 1 GB in acht Sekunden über ein Netzwerk mit 1 Gbps übertragen. Wenn Sie eine Skalierung auf ein großes Dataset vornehmen (z. B. 100 TB), beträgt die Übertragungszeit 12 Tage. Bei der Übertragung großer Datasets können Sie an die Grenzen Ihrer Infrastruktur stoßen, was möglicherweise Probleme für Ihr Unternehmen verursacht.

Mit dem folgenden Rechner können Sie ermitteln, wie viel Zeit eine Übertragung aufgrund der Größe des zu verschiebenden Datasets und der für die Übertragung verfügbaren Bandbreite benötigt. Bei den Berechnungen wird ein bestimmter Prozentsatz an Verwaltungsaufwand berücksichtigt.

In der Hauptarbeitszeit sollten Sie keine großen Datasets aus Ihrem Unternehmensnetzwerk übertragen. Wenn das Netzwerk durch die Übertragung überlastet wird, kann niemand anders erforderliche oder geschäftskritische Arbeiten abschließen. Aus diesem Grund muss das Übertragungsteam den Zeitfaktor berücksichtigen.

Nachdem die Daten an Cloud Storage übertragen wurden, können Sie eine Reihe von Technologien verwenden, um die neuen Dateien bei Ihrer Ankunft zu verarbeiten, z. B. Dataflow.

Netzwerkbandbreite erhöhen

Wie sich die Netzwerkbandbreite erhöhen lässt, hängt davon ab, wie Sie eine Verbindung zu Google Cloud herstellen.

Bei einer Cloud-zu-Cloud-Übertragung zwischen Google Cloud und anderen Cloud-Anbietern stellt Google die Verbindung zwischen den Rechenzentren der Cloud-Anbieter bereit, ohne dass Sie etwas einrichten müssen.

Wenn Sie Daten zwischen Ihrem privaten Rechenzentrum und Google Cloud übertragen, gibt es drei Hauptansätze:

  • Eine öffentliche Internetverbindung mithilfe einer öffentlichen API
  • Direct Peering mithilfe einer öffentlichen API
  • Cloud Interconnect mithilfe einer privaten API

Bei der Bewertung dieser Ansätze sollten Sie Ihre langfristigen Konnektivitätsanforderungen berücksichtigen. Möglicherweise kommen Sie zu dem Schluss, dass der Erwerb von Bandbreite ausschließlich für Übertragungszwecke zu teuer ist. Wenn Sie jedoch die langfristige Nutzung von Google Cloud und die Netzwerkanforderungen in Ihrer Organisation berücksichtigen, könnte sich die Investition lohnen.

Verbindung mit einer öffentlichen Internetverbindung herstellen

Wenn Sie eine öffentliche Internetverbindung verwenden, ist der Netzwerkdurchsatz weniger vorhersehbar, da Sie durch die Kapazität und das Routing Ihres Internetanbieters eingeschränkt sind. Der Internetanbieter bietet möglicherweise ein begrenztes Service Level Agreement (SLA) oder gar kein SLA an. Diese Verbindungen sind relativ kostengünstig und dank der umfangreichen Peering-Anordnungen von Google kann Sie Ihr Internetanbieter in wenigen Netzwerk-Hops an das globale Netzwerk von Google weiterleiten.

Wir empfehlen Ihnen, sich bei Ihrem Sicherheitsadministrator zu erkundigen, ob Ihre Unternehmensrichtlinien das Verschieben einiger Datasets über das öffentliche Internet zulassen. Prüfen Sie auch, ob die öffentliche Internetverbindung für Ihren Produktionstraffic verwendet wird. Umfangreiche Datenübertragungen können sich negativ auf das Produktionsnetzwerk auswirken.

Verbindung mit Direct Peering herstellen

Wenn Sie mit weniger Netzwerk-Hops als bei einer öffentlichen Internetverbindung auf das Google-Netzwerk zugreifen möchten, können Sie Direct Peering verwenden. Mithilfe von Direct Peering können Sie Internettraffic zwischen Ihrem Netzwerk und den Edge Points of Presence (PoPs) von Google austauschen. Das bedeutet, dass Ihre Daten nicht das öffentliche Internet nutzen. Dadurch wird auch die Anzahl der Hops zwischen Ihrem Netzwerk und dem Netzwerk von Google reduziert. Für das Peering mit dem Google-Netzwerk müssen Sie eine registrierte AS-Nummer (Autonomous System) einrichten, über einen Internetknoten eine Verbindung zu Google herstellen und einen rund um die Uhr verfügbaren Ansprechpartner Ihres Network Operations Center angeben.

Mit Cloud Interconnect verbinden

Cloud Interconnect bietet eine direkte Verbindung zu Google Cloud über Google oder einen der Cloud Interconnect-Dienstanbieter. Mithilfe dieses Dienstes wird verhindert, dass Ihre Daten über das öffentliche Internet übertragen werden, und kann bei großen Datenübertragungen für einen konsistenten Durchsatz sorgen. In der Regel bietet Cloud Interconnect SLAs für die Netzwerkverfügbarkeit und Leistung des Netzwerks. Weitere Informationen erhalten Sie bei einem Dienstanbieter. Cloud Interconnect unterstützt auch die private Adressierung (RFC 1918), sodass die Cloud effektiv zu einer Erweiterung Ihres privaten Rechenzentrums wird, ohne dass öffentliche IP-Adressen oder NATs erforderlich sind.

Online- oder Offlineübertragung

Eine zentrale Entscheidung besteht darin, ob Sie einen Offline- oder Onlineprozess für die Datenübertragung verwenden möchten. Das heißt, Sie müssen entscheiden, ob die Übertragung über ein Netzwerk erfolgen soll, ob es sich dabei um eine dedizierte Interconnect-Verbindung oder das öffentliche Internet handelt, oder ob die Übertragung mithilfe von Speicherhardware vorgenommen wird.

Als Entscheidungshilfe steht ein Übertragungsrechner zur Verfügung, mit dem Sie die Zeit- und Kostenunterschiede zwischen diesen beiden Optionen einschätzen können. Das folgende Diagramm zeigt auch einige Übertragungsgeschwindigkeiten für verschiedene Dataset-Größen und Bandbreiten. Bei diesen Berechnungen wird auch ein gewisser Verwaltungsaufwand berücksichtigt.

Diagramm, das die Beziehung zwischen Übertragungsgrößen und Übertragungsgeschwindigkeiten zeigt

Wie bereits erwähnt, müssen Sie abwägen, ob sich die Kosten zum Erreichen niedrigerer Latenzen für Ihre Datenübertragung (z. B. für die Netzwerkbandbreite) durch den Wert dieser Investition für Ihre Organisation ausgleichen lassen.

Optionen von Google

Google bietet verschiedene Tools und Technologien, die Ihnen beim Ausführen der Datenübertragung helfen.

Entscheidung für eine der Übertragungsoptionen von Google

Für welche Übertragungsoption Sie sich entscheiden, hängt von Ihrem Anwendungsfall ab, wie die folgende Tabelle zeigt.

Quelle der zu verschiebenden Daten Szenario Vorgeschlagene Produkte
Ein anderer Cloud-Anbieter (z. B. Amazon Web Services oder Microsoft Azure) zu Google Cloud Storage Transfer Service
Cloud Storage zu Cloud Storage (zwei verschiedene Buckets) Storage Transfer Service
Privates Rechenzentrum zu Google Cloud Ausreichende Bandbreite, um die Frist des Projekts
für weniger als ein paar TB Daten einzuhalten
gsutil
Privates Rechenzentrum zu Google Cloud Ausreichende Bandbreite, um die Frist des Projekts
für mehr als ein paar TB Daten einzuhalten
Storage Transfer Service for On Premises Data
Privates Rechenzentrum zu Google Cloud Die Bandbreite reicht nicht aus, um die Frist des Projekts einzuhalten Transfer Appliance

gsutil für kleinere Übertragungen lokaler Daten

Das gsutil-Tool ist das Standardtool für kleine bis mittelgroße Übertragungen (weniger als einige TB) über ein typisches Unternehmensnetzwerk von einem privaten Rechenzentrum zu Google Cloud. Wir empfehlen, gsutil in Ihren Standardpfad aufzunehmen, wenn Sie Cloud Shell verwenden. Es ist auch standardmäßig verfügbar, wenn Sie das Cloud SDK installieren. Es ist ein zuverlässiges Tool, das alle grundlegenden Funktionen bietet, die Sie zum Verwalten Ihrer Cloud Storage-Instanzen benötigen, darunter das Kopieren Ihrer Daten zum und vom lokalen Dateisystem sowie von und nach Cloud Storage. Damit lassen sich auch Objekte verschieben und umbenennen und inkrementelle Echtzeitsynchronisierungen wie rsync mit einem Cloud Storage-Bucket ausführen.

gsutil ist in folgenden Szenarien besonders nützlich:

  • Die Übertragungen müssen je nach Bedarf oder im Zuge einer Befehlszeilensitzung von den Nutzern ausgeführt werden.
  • Sie übertragen nur wenige oder sehr große Dateien oder beides.
  • Sie verwenden die Ausgabe eines Programms (Streamingausgabe an Cloud Storage).
  • Sie müssen ein Verzeichnis mit einer moderaten Anzahl von Dateien im Blick behalten und Aktualisierungen mit sehr niedrigen Latenzen synchronisieren.

Die ersten Schritte mit gsutil sind das Erstellen eines Cloud Storage-Buckets und das Kopieren von Daten in diesen Bucket. Bei der Übertragung größerer Datasets sind zwei Dinge zu beachten:

  • Verwenden Sie für Übertragungen mit mehreren Threads gsutil -m.

    Mehrere Dateien werden parallel verarbeitet, wodurch sich die Übertragungsgeschwindigkeit erhöht.

  • Verwenden Sie für eine einzelne große Datei zusammengesetzte Übertragungen.

    Bei dieser Methode werden große Dateien in kleinere Blöcke unterteilt, um die Übertragungsgeschwindigkeit zu erhöhen. Blöcke werden parallel übertragen und validiert, sodass alle Daten an Google gesendet werden. Wenn die Blöcke bei Google eingegangen sind, werden sie zu einem einzigen Objekt zusammengefasst. Dies wird als Compositing bezeichnet. Compositing kann schnell Gebühren für das Löschen von Objekten zur Folge haben, die in Cloud Storage Coldline und Cloud Storage Nearline gespeichert sind. Daher wird die Verwendung zusammen mit diesen Objekttypen nicht empfohlen.

    Diese Funktion hat einige Nachteile, darunter die Tatsache, dass jedes Stück (nicht das gesamte Objekt) einzeln geprüft wird und dass die Zusammenstellung von Cold Storage-Klassen zu zusätzlichen Gebühren für das frühzeitige Abrufen führt. Weitere Informationen finden Sie unter Parallele zusammengesetzte Uploads.

Storage Transfer Service für umfangreiche Übertragungen lokaler Daten

Wie gsutil ermöglicht der Storage Transfer Service for On Premises Data (in der Betaversion) Übertragungen vom NFS-Speicher (Network File System) zu Cloud Storage. Obwohl gsutil kleine Übertragungen (bis zu einigen TB) unterstützt, ist der Storage Transfer Service for On Premises Data auf große Übertragungen ausgelegt (bis zu Petabyte an Daten, Milliarden von Dateien). Er unterstützt das vollständige oder inkrementelle Kopieren und funktioniert mit allen Übertragungsoptionen, die zuvor unter Entscheidung für eine der Übertragungsoptionen von Google aufgeführt sind. Außerdem hat er eine einfache, verwaltete grafische Benutzeroberfläche. Auch Nutzer, die technisch nicht versiert sind, können damit nach dem Einrichten Daten verschieben.

Der Storage Transfer Service for On Premises Data ist in folgenden Szenarien besonders nützlich:

  • Sie haben genügend Bandbreite, um die Datenmengen zu verschieben (siehe Google Cloud Data Transfer-Rechner).
  • Sie unterstützen eine große Basis interner Nutzer, für die der Umgang mit einem Befehlszeilentools wie gsutil möglicherweise etwas schwierig ist.
  • Sie benötigen robuste Fehlerberichte und einen Datensatz, der alle zu verschiebenden Dateien und Objekte umfasst.
  • Sie müssen die Auswirkungen von Übertragungen auf andere Arbeitslasten in Ihrem Rechenzentrum begrenzen (dieses Produkt kann unter einem benutzerdefinierten Bandbreitenlimit bleiben).
  • Sie möchten wiederkehrende Übertragungen nach einem Zeitplan ausführen.

Sie richten den Storage Transfer Service for On Premises Data ein, indem Sie lokale Software (sogenannte Agents) auf Computern in Ihrem Rechenzentrum installieren. Diese Agents befinden sich in Docker-Containern, sodass leicht viele davon ausgeführt oder über Kubernetes orchestriert werden können.

Ist der Einrichtungsvorgang abgeschlossen, können Nutzer in der Google Cloud Console Übertragungen einleiten. Dafür müssen sie ein Quellverzeichnis, einen Ziel-Bucket und einen Zeitpunkt oder Zeitplan angeben. Der Storage Transfer Service durchsucht rekursiv Unterverzeichnisse und Dateien im Quellverzeichnis und erstellt Objekte mit einem entsprechenden Namen in Cloud Storage (das Objekt /dir/foo/file.txt wird im Ziel-Bucket zu einem Objekt namens /dir/foo/file.txt). Der Storage Transfer Service versucht automatisch, eine Übertragung zu wiederholen, wenn kurzzeitige Fehler auftreten. Während die Übertragungen ausgeführt werden, können Sie nachvollziehen, wie viele Dateien verschoben werden und wie hoch die Übertragungsgeschwindigkeit insgesamt ist. Außerdem können Sie sich Fehlerbeispiele ansehen.

Nach Abschluss der Übertragung wird eine tabulatorgetrennte Datei (TSV) mit dem vollständigen Datensatz aller verarbeiteten Dateien und aller empfangenen Fehlermeldungen generiert. Agents sind fehlertolerant. Wenn ein Agent ausfällt, wird die Übertragung mit den verbleibenden Agents fortgesetzt. Agents aktualisieren und reparieren sich auch selbst. Sie müssen sich also keine Sorgen machen, dass Sie eine Aktualisierung auf die neueste Versionen vornehmen oder den Vorgang neu starten müssen, wenn er aufgrund eines unerwarteten Problems abgebrochen wird.

Bei der Verwendung des Storage Transfer Service sollten Sie Folgendes beachten:

  • Richten Sie den Agent auf jedem Computer identisch ein. Alle Agents sollten dieselben NFS-Bereitstellungen (Network File System) auf dieselbe Weise sehen (gleiche relative Pfade). Das Produkt muss so eingerichtet werden, damit es funktioniert.
  • Je mehr Agents, desto schneller. Da Übertragungen automatisch für alle Agents parallelisiert werden, sollten Sie viele Agents bereitstellen, um die verfügbare Bandbreite auszunutzen.
  • Bandbreitenbeschränkungen können Ihre Arbeitslasten schützen. Ihre anderen Arbeitslasten nutzen möglicherweise die Bandbreite Ihres Rechenzentrums. Legen Sie daher eine Bandbreitenbeschränkung fest, damit Ihre SLAs durch Übertragungen nicht beeinträchtigt werden.
  • Planen Sie Zeit für die Fehlerüberprüfung ein. Große Übertragungen können häufig zu Fehlern führen, die überprüft werden müssen. Mit dem Storage Transfer Service können Sie sich ein Beispiel der aufgetretenen Fehler direkt in der Cloud Console ansehen. Bei Bedarf können Sie den vollständigen Datensatz aller Übertragungsfehler in BigQuery laden, um Dateien zu überprüfen oder Fehler zu bewerten, die auch bei wiederholten Versuchen immer wieder aufgetreten sind. Diese Fehler können durch das Ausführen von Anwendungen verursacht werden, die während der Übertragung in die Quelle schreiben, oder die Fehler weisen auf ein Problem hin, das behoben werden muss (z. B. ein Berechtigungsfehler).
  • Richten Sie Cloud Monitoring für lang andauernde Übertragungen ein. Mit dem Storage Transfer Service kann Monitoring den Status und den Durchsatz von Agents überwachen. So können Sie Benachrichtigungen einrichten, um benachrichtigt zu werden, wenn Agents ausfallen oder Ihre Aufmerksamkeit erfordern. Bei Übertragungen, die mehrere Tage oder Wochen dauern, ist es wichtig, auf den Ausfall von Agents zu reagieren. So vermeiden Sie erhebliche Verzögerungen oder Unterbrechungen, durch die sich der Zeitplan des Projekts verzögert.

Transfer Appliance für umfangreichere Übertragungen

Für umfangreiche Übertragungen (insbesondere Übertragungen mit begrenzter Netzwerkbandbreite) ist die Transfer Appliance eine hervorragende Option, insbesondere wenn keine schnelle Netzwerkverbindung verfügbar ist und der Erwerb von mehr Bandbreite zu teuer kommt.

Die Transfer Appliance ist in folgenden Szenarien besonders nützlich:

  • Ihr Rechenzentrum befindet sich an einem abgelegenen Standort mit eingeschränktem oder gar keinem Zugriff auf Bandbreite.
  • Die Bandbreite ist verfügbar, kann jedoch nicht rechtzeitig erworben werden, um die vorgesehene Frist einzuhalten.
  • Sie haben Zugriff auf logistische Ressourcen, um Appliances entgegenzunehmen und mit Ihrem Netzwerk zu verbinden.

Beachten Sie bei dieser Option Folgendes:

  • Für die Verwendung der Transfer Appliance müssen Sie in der Lage sein, die Hardware von Google zu empfangen und zurückzusenden.
  • Abhängig von Ihrer Internetverbindung ist die Latenz für die Übertragung von Daten zu Google Cloud mit der Transfer Appliance in der Regel höher als bei einer Onlineübertragung.
  • Die Transfer Appliance ist nur in bestimmten Ländern verfügbar.

Die beiden Hauptkriterien, die es bei der Transfer Appliance zu berücksichtigen gilt, sind Kosten und Geschwindigkeit. Bei einer angemessenen Netzwerkverbindung (z. B. 1 Gbit/s) dauert die Onlineübertragung von 100 TB Daten mehr als 10 Tage. Wenn diese Rate akzeptabel ist, ist eine Onlineübertragung wahrscheinlich eine gute Lösung für Ihre Anforderungen. Wenn Sie nur eine Verbindung mit 100 Mbit/s oder sogar nur eine Verbindung über einen Remote-Standort haben, dauert dieselbe Übertragung mehr als 100 Tage. An dieser Stelle sollten Sie eine Offlineübertragungsoption wie die Transfer Appliance in Betracht ziehen.

Der Erwerb einer Transfer Appliance ist unkompliziert. Fordern Sie in der Cloud Console eine Transfer Appliance an. Geben Sie dabei den Umfang Ihrer Daten an. Anschließend sendet Ihnen Google eine oder mehrere Appliances an den gewünschten Standort. Sie haben einige Tage Zeit, um Ihre Daten auf die Appliance zu übertragen ("Datenerfassung") und sie an Google zurückzusenden.

Die voraussichtliche Bearbeitungszeit für den Versand eines Netzwerkgeräts, das Laden Ihrer Daten, das Zurücksenden und das Wiederherstellen in Google Cloud beträgt 50 Tage. Wenn der zeitliche Rahmen für eine Onlineübertragung erheblich über diesem Zeitraum liegt, sollten Sie die Transfer Appliance in Betracht ziehen. Die Gesamtkosten für den Vorgang mit der Appliance (480 TB) belaufen sich auf weniger als 3.000 $.

Storage Transfer Service für Cloud-zu-Cloud-Übertragungen

Der Storage Transfer Service ist ein vollständig verwalteter, hoch skalierbarer Dienst zur Automatisierung von Übertragungen aus anderen öffentlichen Clouds zu Cloud Storage. Er unterstützt Übertragungen von Amazon S3 und HTTP zu Cloud Storage.

Für Amazon S3 können Sie einen Zugriffsschlüssel und einen S3-Bucket mit optionalen Filtern für die Auswahl von S3-Objekten angeben und dann die S3-Objekte in einen beliebigen Cloud Storage-Bucket kopieren. Der Dienst unterstützt auch tägliche Kopien geänderter Objekte. Der Dienst unterstützt derzeit keine Datenübertragungen an Amazon S3.

Bei HTTP können Sie für den Storage Transfer Service eine Liste öffentlicher URLs in einem bestimmten Format bereitstellen. Dafür müssen Sie ein Skript schreiben, mit dem die Größe jeder Datei in Byte angegeben sowie ein Base64-codiertes MD5-Hash des Dateiinhalts bereitgestellt wird. Manchmal sind die Dateigröße und das Hash auf der Quellwebsite verfügbar. Wenn nicht, benötigen Sie lokalen Zugriff auf die Dateien. In diesem Fall ist es möglicherweise einfacher, wie zuvor beschrieben gsutil zu verwenden.

Wenn Sie eine Übertragung eingerichtet haben, ist der Storage Transfer Service eine hervorragende Möglichkeit, Daten abzurufen und beizubehalten, insbesondere bei der Übertragung aus einer anderen öffentlichen Cloud.

Sicherheit

Für viele Google Cloud-Nutzer steht Sicherheit an erster Stelle und es stehen verschiedene Sicherheitsebenen zur Verfügung. Zu den Sicherheitsaspekten gehören der Schutz inaktiver Daten (Autorisierung und Zugriff auf das Quell- und Zielspeichersystem), der Schutz von Daten während der Übertragung und der Schutz des Zugriffs auf das Übertragungsprodukt. In der folgenden Tabelle sind diese Sicherheitsaspekte nach Produkt beschrieben.

Produkt Inaktive Daten Daten während der Übertragung Zugriff auf das Übertragungsprodukt
Transfer Appliance Alle Daten werden verschlüsselt, wenn sie inaktiv sind. Die Daten werden durch vom Kunden verwaltete Schlüssel geschützt. Jeder kann eine Appliance bestellen. Um sie zu verwenden, muss jedoch auf die Datenquelle zugegriffen werden können.
gsutil Zugriffsschlüssel, die für den Zugriff auf Cloud Storage erforderlich sind. Die Verschlüsselung erfolgt, wenn die Daten inaktiv sind. Die Daten werden über HTTPS gesendet und bei der Übertragung verschlüsselt. Jeder kann gsutil herunterladen und ausführen. Es sind Berechtigungen für Buckets und lokale Dateien erforderlich, um Daten zu verschieben.
Storage Transfer Service for On Premises Data Zugriffsschlüssel, die für den Zugriff auf Cloud Storage erforderlich sind. Die Verschlüsselung erfolgt, wenn die Daten inaktiv sind. Der Agent-Prozess kann auf lokale Dateien zugreifen, wenn die Betriebssystemberechtigungen dies zulassen. Die Daten werden über HTTPS gesendet und bei der Übertragung verschlüsselt. Für den Zugriff auf Cloud Storage-Buckets sind Berechtigungen als Objektbearbeiter erforderlich.
Storage Transfer Service Zugriffsschlüssel, die für Nicht-Google Cloud-Ressourcen (z. B. Amazon S3) erforderlich sind. Zugriffsschlüssel sind für den Zugriff auf Cloud Storage erforderlich. Die Verschlüsselung erfolgt, wenn die Daten inaktiv sind. Die Daten werden über HTTPS gesendet und bei der Übertragung verschlüsselt. Sie benötigen IAM-Berechtigungen für das Dienstkonto, um auf Berechtigungen für Quell- und Objekteditor für Cloud Storage-Buckets zuzugreifen.

Zur Verbesserung der grundlegenden Sicherheit werden Onlineübertragungen zu Google Cloud mit gsutil über HTTPS ausgeführt, Daten werden bei der Übertragung verschlüsselt und alle Daten in Cloud Storage werden standardmäßig verschlüsselt, wenn sie inaktiv sind. Informationen zu komplexeren sicherheitsbezogenen Schemas finden Sie unter Überlegungen zu Sicherheit und Datenschutz. Wenn Sie die Transfer Appliance verwenden, können die von Ihnen verwalteten Sicherheitsschlüssel zum Schutz Ihrer Daten beitragen. Im Allgemeinen empfehlen wir Ihnen, sich an Ihr Sicherheitsteam zu wenden, um sicherzustellen, dass Ihr Übertragungsplan den Anforderungen Ihres Unternehmens und den behördlichen Vorschriften entspricht.

Übertragungsprodukte von Drittanbietern

Zur erweiterten Optimierung auf Netzwerkebene oder für Workflows mit einer laufenden Datenübertragung sollten Sie fortschrittlichere Tools verwenden. Informationen zu fortschrittlicheren Tools finden Sie unter Google Partners.

Unter den folgenden Links finden Sie einige der zahlreichen Optionen (in alphabetischer Reihenfolge):

  • Aspera On Cloud basiert auf dem patentierten Protokoll von Aspera und eignet sich für große Workflows. Es ist auf Anfrage als Abo-Lizenz-Modell verfügbar.
  • Bitspeed bietet ein optimiertes Dateiübertragungsprotokoll, das für die Übertragung großer Dateien oder großer Mengen von Dateien geeignet ist. Diese Lösungen sind als physische und virtuelle Appliances verfügbar, die an bestehende Netzwerke und Dateisysteme angeschlossen werden können.
  • Mit Cloud FastPath by Tervela kann ein verwalteter Datenstrom zu und von Google Cloud erstellt werden. Weitere Informationen finden Sie unter Mit Cloud FastPath Datenströme erstellen.
  • Mit Komprise können Daten im gesamten lokalen Speicher analysiert werden, um kalte Daten zu identifizieren und nach Cloud Storage zu verschieben. Weitere Informationen finden Sie unter Komprise zum Archivieren kalter Daten in Cloud Storage verwenden.
  • Signiant bietet Media Shuttle als SaaS-Lösung (Software-as-a-Service) zum Übertragen beliebiger Dateien von einem beliebigen an einen anderen beliebigen Standort. Außerdem bietet Signiant folgende Lösungen an: Das Dienstprogramm Flight für die automatische Skalierung auf der Grundlage eines hochoptimierten Protokolls und das Automatisierungstool Manager+Agents für umfangreiche Übertragungen über geografisch verteilte Standorte hinweg.

Schritt 4: Übertragung vorbereiten

Bei einer großen Übertragung oder einer Übertragung mit erheblichen Abhängigkeiten ist es wichtig zu wissen, wie das Übertragungsprodukt funktioniert. Kunden führen normalerweise die folgenden Schritte aus:

  1. Preisgestaltung und ROI-Schätzung. Dieser Schritt bietet viele Optionen, die zur Entscheidungsfindung beitragen.
  2. Funktionstests. In diesem Schritt bestätigen Sie, dass das Produkt erfolgreich eingerichtet werden kann und die Netzwerkverbindung (falls zutreffend) funktioniert. Außerdem testen Sie, ob Sie eine repräsentative Stichprobe Ihrer Daten an das Ziel verschieben können. Dies umfasst auch Tests zu begleitenden Schritten wie das Verschieben einer VM-Instanz.

    Sie können diesen Schritt normalerweise ausführen, bevor Sie alle Ressourcen wie Übertragungsmaschinen oder Bandbreite zuweisen. Dieser Schritt hat unter anderem folgende Ziele:

    • Bestätigen, dass die Übertragung eingerichtet und ausgeführt werden kann.
    • Aufzeigen möglicher Probleme, bei denen die Datenverschiebung (z. B. Netzwerkrouten) oder Ihre Vorgänge blockiert werden (z. B. erforderliche Schulungen für Nicht-Übertragungsschritte) und die zum Beenden des Projekts führen würden.
  3. Leistungstests. In diesem Schritt führen Sie eine Übertragung mit einer großen Stichprobe Ihrer Daten aus (normalerweise 3–5 %), nachdem Produktionsressourcen für folgende Aufgaben zugewiesen wurden:

    • Bestätigen, dass alle zugewiesenen Ressourcen genutzt und die erwarteten Geschwindigkeiten erreicht werden können.
    • Erkennen und Beheben von Engpässen (z. B. langsames Quellspeichersystem).

Schritt 5: Integrität der Übertragung sicherstellen

Um während einer Übertragung die Integrität Ihrer Daten sicherzustellen, sollten Sie folgende Vorsichtsmaßnahmen ergreifen:

  • Aktivieren Sie die Versionsverwaltung und die Sicherung am Ziel, um den Schaden durch versehentliches Löschen zu begrenzen.
  • Prüfen Sie Ihre Daten, bevor Sie die Quelldaten entfernen.

Bei umfangreichen Datenübertragungen (mit Petabyte an Daten und Milliarden von Dateien) führt eine grundlegende latente Fehlerrate des zugrunde liegenden Quellspeichersystems von 0,0001 % immer noch zu einem Datenverlust von Tausenden von Dateien und Gigabyte. Normalerweise sind Anwendungen, die an der Quelle ausgeführt werden, diesen Fehlern gegenüber bereits sehr tolerant. In diesem Fall ist keine zusätzliche Validierung erforderlich. In einigen Ausnahmefällen (z. B. Langzeitarchivierung) ist eine weitere Validierung erforderlich, bevor es sicher ist, Daten an der Quelle zu löschen.

Je nach Anforderungen Ihrer Anwendung sollten Sie nach Abschluss der Übertragung einige Datenintegritätstests durchführen, um sicherzustellen, dass die Anwendung weiterhin wie vorgesehen funktioniert. In viele Übertragungsprodukte ist eine Prüfung der Datenintegrität eingebunden. Abhängig von Ihrem Risikoprofil können Sie jedoch zusätzliche Prüfungen der Daten und der Anwendungen, die die Daten lesen, durchführen, bevor Sie Daten an der Quelle löschen. Sie könnten beispielsweise überprüfen, ob eine von Ihnen aufgezeichnete und berechnete Prüfsumme mit den am Ziel geschriebenen Daten übereinstimmt oder ob ein von der Anwendung verwendetes Dataset erfolgreich übertragen wurde.

Hilfe

Google Cloud bietet verschiedene Optionen und Ressourcen, mit denen Sie Google Cloud-Dienste optimal nutzen können.

  • Ressourcen zur Selbsthilfe: Wenn Sie keinen persönlichen Support benötigen, stehen Ihnen verschiedene Optionen zur Verfügung, die Sie in Ihrem eigenen Tempo verwenden können.
  • Technologiepartner. Google Cloud arbeitet mit mehreren Unternehmen zusammen, um Ihnen bei der Nutzung unserer Produkte und Dienste Unterstützung bieten zu können.
  • Google Cloud-Dienstleistungen. Mit unseren Dienstleistungen können Sie Ihre Investitionen in Google Cloud optimal nutzen.

Weitere Informationen zur Migration von Arbeitslasten zu Google Cloud erhalten Sie im Google Cloud-Migrationscenter.

Weitere Informationen zu diesen Ressourcen finden Sie im Abschnitt "Hilfe" von Migration zu Google Cloud: Einstieg.

Weitere Informationen