Spanner Avro-Dateien importieren

Auf dieser Seite wird beschrieben, wie Sie Spanner-Datenbanken über die Google Cloud Console in Spanner importieren. Informationen zum Importieren von Avro-Dateien aus einer anderen Quelle finden Sie unter Daten aus Nicht-Spanner-Datenbanken importieren.

In diesem Vorgang wird Dataflow zum Importieren von Daten aus einem Cloud Storage-Bucket-Ordner verwendet, der eine Reihe von Avro-Dateien und JSON-Manifestdateien enthält. Der Importvorgang unterstützt nur Avro-Dateien, die aus Spanner exportiert wurden.

Führen Sie die Schritte im Abschnitt Vorbereitung auf dieser Seite aus, um eine Spanner-Datenbank mit der REST API oder dem gcloud CLI zu importieren. Lesen Sie dann die detaillierte Anleitung unter Cloud Storage Avro für Spanner.

Hinweise

Zum Importieren einer Spanner-Datenbank müssen Sie zuerst die Spanner, Cloud Storage, Compute Engine und Dataflow APIs aktivieren:

Aktivieren Sie die APIs

Außerdem brauchen Sie ein ausreichend großes Kontingent und die erforderlichen IAM-Berechtigungen.

Kontingentanforderungen

Für Importjobs gelten die folgenden Kontingentanforderungen:

  • Spanner: Sie müssen genügend Rechenkapazität haben, um die zu importierende Datenmenge zu unterstützen. Für den Import einer Datenbank ist keine zusätzliche Rechenkapazität erforderlich. Allerdings benötigen Sie möglicherweise weitere Rechenkapazität, damit der Job in angemessener Zeit abgeschlossen werden kann. Weitere Informationen finden Sie unter Jobs optimieren.
  • Cloud Storage: Zum Importieren benötigen Sie einen Bucket mit Ihren zuvor exportierten Dateien. Für den Bucket muss keine Größe festgelegt werden.
  • Dataflow: Für Importjobs gelten dieselben Compute Engine-Kontingente für CPU, Laufwerksnutzung und IP-Adressen wie für andere Dataflow-Jobs.
  • Compute Engine: Bevor Sie den Importjob ausführen, müssen Sie zuerst Kontingente für Compute Engine einrichten, die von Dataflow verwendet werden. Diese Kontingente stellen die maximale Anzahl von Ressourcen dar, die Dataflow für Ihren Job verwenden darf. Empfohlene Anfangswerte sind:

    • CPUs: 200
    • Verwendete IP-Adressen: 200
    • Nichtflüchtiger Standardspeicher: 50 TB

    In der Regel sind keine weiteren Anpassungen erforderlich. Dataflow bietet Autoscaling, sodass Sie nur für die Ressourcen zahlen, die beim Import tatsächlich verwendet werden. Wenn Ihr Job mehr Ressourcen verwenden kann, wird in der Dataflow-UI ein Warnsymbol angezeigt. Der Job sollte trotz dieses Warnsymbols beendet werden.

IAM-Anforderungen

Für das Importieren einer Datenbank benötigen Sie außerdem IAM-Rollen mit ausreichenden Berechtigungen, um alle Dienste nutzen zu können, die für einen Importjob erforderlich sind. Informationen zum Zuweisen von Rollen und Berechtigungen finden Sie unter IAM-Rollen anwenden.

Zum Importieren einer Datenbank benötigen Sie folgende Rollen:

Optional: Datenbankordner in Cloud Storage suchen

Um in der Google Cloud Console den Ordner zu finden, der Ihre exportierte Datenbank enthält, rufen Sie den Cloud Storage-Browser auf und klicken Sie auf den Bucket, der den exportierten Ordner enthält.

Zum Cloud Storage-Browser

Der Name des Ordners mit Ihren exportierten Daten beginnt mit der ID Ihrer Instanz, dem Datenbanknamen und dem Zeitstempel des Exportjobs. Der Ordner enthält Folgendes:

  • Eine spanner-export.json-Datei
  • Eine TableName-manifest.json-Datei für jede Tabelle in der Datenbank, die Sie exportiert haben
  • Mindestens eine TableName.avro-#####-of-#####-Datei Die erste Zahl in der Erweiterung .avro-#####-of-##### steht für den Index der Avro-Datei, beginnend bei null, und die zweite Zahl steht für die Anzahl der Avro-Dateien, die für jede Tabelle generiert werden.

    Songs.avro-00001-of-00002 ist beispielsweise die zweite von zwei Dateien, die die Daten der Tabelle Songs enthalten.

  • Eine ChangeStreamName-manifest.json-Datei für jeden Änderungsstream in der exportierten Datenbank.

  • Eine ChangeStreamName.avro-00000-of-00001-Datei für jeden Änderungsstream. Diese Datei enthält leere Daten, die nur das Avro-Schema des Änderungsstreams enthalten.

Datenbank importieren

Führen Sie die folgenden Schritte aus, um die Spanner-Datenbank aus Cloud Storage in Ihre Instanz zu importieren.

  1. Rufen Sie die Spanner-Seite Instanzen auf.

    Zur Seite "Instanzen"

  2. Klicken Sie auf den Namen der Instanz, in die die Datenbank zu importieren ist.

  3. Klicken Sie auf den Menüpunkt Import/Export im linken Bereich und anschließend auf die Schaltfläche Import.

  4. Klicken Sie unter Quellordner auswählen auf Durchsuchen.

  5. Suchen Sie den Bucket mit Ihrem Export in der angezeigten Liste oder klicken Sie auf Suchen Screenshot des UI-Elements zum Suchen, um die Liste zu filtern und den Bucket zu ermitteln. Doppelklicken Sie auf den Bucket, um die darin enthaltenen Ordner anzuzeigen.

  6. Suchen Sie den Ordner mit den exportierten Dateien und klicken Sie darauf, um ihn auszuwählen.

  7. Klicken Sie auf Auswählen.

  8. Geben Sie einen Namen für die neue Datenbank ein, die Spanner während des Importvorgangs erstellt. Der Datenbankname darf in Ihrer Instanz nicht bereits vorhanden sein.

  9. Wählen Sie den Dialekt für die neue Datenbank aus (GoogleSQL oder PostgreSQL).

  10. (Optional) Um die neue Datenbank mit einem vom Kunden verwalteten Verschlüsselungsschlüssel zu schützen, klicken Sie auf Verschlüsselungsoptionen einblenden und wählen Sie Vom Kunden verwalteten Verschlüsselungsschlüssel (CMEK) verwenden aus. Wählen Sie dann einen Schlüssel aus der Dropdown-Liste aus.

  11. Wählen Sie aus dem Drop-down-Menü Region für den Importjob auswählen eine Region aus.

  12. (Optional) Um den Status der Dataflow-Pipeline mit einem vom Kunden verwalteten Verschlüsselungsschlüssel zu verschlüsseln, klicken Sie auf Verschlüsselungsoptionen einblenden und wählen Sie Vom Kunden verwalteten Verschlüsselungsschlüssel (CMEK) verwenden aus. Wählen Sie dann einen Schlüssel aus der Drop-down-Liste aus.

  13. Klicken Sie auf das Kästchen unter Gebühren bestätigen, um zu bestätigen, dass zusätzlich zu den Kosten für die vorhandene Spanner-Instanz weitere Gebühren anfallen.

  14. Klicken Sie auf Importieren.

    In der Google Cloud Console sehen Sie jetzt die Seite Datenbankdetails mit einem Feld, in dem der Importjob einschließlich der verstrichenen Zeit beschrieben wird:

    Screenshot eines laufenden Jobs

Wenn der Job abgeschlossen oder beendet wird, wird in der Google Cloud Console auf der Seite Datenbankdetails eine entsprechende Meldung angezeigt. Wurde der Job erfolgreich beendet, lautet sie:

Erfolgsmeldung für Importjob

Wenn der Job nicht erfolgreich war, wird eine Fehlermeldung angezeigt:

Fehlermeldung für Importjob

Wenn der Job fehlschlägt, sehen Sie sich die Fehlerdetails in den Dataflow-Logs des Jobs an und lesen Sie die Fehlerbehebung bei fehlgeschlagenen Importjobs.

Hinweis zum Importieren von generierten Spalten und Änderungsstreams

Spanner verwendet die Definition jeder generierten Spalte im Avro-Schema, um diese Spalte neu zu erstellen. Spanner berechnet automatisch während des Imports generierte Spaltenwerte.

In ähnlicher Weise verwendet Spanner die Definition jedes Änderungsstreams im Avro-Schema, um ihn während des Imports neu zu erstellen. Änderungsstreamdaten werden weder über Avro exportiert noch importiert. Daher enthalten alle Änderungsstreams, die mit einer neu importierten Datenbank verknüpft sind, keine Änderungsdatensätze.

Hinweis zum Importieren von Sequenzen

Jede von Spanner exportierte Sequenz (GoogleSQL, PostgreSQL), die von Spanner exportiert wird, verwendet die Funktion GET_INTERNAL_SEQUENCE_STATE() (GoogleSQL, PostgreSQL), um ihren aktuellen Status zu erfassen. Spanner fügt dem Zähler einen Zwischenspeicher von 1.000 hinzu und schreibt den neuen Zählerwert in die Attribute des Eintragsfelds. Beachten Sie, dass dies nur der beste Ansatz ist, um Fehler durch doppelte Wert zu vermeiden, die nach dem Import auftreten können. Passen Sie den tatsächlichen Sequenzzähler an, wenn während des Datenexports mehr Schreibvorgänge in die Quelldatenbank stattfinden.

Beim Import beginnt die Sequenz bei diesem neuen Zähler und nicht bei dem im Schema gefundenen Zähler. Bei Bedarf können Sie die Anweisung ALTER SEQUENCE (GoogleSQL, PostgreSQL) verwenden, um auf einen neuen Zähler zu aktualisieren.

Region für den Importjob auswählen

Möglicherweise möchten Sie eine andere Region basierend auf dem Standort Ihres Cloud Storage-Bucket auswählen. Wählen Sie eine Region aus, die dem Speicherort Ihres Cloud Storage-Bucket entspricht, um Gebühren für die ausgehende Datenübertragung zu vermeiden.

  • Wenn der Speicherort Ihres Cloud Storage-Bucket eine Region ist, können Sie von der kostenlosen Netzwerknutzung profitieren. Dazu wählen Sie dieselbe Region für den Importjob aus, sofern diese Region verfügbar ist.

  • Wenn der Speicherort Ihres Cloud Storage-Bucket eine Dual-Region ist, können Sie von der kostenlosen Netzwerknutzung profitieren. Dazu wählen Sie eine der beiden Regionen aus, aus denen die Dual-Region für Ihren Importjob besteht, sofern eine der Regionen verfügbar ist.

  • Wenn für Ihren Importjob keine gemeinsame Region verfügbar ist oder der Speicherort Ihres Cloud Storage-Bucket mehrere Regionen ist, fallen Gebühren für die ausgehende Datenübertragung an. Wählen Sie anhand der Preise für die Datenübertragung von Cloud Storage eine Region aus, in der die niedrigsten Datenübertragungsgebühren anfallen.

Jobs in der Dataflow-UI ansehen oder Fehler beheben

Nachdem Sie einen Importjob gestartet haben, können Sie in der Google Cloud Console im Bereich „Dataflow“ Details zum Job, einschließlich der Logs, ansehen.

Dataflow-Jobdetails ansehen

So rufen Sie Details zu allen Import-/Exportjobs auf, die Sie in der letzten Woche ausgeführt haben, einschließlich aller derzeit ausgeführten Jobs:

  1. Wechseln Sie zur Seite Datenbanküberblick für die Datenbank.
  2. Klicken Sie im linken Bereich auf den Menüpunkt Import/Export. Auf der Datenbankseite Import/Export wird eine Liste der letzten Jobs angezeigt.
  3. Klicken Sie auf der Seite Import/Export der Datenbank in der Spalte Dataflow-Jobname auf den Jobnamen:

    Statusmeldung für laufende Jobs

    In der Google Cloud Console werden Details zum Dataflow-Job angezeigt.

So rufen Sie einen Job auf, den Sie vor mehr als einer Woche ausgeführt haben:

  1. Rufen Sie in der Google Cloud Console die Seite mit den Dataflow-Jobs auf.

    Zur Jobseite

  2. Suchen Sie den Job in der Liste und klicken Sie auf seinen Namen.

    In der Google Cloud Console werden Details zum Dataflow-Job angezeigt.

Dataflow-Logs für Ihren Job ansehen

Rufen Sie wie oben beschrieben die Detailseite des Jobs auf und klicken Sie rechts neben dem Jobnamen auf Logs, um die Logs eines Dataflow-Jobs anzusehen.

Wenn ein Job fehlschlägt, suchen Sie in den Logs nach Fehlern. Falls Fehler aufgetreten sind, ist neben Logs die Fehleranzahl zu sehen:

Beispiel für Fehleranzahl neben der Schaltfläche "Logs"

So sehen Sie sich Jobfehler genauer an:

  1. Klicken Sie auf die Fehleranzahl neben Logs.

    In der Google Cloud Console werden die Logs des Jobs angezeigt. Unter Umständen müssen Sie scrollen, um die Fehler einzublenden.

  2. Suchen Sie nach Einträgen mit dem Fehlersymbol Fehlersymbol.

  3. Klicken Sie auf einen Logeintrag, um ihn zu maximieren.

Weitere Informationen zur Fehlerbehebung bei Dataflow-Jobs finden Sie unter Pipelinefehler beheben.

Fehler bei fehlgeschlagenen Importjobs beheben

Wenn in Ihren Joblogs die folgenden Fehler angezeigt werden:

com.google.cloud.spanner.SpannerException: NOT_FOUND: Session not found

--or--

com.google.cloud.spanner.SpannerException: DEADLINE_EXCEEDED: Deadline expired before operation could complete.

Prüfen Sie in der Google Cloud Console auf dem Tab Monitoring Ihrer Spanner-Datenbank die 99% Schreiblatenz. Wenn hohe Werte angezeigt werden (mehrere Sekunden), bedeutet dies, dass die Instanz überlastet ist, was zu Schreibfehlern führt.

Eine Ursache für die hohe Latenz ist, dass der Dataflow-Job mit zu vielen Workern ausgeführt wird, was die Spanner-Instanz zu stark belastet.

Wenn Sie ein Limit für die Anzahl der Dataflow-Worker festlegen möchten, müssen Sie den Import mit der Vorlage „Cloud Storage Avro für Cloud Spanner“ starten und die maximale Anzahl von Workern wie unten beschrieben angeben, anstatt den Tab „Import/Export“ auf der Seite „Instanzdetails“ Ihrer Spanner-Datenbank zu verwenden:
  • Wenn Sie die Dataflow Console verwenden, befindet sich der Parameter Max. Worker im Abschnitt Optionale Parameter auf der Seite Job aus Vorlage erstellen.

  • Wenn Sie gcloud verwenden, geben Sie das Argument max-workers an. Beispiel:

    gcloud dataflow jobs run my-import-job \
    --gcs-location='gs://dataflow-templates/latest/GCS_Avro_to_Cloud_Spanner' \
    --region=us-central1 \
    --parameters='instanceId=test-instance,databaseId=example-db,inputDir=gs://my-gcs-bucket' \
    --max-workers=10
    

Langsam ausgeführte Importjobs optimieren

Wenn Sie die Vorschläge für die Anfangseinstellungen befolgt haben, sollten in der Regel keine weiteren Anpassungen nötig sein. Falls der Job jedoch langsam ausgeführt wird, können Sie einige andere Optimierungen versuchen:

  • Job- und Datenspeicherort optimieren: Führen Sie den Dataflow-Job in derselben Region aus, in der sich die Spanner-Instanz und der Cloud Storage-Bucket befinden.

  • Ausreichend Dataflow-Ressourcen bereitstellen: Wenn die Ressourcen Ihres Dataflow-Jobs durch die relevanten Compute Engine-Kontingente eingeschränkt werden, werden auf der Dataflow-Seite des Jobs in der Google Cloud Console ein Warnsymbol Warnungssymbol und Logmeldungen angezeigt:

    Screenshot der Kontingentlimitwarnung

    In diesem Fall kann das Erhöhen der Kontingente für CPUs, verwendete IP-Adressen und nichtflüchtigen Standardspeicher die Ausführungszeit des Jobs verkürzen, aber auch höhere Compute Engine-Gebühren zur Folge haben.

  • Spanner-CPU-Auslastung prüfen: Wenn die CPU-Auslastung für die Instanz über 65 % liegt, können Sie die Rechenkapazität in dieser Instanz erhöhen. Durch die Kapazität werden weitere Spanner-Ressourcen hinzugefügt und der Job sollte beschleunigt werden, es fallen jedoch höhere Spanner-Gebühren an.

Faktoren, die sich auf die Leistung von Importjobs auswirken

Mehrere Faktoren beeinflussen die Zeit, die für einen Importjob benötigt wird.

  • Spanner-Datenbankgröße: Die Verarbeitung von mehr Daten erfordert mehr Zeit und Ressourcen.

  • Spanner-Datenbankschema, einschließlich:

    • Die Anzahl der Tabellen
    • Die Größe der Zeilen
    • Die Anzahl der sekundären Indexe
    • Die Anzahl der Fremdschlüssel
    • Anzahl der Änderungsstreams

Die Index- und Fremdschlüsselerstellung wird nach Abschluss des Dataflow-Importjobs fortgesetzt. Änderungsstreams werden vor Abschluss des Importjobs erstellt, aber nachdem alle Daten importiert wurden.

  • Datenspeicherort: Daten werden mit Dataflow zwischen Spanner und Cloud Storage übertragen. Idealerweise befinden sich alle drei Komponenten in derselben Region. Wenn das nicht der Fall ist, dauert das regionsübergreifende Verschieben der Daten länger.

  • Anzahl der Dataflow-Worker: Optimale Dataflow-Worker sind für eine gute Leistung erforderlich. Mithilfe von Autoscaling wählt Dataflow die Anzahl der Worker für einen Job abhängig vom Arbeitsumfang aus. Diese Anzahl wird jedoch durch die Kontingente für CPUs, verwendete IP-Adressen und nichtflüchtigen Standardspeicher begrenzt. In der Dataflow-UI ist ein Warnsymbol zu sehen, wenn Kontingentobergrenzen erreicht werden. In diesem Fall dauert die Verarbeitung länger, aber der Job sollte dennoch abgeschlossen werden. Das Autoscaling kann Spanner überlasten, was zu Fehlern führt, wenn eine große Datenmenge importiert werden muss.

  • Bestehende Auslastung von Spanner: Ein Importjob stellt eine erhebliche CPU-Auslastung für eine Spanner-Instanz dar. Wenn die Instanz jedoch bereits eine erhebliche bestehende Auslastung aufweist, wird der Job langsamer ausgeführt.

  • Menge der Spanner-Rechenkapazität: Wenn die CPU-Auslastung für die Instanz über 65 % liegt, wird der Job langsamer ausgeführt.

Feinabstimmung der Worker für eine gute Importleistung

Beim Starten eines Spanner-Importjobs müssen die Dataflow-Worker auf einen optimalen Wert festgelegt werden, um eine gute Leistung zu erzielen. Zu viele Worker überlasten Spanner und zu wenige Worker führen zu einer zu geringen Importleistung.

Die maximale Anzahl von Workern hängt stark von der Datengröße ab. Idealerweise sollte die gesamte Spanner-CPU-Auslastung jedoch zwischen 70% und 90 % liegen. Dies sorgt für ein gutes Gleichgewicht zwischen Spanner-Effizienz und fehlerfreier Jobausführung.

Um dieses Nutzungsziel in den meisten Schemas und Szenarien zu erreichen, empfehlen wir eine maximale Anzahl von Worker-vCPUs, die zwischen 4 und 6-mal der Anzahl von Spanner-Knoten liegt.

Beispiel: Bei einer Spanner-Instanz mit 10 Knoten und n1-standard-2-Workern würden Sie die maximale Anzahl der Worker auf 25 festlegen, was 50 vCPUs ergibt.