Datenbanken aus Spanner nach Avro exportieren

Auf dieser Seite wird beschrieben, wie Sie Spanner-Datenbanken mit der Google Cloud Console exportieren. Spanner-Datenbank mit der REST API oder dem gcloud spanner exportieren Befehlszeilentool führen Sie die Schritte in der Vorbereitung auf dieser Seite und sehen Sie sich die eine ausführliche Anleitung unter Spanner to Cloud Storage Avro in der Dataflow-Dokumentation Beim Exportvorgang werden die Daten mithilfe von Dataflow in einen Ordner in einem Cloud Storage-Bucket. Der Ordner enthält eine Reihe von Avro-Dateien und JSON-Manifestdateien

Hinweise

So exportieren Sie eine Spanner-Datenbank: Zuerst müssen Sie Spanner, Cloud Storage Compute Engine und Dataflow APIs:

Aktivieren Sie die APIs

Außerdem brauchen Sie ein ausreichend großes Kontingent und die erforderlichen IAM-Berechtigungen.

Kontingentanforderungen

Für Exportjobs gelten folgende Kontingentanforderungen:

  • Spanner: Keine zusätzlichen Rechenkapazität ist erforderlich, um eine Datenbank zu exportieren, Zum Hinzufügen weiterer Rechenkapazität, damit Ihr Job in einem angemessenen Rahmen abgeschlossen wird der Zeit. Weitere Informationen finden Sie unter Jobs optimieren.
  • Cloud Storage: Für den Export müssen Sie einen Bucket für die exportierten Dateien erstellen, wenn haben Sie noch keines. Sie können dies in der Google Cloud Console tun. entweder über die Cloud Storage-Seite oder beim Erstellen des Exports über die Spanner-Seite. Für den Bucket muss keine Größe festgelegt werden.
  • Dataflow: Bei Exportjobs gelten die gleichen Compute Engine-Kontingente für CPU, Laufwerksauslastung und IP-Adressen wie bei anderen Dataflow-Jobs.
  • Compute Engine: Bevor Sie den Exportjob ausführen, müssen Sie zuerst Kontingente für Compute Engine einrichten, die von Dataflow verwendet werden. Diese Kontingente stellen die maximale Anzahl an Ressourcen dar, die Dataflow für Ihren Job verwenden darf. Empfohlene Anfangswerte sind:

    • CPUs: 200
    • Verwendete IP-Adressen: 200
    • Nichtflüchtiger Standardspeicher: 50 TB

    In der Regel sind keine weiteren Anpassungen erforderlich. Dataflow bietet Autoscaling, sodass Sie nur für die Ressourcen zahlen, die beim Export tatsächlich verwendet werden. Wenn Ihr Job mehr Ressourcen verwenden kann, wird in der Dataflow-UI ein Warnsymbol angezeigt. Der Job sollte trotz dieses Warnsymbols beendet werden.

IAM-Anforderungen

Für das Exportieren einer Datenbank brauchen Sie außerdem IAM-Rollen mit ausreichenden Berechtigungen, damit alle für den Exportjob nötigen Dienste genutzt werden können. Informationen zum Gewähren von Rollen und Berechtigungen finden Sie unter IAM-Rollen anwenden

Sie benötigen folgende Rollen für den Export einer Datenbank:

So verwenden Sie die unabhängigen Rechenressourcen von Spanner Data Boost während eines Exports: Sie benötigen außerdem die IAM-Rolle spanner.databases.useDataBoost Berechtigung. Weitere Informationen finden Sie unter Data Boost – Übersicht

Datenbank exportieren

Wenn Sie die oben beschriebenen Kontingent- und IAM-Anforderungen erfüllen, können Sie eine vorhandene Spanner-Datenbank exportieren.

So exportieren Sie Ihre Spanner-Datenbank in einen Cloud Storage-Bucket: führen Sie die folgenden Schritte aus.

  1. Rufen Sie die Spanner-Seite Instanzen auf.

    Zur Seite "Instanzen"

  2. Klicken Sie auf den Namen der Instanz, die die Datenbank enthält.

  3. Klicken Sie auf den Menüpunkt Import/Export im linken Bereich und anschließend auf die Schaltfläche Export.

  4. Klicken Sie unter Speicherort für den Export auswählen auf Durchsuchen.

  5. Wenn Sie noch keinen Cloud Storage-Bucket für den Export haben:

    1. Klicken Sie auf Neuer Bucket Screenshot des UI-Elements für einen neuen Bucket.
    2. Geben Sie einen Namen für den Bucket ein. Bucket-Namen in Cloud Storage dürfen nur einmal vorkommen.
    3. Wählen Sie eine Standardspeicherklasse und einen Speicherort aus und klicken Sie auf Erstellen.
    4. Klicken Sie auf den Bucket, um ihn auszuwählen.

    Wenn bereits ein Bucket vorhanden ist, wählen Sie ihn entweder aus der angezeigten Liste aus oder klicken Sie auf Suchen Screenshot des UI-Elements zum Suchen, damit Sie die Liste filtern können. Klicken Sie dann auf den entsprechenden Bucket, um ihn auszuwählen.

  6. Klicken Sie auf Auswählen.

  7. Wählen Sie im Drop-down-Menü Datenbank für den Export auswählen die zu exportierende Datenbank aus.

  8. Optional: Wenn Sie Ihre Datenbank von einem früheren Zeitpunkt exportieren möchten, klicken Sie das Kästchen an und geben Sie einen Zeitstempel ein.

  9. Wählen Sie im Drop-down-Menü Region für den Exportjob auswählen eine Region aus.

  10. Optional: So verschlüsseln Sie den Dataflow-Pipelinestatus mit einem vom Kunden verwalteter Verschlüsselungsschlüssel:

    1. Klicken Sie auf Verschlüsselungsoptionen anzeigen.
    2. Wählen Sie Vom Kunden verwalteten Verschlüsselungsschlüssel (CMEK) verwenden aus.
    3. Wählen Sie Ihren Schlüssel aus der Drop-down-Liste aus.

    Diese Option wirkt sich nicht auf die Verschlüsselung auf Cloud Storage-Zielebene aus. Informationen zum Aktivieren von CMEK für Ihren Cloud Storage-Bucket finden Sie unter CMEK mit Cloud Storage verwenden

  11. Optional: Wählen Sie für den Export mit Spanner Data Boost die Option Kästchen Spanner Data Boost verwenden an. Weitere Informationen finden Sie unter Data Boost – Übersicht

  12. Klicken Sie das Kästchen unter Belastungen bestätigen an, um zu bestätigen, dass Gebühren zusätzlich zu den Gebühren für Ihre vorhandene Spanner-Instanz.

  13. Klicken Sie auf Exportieren.

    In der Google Cloud Console wird die Seite Datenbankimport/-export angezeigt. Dort wird nun eine Position für Ihren Exportjob in den Import-/Exportjobs angezeigt. Liste mit der verstrichenen Zeit des Jobs:

    Screenshot eines laufenden Jobs

Wenn der Job beendet oder abgebrochen wird, wird der Status in der Import-/Exportliste aktualisiert. Wenn der Job erfolgreich ausgeführt wurde, wird der Status Succeeded (Erfolgreich) angezeigt:

Erfolgsmeldung für Exportjob

Wenn der Job fehlgeschlagen ist, wird der Status Fehlgeschlagen angezeigt:

Fehlermeldung für Exportjob

Klicken Sie auf den Namen des Jobs in der Spalte Dataflow-Jobname, um die Details des Dataflow-Vorgangs für Ihren Job aufzurufen.

Falls der Job fehlschlägt, sehen Sie sich die Fehlerdetails in den Dataflow-Logs des Jobs an.

Löschen Sie den Ordner und die Dateien, die durch den fehlgeschlagenen Exportjob erstellt wurden, um Cloud Storage-Gebühren für diese Dateien zu vermeiden. Weitere Informationen finden Sie unter Anzeigen exportieren.

Hinweis zum Exportieren generierter Spalten und Änderungsstreams

Die Werte in einer gespeicherten generierten Spalte werden nicht exportiert. Die Spaltendefinition wird als Eintragsfeld vom Typ Null als Teil des Avro-Schemas exportiert, wobei die Spaltendefinition als benutzerdefinierte Attribute des Felds angegeben wird. Bis zum Backfill einer neu hinzugefügten Spalte abgeschlossen ist, wird die erzeugte Spalte so als wäre sie nicht im Schema vorhanden.

Als Avro-Dateien exportierte Änderungsstreams enthalten nur das Schema des Änderungsstreams und keine Datenänderungseinträge.

Hinweis zum Exportieren von Sequenzen

Sequenzen (GoogleSQL, PostgreSQL) sind Schemaobjekte, mit denen Sie eindeutige Ganzzahlwerte generieren. Spanner exportiert jedes Schemaobjekt in das Avro-Schema als Datensatzfeld mit Sequenzart, übersprungenem Bereich und Zähler als Attribute auf diesem Gebiet. Um zu verhindern, dass eine Sequenz zurückgesetzt und generiert wird, Doppelte Werte nach dem Import, während des Schemaexports, GET_INTERNAL_SEQUENCE_STATE() (GoogleSQL, PostgreSQL) erfasst den Sequenzzähler. Spanner fügt als Zwischenspeicher 1000 an den Zähler und schreibt den neuen Zählerwert in das Datensatzfeld. Dieses vermeiden Sie Fehler durch doppelte Werte, die nach dem Import auftreten können. Wenn während des Datenexports mehr Schreibvorgänge in die Quelldatenbank erfolgen, sollten Sie den tatsächlichen Sequenzzähler mithilfe der ALTER SEQUENCE anpassen (GoogleSQL, PostgreSQL)-Anweisung.

Beim Import beginnt die Sequenz bei diesem neuen Zähler anstelle des Zählers. aus dem Schema. Alternativ können Sie die ALTER SEQUENCE verwenden (GoogleSQL, PostgreSQL) -Anweisung, um die Sequenz mit einem neuen Zähler zu aktualisieren.

Export in Cloud Storage ansehen

So rufen Sie den Ordner mit der exportierten Datenbank auf: Rufen Sie in der Google Cloud Console den Cloud Storage-Browser auf und wählen Sie den Bucket aus, den Sie zuvor ausgewählt haben:

Zum Cloud Storage-Browser

Der Bucket enthält jetzt einen Ordner mit der exportierten Datenbank. Der Ordnername beginnt mit der ID Ihrer Instanz, dem Datenbanknamen und dem Zeitstempel des Exportjobs. Der Ordner enthält:

  • Eine spanner-export.json-Datei
  • Eine TableName-manifest.json-Datei für jede Tabelle in der Datenbank, die Sie exportiert haben.
  • Mindestens eine TableName.avro-#####-of-#####-Datei. Die erste Zahl in der Erweiterung .avro-#####-of-##### steht für den Index der Avro-Datei, beginnend bei null, und die zweite Zahl steht für die Anzahl der Avro-Dateien, die für jede Tabelle generiert werden.

    Songs.avro-00001-of-00002 ist beispielsweise die zweite von zwei Dateien, die die Daten der Tabelle Songs enthalten.

  • Eine ChangeStreamName-manifest.json-Datei für jede Änderungsstream in der Datenbank, exportiert.

  • Ein ChangeStreamName.avro-00000-of-00001 für jeden Änderungsstream. Diese Datei enthält leere Daten nur mit dem Avro-Schema des Änderungsstreams.

Region für den Importjob auswählen

Sie können eine andere Region auf Grundlage des Standorts Ihres Cloud Storage-Bucket. Um dies zu vermeiden Gebühren für ausgehende Datenübertragung angegeben werden, wählen Sie eine Region aus, mit dem Speicherort Ihres Cloud Storage-Bucket übereinstimmt.

  • Wenn der Speicherort Ihres Cloud Storage-Bucket eine Region ist, gilt Folgendes: können Sie die kostenlose Netzwerknutzung nutzen, indem Sie die dieselbe Region für Ihren Importjob, sofern diese Region verfügbar ist.

  • Wenn der Speicherort Ihres Cloud Storage-Bucket eine Dual-Region ist, können Sie die kostenlose Netzwerknutzung nutzen, indem Sie einer der beiden Regionen, aus denen die Dual-Region für Ihren Importjob besteht, vorausgesetzt, eine der Regionen ist verfügbar.

  • Wenn für Ihren Importjob keine am selben Standort befindliche Region verfügbar ist oder Ihr Der Speicherort des Cloud Storage-Bucket ist multiregional Es fallen Gebühren für ausgehende Datenübertragungen an. Weitere Informationen finden Sie unter „Cloud Storage“. Datenübertragungspreise, um eine Region auszuwählen, in der der die niedrigsten Kosten für die Datenübertragung.

Teilmenge von Tabellen exportieren

Wenn Sie nur die Daten aus bestimmten Tabellen und nicht das können Sie diese Tabellen beim Export angeben. In In diesem Fall exportiert Spanner das gesamte Schema der Datenbank, einschließlich Daten der von Ihnen angegebenen Tabellen und lassen Sie alle anderen Tabellen erhalten, ist in der exportierten Datei leer.

Sie können eine Teilmenge der zu exportierenden Tabellen angeben, indem Sie entweder die Dataflow-Seite in der Google Cloud Console oder über die Befehlszeile aufrufen. Der Parameter Die Spanner-Seite bietet diese Aktion nicht.)

Wenn Sie die Daten einer Tabelle exportieren, die einer anderen Tabelle untergeordnet ist, sollte sein übergeordnetes Element exportieren Tabellendaten verwenden. Wenn keine übergeordneten Elemente exportiert werden, schlägt der Exportjob fehl.

Um eine Teilmenge von Tabellen zu exportieren, starten Sie den Export mit der Vorlage für Spanner für Cloud Storage Avro und die Tabellen entweder auf der Dataflow-Seite in der Google Cloud Console Google Cloud CLI, wie unten beschrieben:

Google Cloud Console

Wenn Sie die Dataflow-Seite in der Google Cloud Console verwenden, Der Parameter Cloud Spanner-Tabellenname(n) befindet sich in der Abschnitt Optionale Parameter auf der Seite Job aus Vorlage erstellen. Es können mehrere Tabellen in einem kommagetrennten Format angegeben werden.

gcloud-CLI

Wenn Sie die Google Cloud CLI verwenden, geben Sie die Tabelle mit dem Argument tableNames an. Beispiel:

gcloud dataflow jobs run my-export-job \
--gcs-location='gs://dataflow-templates/latest/Cloud_Spanner_to_GCS_Avro' \
--region=us-central1 \
--parameters='instanceId=test-instance,databaseId=example-db,tableNames=table1,outputDir=gs://my-gcs-bucket' \
--max-workers=10

Die Angabe mehrerer Tabellen in gcloud erfordert Escaping von Argumenten im Wörterbuchtyp. Im folgenden Beispiel wird „|“ verwendet als Escape-Zeichen verwenden:

 gcloud dataflow jobs run my-export-job \
--gcs-location='gs://dataflow-templates/latest/Cloud_Spanner_to_GCS_Avro' \
--region=us-central1 \
--parameters='^|^instanceId=test-instance|databaseId=example-db|tableNames=table1,table2|outputDir=gs://my-gcs-bucket' \
--max-workers=10

Der Parameter shouldExportRelatedTables ist eine praktische Option, automatisch alle übergeordneten Tabellen exportieren der gewünschten Tabellen. In dieser Schemahierarchie mit den Tabellen Singers, Albums und Songs müssen wir nur Songs angeben. Die Mit der Option „shouldExportRelatedTables“ werden auch Singers und Albums exportiert weil Songs ein Nachfolger von beiden ist.

gcloud dataflow jobs run my-export-job \
--gcs-location='gs://dataflow-templates/latest/Cloud_Spanner_to_GCS_Avro' \
--region=us-central1 \
--parameters='instanceId=test-instance,databaseId=example-db,tableNames=Songs,shouldExportRelatedTables=true,outputDir=gs://my-gcs-bucket' \
--max-workers=10

Jobs in der Dataflow-UI ansehen oder Fehler beheben

Nachdem Sie einen Exportjob gestartet haben, können Sie Details zu diesem Job aufrufen, einschließlich Logs im Abschnitt "Dataflow" der Google Cloud Console.

Dataflow-Jobdetails ansehen

So rufen Sie Details zu allen Import-/Exportjobs auf, die Sie in der letzten Woche ausgeführt haben, einschließlich aller derzeit ausgeführten Jobs:

  1. Wechseln Sie zur Seite Datenbanküberblick für die Datenbank.
  2. Klicken Sie im linken Bereich auf den Menüpunkt Import/Export. Auf der Datenbankseite Import/Export wird eine Liste der letzten Jobs angezeigt.
  3. Klicken Sie auf der Seite Import/Export der Datenbank in der Spalte Dataflow-Jobname auf den Jobnamen:

    Statusmeldung für laufende Jobs

    In der Google Cloud Console werden Details zum Dataflow angezeigt. Job.

So rufen Sie einen Job auf, den Sie vor mehr als einer Woche ausgeführt haben:

  1. Rufen Sie in der Google Cloud Console die Seite mit den Dataflow-Jobs auf.

    Zur Jobseite

  2. Suchen Sie den Job in der Liste und klicken Sie auf seinen Namen.

    In der Google Cloud Console werden Details zum Dataflow angezeigt. Job.

Dataflow-Logs für Ihren Job ansehen

Rufen Sie wie oben beschrieben die Detailseite des Jobs auf und klicken Sie rechts neben dem Jobnamen auf Logs, um die Logs eines Dataflow-Jobs anzusehen.

Wenn ein Job fehlschlägt, suchen Sie in den Logs nach Fehlern. Falls Fehler aufgetreten sind, ist neben Logs die Fehleranzahl zu sehen:

Beispiel für Fehleranzahl neben der Schaltfläche "Logs"

So sehen Sie sich Jobfehler genauer an:

  1. Klicken Sie auf die Fehleranzahl neben Logs.

    In der Google Cloud Console werden die Logs des Jobs angezeigt. Unter Umständen müssen Sie scrollen, um die Fehler einzublenden.

  2. Suchen Sie nach Einträgen mit dem Fehlersymbol Fehlersymbol.

  3. Klicken Sie auf einen Logeintrag, um ihn zu maximieren.

Weitere Informationen zur Fehlerbehebung bei Dataflow-Jobs finden Sie unter Fehler in der Pipeline beheben

Fehler bei fehlgeschlagenen Exportjobs beheben

Wenn in Ihren Joblogs die folgenden Fehler angezeigt werden:

com.google.cloud.spanner.SpannerException: NOT_FOUND: Session not found

--or--

com.google.cloud.spanner.SpannerException: DEADLINE_EXCEEDED: Deadline expired before operation could complete.

Überprüfen Sie die 99% Leselatenz in der Tab Monitoring Ihrer Spanner-Datenbank in der Google Cloud Console Wenn hohe Werte angezeigt werden (mehrere Sekunden), bedeutet dies, dass die Instanz überlastet ist, was zu Lesefehlern führt.

Eine Ursache für die hohe Latenz ist, dass der Dataflow-Job mit zu vielen die die Spanner-Instanz zu stark belastet.

Wenn Sie ein Limit für die Anzahl der Dataflow-Worker festlegen möchten, verwenden Sie nicht die Methode Tab „Importieren/Exportieren“ auf der Seite „Instanzdetails“ von Spanner in der Google Cloud Console müssen Sie den Mit Dataflow exportieren Vorlage „Cloud Spanner für Cloud Storage Avro“ und geben Sie die maximale Anzahl von Workern an, wie unten beschrieben: <ph type="x-smartling-placeholder">
    </ph>
  • Wenn Sie die Dataflow Console verwenden, befindet sich der Parameter Max. Worker im Abschnitt Optionale Parameter auf der Seite Job aus Vorlage erstellen.

  • Wenn Sie gcloud verwenden, geben Sie das Argument max-workers an. Beispiel:

    gcloud dataflow jobs run my-export-job \
    --gcs-location='gs://dataflow-templates/latest/Cloud_Spanner_to_GCS_Avro' \
    --region=us-central1 \
    --parameters='instanceId=test-instance,databaseId=example-db,outputDir=gs://my-gcs-bucket' \
    --max-workers=10
    

Langsam ausgeführte Exportjobs optimieren

Wenn Sie die Vorschläge für die Anfangseinstellungen befolgt haben, sollten in der Regel keine weiteren Anpassungen nötig sein. Falls der Job jedoch langsam ausgeführt wird, können Sie einige andere Optimierungen versuchen:

  • Job und Datenspeicherort optimieren: Dataflow-Job ausführen in derselben Region, in der sich auch die Spanner-Instanz und Cloud Storage-Bucket befinden.

  • Auf ausreichende Dataflow-Ressourcen achten: Wenn der relevante Compute Engine-Kontingente die Ressourcen Ihres Dataflow-Jobs, die Seite „Dataflow“ in der Google Cloud Console zeigt ein Warnsymbol an Warnsymbol und protokollieren Nachrichten:

    Screenshot der Kontingentlimitwarnung

    In diesem Fall kann das Erhöhen der Kontingente für CPUs, verwendete IP-Adressen und nichtflüchtigen Standardspeicher die Ausführungszeit des Jobs verkürzen, aber auch höhere Compute Engine-Gebühren zur Folge haben.

  • Spanner-CPU-Auslastung prüfen: Wenn Sie feststellen, dass die CPU-Auslastung Auslastung der Instanz über 65 % liegt, können Sie Erhöhen Sie die Rechenkapazität in dieser Instanz. Die Kapazität erhöht die Kapazität Spanner-Ressourcen und der Job sollten schneller ausgeführt werden. Spanner-Gebühren.

Faktoren, die sich auf die Leistung von Exportjobs auswirken

Mehrere Faktoren beeinflussen die Zeit, die für einen Exportjob benötigt wird.

  • Spanner-Datenbankgröße: Die Verarbeitung von mehr Daten nimmt mehr Zeit in Anspruch. und Ressourcen.

  • Spanner-Datenbankschema, einschließlich:

    • Die Anzahl der Tabellen
    • Die Größe der Zeilen
    • Die Anzahl der sekundären Indexe
    • Die Anzahl der Fremdschlüssel
    • Anzahl der Änderungsstreams

  • Datenspeicherort: Daten werden zwischen Spanner und Cloud Storage mit Dataflow. Idealerweise befinden sich alle drei Komponenten in derselben Region. Wenn das nicht der Fall ist, dauert das regionsübergreifende Verschieben der Daten länger.

  • Anzahl der Dataflow-Worker: Optimale Dataflow-Worker sind für eine gute Leistung erforderlich. Mithilfe von Autoscaling wählt Dataflow die Anzahl der Worker für einen Job abhängig vom Arbeitsumfang aus. Diese Anzahl wird jedoch durch die Kontingente für CPUs, verwendete IP-Adressen und nichtflüchtigen Standardspeicher begrenzt. In der Dataflow-UI ist ein Warnsymbol zu sehen, wenn Kontingentobergrenzen erreicht werden. In diesem Fall dauert die Verarbeitung länger, aber der Job sollte dennoch abgeschlossen werden.

  • Bestehende Auslastung von Spanner: Ein Exportjob stellt in der Regel eine geringe Last für einen Spanner dar. Instanz. Wenn die Instanz jedoch bereits eine erhebliche bestehende Auslastung aufweist, wird der Job langsamer ausgeführt.

  • Menge der Spanner-Rechenkapazität: Wenn die CPU-Auslastung für die Instanz bei über 65 % liegt, wird der Job langsamer ausgeführt.