Auf dieser Seite wird beschrieben, wie Sie Avro-Dateien vorbereiten, die Sie aus nicht von Spanner stammenden Datenbanken exportiert haben, und diese Dateien anschließend in Spanner importieren. Wenn Sie eine zuvor exportierte Spanner-Datenbank importieren möchten, finden Sie weitere Informationen unter Spanner Avro-Dateien importieren.
Der Vorgang verwendet Dataflow; Es importiert Daten aus einem Cloud Storage-Bucket, der eine Reihe von Avro-Dateien und eine JSON-Manifestdatei enthält, die die Zieltabellen und Avro-Dateien angibt, mit denen die einzelnen Tabellen gefüllt werden.
Hinweise
Zum Importieren einer Spanner-Datenbank müssen Sie zuerst die APIs für Spanner, Cloud Storage, Compute Engine und Dataflow aktivieren:
Außerdem brauchen Sie ein ausreichend großes Kontingent und die erforderlichen IAM-Berechtigungen.
Kontingentanforderungen
Die Kontingentanforderungen für Importjobs sehen so aus:
- Spanner: Sie müssen genügend Rechenkapazität haben. um die zu importierenden Daten zu unterstützen. Für den Import einer Datenbank ist keine zusätzliche Rechenkapazität erforderlich. Allerdings benötigen Sie möglicherweise weitere Rechenkapazität, damit der Job in angemessener Zeit abgeschlossen werden kann. Weitere Informationen finden Sie unter Jobs optimieren.
- Cloud Storage: Zum Importieren benötigen Sie einen Bucket mit Ihren zuvor exportierten Dateien. Für den Bucket muss keine Größe festgelegt werden.
- Dataflow: Für Importjobs gelten dieselben Compute Engine-Kontingente für CPU, Laufwerksnutzung und IP-Adressen wie für andere Dataflow-Jobs.
Compute Engine: Bevor Sie den Importjob ausführen, müssen Sie zuerst Kontingente für Compute Engine einrichten, die von Dataflow verwendet werden. Diese Kontingente stellen die maximale Anzahl von Ressourcen dar, die Dataflow für Ihren Job verwenden darf. Empfohlene Anfangswerte sind:
- CPUs: 200
- Verwendete IP-Adressen: 200
- Nichtflüchtiger Standardspeicher: 50 TB
In der Regel sind keine weiteren Anpassungen erforderlich. Dataflow bietet Autoscaling, sodass Sie nur für die Ressourcen zahlen, die beim Import tatsächlich verwendet werden. Wenn Ihr Job mehr Ressourcen verwenden kann, wird in der Dataflow-UI ein Warnsymbol angezeigt. Der Job sollte trotz dieses Warnsymbols beendet werden.
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Dataflow-Arbeiterdienstkonto zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Exportieren einer Datenbank benötigen:
-
Cloud Spanner-Betrachter (
roles/spanner.viewer
) -
Dataflow-Worker (
roles/dataflow.worker
) -
Storage-Administrator (
roles/storage.admin
) -
Spanner-Datenbankleser (
roles/spanner.databaseReader
) -
Datenbankadministrator (
roles/spanner.databaseAdmin
)
Daten aus einer Nicht-Spanner-Datenbank in Avro-Dateien exportieren
Beim Importvorgang werden Daten aus Avro-Dateien in einem Cloud Storage-Bucket übernommen. Sie können Daten im Avro-Format aus jeder Quelle exportieren und dazu jede verfügbare Methode verwenden.
So exportieren Sie Daten aus einer nicht von Spanner stammenden Datenbank in Avro-Dateien:
Beachten Sie beim Exportieren Ihrer Daten folgende Punkte:
- Der Export lässt sich mit einem der primitiven Avro-Typen sowie mit dem komplexen Array-Typ ausführen.
Jede Spalte der Avro-Dateien muss einen der folgenden Spaltentypen verwenden:
ARRAY
BOOL
BYTES
*DOUBLE
FLOAT
INT
LONG
†STRING
‡
* Eine Spalte vom Typ
BYTES
wird zum Importieren einer Spanner-NUMERIC
verwendet. Weitere Informationen finden Sie unten im Abschnitt Empfohlene Zuordnungen.†,‡ Du kannst einen
LONG
mit einem Zeitstempel oder einenSTRING
mit einem Zeitstempel als Spanner-TIMESTAMP
; siehe Folgendes Empfohlene Zuordnungen.Beim Exportieren der Avro-Dateien müssen Sie Metadaten weder hinzufügen noch generieren.
Für Ihre Dateien müssen keine bestimmten Namenskonventionen eingehalten werden.
Wenn Sie Ihre Dateien nicht direkt nach Cloud Storage exportieren, müssen Sie die Avro-Dateien in einen Cloud Storage-Bucket hochladen. Eine detaillierte Anleitung finden Sie unter Objekte in Cloud Storage hochladen.
Avro-Dateien aus Nicht-Spanner-Datenbanken in Spanner importieren
So importieren Sie Avro-Dateien aus einer Nicht-Spanner-Datenbank in Spanner:
- Erstellen Sie Zieltabellen und definieren Sie das Schema für Ihre Spanner-Datenbank.
- Erstellen Sie in Ihrem Cloud Storage-Bucket eine
spanner-export.json
-Datei. - Dataflow-Importjob mit der gcloud CLI ausführen
Schritt 1: Schema für die Spanner-Datenbank erstellen
Bevor Sie den Import ausführen, müssen Sie die Zieltabelle in Spanner erstellen und ihr Schema definieren.
Sie müssen ein Schema erstellen, das den entsprechenden Spaltentyp für jede Spalte in den Avro-Dateien verwendet.
Empfohlene Zuordnungen
GoogleSQL
Avro-Spaltentyp | Spanner-Spaltentyp |
---|---|
ARRAY |
ARRAY |
BOOL |
BOOL |
BYTES |
|
DOUBLE |
FLOAT64 |
FLOAT |
FLOAT64 |
INT |
INT64 |
LONG |
|
STRING |
|
PostgreSQL
Avro-Spaltentyp | Spanner-Spaltentyp |
---|---|
ARRAY |
ARRAY |
BOOL |
BOOLEAN |
BYTES |
|
DOUBLE |
DOUBLE PRECISION |
FLOAT |
DOUBLE PRECISION |
INT |
BIGINT |
LONG |
|
STRING |
|
Schritt 2: spanner-export.json-Datei erstellen
Außerdem müssen Sie in Ihrem Cloud Storage-Bucket eine Datei mit dem Namen spanner-export.json
erstellen. Diese Datei gibt den Datenbankdialekt und
enthält ein tables
-Array, das eine Liste der
den Namen und die Speicherorte der Datendateien für jede Tabelle.
Der Inhalt der Datei hat folgendes Format:
{ "tables": [ { "name": "TABLE1", "dataFiles": [ "RELATIVE/PATH/TO/TABLE1_FILE1", "RELATIVE/PATH/TO/TABLE1_FILE2" ] }, { "name": "TABLE2", "dataFiles": ["RELATIVE/PATH/TO/TABLE2_FILE1"] } ], "dialect":"DATABASE_DIALECT" }
Dabei gilt: DATABASE_DIALECT = {GOOGLE_STANDARD_SQL
| POSTGRESQL
}
Wenn das Element „dialect“ weggelassen wird, wird standardmäßig GOOGLE_STANDARD_SQL
verwendet.
Schritt 3: Dataflow-Importjob mit der gcloud CLI ausführen
Folgen Sie der Anleitung zum Verwenden der Google Cloud CLI, um den Importjob zu starten zum Ausführen eines Jobs mit der Vorlage "Avro zu Spanner".
Nachdem Sie einen Importjob gestartet haben, können Sie Details zum Job in in der Google Cloud Console.
Fügen Sie nach Abschluss des Importjobs alle erforderlichen sekundären Indexe und Fremdschlüssel hinzu.
Region für den Importjob auswählen
Welche Region Sie auswählen, hängt vom Speicherort Ihres Cloud Storage-Buckets ab. Um dies zu vermeiden Gebühren für ausgehende Datenübertragung angegeben werden, wählen Sie eine Region aus, mit dem Speicherort Ihres Cloud Storage-Bucket übereinstimmt.
Wenn der Speicherort Ihres Cloud Storage-Bucket eine Region ist, gilt Folgendes: können Sie die kostenlose Netzwerknutzung nutzen, indem Sie die dieselbe Region für Ihren Importjob, sofern diese Region verfügbar ist.
Wenn sich der Speicherort Ihres Cloud Storage-Buckets in einer Region mit zwei Speicherorten befindet, können Sie von der kostenlosen Netzwerknutzung profitieren, indem Sie eine der beiden Regionen für Ihren Importjob auswählen, sofern eine der Regionen verfügbar ist.
Wenn für Ihren Importjob keine am selben Standort befindliche Region verfügbar ist oder Ihr Der Speicherort des Cloud Storage-Bucket ist multiregional Es fallen Gebühren für ausgehende Datenübertragungen an. Wählen Sie anhand der Cloud Storage-Preisliste für Datenübertragungen eine Region aus, in der die Gebühren für die Datenübertragung möglichst gering sind.
Jobs in der Dataflow-UI ansehen und Probleme beheben
Nachdem Sie einen Importjob gestartet haben, können Sie in der Google Cloud Console im Abschnitt „Dataflow“ Details zum Job einschließlich der Logs ansehen.
Dataflow-Jobdetails ansehen
So rufen Sie Details zu Import- oder Exportjobs auf, die Sie in der letzten Woche ausgeführt haben: einschließlich aller Jobs, die jetzt ausgeführt werden:
- Wechseln Sie zur Seite Datenbanküberblick für die Datenbank.
- Klicken Sie im linken Bereich auf den Menüpunkt Import/Export. Auf der Datenbankseite Import/Export wird eine Liste der letzten Jobs angezeigt.
Klicken Sie auf der Seite Import/Export der Datenbank in der Spalte Dataflow-Jobname auf den Jobnamen:
In der Google Cloud Console werden Details zum Dataflow angezeigt. Job.
So rufen Sie einen Job auf, den Sie vor mehr als einer Woche ausgeführt haben:
Rufen Sie in der Google Cloud Console die Seite mit den Dataflow-Jobs auf.
Suchen Sie den Job in der Liste und klicken Sie auf seinen Namen.
Die Google Cloud Console zeigt Details des Dataflow-Jobs an.
Dataflow-Logs für einen Job aufrufen
Rufen Sie die Detailseite des Jobs auf und klicken Sie rechts neben dem Jobnamen auf Protokolle, um die Protokolle eines Dataflow-Jobs anzusehen.
Wenn ein Job fehlschlägt, suchen Sie in den Logs nach Fehlern. Falls Fehler aufgetreten sind, ist neben Logs die Fehleranzahl zu sehen:
So sehen Sie sich Jobfehler genauer an:
Klicken Sie auf die Fehleranzahl neben Logs.
In der Google Cloud Console können Sie die Logs des Jobs ansehen. Unter Umständen müssen Sie scrollen, um die Fehler einzublenden.
Suchen Sie nach Einträgen mit dem Fehlersymbol .
Klicken Sie auf einen Logeintrag, um den Inhalt zu maximieren.
Weitere Informationen zur Fehlerbehebung bei Dataflow-Jobs finden Sie unter Fehler in der Pipeline beheben
Fehlerbehebung bei fehlgeschlagenen Importjobs
Wenn in Ihren Joblogs die folgenden Fehler angezeigt werden:
com.google.cloud.spanner.SpannerException: NOT_FOUND: Session not found --or-- com.google.cloud.spanner.SpannerException: DEADLINE_EXCEEDED: Deadline expired before operation could complete.
Prüfen Sie die Schreiblatenz von 99 % auf dem Tab Monitoring Ihrer Spanner-Datenbank in der Google Cloud Console. Wenn hohe Werte angezeigt werden (mehrere Sekunden), bedeutet dies, dass die Instanz überlastet ist, was zu Schreibfehlern führt.
Eine Ursache für eine hohe Latenz ist, dass der Dataflow-Job mit zu vielen Workern ausgeführt wird und die Spanner-Instanz zu stark belastet wird.
Um ein Limit für die Anzahl der Dataflow-Worker anstelle von über den Tab „Importieren/Exportieren“ auf der Seite „Instanzdetails“ Ihres Spanner-Datenbank in der Google Cloud Console erstellen, müssen Sie den Import mit dem Dataflow- Vorlage „Cloud Storage Avro für Spanner“ und geben Sie die maximale Anzahl von Workern wie beschrieben an:Console
Wenn Sie die Dataflow Console verwenden, befindet sich der Parameter Max. Worker im Abschnitt Optionale Parameter auf der Seite Job aus Vorlage erstellen.
gcloud
Führen Sie den Befehl gcloud dataflow jobs run
aus und geben Sie das Argument max-workers
an. Beispiel:
gcloud dataflow jobs run my-import-job \
--gcs-location='gs://dataflow-templates/latest/GCS_Avro_to_Cloud_Spanner' \
--region=us-central1 \
--parameters='instanceId=test-instance,databaseId=example-db,inputDir=gs://my-gcs-bucket' \
--max-workers=10 \
--network=network-123
Netzwerkfehler beheben
Der folgende Fehler kann auftreten, wenn Sie Ihre Spanner-Datenbanken exportieren:
Workflow failed. Causes: Error: Message: Invalid value for field 'resource.properties.networkInterfaces[0].subnetwork': ''. Network interface must specify a subnet if the network resource is in custom subnet mode. HTTP Code: 400
Dieser Fehler tritt auf, da Spanner davon ausgeht, dass Sie
Ein VPC-Netzwerk im automatischen Modus namens default
im selben Projekt wie das
Dataflow-Job. Wenn Sie kein Standard-VPC-Netzwerk
oder wenn sich Ihr VPC-Netzwerk
in einem benutzerdefinierten Modus befindet,
einen Dataflow-Job erstellen und
ein alternatives Netzwerk oder Subnetzwerk angeben.
Langsam laufende Importjobs optimieren
Wenn Sie die Vorschläge für die Anfangseinstellungen befolgt haben, sollten in der Regel keine weiteren Anpassungen nötig sein. Falls der Job jedoch langsam ausgeführt wird, können Sie einige andere Optimierungen versuchen:
Job- und Datenspeicherort optimieren: Führen Sie den Dataflow-Job in der Region der Spanner-Instanz und des Cloud Storage-Buckets aus.
Ausreichende Dataflow-Ressourcen bereitstellen: Sind die Ressourcen für den Dataflow-Job durch die entsprechenden Compute Engine-Kontingente eingeschränkt, sind auf der Dataflow-Seite des Jobs in der Google Cloud Console ein Warnsymbol und Logmeldungen zu sehen:
In diesem Fall kann das Erhöhen der Kontingente für CPUs, verwendete IP-Adressen und nichtflüchtigen Standardspeicher die Ausführungszeit des Jobs verkürzen, aber auch höhere Compute Engine-Gebühren zur Folge haben.
Spanner-CPU-Auslastung prüfen: Wenn die CPU-Auslastung für die Instanz über 65 % liegt, können Sie die Rechenkapazität in dieser Instanz erhöhen. Die Kapazität erhöht die Kapazität Spanner-Ressourcen und der Job sollten schneller ausgeführt werden, Spanner-Gebühren.
Faktoren, die sich auf die Leistung von Importjobs auswirken
Mehrere Faktoren beeinflussen die Zeit, die für einen Importjob benötigt wird.
Spanner-Datenbankgröße: Die Verarbeitung von mehr Daten nimmt mehr Zeit in Anspruch. und Ressourcen.
Spanner-Datenbankschema, einschließlich:
- Die Anzahl der Tabellen
- Größe der Zeilen
- Anzahl der sekundären Indexe
- Die Anzahl der Fremdschlüssel
- Anzahl der Änderungsstreams
Datenspeicherort: Daten werden mit Dataflow zwischen Spanner und Cloud Storage übertragen. Idealerweise befinden sich alle drei Komponenten in derselben Region. Wenn das nicht der Fall ist, dauert das regionsübergreifende Verschieben der Daten länger.
Anzahl der Dataflow-Worker: Optimale Dataflow-Worker sind für eine gute Leistung erforderlich. Mithilfe von Autoscaling wählt Dataflow die Anzahl der Worker für einen Job abhängig vom Arbeitsumfang aus. Diese Anzahl wird jedoch durch die Kontingente für CPUs, verwendete IP-Adressen und nichtflüchtigen Standardspeicher begrenzt. In der Dataflow-UI ist ein Warnsymbol zu sehen, wenn Kontingentobergrenzen erreicht werden. In diesem Fall dauert die Verarbeitung länger, aber der Job sollte dennoch abgeschlossen werden. Autoscaling kann Spanner überlasten, was zu Fehlern führt, wenn große Datenmengen importieren können.
Bestehende Auslastung von Spanner: Durch einen Importjob werden erheblichen CPU-Last in einer Spanner-Instanz. Wenn die Instanz jedoch bereits eine erhebliche bestehende Auslastung aufweist, wird der Job langsamer ausgeführt.
Menge der Spanner-Rechenkapazität: Wenn die CPU-Auslastung für die Instanz über 65 % liegt, wird der Job langsamer ausgeführt.
Worker für eine gute Importleistung optimieren
Beim Starten eines Spanner-Importjobs muss auf einen optimalen Wert eingestellt werden, um eine gute Leistung zu erzielen. Eine zu große Anzahl von Workern überlastet Spanner und zu wenige Worker führen zu einer enttäuschenden Importleistung.
Die maximale Anzahl von Workern hängt stark von der Datengröße ab. Im Idealfall sollte die gesamte CPU-Auslastung von Spanner zwischen 70 % und 90 % liegen. Dies bietet ein ausgewogenes Verhältnis zwischen Spanner und und fehlerfreie Auftragserledigung.
Um dieses Auslastungsziel in der Mehrzahl der Schemas und Szenarien zu erreichen, empfehlen wir eine maximale Anzahl von Worker-vCPUs zwischen dem Vier- und Sechsfachen der Anzahl der Spanner-Knoten.
Beispiel: Für eine 10-Knoten-Spanner-Instanz, die n1-Standard-2-Worker verwendet, würden Sie die maximale Anzahl an Workern auf 25 setzen, was 50 vCPUs ergibt.