Il modello da Spanner a file Avro su Cloud Storage è una pipeline batch che esporta un intero database Spanner in Cloud Storage in formato Avro. L'esportazione di un database Spanner crea una cartella nel bucket selezionato. La cartella contiene:
- Un file
spanner-export.json
. - Un file
TableName-manifest.json
per ogni tabella nel database che hai esportato. - Uno o più file
TableName.avro-#####-of-#####
.
Ad esempio, l'esportazione di un database con due tabelle, Singers
e Albums
,
crea il seguente set di file:
Albums-manifest.json
Albums.avro-00000-of-00002
Albums.avro-00001-of-00002
Singers-manifest.json
Singers.avro-00000-of-00003
Singers.avro-00001-of-00003
Singers.avro-00002-of-00003
spanner-export.json
Requisiti della pipeline
- Il database Spanner deve esistere.
- Deve esistere il bucket Cloud Storage di output.
- Oltre ai ruoli IAM (Identity and Access Management) necessari per eseguire i job Dataflow, devi disporre anche dei ruoli IAM appropriati per leggere i dati Spanner e scrivere nel bucket Cloud Storage.
Parametri del modello
Parametri obbligatori
- instanceId : l'ID istanza del database Spanner che vuoi esportare.
- databaseId : l'ID del database Spanner che vuoi esportare.
- outputDir : il percorso di Cloud Storage in cui esportare i file Avro. Il job di esportazione crea una nuova directory in questo percorso che contiene i file esportati. ad esempio gs://your-bucket/your-path.
Parametri facoltativi
- avroTempDirectory : il percorso di Cloud Storage in cui vengono scritti i file Avro temporanei.
- spannerHost : l'endpoint di Cloud Spanner da chiamare nel modello. Utilizzato solo per i test. Esempio: https://batch-spanner.googleapis.com. Il valore predefinito è: https://batch-spanner.googleapis.com.
- snapshotTime : il timestamp che corrisponde alla versione del database Spanner che vuoi leggere. Il timestamp deve essere specificato utilizzando il formato RFC 3339 UTC
Zulu
. Il timestamp deve essere nel passato e viene applicata l'inattività massima del timestamp. (Esempio: 1990-12-31T23:59:60Z). Il campo predefinito è vuoto. - spannerProjectId : l'ID del progetto Google Cloud che contiene il database Spanner da cui vuoi leggere i dati.
- shouldExportTimestampAsLogicalType : se true, i timestamp vengono esportati come tipo
long
con tipo logicotimestamp-micros
. Per impostazione predefinita, questo parametro è impostato sufalse
e i timestamp vengono esportati come stringhe ISO-8601 con una precisione in nanosecondi. - tableNames : un elenco di tabelle separate da virgole che specificano il sottoinsieme del database Spanner da esportare. Se imposti questo parametro, devi includere tutte le tabelle correlate (tabelle padre e tabelle di riferimento alla chiave esterna) o impostare il parametro
shouldExportRelatedTables
sutrue
.Se la tabella è in uno schema denominato, utilizza il nome completo. Ad esempio:sch1.foo
, in cuisch1
è il nome dello schema efoo
è il nome della tabella. Il campo predefinito è vuoto. - shouldExportRelatedTables : Indica se includere tabelle correlate. Questo parametro viene utilizzato in combinazione con il parametro
tableNames
. Il valore predefinito è false. - spannerPriority : la priorità delle richieste per le chiamate Spanner. I valori possibili sono
HIGH
,MEDIUM
eLOW
. Il valore predefinito èMEDIUM
. - dataBoostEnabled : imposta su
true
per utilizzare le risorse di calcolo di Spanner Data Boost per eseguire il job con un impatto quasi pari a zero sui flussi di lavoro OLTP di Spanner. Se impostato sutrue
, devi avere anche l'autorizzazione IAMspanner.databases.useDataBoost
. Per saperne di più, consulta la panoramica di Data Boost (https://cloud.google.com/spanner/docs/databoost/databoost-overview). Il valore predefinito è false.
Esegui il modello
Console
- Vai alla pagina Crea job da modello di Dataflow. Vai a Crea job da modello
- Nel campo Nome job, inserisci un nome univoco per il job.
Affinché il job venga visualizzato nella pagina Istanze di Spanner della console Google Cloud, il nome del job deve corrispondere al seguente formato:
cloud-spanner-export-SPANNER_INSTANCE_ID-SPANNER_DATABASE_NAME
Sostituisci quanto segue:
SPANNER_INSTANCE_ID
: ID della tua istanza SpannerSPANNER_DATABASE_NAME
: il nome del tuo database Spanner
- (Facoltativo) Per Endpoint a livello di regione, seleziona un valore dal menu a discesa. La regione predefinita è
us-central1
.Per un elenco di regioni in cui è possibile eseguire un job Dataflow, consulta Località di Dataflow.
- Dal menu a discesa Modello Dataflow, seleziona the Cloud Spanner to Avro Files on Cloud Storage template.
- Inserisci i valori parametro negli appositi campi.
- Fai clic su Esegui job.
gcloud
Nella shell o nel terminale, esegui il modello:
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Cloud_Spanner_to_GCS_Avro \ --region REGION_NAME \ --staging-location GCS_STAGING_LOCATION \ --parameters \ instanceId=INSTANCE_ID,\ databaseId=DATABASE_ID,\ outputDir=GCS_DIRECTORY
Sostituisci quanto segue:
JOB_NAME
: un nome job univoco a tua sceltaAffinché il job venga visualizzato nella porzione Spanner della console Google Cloud, il nome del job deve corrispondere al formato
cloud-spanner-export-INSTANCE_ID-DATABASE_ID
.VERSION
: la versione del modello che vuoi utilizzarePuoi utilizzare i seguenti valori:
latest
per utilizzare la versione più recente del modello, disponibile nella cartella padre non con data del bucket: gs://dataflow-templates-REGION_NAME/latest/- il nome della versione, ad esempio
2023-09-12-00_RC00
, per utilizzare una versione specifica del modello, che è possibile trovare nidificata nella rispettiva cartella principale con data nel bucket: gs://dataflow-templates-REGION_NAME/
REGION_NAME
: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempious-central1
GCS_STAGING_LOCATION
: il percorso per la scrittura dei file temporanei, ad esempiogs://mybucket/temp
INSTANCE_ID
: l'ID istanza SpannerDATABASE_ID
: l'ID database di SpannerGCS_DIRECTORY
: il percorso di Cloud Storage in cui i file Avro vengono esportati in
API
Per eseguire il modello utilizzando l'API REST, invia una richiesta POST HTTP. Per maggiori informazioni
sull'API e sui relativi ambiti di autorizzazione, consulta
projects.templates.launch
.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_Spanner_to_GCS_Avro { "jobName": "JOB_NAME", "parameters": { "instanceId": "INSTANCE_ID", "databaseId": "DATABASE_ID", "outputDir": "gs://GCS_DIRECTORY" } }
Sostituisci quanto segue:
PROJECT_ID
: l'ID del progetto Google Cloud in cui vuoi eseguire il job DataflowJOB_NAME
: un nome job univoco a tua sceltaAffinché il job venga visualizzato nella porzione Spanner della console Google Cloud, il nome del job deve corrispondere al formato
cloud-spanner-export-INSTANCE_ID-DATABASE_ID
.VERSION
: la versione del modello che vuoi utilizzarePuoi utilizzare i seguenti valori:
latest
per utilizzare la versione più recente del modello, disponibile nella cartella padre non con data del bucket: gs://dataflow-templates-REGION_NAME/latest/- il nome della versione, ad esempio
2023-09-12-00_RC00
, per utilizzare una versione specifica del modello, che è possibile trovare nidificata nella rispettiva cartella principale con data nel bucket: gs://dataflow-templates-REGION_NAME/
LOCATION
: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempious-central1
GCS_STAGING_LOCATION
: il percorso per la scrittura dei file temporanei, ad esempiogs://mybucket/temp
INSTANCE_ID
: l'ID istanza SpannerDATABASE_ID
: l'ID database di SpannerGCS_DIRECTORY
: il percorso di Cloud Storage in cui i file Avro vengono esportati in
Passaggi successivi
- Scopri di più sui modelli Dataflow.
- Consulta l'elenco dei modelli forniti da Google.