Modello Avro da Spanner a Cloud Storage

Il modello da Spanner a file Avro su Cloud Storage è una pipeline batch che esporta un intero database Spanner in Cloud Storage in formato Avro. L'esportazione di un database Spanner crea una cartella nel bucket selezionato. La cartella contiene:

  • Un file spanner-export.json.
  • Un file TableName-manifest.json per ogni tabella del database che hai esportato.
  • Uno o più file TableName.avro-#####-of-#####.

Ad esempio, l'esportazione di un database con due tabelle, Singers e Albums, crea il seguente set di file:

  • Albums-manifest.json
  • Albums.avro-00000-of-00002
  • Albums.avro-00001-of-00002
  • Singers-manifest.json
  • Singers.avro-00000-of-00003
  • Singers.avro-00001-of-00003
  • Singers.avro-00002-of-00003
  • spanner-export.json

Requisiti della pipeline

  • Il database Spanner deve esistere.
  • Il bucket Cloud Storage di output deve esistere.
  • Oltre ai ruoli IAM (Identity and Access Management) necessari per eseguire i job Dataflow, devi disporre anche dei ruoli IAM appropriati per la lettura dei dati Spanner e la scrittura nel bucket Cloud Storage.

Parametri del modello

Parametro Descrizione
instanceId L'ID istanza del database Spanner che vuoi esportare.
databaseId L'ID del database Spanner che vuoi esportare.
outputDir Il percorso Cloud Storage in cui vuoi esportare i file Avro. Il job di esportazione crea una nuova directory in questo percorso che contiene i file esportati.
snapshotTime (Facoltativo) Il timestamp corrispondente alla versione del database Spanner che vuoi leggere. Il timestamp deve essere specificato nel formato RFC 3339 UTC "Zulu". Ad esempio, 1990-12-31T23:59:60Z. Il timestamp deve essere nel passato e si applica l'inattività massima del timestamp.
shouldExportTimestampAsLogicalType (Facoltativo) Se il valore è true, i timestamp vengono esportati come tipo long con tipo logico timestamp-micros. Per impostazione predefinita, i timestamp vengono esportati come stringhe ISO-8601 con precisione in nanosecondi.
tableNames (Facoltativo) Un elenco separato da virgole di tabelle che specifica il sottoinsieme del database Spanner da esportare. Se imposti questo parametro, devi includere tutte le tabelle correlate (tabelle padre e tabelle di riferimento a chiave esterna) oppure impostare il parametro shouldExportRelatedTables su true.
shouldExportRelatedTables (Facoltativo) Specifica se includere le tabelle correlate. Questo parametro viene utilizzato in combinazione con il parametro tableNames.
spannerProjectId (Facoltativo) L'ID progetto Google Cloud del database Spanner da cui vuoi leggere i dati.
dataBoostEnabled (Facoltativo) Imposta il valore true per utilizzare le risorse di calcolo di Spanner Data Boost per eseguire il job con un impatto prossimo allo zero sui flussi di lavoro OLTP di Spanner. Questa operazione richiede l'autorizzazione IAM spanner.databases.useDataBoost. Per maggiori informazioni, consulta la panoramica di Data Boost.
avroTempDirectory (Facoltativo) Percorso Cloud Storage in cui vengono scritti i file Avro temporanei.
spannerPriority (Facoltativo) La priorità della richiesta per le chiamate Spanner. I valori possibili sono HIGH, MEDIUM, LOW. Il valore predefinito è MEDIUM.

Esegui il modello

Console

  1. Vai alla pagina Crea job da modello di Dataflow.
  2. Vai a Crea job da modello
  3. Nel campo Nome job, inserisci un nome univoco per il job.

    Affinché il job venga visualizzato nella pagina Istanze di Spanner della console Google Cloud, il nome del job deve corrispondere al formato seguente:

    cloud-spanner-export-SPANNER_INSTANCE_ID-SPANNER_DATABASE_NAME

    Sostituisci quanto segue:

    • SPANNER_INSTANCE_ID: l'ID della tua istanza Spanner
    • SPANNER_DATABASE_NAME: nome del database Spanner
  4. (Facoltativo) Per Endpoint a livello di regione, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.

    Per un elenco delle regioni in cui puoi eseguire un job Dataflow, vedi Località Dataflow.

  5. Nel menu a discesa Modello Dataflow, seleziona the Cloud Spanner to Avro Files on Cloud Storage template.
  6. Nei campi dei parametri forniti, inserisci i valori dei parametri.
  7. Fai clic su Esegui job.

gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Cloud_Spanner_to_GCS_Avro \
    --region REGION_NAME \
    --staging-location GCS_STAGING_LOCATION \
    --parameters \
instanceId=INSTANCE_ID,\
databaseId=DATABASE_ID,\
outputDir=GCS_DIRECTORY

Sostituisci quanto segue:

  • JOB_NAME: un nome job univoco a tua scelta

    Affinché il job venga visualizzato nella parte Spanner della console Google Cloud, il nome del job deve corrispondere al formato cloud-spanner-export-INSTANCE_ID-DATABASE_ID.

  • VERSION: la versione del modello che vuoi utilizzare

    Puoi utilizzare i seguenti valori:

  • REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
  • GCS_STAGING_LOCATION: il percorso per la scrittura dei file temporanei, ad esempio gs://mybucket/temp
  • INSTANCE_ID: l'ID istanza Spanner
  • DATABASE_ID: l'ID database Spanner
  • GCS_DIRECTORY: il percorso Cloud Storage in cui i file Avro vengono esportati

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta POST HTTP. Per maggiori informazioni sull'API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_Spanner_to_GCS_Avro
{
   "jobName": "JOB_NAME",
   "parameters": {
       "instanceId": "INSTANCE_ID",
       "databaseId": "DATABASE_ID",
       "outputDir": "gs://GCS_DIRECTORY"
   }
}

Sostituisci quanto segue:

  • PROJECT_ID: l'ID del progetto Google Cloud in cui vuoi eseguire il job Dataflow
  • JOB_NAME: un nome job univoco a tua scelta

    Affinché il job venga visualizzato nella parte Spanner della console Google Cloud, il nome del job deve corrispondere al formato cloud-spanner-export-INSTANCE_ID-DATABASE_ID.

  • VERSION: la versione del modello che vuoi utilizzare

    Puoi utilizzare i seguenti valori:

  • LOCATION: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
  • GCS_STAGING_LOCATION: il percorso per la scrittura dei file temporanei, ad esempio gs://mybucket/temp
  • INSTANCE_ID: l'ID istanza Spanner
  • DATABASE_ID: l'ID database Spanner
  • GCS_DIRECTORY: il percorso Cloud Storage in cui i file Avro vengono esportati

Passaggi successivi