Template Cloud Storage Avro ke Spanner

Template file Avro Cloud Storage ke Spanner adalah pipeline batch yang membaca file Avro yang diekspor dari Spanner yang disimpan di Cloud Storage dan mengimpornya ke database Spanner.

Persyaratan pipeline

  • Database Spanner target harus ada dan harus kosong.
  • Anda harus memiliki izin baca untuk bucket Cloud Storage dan izin tulis untuk database Spanner target.
  • Jalur Cloud Storage input harus ada, dan harus menyertakan file spanner-export.json yang berisi deskripsi JSON file yang akan diimpor.
  • Jika file Avro sumber tidak berisi kunci utama, Anda harus membuat tabel Spanner kosong dengan kunci utama sebelum menjalankan template. Langkah ini tidak diperlukan jika file Avro menentukan kunci utama.

Parameter template

Parameter yang diperlukan

  • instanceId : ID instance database Spanner.
  • databaseId : ID database database Spanner.
  • inputDir : Jalur Cloud Storage tempat file Avro diimpor.

Parameter opsional

  • spannerHost : Endpoint Cloud Spanner yang akan dipanggil dalam template. Hanya digunakan untuk pengujian. (Contoh: https://batch-spanner.googleapis.com). Secara default: https://batch-spanner.googleapis.com.
  • waitForIndexes : Jika true, pipeline akan menunggu indeks dibuat. Jika false, tugas mungkin selesai saat indeks masih dibuat di latar belakang. Nilai defaultnya adalah false.
  • waitForForeignKeys : Jika true, pipeline akan menunggu kunci asing dibuat. Jika false, tugas mungkin selesai saat kunci asing masih dibuat di latar belakang. Nilai defaultnya adalah false.
  • waitForChangeStreams : Jika true, pipeline akan menunggu aliran data perubahan dibuat. Jika false, tugas mungkin selesai saat aliran perubahan masih dibuat di latar belakang. Nilai defaultnya adalah true.
  • waitForSequences : Secara default, pipeline impor diblokir saat pembuatan urutan. Jika false, pipeline impor mungkin selesai dengan urutan yang masih dibuat di latar belakang.
  • earlyIndexCreateFlag : Menentukan apakah pembuatan indeks awal diaktifkan. Jika template menjalankan banyak pernyataan DDL, akan lebih efisien untuk membuat indeks sebelum memuat data. Oleh karena itu, perilaku default-nya adalah membuat indeks terlebih dahulu saat jumlah pernyataan DDL melebihi nilai minimum. Untuk menonaktifkan fitur ini, tetapkan earlyIndexCreateFlag ke false. Nilai defaultnya adalah true.
  • spannerProjectId : ID project Google Cloud yang berisi database Spanner. Jika tidak ditetapkan, project Google Cloud default akan digunakan.
  • ddlCreationTimeoutInMinutes : Waktu tunggu dalam menit untuk pernyataan DDL yang dilakukan oleh template. Nilai defaultnya adalah 30 menit.
  • spannerPriority : Prioritas permintaan untuk panggilan Spanner. Nilai yang mungkin adalah HIGH, MEDIUM, dan LOW. Nilai defaultnya adalah MEDIUM.

Menjalankan template

Konsol

  1. Buka halaman Create job from template Dataflow.
  2. Buka Buat tugas dari template
  3. Di kolom Nama tugas, masukkan nama tugas yang unik.

    Agar tugas muncul di halaman Instance Spanner di konsol Google Cloud, nama tugas harus cocok dengan format berikut:

    cloud-spanner-import-SPANNER_INSTANCE_ID-SPANNER_DATABASE_NAME

    Ganti kode berikut:

    • SPANNER_INSTANCE_ID: ID instance Spanner Anda
    • SPANNER_DATABASE_NAME: nama database Spanner Anda
  4. Opsional: Untuk Endpoint regional, pilih nilai dari menu drop-down. Region defaultnya adalah us-central1.

    Untuk mengetahui daftar region tempat Anda dapat menjalankan tugas Dataflow, lihat Lokasi Dataflow.

  5. Dari menu drop-down Dataflow template, pilih the Avro Files on Cloud Storage to Cloud Spanner template.
  6. Di kolom parameter yang disediakan, masukkan nilai parameter Anda.
  7. Klik Run job.

gcloud

Di shell atau terminal, jalankan template:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/GCS_Avro_to_Cloud_Spanner \
    --region REGION_NAME \
    --staging-location GCS_STAGING_LOCATION \
    --parameters \
instanceId=INSTANCE_ID,\
databaseId=DATABASE_ID,\
inputDir=GCS_DIRECTORY

Ganti kode berikut:

  • JOB_NAME: nama tugas unik pilihan Anda
  • VERSION: versi template yang ingin Anda gunakan

    Anda dapat menggunakan nilai berikut:

  • REGION_NAME: region tempat Anda ingin men-deploy tugas Dataflow—misalnya, us-central1
  • INSTANCE_ID: ID instance Spanner yang berisi database
  • DATABASE_ID: ID database Spanner tempat impor akan dilakukan
  • GCS_DIRECTORY: jalur Cloud Storage tempat file Avro diimpor, misalnya, gs://mybucket/somefolder

API

Untuk menjalankan template menggunakan REST API, kirim permintaan POST HTTP. Untuk mengetahui informasi selengkapnya tentang API dan cakupan otorisasinya, lihat projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/GCS_Avro_to_Cloud_Spanner
{
   "jobName": "JOB_NAME",
   "parameters": {
       "instanceId": "INSTANCE_ID",
       "databaseId": "DATABASE_ID",
       "inputDir": "gs://GCS_DIRECTORY"
   },
   "environment": {
       "machineType": "n1-standard-2"
   }
}

Ganti kode berikut:

  • PROJECT_ID: ID project Google Cloud tempat Anda ingin menjalankan tugas Dataflow
  • JOB_NAME: nama tugas unik pilihan Anda
  • VERSION: versi template yang ingin Anda gunakan

    Anda dapat menggunakan nilai berikut:

  • LOCATION: region tempat Anda ingin men-deploy tugas Dataflow—misalnya, us-central1
  • INSTANCE_ID: ID instance Spanner yang berisi database
  • DATABASE_ID: ID database Spanner tempat impor akan dilakukan
  • GCS_DIRECTORY: jalur Cloud Storage tempat file Avro diimpor, misalnya, gs://mybucket/somefolder

Langkah selanjutnya