File Cloud Storage Avro ke template Spanner adalah pipeline batch yang membaca file Avro yang diekspor dari Spanner yang disimpan di Cloud Storage dan mengimpornya ke database Spanner.
Persyaratan pipeline
- Database Spanner target harus ada dan harus kosong.
- Anda harus memiliki izin baca untuk bucket Cloud Storage dan izin tulis untuk database Spanner target.
- Jalur Cloud Storage input harus ada, dan harus menyertakan file
spanner-export.json
yang berisi deskripsi file JSON yang akan diimpor. - Jika file Avro sumber tidak berisi kunci utama, Anda harus membuat tabel Spanner kosong dengan kunci utama sebelum menjalankan template. Langkah ini tidak diperlukan jika file Avro menentukan kunci utama.
Parameter template
Parameter | Deskripsi |
---|---|
instanceId |
ID instance database Spanner. |
databaseId |
ID database dari database Spanner. |
inputDir |
Jalur Cloud Storage tempat file Avro diimpor. |
spannerProjectId |
Opsional: Project ID Google Cloud dari database Spanner. Jika tidak disetel, project Google Cloud default akan digunakan. |
spannerPriority |
Opsional: Prioritas permintaan
untuk panggilan Spanner. Nilai yang mungkin adalah HIGH ,
MEDIUM , LOW . Nilai defaultnya adalah
MEDIUM . |
ddlCreationTimeoutInMinutes |
Opsional: Waktu tunggu, dalam menit, untuk pernyataan DDL yang dilakukan oleh template. Nilai defaultnya adalah 30 menit. |
earlyIndexCreateFlag |
Opsional: Menentukan apakah akan mengaktifkan pembuatan indeks awal atau tidak. Jika template menjalankan banyak pernyataan DDL, akan lebih efisien untuk membuat indeks sebelum memuat data. Oleh karena itu, perilaku defaultnya adalah membuat indeks terlebih dahulu ketika jumlah pernyataan DDL melebihi batas. Untuk menonaktifkan fitur ini, tetapkan earlyIndexCreateFlag ke false . Default: true . |
waitForChangeStreams |
Opsional: Jika true , pipeline akan menunggu aliran perubahan
dibuat. Jika false , tugas mungkin selesai saat aliran data
perubahan masih dibuat di latar belakang. Default:
true . |
waitForForeignKeys |
Opsional: Jika true , pipeline akan menunggu kunci asing dibuat. Jika false , tugas mungkin telah selesai saat kunci asing
masih dibuat di latar belakang. Default: false . |
waitForIndexes |
Opsional: Jika true , pipeline akan menunggu indeks dibuat. Jika false , tugas mungkin selesai saat indeks masih dibuat di latar belakang. Default: false . |
Menjalankan template
Konsol
- Buka halaman Create job from template Dataflow. Buka Buat tugas dari template
- Di kolom Job name, masukkan nama pekerjaan yang unik.
Agar tugas muncul di halaman Instances Spanner pada Konsol Google Cloud, nama tugas harus cocok dengan format berikut:
cloud-spanner-import-SPANNER_INSTANCE_ID-SPANNER_DATABASE_NAME
Ganti kode berikut:
SPANNER_INSTANCE_ID
: ID instance Spanner AndaSPANNER_DATABASE_NAME
: nama database Spanner Anda
- Opsional: Untuk Endpoint regional, pilih nilai dari menu drop-down. Region
default-nya adalah
us-central1
.Untuk daftar region tempat Anda dapat menjalankan tugas Dataflow, lihat Lokasi Dataflow.
- Dari menu drop-down Dataflow template, pilih the Avro Files on Cloud Storage to Cloud Spanner template.
- Di kolom parameter yang disediakan, masukkan parameter value Anda.
- Klik Run job.
gcloud
Di shell atau terminal Anda, jalankan template:
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/GCS_Avro_to_Cloud_Spanner \ --region REGION_NAME \ --staging-location GCS_STAGING_LOCATION \ --parameters \ instanceId=INSTANCE_ID,\ databaseId=DATABASE_ID,\ inputDir=GCS_DIRECTORY
Ganti kode berikut:
JOB_NAME
: nama pekerjaan unik pilihan AndaVERSION
: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latest
untuk menggunakan versi terbaru template, yang tersedia di folder induk tidak bertanggal di bucket— gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00
, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat di folder induk bertanggal masing-masing dalam bucket— gs://dataflow-templates-REGION_NAME/
REGION_NAME
: region tempat Anda ingin men-deploy tugas Dataflow, misalnyaus-central1
INSTANCE_ID
: ID instance Spanner yang berisi databaseDATABASE_ID
: ID database Spanner yang akan diimporGCS_DIRECTORY
: jalur Cloud Storage tempat file Avro diimpor, misalnya,gs://mybucket/somefolder
API
Untuk menjalankan template menggunakan REST API, kirim permintaan HTTP POST. Untuk informasi selengkapnya tentang API dan cakupan otorisasinya, lihat projects.templates.launch
.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/GCS_Avro_to_Cloud_Spanner { "jobName": "JOB_NAME", "parameters": { "instanceId": "INSTANCE_ID", "databaseId": "DATABASE_ID", "inputDir": "gs://GCS_DIRECTORY" }, "environment": { "machineType": "n1-standard-2" } }
Ganti kode berikut:
PROJECT_ID
: ID project Google Cloud tempat Anda ingin menjalankan tugas DataflowJOB_NAME
: nama pekerjaan unik pilihan AndaVERSION
: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latest
untuk menggunakan versi terbaru template, yang tersedia di folder induk tidak bertanggal di bucket— gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00
, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat di folder induk bertanggal masing-masing dalam bucket— gs://dataflow-templates-REGION_NAME/
LOCATION
: region tempat Anda ingin men-deploy tugas Dataflow, misalnyaus-central1
INSTANCE_ID
: ID instance Spanner yang berisi databaseDATABASE_ID
: ID database Spanner yang akan diimporGCS_DIRECTORY
: jalur Cloud Storage tempat file Avro diimpor, misalnya,gs://mybucket/somefolder
Langkah selanjutnya
- Pelajari Template Dataflow.
- Lihat daftar template yang disediakan Google.