Template AstraDB ke BigQuery adalah pipeline batch yang membaca data dari AstraDB dan menulisnya ke BigQuery.
Jika tabel tujuan tidak ada di BigQuery, pipeline akan membuat tabel dengan nilai berikut:
Dataset ID
, yang diwarisi dari ruang kunci Cassandra.Table ID
, yang diwarisi dari tabel Cassandra.
Skema tabel tujuan disimpulkan dari tabel Cassandra sumber.
List
danSet
dipetakan ke kolomREPEATED
BigQuery.Map
dipetakan ke kolomRECORD
BigQuery.- Semua jenis lainnya dipetakan ke kolom BigQuery dengan jenis yang sesuai.
- Jenis yang ditentukan pengguna (UDT) dan jenis data tuple Cassandra tidak didukung.
Persyaratan pipeline
- Akun AstraDB dengan token
Parameter template
Parameter yang diperlukan
- astraToken: Nilai token atau ID resource secret. Contoh,
AstraCS:abcdefghij
. - astraDatabaseId: ID unik database (UUID). Contoh,
cf7af129-d33a-498f-ad06-d97a6ee6eb7
. - astraKeyspace: Nama keyspace Cassandra di dalam database Astra.
- astraTable: Nama tabel di dalam database Cassandra. Contoh,
my_table
.
Parameter opsional
- astraQuery: Kueri yang akan digunakan untuk memfilter baris, bukan membaca seluruh tabel.
- astraDatabaseRegion: Jika tidak disediakan, default akan dipilih, yang berguna dengan database multi-region.
- minTokenRangesCount: Jumlah minimum pemisahan yang akan digunakan untuk mendistribusikan kueri.
- outputTableSpec: Lokasi tabel BigQuery tempat output akan ditulis. Gunakan format
<PROJECT_ID>:<DATASET_NAME>.<TABLE_NAME>
Skema tabel harus cocok dengan objek input.
Menjalankan template
- Buka halaman Create job from template Dataflow. Buka Buat tugas dari template
- Di kolom Nama tugas, masukkan nama tugas yang unik.
- Opsional: Untuk Endpoint regional, pilih nilai dari menu drop-down. Region defaultnya adalah
us-central1
.Untuk mengetahui daftar region tempat Anda dapat menjalankan tugas Dataflow, lihat Lokasi Dataflow.
- Dari menu drop-down Dataflow template, pilih the AstraDB to BigQuery template.
- Di kolom parameter yang disediakan, masukkan nilai parameter Anda.
- Klik Run job.
Di shell atau terminal, jalankan template:
gcloud dataflow flex-template runJOB_NAME \ --template-file-gcs-location=gs://dataflow-templates-REGION_NAME /VERSION /flex/AstraDB_To_BigQuery \ --project=PROJECT_ID \ --region=REGION_NAME \ --parameters \ astraToken=ASTRA_TOKEN ,\ astraDatabaseId=ASTRA_DATABASE_ID ,\ astraKeyspace=ASTRA_KEYSPACE ,\ astraTable=ASTRA_TABLE ,\
Ganti kode berikut:
JOB_NAME
: nama tugas unik pilihan AndaVERSION
: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latest
untuk menggunakan template versi terbaru, yang tersedia di folder induk tanpa tanggal di bucket—gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00
, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat dalam folder induk bertanggal masing-masing di bucket—gs://dataflow-templates-REGION_NAME/
REGION_NAME
: region tempat Anda ingin men-deploy tugas Dataflow—misalnya,us-central1
ASTRA_TOKEN
: token AstraASTRA_DATABASE_ID
: ID databaseASTRA_KEYSPACE
: ruang kunci CassandraASTRA_TABLE
: tabel Cassandra
Untuk menjalankan template menggunakan REST API, kirim permintaan POST HTTP. Untuk mengetahui informasi selengkapnya tentang
API dan cakupan otorisasinya, lihat
projects.templates.launch
.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID /locations/LOCATION /flexTemplates:launch { "launchParameter": { "jobName": "JOB_NAME ", "parameters": { "astraToken": "ASTRA_TOKEN ", "astraDatabaseId": "ASTRA_DATABASE_ID ", "astraKeyspace": "ASTRA_KEYSPACE ", "astraTable": "ASTRA_TABLE ", }, "containerSpecGcsPath": "gs://dataflow-templates-LOCATION /VERSION /flex/AstraDB_To_BigQuery", "environment": { "maxWorkers": "10" } } }
Ganti kode berikut:
PROJECT_ID
: ID project Google Cloud tempat Anda ingin menjalankan tugas DataflowJOB_NAME
: nama tugas unik pilihan AndaVERSION
: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latest
untuk menggunakan template versi terbaru, yang tersedia di folder induk tanpa tanggal di bucket—gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00
, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat dalam folder induk bertanggal masing-masing di bucket—gs://dataflow-templates-REGION_NAME/
LOCATION
: region tempat Anda ingin men-deploy tugas Dataflow—misalnya,us-central1
ASTRA_TOKEN
: token AstraASTRA_DATABASE_ID
: ID databaseASTRA_KEYSPACE
: ruang kunci CassandraASTRA_TABLE
: tabel Cassandra
Kode sumber template
Langkah berikutnya
- Pelajari template Dataflow.
- Lihat daftar template yang disediakan Google.