Template AstraDB ke BigQuery adalah pipeline batch yang membaca data dari AstraDB dan menulisnya ke BigQuery.
Jika tabel tujuan tidak ada di BigQuery, pipeline akan membuat tabel dengan nilai berikut:
Dataset ID
, yang diwarisi dari ruang kunci Cassandra.Table ID
, yang diwarisi dari tabel Cassandra.
Skema tabel tujuan disimpulkan dari tabel Cassandra sumber.
List
danSet
dipetakan ke kolomREPEATED
BigQuery.Map
dipetakan ke kolomRECORD
BigQuery.- Semua jenis lainnya dipetakan ke kolom BigQuery dengan jenis yang sesuai.
- Jenis yang ditentukan pengguna (UDT) dan jenis data tuple Cassandra tidak didukung.
Persyaratan pipeline
- Akun AstraDB dengan token
Parameter template
Parameter yang diperlukan
- astraToken: Nilai token atau ID resource secret. Contoh,
AstraCS:abcdefghij
. - astraDatabaseId: ID unik database (UUID). Contoh,
cf7af129-d33a-498f-ad06-d97a6ee6eb7
. - astraKeyspace: Nama keyspace Cassandra di dalam database Astra.
- astraTable: Nama tabel di dalam database Cassandra. Contoh,
my_table
.
Parameter opsional
- astraQuery: Kueri yang akan digunakan untuk memfilter baris, bukan membaca seluruh tabel.
- astraDatabaseRegion: Jika tidak disediakan, default akan dipilih, yang berguna dengan database multi-region.
- minTokenRangesCount: Jumlah minimum pemisahan yang akan digunakan untuk mendistribusikan kueri.
- outputTableSpec: Lokasi tabel BigQuery tempat output akan ditulis. Gunakan format
<PROJECT_ID>:<DATASET_NAME>.<TABLE_NAME>
Skema tabel harus cocok dengan objek input.
Menjalankan template
Konsol
- Buka halaman Create job from template Dataflow. Buka Buat tugas dari template
- Di kolom Nama tugas, masukkan nama tugas yang unik.
- Opsional: Untuk Endpoint regional, pilih nilai dari menu drop-down. Region defaultnya adalah
us-central1
.Untuk mengetahui daftar region tempat Anda dapat menjalankan tugas Dataflow, lihat Lokasi Dataflow.
- Dari menu drop-down Dataflow template, pilih the AstraDB to BigQuery template.
- Di kolom parameter yang disediakan, masukkan nilai parameter Anda.
- Klik Run job.
gcloud
Di shell atau terminal, jalankan template:
gcloud dataflow flex-template run JOB_NAME \ --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/AstraDB_To_BigQuery \ --project=PROJECT_ID \ --region=REGION_NAME \ --parameters \ astraToken=ASTRA_TOKEN,\ astraDatabaseId=ASTRA_DATABASE_ID,\ astraKeyspace=ASTRA_KEYSPACE,\ astraTable=ASTRA_TABLE,\
Ganti kode berikut:
JOB_NAME
: nama tugas unik pilihan AndaVERSION
: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latest
untuk menggunakan template versi terbaru, yang tersedia di folder induk tanpa tanggal di bucket—gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00
, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat dalam folder induk bertanggal masing-masing di bucket—gs://dataflow-templates-REGION_NAME/
REGION_NAME
: region tempat Anda ingin men-deploy tugas Dataflow—misalnya,us-central1
ASTRA_TOKEN
: token AstraASTRA_DATABASE_ID
: ID databaseASTRA_KEYSPACE
: ruang kunci CassandraASTRA_TABLE
: tabel Cassandra
API
Untuk menjalankan template menggunakan REST API, kirim permintaan POST HTTP. Untuk mengetahui informasi selengkapnya tentang
API dan cakupan otorisasinya, lihat
projects.templates.launch
.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch { "launchParameter": { "jobName": "JOB_NAME", "parameters": { "astraToken": "ASTRA_TOKEN", "astraDatabaseId": "ASTRA_DATABASE_ID", "astraKeyspace": "ASTRA_KEYSPACE", "astraTable": "ASTRA_TABLE", }, "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/AstraDB_To_BigQuery", "environment": { "maxWorkers": "10" } } }
Ganti kode berikut:
PROJECT_ID
: ID project Google Cloud tempat Anda ingin menjalankan tugas DataflowJOB_NAME
: nama tugas unik pilihan AndaVERSION
: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latest
untuk menggunakan template versi terbaru, yang tersedia di folder induk tanpa tanggal di bucket—gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00
, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat dalam folder induk bertanggal masing-masing di bucket—gs://dataflow-templates-REGION_NAME/
LOCATION
: region tempat Anda ingin men-deploy tugas Dataflow—misalnya,us-central1
ASTRA_TOKEN
: token AstraASTRA_DATABASE_ID
: ID databaseASTRA_KEYSPACE
: ruang kunci CassandraASTRA_TABLE
: tabel Cassandra
Langkah berikutnya
- Pelajari template Dataflow.
- Lihat daftar template yang disediakan Google.