Template PostgreSQL ke BigQuery adalah pipeline batch yang menyalin data dari tabel PostgreSQL ke tabel BigQuery yang ada. Pipeline ini menggunakan JDBC untuk terhubung ke PostgreSQL. Untuk lapisan perlindungan tambahan, Anda juga dapat meneruskan kunci Cloud KMS beserta parameter string koneksi, nama pengguna, dan sandi yang dienkode Base64 yang dienkripsi dengan kunci Cloud KMS. Untuk mengetahui informasi selengkapnya tentang mengenkripsi parameter nama pengguna, sandi, dan string koneksi, lihat endpoint enkripsi Cloud KMS API.
Persyaratan pipeline
- Tabel BigQuery harus sudah ada sebelum eksekusi pipeline.
- Tabel BigQuery harus memiliki skema yang kompatibel.
- Database relasional harus dapat diakses dari subnet tempat Dataflow berjalan.
Parameter template
Parameter yang diperlukan
- driverJars : Daftar file JAR driver yang dipisahkan koma. (Contoh: gs://your-bucket/driver_jar1.jar,gs://your-bucket/driver_jar2.jar).
- driverClassName : Nama class driver JDBC. (Contoh: com.mysql.jdbc.Driver).
- connectionURL : String URL koneksi JDBC. Contoh,
jdbc:mysql://some-host:3306/sampledb
. Anda dapat meneruskan nilai ini sebagai string yang dienkripsi dengan kunci Cloud KMS, lalu dienkode dengan Base64. Menghapus karakter spasi kosong dari string yang dienkode Base64. Perhatikan perbedaan antara string koneksi database non-RAC Oracle (jdbc:oracle:thin:@some-host:<port>:<sid>
) dan string koneksi database RAC Oracle (jdbc:oracle:thin:@//some-host[:<port>]/<service_name>
). (Contoh: jdbc:mysql://some-host:3306/sampledb). - outputTable : Lokasi tabel output BigQuery. (Contoh: <PROJECT_ID>:<DATASET_NAME>.<TABLE_NAME>).
- bigQueryLoadingTemporaryDirectory : Direktori sementara untuk proses pemuatan BigQuery. (Contoh: gs://bucket-anda/file-anda/temp_dir).
Parameter opsional
- connectionProperties : String properti yang akan digunakan untuk koneksi JDBC. Format string harus
[propertyName=property;]*
.Untuk informasi selengkapnya, lihat Properti Konfigurasi (https://dev.mysql.com/doc/connector-j/en/connector-j-reference-configuration-properties.html) dalam dokumentasi MySQL. (Contoh: unicode=true;characterEncoding=UTF-8). - username : Nama pengguna yang akan digunakan untuk koneksi JDBC. Dapat diteruskan sebagai string yang dienkripsi dengan kunci Cloud KMS, atau dapat berupa secret Secret Manager dalam bentuk projects/{project}/secrets/{secret}/versions/{secret_version}.
- password : Sandi yang akan digunakan untuk koneksi JDBC. Dapat diteruskan sebagai string yang dienkripsi dengan kunci Cloud KMS, atau dapat berupa secret Secret Manager dalam bentuk projects/{project}/secrets/{secret}/versions/{secret_version}.
- kueri : Kueri yang akan dijalankan di sumber untuk mengekstrak data. Perhatikan bahwa beberapa jenis JDBC SQL dan BigQuery, meskipun memiliki nama yang sama, memiliki beberapa perbedaan. Beberapa pemetaan jenis SQL -> BigQuery yang penting untuk diingat adalah: DATETIME --> TIMESTAMP
Pemrosesan jenis mungkin diperlukan jika skema Anda tidak cocok. Parameter ini dapat ditetapkan ke jalur gs:// yang mengarah ke file di Cloud Storage untuk memuat kueri. Encoding file harus UTF-8. (Contoh: select * from sampledb.sample_table).
- KMSEncryptionKey : Kunci enkripsi Cloud KMS yang akan digunakan untuk mendekripsi nama pengguna, sandi, dan string koneksi. Jika meneruskan kunci Cloud KMS, Anda juga harus mengenkripsi nama pengguna, sandi, dan string koneksi. (Contoh: projects/project-anda/locations/global/keyRings/keyring-anda/cryptoKeys/kunci-anda).
- useColumnAlias : Jika ditetapkan ke
true
, pipeline akan menggunakan alias kolom (AS
), bukan nama kolom, untuk memetakan baris ke BigQuery. Setelan defaultnya adalahfalse
. - isTruncate : Jika ditetapkan ke
true
, pipeline akan terpotong sebelum memuat data ke BigQuery. Defaultnya adalahfalse
, yang menyebabkan pipeline menambahkan data. - partitionColumn : Jika parameter ini diberikan dengan nama
table
yang ditentukan sebagai parameter opsional, JdbcIO akan membaca tabel secara paralel dengan menjalankan beberapa instance kueri pada tabel yang sama (subkueri) menggunakan rentang. Saat ini, hanya mendukung kolom partisiLong
. - table : Tabel yang akan dibaca saat menggunakan partisi. Parameter ini juga menerima subkueri dalam tanda kurung. (Contoh: (select id, name from Person) as subq).
- numPartitions : Jumlah partisi. Dengan batas bawah dan atas, nilai ini membentuk langkah partisi untuk ekspresi klausa
WHERE
yang dihasilkan yang digunakan untuk membagi kolom partisi secara merata. Jika input kurang dari1
, angka akan ditetapkan ke1
. - lowerBound : Batas bawah yang akan digunakan dalam skema partisi. Jika tidak diberikan, nilai ini akan otomatis disimpulkan oleh Apache Beam untuk jenis yang didukung.
- upperBound : Batas atas yang akan digunakan dalam skema partisi. Jika tidak diberikan, nilai ini akan otomatis disimpulkan oleh Apache Beam untuk jenis yang didukung.
- fetchSize : Jumlah baris yang akan diambil dari database dalam satu waktu. Tidak digunakan untuk pembacaan yang dipartisi. Setelan defaultnya adalah: 50.000.
- createDisposition : CreateDisposition BigQuery yang akan digunakan. Misalnya
CREATE_IF_NEEDED
atauCREATE_NEVER
. Default-nya adalah: CREATE_NEVER. - bigQuerySchemaPath : Jalur Cloud Storage untuk skema JSON BigQuery. Jika
createDisposition
ditetapkan ke CREATE_IF_NEEDED, parameter ini harus ditentukan. (Contoh: gs://your-bucket/your-schema.json). - disabledAlgorithms : Algoritma yang dipisahkan koma untuk dinonaktifkan. Jika nilai ini disetel ke none, tidak ada algoritma yang dinonaktifkan. Gunakan parameter ini dengan hati-hati, karena algoritma yang dinonaktifkan secara default mungkin memiliki kerentanan atau masalah performa. (Contoh: SSLv3, RC4).
- extraFilesToStage : Jalur Cloud Storage yang dipisahkan koma atau secret Secret Manager untuk file yang akan di-stage di pekerja. File ini disimpan di direktori /extra_files di setiap pekerja. (Contoh: gs://
- useStorageWriteApi : Jika
true
, pipeline akan menggunakan BigQuery Storage Write API (https://cloud.google.com/bigquery/docs/write-api). Nilai defaultnya adalahfalse
. Untuk informasi selengkapnya, lihat Menggunakan Storage Write API (https://beam.apache.org/documentation/io/built-in/google-bigquery/#storage-write-api). - useStorageWriteApiAtLeastOnce : Saat menggunakan Storage Write API, menentukan semantik tulis. Untuk menggunakan semantik minimal satu kali (https://beam.apache.org/documentation/io/built-in/google-bigquery/#at-least-once-semantics), tetapkan parameter ini ke
true
. Untuk menggunakan semantik tepat satu kali, tetapkan parameter kefalse
. Parameter ini hanya berlaku jikauseStorageWriteApi
adalahtrue
. Nilai defaultnya adalahfalse
.
Menjalankan template
Konsol
- Buka halaman Create job from template Dataflow. Buka Buat tugas dari template
- Di kolom Nama tugas, masukkan nama tugas yang unik.
- Opsional: Untuk Endpoint regional, pilih nilai dari menu drop-down. Region defaultnya adalah
us-central1
.Untuk mengetahui daftar region tempat Anda dapat menjalankan tugas Dataflow, lihat Lokasi Dataflow.
- Dari menu drop-down Dataflow template, pilih the PostgreSQL to BigQuery template.
- Di kolom parameter yang disediakan, masukkan nilai parameter Anda.
- Klik Run job.
gcloud
Di shell atau terminal, jalankan template:
gcloud dataflow flex-template run JOB_NAME \ --project=PROJECT_ID \ --region=REGION_NAME \ --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/PostgreSQL_to_BigQuery \ --parameters \ connectionURL=JDBC_CONNECTION_URL,\ query=SOURCE_SQL_QUERY,\ outputTable=PROJECT_ID:DATASET.TABLE_NAME, bigQueryLoadingTemporaryDirectory=PATH_TO_TEMP_DIR_ON_GCS,\ connectionProperties=CONNECTION_PROPERTIES,\ username=CONNECTION_USERNAME,\ password=CONNECTION_PASSWORD,\ KMSEncryptionKey=KMS_ENCRYPTION_KEY
Ganti kode berikut:
JOB_NAME
: nama tugas unik pilihan AndaVERSION
: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latest
untuk menggunakan template versi terbaru, yang tersedia di folder induk tanpa tanggal di bucket—gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00
, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat dalam folder induk bertanggal masing-masing di bucket—gs://dataflow-templates-REGION_NAME/
REGION_NAME
: region tempat Anda ingin men-deploy tugas Dataflow—misalnya,us-central1
JDBC_CONNECTION_URL
: URL koneksi JDBCSOURCE_SQL_QUERY
: kueri SQL yang akan dijalankan di database sumberDATASET
: set data BigQuery AndaTABLE_NAME
: nama tabel BigQuery AndaPATH_TO_TEMP_DIR_ON_GCS
: jalur Cloud Storage Anda ke direktori sementaraCONNECTION_PROPERTIES
: properti koneksi JDBC, jika diperlukanCONNECTION_USERNAME
: nama pengguna koneksi JDBCCONNECTION_PASSWORD
: sandi koneksi JDBCKMS_ENCRYPTION_KEY
: kunci enkripsi Cloud KMS
API
Untuk menjalankan template menggunakan REST API, kirim permintaan POST HTTP. Untuk mengetahui informasi selengkapnya tentang
API dan cakupan otorisasinya, lihat
projects.templates.launch
.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch { "launchParameter": { "jobName": "JOB_NAME", "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/PostgreSQL_to_BigQuery" "parameters": { "connectionURL": "JDBC_CONNECTION_URL", "query": "SOURCE_SQL_QUERY", "outputTable": "PROJECT_ID:DATASET.TABLE_NAME", "bigQueryLoadingTemporaryDirectory": "PATH_TO_TEMP_DIR_ON_GCS", "connectionProperties": "CONNECTION_PROPERTIES", "username": "CONNECTION_USERNAME", "password": "CONNECTION_PASSWORD", "KMSEncryptionKey":"KMS_ENCRYPTION_KEY" }, "environment": { "zone": "us-central1-f" } } }
Ganti kode berikut:
PROJECT_ID
: ID project Google Cloud tempat Anda ingin menjalankan tugas DataflowJOB_NAME
: nama tugas unik pilihan AndaVERSION
: versi template yang ingin Anda gunakanAnda dapat menggunakan nilai berikut:
latest
untuk menggunakan template versi terbaru, yang tersedia di folder induk tanpa tanggal di bucket—gs://dataflow-templates-REGION_NAME/latest/- nama versi, seperti
2023-09-12-00_RC00
, untuk menggunakan versi template tertentu, yang dapat ditemukan bertingkat dalam folder induk bertanggal masing-masing di bucket—gs://dataflow-templates-REGION_NAME/
LOCATION
: region tempat Anda ingin men-deploy tugas Dataflow—misalnya,us-central1
JDBC_CONNECTION_URL
: URL koneksi JDBCSOURCE_SQL_QUERY
: kueri SQL yang akan dijalankan di database sumberDATASET
: set data BigQuery AndaTABLE_NAME
: nama tabel BigQuery AndaPATH_TO_TEMP_DIR_ON_GCS
: jalur Cloud Storage Anda ke direktori sementaraCONNECTION_PROPERTIES
: properti koneksi JDBC, jika diperlukanCONNECTION_USERNAME
: nama pengguna koneksi JDBCCONNECTION_PASSWORD
: sandi koneksi JDBCKMS_ENCRYPTION_KEY
: kunci enkripsi Cloud KMS
Langkah selanjutnya
- Pelajari template Dataflow.
- Lihat daftar template yang disediakan Google.