Halaman ini diterjemahkan oleh Cloud Translation API.

Template JDBC ke Cloud Spanner

Gunakan template Serverless for Apache Spark JDBC to Spanner untuk mengekstrak data dari database JDBC ke Spanner.

Template ini mendukung database berikut sebagai input:

MySQL
PostgreSQL
Microsoft SQL Server
Oracle

Menggunakan template

Jalankan template menggunakan gcloud CLI atau Dataproc API.

gcloud

Sebelum menggunakan salah satu data perintah di bawah, lakukan penggantian berikut:

PROJECT_ID: Wajib diisi. ID project Google Cloud Anda tercantum di IAM Settings.
REGION: Wajib diisi. Region Compute Engine.
TEMPLATE_VERSION: Wajib diisi. Tentukan latest untuk versi template terbaru, atau tanggal versi tertentu, misalnya, 2023-03-17_v0.1.0-beta (kunjungi gs://dataproc-templates-binaries atau jalankan gcloud storage ls gs://dataproc-templates-binaries untuk mencantumkan versi template yang tersedia).
SUBNET: Opsional. Jika subnet tidak ditentukan, subnet di jaringan default di REGION yang ditentukan akan dipilih.
Contoh: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

JDBC_CONNECTOR_CLOUD_STORAGE_PATH: Wajib diisi. Jalur Cloud Storage lengkap, termasuk nama file, tempat penyimpanan jar konektor JDBC. Anda dapat menggunakan perintah berikut untuk mendownload konektor JDBC untuk diupload ke Cloud Storage:

MySQL:

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

Postgres SQL:

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server:

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle:

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

Variabel berikut digunakan untuk membuat JDBC_CONNECTION_URL yang diperlukan:

JDBC_HOST, JDBC_PORT, JDBC_DATABASE, atau, untuk Oracle, JDBC_SERVICE, JDBC_USERNAME, dan JDBC_PASSWORD: Wajib diisi. Host, port, database, nama pengguna, dan sandi JDBC.

MySQL:

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

PostgreSQL:

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server:

jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle:

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=JDBC_PASSWORD

DRIVER: Wajib diisi. Driver JDBC yang akan digunakan untuk koneksi:

MySQL:
```
com.mysql.cj.jdbc.Driver
```
Postgres SQL:
```
org.postgresql.Driver
```

Microsoft SQL Server:

  com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle:
```
oracle.jdbc.driver.OracleDriver
```

QUERY atau QUERY_FILE: Wajib. Tetapkan QUERY atau QUERY_FILE untuk menentukan kueri yang akan digunakan untuk mengekstrak data dari JDBC
INPUT_PARTITION_COLUMN, LOWERBOUND, UPPERBOUND, NUM_PARTITIONS: Opsional. Jika digunakan, semua parameter berikut harus ditentukan:
- INPUT_PARTITION_COLUMN: Nama kolom partisi tabel input JDBC.
- LOWERBOUND: Batas bawah kolom partisi tabel input JDBC yang digunakan untuk menentukan langkah partisi.
- UPPERBOUND: Batas atas kolom partisi tabel input JDBC yang digunakan untuk menentukan langkah partisi.
- NUM_PARTITIONS: Jumlah maksimum partisi yang dapat digunakan untuk paralelisme pembacaan dan penulisan tabel. Jika ditentukan, nilai ini digunakan untuk koneksi input dan output JDBC. Default: 10.
FETCHSIZE: Opsional. Jumlah baris yang akan diambil per perjalanan pulang pergi. Default: 10.
JDBC_SESSION_INIT: Opsional. Pernyataan inisialisasi sesi untuk membaca template Java.
TEMPVIEW dan SQL_QUERY: Opsional. Anda dapat menggunakan dua parameter opsional ini untuk menerapkan transformasi Spark SQL saat memuat data ke Spanner. TEMPVIEW adalah nama tampilan sementara, dan SQL_QUERY adalah pernyataan kueri. TEMPVIEW dan nama tabel di SQL_QUERY harus sama.
INSTANCE: Wajib diisi. ID instance Spanner.
SPANNER_DATABASE: Wajib diisi. ID database Spanner.
TABLE: Wajib diisi. Nama tabel output Spanner.
SPANNER_JDBC_DIALECT: Wajib diisi. Dialek JDBC Spanner. Opsi: googlesql atau postgresql. Setelan defaultnya adalah googlesql.
MODE: Opsional. Mode penulisan untuk output Spanner. Opsi: Append, Overwrite, Ignore, atau ErrorIfExists. Nilai default-nya adalah ErrorIfExists.
PRIMARY_KEY: Wajib diisi. Kolom Kunci primer yang dipisahkan koma diperlukan saat membuat tabel output Spanner.
SERVICE_ACCOUNT: Opsional. Jika tidak diberikan, akun layanan Compute Engine default akan digunakan.
PROPERTY dan PROPERTY_VALUE: Opsional. Daftar pasangan properti Spark=value yang dipisahkan koma.
LABEL dan LABEL_VALUE: Opsional. Daftar pasangan label=value yang dipisahkan koma.
LOG_LEVEL: Opsional. Tingkat logging. Dapat berupa salah satu dari ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE, atau WARN. Default: INFO.
KMS_KEY: Opsional. Kunci Cloud Key Management Service yang akan digunakan untuk enkripsi. Jika kunci tidak ditentukan, data akan dienkripsi dalam penyimpanan menggunakan Google-owned and Google-managed encryption key.
Contoh: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

Jalankan perintah berikut:

Linux, macOS, atau Cloud Shell

gcloud dataproc batches submit spark \
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate \
    --version="1.2" \
    --project="PROJECT_ID" \
    --region="REGION" \
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" \
    --subnet="SUBNET" \
    --kms-key="KMS_KEY" \
    --service-account="SERVICE_ACCOUNT" \
    --properties="PROPERTY=PROPERTY_VALUE" \
    --labels="LABEL=LABEL_VALUE" \
    -- --template=JDBCTOSPANNER \
    --templateProperty log.level="LOG_LEVEL" \
    --templateProperty project.id="PROJECT_ID" \
    --templateProperty jdbctospanner.jdbc.url="JDBC_CONNECTION_URL" \
    --templateProperty jdbctospanner.jdbc.driver.class.name="DRIVER" \
    --templateProperty jdbctospanner.jdbc.fetchsize="FETCHSIZE" \
    --templateProperty jdbctospanner.jdbc.sessioninitstatement="JDBC_SESSION_INIT" \
    --templateProperty jdbctospanner.sql="QUERY" \
    --templateProperty jdbctospanner.sql.file="QUERY_FILE" \
    --templateProperty jdbctospanner.sql.numPartitions="NUM_PARTITIONS" \
    --templateProperty jdbctospanner.sql.partitionColumn="INPUT_PARTITION_COLUMN" \
    --templateProperty jdbctospanner.sql.lowerBound="LOWERBOUND" \
    --templateProperty jdbctospanner.sql.upperBound="UPPERBOUND" \
    --templateProperty jdbctospanner.output.instance="INSTANCE" \
    --templateProperty jdbctospanner.output.database="SPANNER_DATABASE" \
    --templateProperty jdbctospanner.output.table="TABLE" \
    --templateProperty jdbctospanner.output.saveMode="MODE" \
    --templateProperty jdbctospanner.output.primaryKey="PRIMARY_KEY" \
    --templateProperty jdbctospanner.output.batch.size="BATCHSIZE" \
    --templateProperty jdbctospanner.temp.table="TEMPVIEW" \
    --templateProperty jdbctospanner.temp.query="SQL_QUERY" \
    --templateProperty spanner.jdbc.dialect="SPANNER_JDBC_DIALECT"

Windows (PowerShell)

gcloud dataproc batches submit spark `
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate `
    --version="1.2" `
    --project="PROJECT_ID" `
    --region="REGION" `
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" `
    --subnet="SUBNET" `
    --kms-key="KMS_KEY" `
    --service-account="SERVICE_ACCOUNT" `
    --properties="PROPERTY=PROPERTY_VALUE" `
    --labels="LABEL=LABEL_VALUE" `
    -- --template=JDBCTOSPANNER `
    --templateProperty log.level="LOG_LEVEL" `
    --templateProperty project.id="PROJECT_ID" `
    --templateProperty jdbctospanner.jdbc.url="JDBC_CONNECTION_URL" `
    --templateProperty jdbctospanner.jdbc.driver.class.name="DRIVER" `
    --templateProperty jdbctospanner.jdbc.fetchsize="FETCHSIZE" `
    --templateProperty jdbctospanner.jdbc.sessioninitstatement="JDBC_SESSION_INIT" `
    --templateProperty jdbctospanner.sql="QUERY" `
    --templateProperty jdbctospanner.sql.file="QUERY_FILE" `
    --templateProperty jdbctospanner.sql.numPartitions="NUM_PARTITIONS" `
    --templateProperty jdbctospanner.sql.partitionColumn="INPUT_PARTITION_COLUMN" `
    --templateProperty jdbctospanner.sql.lowerBound="LOWERBOUND" `
    --templateProperty jdbctospanner.sql.upperBound="UPPERBOUND" `
    --templateProperty jdbctospanner.output.instance="INSTANCE" `
    --templateProperty jdbctospanner.output.database="SPANNER_DATABASE" `
    --templateProperty jdbctospanner.output.table="TABLE" `
    --templateProperty jdbctospanner.output.saveMode="MODE" `
    --templateProperty jdbctospanner.output.primaryKey="PRIMARY_KEY" `
    --templateProperty jdbctospanner.output.batch.size="BATCHSIZE" `
    --templateProperty jdbctospanner.temp.table="TEMPVIEW" `
    --templateProperty jdbctospanner.temp.query="SQL_QUERY" `
    --templateProperty spanner.jdbc.dialect="SPANNER_JDBC_DIALECT"

Windows (cmd.exe)

gcloud dataproc batches submit spark ^
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate ^
    --version="1.2" ^
    --project="PROJECT_ID" ^
    --region="REGION" ^
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" ^
    --subnet="SUBNET" ^
    --kms-key="KMS_KEY" ^
    --service-account="SERVICE_ACCOUNT" ^
    --properties="PROPERTY=PROPERTY_VALUE" ^
    --labels="LABEL=LABEL_VALUE" ^
    -- --template=JDBCTOSPANNER ^
    --templateProperty log.level="LOG_LEVEL" ^
    --templateProperty project.id="PROJECT_ID" ^
    --templateProperty jdbctospanner.jdbc.url="JDBC_CONNECTION_URL" ^
    --templateProperty jdbctospanner.jdbc.driver.class.name="DRIVER" ^
    --templateProperty jdbctospanner.jdbc.fetchsize="FETCHSIZE" ^
    --templateProperty jdbctospanner.jdbc.sessioninitstatement="JDBC_SESSION_INIT" ^
    --templateProperty jdbctospanner.sql="QUERY" ^
    --templateProperty jdbctospanner.sql.file="QUERY_FILE" ^
    --templateProperty jdbctospanner.sql.numPartitions="NUM_PARTITIONS" ^
    --templateProperty jdbctospanner.sql.partitionColumn="INPUT_PARTITION_COLUMN" ^
    --templateProperty jdbctospanner.sql.lowerBound="LOWERBOUND" ^
    --templateProperty jdbctospanner.sql.upperBound="UPPERBOUND" ^
    --templateProperty jdbctospanner.output.instance="INSTANCE" ^
    --templateProperty jdbctospanner.output.database="SPANNER_DATABASE" ^
    --templateProperty jdbctospanner.output.table="TABLE" ^
    --templateProperty jdbctospanner.output.saveMode="MODE" ^
    --templateProperty jdbctospanner.output.primaryKey="PRIMARY_KEY" ^
    --templateProperty jdbctospanner.output.batch.size="BATCHSIZE" ^
    --templateProperty jdbctospanner.temp.table="TEMPVIEW" ^
    --templateProperty jdbctospanner.temp.query="SQL_QUERY" ^
    --templateProperty spanner.jdbc.dialect="SPANNER_JDBC_DIALECT"

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

PROJECT_ID: Wajib diisi. ID project Google Cloud Anda tercantum di IAM Settings.
REGION: Wajib diisi. Region Compute Engine.
TEMPLATE_VERSION: Wajib diisi. Tentukan latest untuk versi template terbaru, atau tanggal versi tertentu, misalnya, 2023-03-17_v0.1.0-beta (kunjungi gs://dataproc-templates-binaries atau jalankan gcloud storage ls gs://dataproc-templates-binaries untuk mencantumkan versi template yang tersedia).
SUBNET: Opsional. Jika subnet tidak ditentukan, subnet di jaringan default di REGION yang ditentukan akan dipilih.
Contoh: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

MySQL:

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

Postgres SQL:

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server:

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle:

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

Variabel berikut digunakan untuk membuat JDBC_CONNECTION_URL yang diperlukan:
- JDBC_HOST, JDBC_PORT, JDBC_DATABASE, atau, untuk Oracle, JDBC_SERVICE, JDBC_USERNAME, dan JDBC_PASSWORD: Wajib diisi. Host, port, database, nama pengguna, dan sandi JDBC.
- DRIVER: Wajib diisi. Driver JDBC yang akan digunakan untuk koneksi:
  - MySQL:
```
com.mysql.cj.jdbc.Driver
```
  - Postgres SQL:
```
org.postgresql.Driver
```
  - Microsoft SQL Server:
```
  com.microsoft.sqlserver.jdbc.SQLServerDriver
```
  - Oracle:
```
oracle.jdbc.driver.OracleDriver
```
- QUERY atau QUERY_FILE: Wajib. Tetapkan QUERY atau QUERY_FILE untuk menentukan kueri yang akan digunakan untuk mengekstrak data dari JDBC
- INPUT_PARTITION_COLUMN, LOWERBOUND, UPPERBOUND, NUM_PARTITIONS: Opsional. Jika digunakan, semua parameter berikut harus ditentukan:
  - INPUT_PARTITION_COLUMN: Nama kolom partisi tabel input JDBC.
  - LOWERBOUND: Batas bawah kolom partisi tabel input JDBC yang digunakan untuk menentukan langkah partisi.
  - UPPERBOUND: Batas atas kolom partisi tabel input JDBC yang digunakan untuk menentukan langkah partisi.
  - NUM_PARTITIONS: Jumlah maksimum partisi yang dapat digunakan untuk paralelisme pembacaan dan penulisan tabel. Jika ditentukan, nilai ini digunakan untuk koneksi input dan output JDBC. Default: 10.
- FETCHSIZE: Opsional. Jumlah baris yang akan diambil per perjalanan pulang pergi. Default: 10.
- JDBC_SESSION_INIT: Opsional. Pernyataan inisialisasi sesi untuk membaca template Java.
- TEMPVIEW dan SQL_QUERY: Opsional. Anda dapat menggunakan dua parameter opsional ini untuk menerapkan transformasi Spark SQL saat memuat data ke Spanner. TEMPVIEW adalah nama tampilan sementara, dan SQL_QUERY adalah pernyataan kueri. TEMPVIEW dan nama tabel di SQL_QUERY harus sama.
- INSTANCE: Wajib diisi. ID instance Spanner.
- SPANNER_DATABASE: Wajib diisi. ID database Spanner.
- TABLE: Wajib diisi. Nama tabel output Spanner.
- SPANNER_JDBC_DIALECT: Wajib diisi. Dialek JDBC Spanner. Opsi: googlesql atau postgresql. Setelan defaultnya adalah googlesql.
- MODE: Opsional. Mode penulisan untuk output Spanner. Opsi: Append, Overwrite, Ignore, atau ErrorIfExists. Nilai default-nya adalah ErrorIfExists.
- PRIMARY_KEY: Wajib diisi. Kolom Kunci primer yang dipisahkan koma diperlukan saat membuat tabel output Spanner.
- SERVICE_ACCOUNT: Opsional. Jika tidak diberikan, akun layanan Compute Engine default akan digunakan.
- PROPERTY dan PROPERTY_VALUE: Opsional. Daftar pasangan properti Spark=value yang dipisahkan koma.
- LABEL dan LABEL_VALUE: Opsional. Daftar pasangan label=value yang dipisahkan koma.
- LOG_LEVEL: Opsional. Tingkat logging. Dapat berupa salah satu dari ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE, atau WARN. Default: INFO.
- KMS_KEY: Opsional. Kunci Cloud Key Management Service yang akan digunakan untuk enkripsi. Jika kunci tidak ditentukan, data akan dienkripsi dalam penyimpanan menggunakan Google-owned and Google-managed encryption key.
  Contoh: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME
Metode HTTP dan URL:
```
POST https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches
```
Meminta isi JSON:
```
{
  "environmentConfig": {
    "executionConfig": {
      "subnetworkUri": "SUBNET",
      "kmsKey": "KMS_KEY",
      "serviceAccount": "SERVICE_ACCOUNT"
    }
  },
  "labels": {
    "LABEL": "LABEL_VALUE"
  },
  "runtimeConfig": {
    "version": "1.2",
    "properties": {
      "PROPERTY": "PROPERTY_VALUE"
    }
  },
  "sparkBatch": {
    "mainClass": "com.google.cloud.dataproc.templates.main.DataProcTemplate",
    "args": [
      "--template","JDBCTOSPANNER",
      "--templateProperty","log.level=LOG_LEVEL",
      "--templateProperty","project.id=PROJECT_ID",
      "--templateProperty","jdbctospanner.jdbc.url=JDBC_CONNECTION_URL",
      "--templateProperty","jdbctospanner.jdbc.driver.class.name=DRIVER",
      "--templateProperty","jdbctospanner.jdbc.fetchsize=FETCHSIZE",
      "--templateProperty","jdbctospanner.jdbc.sessioninitstatement=JDBC_SESSION_INIT",
      "--templateProperty","jdbctospanner.sql=QUERY",
      "--templateProperty","jdbctospanner.sql.file=QUERY_FILE",
      "--templateProperty","jdbctospanner.sql.numPartitions=NUM_PARTITIONS",
      "--templateProperty","jdbctospanner.sql.partitionColumn=INPUT_PARTITION_COLUMN",
      "--templateProperty","jdbctospanner.sql.lowerBound=LOWERBOUND",
      "--templateProperty","jdbctospanner.sql.upperBound=UPPERBOUND",
      "--templateProperty","jdbctospanner.output.instance=INSTANCE",
      "--templateProperty","jdbctospanner.output.database=SPANNER_DATABASE",
      "--templateProperty","jdbctospanner.output.table=TABLE",
      "--templateProperty","jdbctospanner.output.saveMode=MODE",
      "--templateProperty","jdbctospanner.output.primaryKey=PRIMARY_KEY",
      "--templateProperty","jdbctospanner.output.batch.size=BATCHSIZE",
      "--templateProperty","jdbctospanner.temp.table=TEMPVIEW",
      "--templateProperty","jdbctospanner.temp.query=SQL_QUERY",
      "--templateProperty spanner.jdbc.dialect=SPANNER_JDBC_DIALECT"
    ],
    "jarFileUris": [
      "gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar"
    ]
  }
}
```
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
curl (Linux, macOS, atau Cloud Shell)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login , atau dengan menggunakan Cloud Shell, yang secara otomatis membuat Anda login ke gcloud CLI . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:
```
curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches"
```
PowerShell (Windows)

Catatan: Perintah berikut mengasumsikan bahwa Anda telah login ke gcloud CLI menggunakan akun pengguna Anda dengan menjalankan gcloud init atau gcloud auth login . Anda dapat memeriksa akun yang saat ini aktif dengan menjalankan gcloud auth list.

Simpan isi permintaan dalam file bernama request.json, dan jalankan perintah berikut:
```
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches" | Select-Object -Expand Content
```
Anda akan menerima respons JSON yang mirip dengan yang berikut ini:
```
{
  "name": "projects/PROJECT_ID/regions/REGION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata",
    "batch": "projects/PROJECT_ID/locations/REGION/batches/BATCH_ID",
    "batchUuid": "de8af8d4-3599-4a7c-915c-798201ed1583",
    "createTime": "2023-02-24T03:31:03.440329Z",
    "operationType": "BATCH",
    "description": "Batch"
  }
}
```

Template JDBC ke Cloud Spanner

Menggunakan template

gcloud

Linux, macOS, atau Cloud Shell

Windows (PowerShell)

Windows (cmd.exe)

REST

curl (Linux, macOS, atau Cloud Shell)

PowerShell (Windows)