此页面由 Cloud Translation API 翻译。

JDBC to Cloud Spanner 模板

使用“Serverless for Apache Spark JDBC to Spanner”模板将数据从 JDBC 数据库提取到 Spanner。

此模板支持以下数据库作为输入：

MySQL
PostgreSQL
Microsoft SQL Server
Oracle

使用模板

使用 gcloud CLI 或 Dataproc API 运行模板。

gcloud

在使用下面的命令数据之前，请先进行以下替换：

PROJECT_ID：必填。IAM 设置中列出的 Google Cloud 项目 ID。
REGION：必填。Compute Engine 区域。
TEMPLATE_VERSION：必填。指定 latest 表示最新模板版本，或指定特定版本的日期，例如 2023-03-17_v0.1.0-beta（访问 gs://dataproc-templates-binaries 或运行 gcloud storage ls gs://dataproc-templates-binaries 以列出可用的模板版本）。
SUBNET：可选。如果未指定子网，系统会选择 default 网络中指定区域的子网。
示例： projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

JDBC_CONNECTOR_CLOUD_STORAGE_PATH：必填。存储 JDBC 连接器 JAR 的完整 Cloud Storage 路径，包括文件名。您可以使用以下命令下载 JDBC 连接器，以便上传到 Cloud Storage：

MySQL：

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

Postgres SQL：

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server：

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle：

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

以下变量用于构建所需的 JDBC_CONNECTION_URL：

JDBC_HOST、JDBC_PORT、JDBC_DATABASE，或者对于 Oracle，JDBC_SERVICE、JDBC_USERNAME 和 JDBC_PASSWORD：必需。 JDBC 主机、端口、数据库、用户名和密码。

MySQL：

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

PostgreSQL：

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server：

jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle：

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=JDBC_PASSWORD

DRIVER：必填。将用于连接的 JDBC 驱动程序：

MySQL：
```
com.mysql.cj.jdbc.Driver
```
Postgres SQL：
```
org.postgresql.Driver
```

Microsoft SQL Server：

  com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle：
```
oracle.jdbc.driver.OracleDriver
```

QUERY 或 QUERY_FILE：必需。设置 QUERY 或 QUERY_FILE 以指定用于从 JDBC 提取数据的查询
INPUT_PARTITION_COLUMN、 LOWERBOUND、 UPPERBOUND、 NUM_PARTITIONS：可选。如果使用，则必须指定以下所有参数：
- INPUT_PARTITION_COLUMN：JDBC 输入表分区列名称。
- LOWERBOUND：用于确定分区步长的 JDBC 输入表分区列下限。
- UPPERBOUND：用于确定分区步长的 JDBC 输入表分区列上限。
- NUM_PARTITIONS:：可用于并行处理表读取和写入的最大分区数。如果指定，此值将用于 JDBC 输入和输出连接。默认值：10。
FETCHSIZE：可选。每次往返要提取的行数。默认值：10。
JDBC_SESSION_INIT：可选。用于读取 Java 模板的会话初始化语句。
TEMPVIEW 和 SQL_QUERY：可选。您可以使用这两个可选参数在将数据加载到 Spanner 时应用 Spark SQL 转换。其中，TEMPVIEW 是临时视图名称，SQL_QUERY 是查询语句。TEMPVIEW 和 SQL_QUERY 中的表名称必须一致。
INSTANCE：必填。Spanner 实例 ID。
SPANNER_DATABASE：必填。Spanner 数据库 ID。
TABLE：必填。Spanner 输出表名称。
SPANNER_JDBC_DIALECT：必填。Spanner JDBC 方言。选项：googlesql 或 postgresql。默认值为 googlesql。
MODE：可选。Spanner 输出的写入模式。选项：Append、Overwrite、Ignore 或 ErrorIfExists。默认值为 ErrorIfExists。
PRIMARY_KEY：必填。创建 Spanner 输出表时所需的主键列（以英文逗号分隔）。
SERVICE_ACCOUNT：可选。如果未提供，则使用默认 Compute Engine 服务账号。
PROPERTY 和 PROPERTY_VALUE：可选。以英文逗号分隔的 Spark 属性=value 对列表。
LABEL 和 LABEL_VALUE：可选。以英文逗号分隔的 label=value 对列表。
LOG_LEVEL：可选。日志记录级别。可以是 ALL、DEBUG、ERROR、FATAL、INFO、OFF、TRACE 或 WARN。默认值：INFO。
KMS_KEY：可选。用于加密的 Cloud Key Management Service 密钥。如果未指定密钥，系统会使用 Google-owned and Google-managed encryption key对静态数据进行加密。
示例： projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

执行以下命令：

Linux、macOS 或 Cloud Shell

gcloud dataproc batches submit spark \
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate \
    --version="1.2" \
    --project="PROJECT_ID" \
    --region="REGION" \
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" \
    --subnet="SUBNET" \
    --kms-key="KMS_KEY" \
    --service-account="SERVICE_ACCOUNT" \
    --properties="PROPERTY=PROPERTY_VALUE" \
    --labels="LABEL=LABEL_VALUE" \
    -- --template=JDBCTOSPANNER \
    --templateProperty log.level="LOG_LEVEL" \
    --templateProperty project.id="PROJECT_ID" \
    --templateProperty jdbctospanner.jdbc.url="JDBC_CONNECTION_URL" \
    --templateProperty jdbctospanner.jdbc.driver.class.name="DRIVER" \
    --templateProperty jdbctospanner.jdbc.fetchsize="FETCHSIZE" \
    --templateProperty jdbctospanner.jdbc.sessioninitstatement="JDBC_SESSION_INIT" \
    --templateProperty jdbctospanner.sql="QUERY" \
    --templateProperty jdbctospanner.sql.file="QUERY_FILE" \
    --templateProperty jdbctospanner.sql.numPartitions="NUM_PARTITIONS" \
    --templateProperty jdbctospanner.sql.partitionColumn="INPUT_PARTITION_COLUMN" \
    --templateProperty jdbctospanner.sql.lowerBound="LOWERBOUND" \
    --templateProperty jdbctospanner.sql.upperBound="UPPERBOUND" \
    --templateProperty jdbctospanner.output.instance="INSTANCE" \
    --templateProperty jdbctospanner.output.database="SPANNER_DATABASE" \
    --templateProperty jdbctospanner.output.table="TABLE" \
    --templateProperty jdbctospanner.output.saveMode="MODE" \
    --templateProperty jdbctospanner.output.primaryKey="PRIMARY_KEY" \
    --templateProperty jdbctospanner.output.batch.size="BATCHSIZE" \
    --templateProperty jdbctospanner.temp.table="TEMPVIEW" \
    --templateProperty jdbctospanner.temp.query="SQL_QUERY" \
    --templateProperty spanner.jdbc.dialect="SPANNER_JDBC_DIALECT"

Windows (PowerShell)

gcloud dataproc batches submit spark `
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate `
    --version="1.2" `
    --project="PROJECT_ID" `
    --region="REGION" `
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" `
    --subnet="SUBNET" `
    --kms-key="KMS_KEY" `
    --service-account="SERVICE_ACCOUNT" `
    --properties="PROPERTY=PROPERTY_VALUE" `
    --labels="LABEL=LABEL_VALUE" `
    -- --template=JDBCTOSPANNER `
    --templateProperty log.level="LOG_LEVEL" `
    --templateProperty project.id="PROJECT_ID" `
    --templateProperty jdbctospanner.jdbc.url="JDBC_CONNECTION_URL" `
    --templateProperty jdbctospanner.jdbc.driver.class.name="DRIVER" `
    --templateProperty jdbctospanner.jdbc.fetchsize="FETCHSIZE" `
    --templateProperty jdbctospanner.jdbc.sessioninitstatement="JDBC_SESSION_INIT" `
    --templateProperty jdbctospanner.sql="QUERY" `
    --templateProperty jdbctospanner.sql.file="QUERY_FILE" `
    --templateProperty jdbctospanner.sql.numPartitions="NUM_PARTITIONS" `
    --templateProperty jdbctospanner.sql.partitionColumn="INPUT_PARTITION_COLUMN" `
    --templateProperty jdbctospanner.sql.lowerBound="LOWERBOUND" `
    --templateProperty jdbctospanner.sql.upperBound="UPPERBOUND" `
    --templateProperty jdbctospanner.output.instance="INSTANCE" `
    --templateProperty jdbctospanner.output.database="SPANNER_DATABASE" `
    --templateProperty jdbctospanner.output.table="TABLE" `
    --templateProperty jdbctospanner.output.saveMode="MODE" `
    --templateProperty jdbctospanner.output.primaryKey="PRIMARY_KEY" `
    --templateProperty jdbctospanner.output.batch.size="BATCHSIZE" `
    --templateProperty jdbctospanner.temp.table="TEMPVIEW" `
    --templateProperty jdbctospanner.temp.query="SQL_QUERY" `
    --templateProperty spanner.jdbc.dialect="SPANNER_JDBC_DIALECT"

Windows (cmd.exe)

gcloud dataproc batches submit spark ^
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate ^
    --version="1.2" ^
    --project="PROJECT_ID" ^
    --region="REGION" ^
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" ^
    --subnet="SUBNET" ^
    --kms-key="KMS_KEY" ^
    --service-account="SERVICE_ACCOUNT" ^
    --properties="PROPERTY=PROPERTY_VALUE" ^
    --labels="LABEL=LABEL_VALUE" ^
    -- --template=JDBCTOSPANNER ^
    --templateProperty log.level="LOG_LEVEL" ^
    --templateProperty project.id="PROJECT_ID" ^
    --templateProperty jdbctospanner.jdbc.url="JDBC_CONNECTION_URL" ^
    --templateProperty jdbctospanner.jdbc.driver.class.name="DRIVER" ^
    --templateProperty jdbctospanner.jdbc.fetchsize="FETCHSIZE" ^
    --templateProperty jdbctospanner.jdbc.sessioninitstatement="JDBC_SESSION_INIT" ^
    --templateProperty jdbctospanner.sql="QUERY" ^
    --templateProperty jdbctospanner.sql.file="QUERY_FILE" ^
    --templateProperty jdbctospanner.sql.numPartitions="NUM_PARTITIONS" ^
    --templateProperty jdbctospanner.sql.partitionColumn="INPUT_PARTITION_COLUMN" ^
    --templateProperty jdbctospanner.sql.lowerBound="LOWERBOUND" ^
    --templateProperty jdbctospanner.sql.upperBound="UPPERBOUND" ^
    --templateProperty jdbctospanner.output.instance="INSTANCE" ^
    --templateProperty jdbctospanner.output.database="SPANNER_DATABASE" ^
    --templateProperty jdbctospanner.output.table="TABLE" ^
    --templateProperty jdbctospanner.output.saveMode="MODE" ^
    --templateProperty jdbctospanner.output.primaryKey="PRIMARY_KEY" ^
    --templateProperty jdbctospanner.output.batch.size="BATCHSIZE" ^
    --templateProperty jdbctospanner.temp.table="TEMPVIEW" ^
    --templateProperty jdbctospanner.temp.query="SQL_QUERY" ^
    --templateProperty spanner.jdbc.dialect="SPANNER_JDBC_DIALECT"

REST

在使用任何请求数据之前，请先进行以下替换：

PROJECT_ID：必填。IAM 设置中列出的 Google Cloud 项目 ID。
REGION：必填。Compute Engine 区域。
TEMPLATE_VERSION：必填。指定 latest 表示最新模板版本，或指定特定版本的日期，例如 2023-03-17_v0.1.0-beta（访问 gs://dataproc-templates-binaries 或运行 gcloud storage ls gs://dataproc-templates-binaries 以列出可用的模板版本）。
SUBNET：可选。如果未指定子网，系统会选择 default 网络中指定区域的子网。
示例： projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

MySQL：

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

Postgres SQL：

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server：

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle：

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

以下变量用于构建所需的 JDBC_CONNECTION_URL：

JDBC_HOST、JDBC_PORT、JDBC_DATABASE，或者对于 Oracle，JDBC_SERVICE、JDBC_USERNAME 和 JDBC_PASSWORD：必需。 JDBC 主机、端口、数据库、用户名和密码。

MySQL：

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

PostgreSQL：

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server：

jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle：

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=JDBC_PASSWORD

DRIVER：必填。将用于连接的 JDBC 驱动程序：

MySQL：
```
com.mysql.cj.jdbc.Driver
```
Postgres SQL：
```
org.postgresql.Driver
```

Microsoft SQL Server：

  com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle：
```
oracle.jdbc.driver.OracleDriver
```

QUERY 或 QUERY_FILE：必需。设置 QUERY 或 QUERY_FILE 以指定用于从 JDBC 提取数据的查询
INPUT_PARTITION_COLUMN、 LOWERBOUND、 UPPERBOUND、 NUM_PARTITIONS：可选。如果使用，则必须指定以下所有参数：
- INPUT_PARTITION_COLUMN：JDBC 输入表分区列名称。
- LOWERBOUND：用于确定分区步长的 JDBC 输入表分区列下限。
- UPPERBOUND：用于确定分区步长的 JDBC 输入表分区列上限。
- NUM_PARTITIONS:：可用于并行处理表读取和写入的最大分区数。如果指定，此值将用于 JDBC 输入和输出连接。默认值：10。
FETCHSIZE：可选。每次往返要提取的行数。默认值：10。
JDBC_SESSION_INIT：可选。用于读取 Java 模板的会话初始化语句。
TEMPVIEW 和 SQL_QUERY：可选。您可以使用这两个可选参数在将数据加载到 Spanner 时应用 Spark SQL 转换。其中，TEMPVIEW 是临时视图名称，SQL_QUERY 是查询语句。TEMPVIEW 和 SQL_QUERY 中的表名称必须一致。
INSTANCE：必填。Spanner 实例 ID。
SPANNER_DATABASE：必填。Spanner 数据库 ID。
TABLE：必填。Spanner 输出表名称。
SPANNER_JDBC_DIALECT：必填。Spanner JDBC 方言。选项：googlesql 或 postgresql。默认值为 googlesql。
MODE：可选。Spanner 输出的写入模式。选项：Append、Overwrite、Ignore 或 ErrorIfExists。默认值为 ErrorIfExists。
PRIMARY_KEY：必填。创建 Spanner 输出表时所需的主键列（以英文逗号分隔）。
SERVICE_ACCOUNT：可选。如果未提供，则使用默认 Compute Engine 服务账号。
PROPERTY 和 PROPERTY_VALUE：可选。以英文逗号分隔的 Spark 属性=value 对列表。
LABEL 和 LABEL_VALUE：可选。以英文逗号分隔的 label=value 对列表。
LOG_LEVEL：可选。日志记录级别。可以是 ALL、DEBUG、ERROR、FATAL、INFO、OFF、TRACE 或 WARN。默认值：INFO。
KMS_KEY：可选。用于加密的 Cloud Key Management Service 密钥。如果未指定密钥，系统会使用 Google-owned and Google-managed encryption key对静态数据进行加密。
示例： projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

HTTP 方法和网址：

POST https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches

请求 JSON 正文：


{
  "environmentConfig": {
    "executionConfig": {
      "subnetworkUri": "SUBNET",
      "kmsKey": "KMS_KEY",
      "serviceAccount": "SERVICE_ACCOUNT"
    }
  },
  "labels": {
    "LABEL": "LABEL_VALUE"
  },
  "runtimeConfig": {
    "version": "1.2",
    "properties": {
      "PROPERTY": "PROPERTY_VALUE"
    }
  },
  "sparkBatch": {
    "mainClass": "com.google.cloud.dataproc.templates.main.DataProcTemplate",
    "args": [
      "--template","JDBCTOSPANNER",
      "--templateProperty","log.level=LOG_LEVEL",
      "--templateProperty","project.id=PROJECT_ID",
      "--templateProperty","jdbctospanner.jdbc.url=JDBC_CONNECTION_URL",
      "--templateProperty","jdbctospanner.jdbc.driver.class.name=DRIVER",
      "--templateProperty","jdbctospanner.jdbc.fetchsize=FETCHSIZE",
      "--templateProperty","jdbctospanner.jdbc.sessioninitstatement=JDBC_SESSION_INIT",
      "--templateProperty","jdbctospanner.sql=QUERY",
      "--templateProperty","jdbctospanner.sql.file=QUERY_FILE",
      "--templateProperty","jdbctospanner.sql.numPartitions=NUM_PARTITIONS",
      "--templateProperty","jdbctospanner.sql.partitionColumn=INPUT_PARTITION_COLUMN",
      "--templateProperty","jdbctospanner.sql.lowerBound=LOWERBOUND",
      "--templateProperty","jdbctospanner.sql.upperBound=UPPERBOUND",
      "--templateProperty","jdbctospanner.output.instance=INSTANCE",
      "--templateProperty","jdbctospanner.output.database=SPANNER_DATABASE",
      "--templateProperty","jdbctospanner.output.table=TABLE",
      "--templateProperty","jdbctospanner.output.saveMode=MODE",
      "--templateProperty","jdbctospanner.output.primaryKey=PRIMARY_KEY",
      "--templateProperty","jdbctospanner.output.batch.size=BATCHSIZE",
      "--templateProperty","jdbctospanner.temp.table=TEMPVIEW",
      "--templateProperty","jdbctospanner.temp.query=SQL_QUERY",
      "--templateProperty spanner.jdbc.dialect=SPANNER_JDBC_DIALECT"
    ],
    "jarFileUris": [
      "gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar"
    ]
  }
}

如需发送您的请求，请展开以下选项之一：

curl（Linux、macOS 或 Cloud Shell）

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI，或者使用了 Cloud Shell，这会使您自动登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches"

PowerShell (Windows)

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches" | Select-Object -Expand Content

您应该收到类似以下内容的 JSON 响应：


{
  "name": "projects/PROJECT_ID/regions/REGION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata",
    "batch": "projects/PROJECT_ID/locations/REGION/batches/BATCH_ID",
    "batchUuid": "de8af8d4-3599-4a7c-915c-798201ed1583",
    "createTime": "2023-02-24T03:31:03.440329Z",
    "operationType": "BATCH",
    "description": "Batch"
  }
}