此页面由 Cloud Translation API 翻译。

JDBC to Cloud Storage 模板

使用“Serverless for Apache Spark JDBC to Cloud Storage”模板将数据从 JDBC 数据库提取到 Cloud Storage。

此模板支持以下数据库作为输入：

MySQL
PostgreSQL
Microsoft SQL Server
Oracle

使用模板

使用 gcloud CLI 或 Dataproc API 运行模板。

gcloud

在使用下面的命令数据之前，请先进行以下替换：

PROJECT_ID：必填。IAM 设置中列出的 Google Cloud 项目 ID。
REGION：必填。Compute Engine 区域。
SUBNET：可选。如果未指定子网，系统会选择 default 网络中指定区域的子网。
示例： projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

JDBC_CONNECTOR_CLOUD_STORAGE_PATH：必填。存储 JDBC 连接器 JAR 的完整 Cloud Storage 路径，包括文件名。您可以使用以下命令下载 JDBC 连接器，以便上传到 Cloud Storage：

MySQL：

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

Postgres SQL：

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server：

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle：

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

以下变量用于构建所需的 JDBC_CONNECTION_URL：

JDBC_HOST
JDBC_PORT
JDBC_DATABASE，或者，对于 Oracle，为 JDBC_SERVICE
JDBC_USERNAME
JDBC_PASSWORD

使用以下任一连接器专用格式构建 JDBC_CONNECTION_URL：

MySQL：

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Postgres SQL：

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server：

 
jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle：

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=

DRIVER：必填。用于连接的 JDBC 驱动程序：

MySQL：
```
com.mysql.cj.jdbc.Driver
        
```
Postgres SQL：
```
org.postgresql.Driver
        
```

Microsoft SQL Server：

  
com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle：

oracle.jdbc.driver.OracleDriver

FORMAT：必填。输出数据格式。选项：avro、parquet、csv 或 json。默认值：avro。注意：如果值为 avro，您必须将“file:///usr/lib/spark/connector/spark-avro.jar”添加到 jars gcloud CLI 标志或 API 字段中。
示例（file:// 前缀引用的是 Serverless for Apache Spark JAR 文件）：
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [, ... 其他 jar]
MODE：必填。Cloud Storage 输出的写入模式。选项：append、overwrite、ignore 或 errorifexists。
TEMPLATE_VERSION：必填。指定 latest 表示最新模板版本，或指定特定版本的日期，例如 2023-03-17_v0.1.0-beta（访问 gs://dataproc-templates-binaries 或运行 gcloud storage ls gs://dataproc-templates-binaries 以列出可用的模板版本）。
CLOUD_STORAGE_OUTPUT_PATH：必填。将存储输出的 Cloud Storage 路径。
示例： gs://dataproc-templates/jdbc_to_cloud_storage_output
LOG_LEVEL：可选。日志记录级别。可以是 ALL、DEBUG、ERROR、FATAL、INFO、OFF、TRACE 或 WARN。默认值：INFO。
INPUT_PARTITION_COLUMN、 LOWERBOUND、 UPPERBOUND、 NUM_PARTITIONS：可选。如果使用，则必须指定以下所有参数：
- INPUT_PARTITION_COLUMN：JDBC 输入表分区列名称。
- LOWERBOUND：用于确定分区步长的 JDBC 输入表分区列下限。
- UPPERBOUND：用于确定分区步长的 JDBC 输入表分区列上限。
- NUM_PARTITIONS:：可用于并行处理表读取和写入的最大分区数。如果指定，此值将用于 JDBC 输入和输出连接。默认值：10。
OUTPUT_PARTITION_COLUMN：可选。输出分区列名称。
FETCHSIZE：可选。每次往返要提取的行数。默认值：10。
QUERY 或 QUERY_FILE：必需。设置 QUERY 或 QUERY_FILE 以指定用于从 JDBC 提取数据的查询
TEMP_VIEW 和 TEMP_QUERY：可选。您可以使用这两个可选参数在将数据加载到 Cloud Storage 时应用 Spark SQL 转换。 TEMPVIEW 必须与查询中使用的表名称相同，而 TEMP_QUERY 是查询语句。
SERVICE_ACCOUNT：可选。如果未提供，则使用默认 Compute Engine 服务账号。
PROPERTY 和 PROPERTY_VALUE：可选。以英文逗号分隔的 Spark 属性=value 对列表。
LABEL 和 LABEL_VALUE：可选。以英文逗号分隔的 label=value 对列表。
JDBC_SESSION_INIT：可选。用于读取 Java 模板的会话初始化语句。
KMS_KEY：可选。用于加密的 Cloud Key Management Service 密钥。如果未指定密钥，系统会使用 Google-owned and Google-managed encryption key对静态数据进行加密。
示例： projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

执行以下命令：

Linux、macOS 或 Cloud Shell

gcloud dataproc batches submit spark \
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate \
    --project="PROJECT_ID" \
    --region="REGION" \
    --version="1.2" \
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" \
    --subnet="SUBNET" \
    --kms-key="KMS_KEY" \
    --service-account="SERVICE_ACCOUNT" \
    --properties="PROPERTY=PROPERTY_VALUE" \
    --labels="LABEL=LABEL_VALUE" \
    -- --template=JDBCTOGCS \
    --templateProperty project.id="PROJECT_ID" \
    --templateProperty log.level="LOG_LEVEL" \
    --templateProperty jdbctogcs.jdbc.url="JDBC_CONNECTION_URL" \
    --templateProperty jdbctogcs.jdbc.driver.class.name="DRIVER" \
    --templateProperty jdbctogcs.output.format="FORMAT" \
    --templateProperty jdbctogcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" \
    --templateProperty jdbctogcs.sql="QUERY" \
    --templateProperty jdbctogcs.sql.file="QUERY_FILE" \
    --templateProperty jdbctogcs.sql.partitionColumn="INPUT_PARTITION_COLUMN" \
    --templateProperty jdbctogcs.sql.lowerBound="LOWERBOUND" \
    --templateProperty jdbctogcs.sql.upperBound="UPPERBOUND" \
    --templateProperty jdbctogcs.jdbc.fetchsize="FETCHSIZE" \
    --templateProperty jdbctogcs.sql.numPartitions="NUM_PARTITIONS" \
    --templateProperty jdbctogcs.write.mode="MODE" \
    --templateProperty dbctogcs.output.partition.col="OUTPUT_PARTITION_COLUMN" \
    --templateProperty jdbctogcs.temp.table="TEMP_VIEW" \
    --templateProperty jdbctogcs.temp.query="TEMP_QUERY"

Windows (PowerShell)

gcloud dataproc batches submit spark `
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate `
    --project="PROJECT_ID" `
    --region="REGION" `
    --version="1.2" `
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" `
    --subnet="SUBNET" `
    --kms-key="KMS_KEY" `
    --service-account="SERVICE_ACCOUNT" `
    --properties="PROPERTY=PROPERTY_VALUE" `
    --labels="LABEL=LABEL_VALUE" `
    -- --template=JDBCTOGCS `
    --templateProperty project.id="PROJECT_ID" `
    --templateProperty log.level="LOG_LEVEL" `
    --templateProperty jdbctogcs.jdbc.url="JDBC_CONNECTION_URL" `
    --templateProperty jdbctogcs.jdbc.driver.class.name="DRIVER" `
    --templateProperty jdbctogcs.output.format="FORMAT" `
    --templateProperty jdbctogcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" `
    --templateProperty jdbctogcs.sql="QUERY" `
    --templateProperty jdbctogcs.sql.file="QUERY_FILE" `
    --templateProperty jdbctogcs.sql.partitionColumn="INPUT_PARTITION_COLUMN" `
    --templateProperty jdbctogcs.sql.lowerBound="LOWERBOUND" `
    --templateProperty jdbctogcs.sql.upperBound="UPPERBOUND" `
    --templateProperty jdbctogcs.jdbc.fetchsize="FETCHSIZE" `
    --templateProperty jdbctogcs.sql.numPartitions="NUM_PARTITIONS" `
    --templateProperty jdbctogcs.write.mode="MODE" `
    --templateProperty dbctogcs.output.partition.col="OUTPUT_PARTITION_COLUMN" `
    --templateProperty jdbctogcs.temp.table="TEMP_VIEW" `
    --templateProperty jdbctogcs.temp.query="TEMP_QUERY"

Windows (cmd.exe)

gcloud dataproc batches submit spark ^
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate ^
    --project="PROJECT_ID" ^
    --region="REGION" ^
    --version="1.2" ^
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" ^
    --subnet="SUBNET" ^
    --kms-key="KMS_KEY" ^
    --service-account="SERVICE_ACCOUNT" ^
    --properties="PROPERTY=PROPERTY_VALUE" ^
    --labels="LABEL=LABEL_VALUE" ^
    -- --template=JDBCTOGCS ^
    --templateProperty project.id="PROJECT_ID" ^
    --templateProperty log.level="LOG_LEVEL" ^
    --templateProperty jdbctogcs.jdbc.url="JDBC_CONNECTION_URL" ^
    --templateProperty jdbctogcs.jdbc.driver.class.name="DRIVER" ^
    --templateProperty jdbctogcs.output.format="FORMAT" ^
    --templateProperty jdbctogcs.output.location="CLOUD_STORAGE_OUTPUT_PATH" ^
    --templateProperty jdbctogcs.sql="QUERY" ^
    --templateProperty jdbctogcs.sql.file="QUERY_FILE" ^
    --templateProperty jdbctogcs.sql.partitionColumn="INPUT_PARTITION_COLUMN" ^
    --templateProperty jdbctogcs.sql.lowerBound="LOWERBOUND" ^
    --templateProperty jdbctogcs.sql.upperBound="UPPERBOUND" ^
    --templateProperty jdbctogcs.jdbc.fetchsize="FETCHSIZE" ^
    --templateProperty jdbctogcs.sql.numPartitions="NUM_PARTITIONS" ^
    --templateProperty jdbctogcs.write.mode="MODE" ^
    --templateProperty dbctogcs.output.partition.col="OUTPUT_PARTITION_COLUMN" ^
    --templateProperty jdbctogcs.temp.table="TEMP_VIEW" ^
    --templateProperty jdbctogcs.temp.query="TEMP_QUERY"

REST

在使用任何请求数据之前，请先进行以下替换：

PROJECT_ID：必填。IAM 设置中列出的 Google Cloud 项目 ID。
REGION：必填。Compute Engine 区域。
SUBNET：可选。如果未指定子网，系统会选择 default 网络中指定区域的子网。
示例： projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

MySQL：

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

Postgres SQL：

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server：

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle：

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

以下变量用于构建所需的 JDBC_CONNECTION_URL：

JDBC_HOST
JDBC_PORT
JDBC_DATABASE，或者，对于 Oracle，为 JDBC_SERVICE
JDBC_USERNAME
JDBC_PASSWORD

使用以下任一连接器专用格式构建 JDBC_CONNECTION_URL：

MySQL：

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Postgres SQL：

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server：

 
jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle：

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=

DRIVER：必填。用于连接的 JDBC 驱动程序：

MySQL：
```
com.mysql.cj.jdbc.Driver
        
```
Postgres SQL：
```
org.postgresql.Driver
        
```

Microsoft SQL Server：

  
com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle：

oracle.jdbc.driver.OracleDriver

FORMAT：必填。输出数据格式。选项：avro、parquet、csv 或 json。默认值：avro。注意：如果值为 avro，您必须将“file:///usr/lib/spark/connector/spark-avro.jar”添加到 jars gcloud CLI 标志或 API 字段中。
示例（file:// 前缀引用的是 Serverless for Apache Spark JAR 文件）：
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [, ... 其他 jar]
MODE：必填。Cloud Storage 输出的写入模式。选项：append、overwrite、ignore 或 errorifexists。
TEMPLATE_VERSION：必填。指定 latest 表示最新模板版本，或指定特定版本的日期，例如 2023-03-17_v0.1.0-beta（访问 gs://dataproc-templates-binaries 或运行 gcloud storage ls gs://dataproc-templates-binaries 以列出可用的模板版本）。
CLOUD_STORAGE_OUTPUT_PATH：必填。将存储输出的 Cloud Storage 路径。
示例： gs://dataproc-templates/jdbc_to_cloud_storage_output
LOG_LEVEL：可选。日志记录级别。可以是 ALL、DEBUG、ERROR、FATAL、INFO、OFF、TRACE 或 WARN。默认值：INFO。
INPUT_PARTITION_COLUMN、 LOWERBOUND、 UPPERBOUND、 NUM_PARTITIONS：可选。如果使用，则必须指定以下所有参数：
- INPUT_PARTITION_COLUMN：JDBC 输入表分区列名称。
- LOWERBOUND：用于确定分区步长的 JDBC 输入表分区列下限。
- UPPERBOUND：用于确定分区步长的 JDBC 输入表分区列上限。
- NUM_PARTITIONS:：可用于并行处理表读取和写入的最大分区数。如果指定，此值将用于 JDBC 输入和输出连接。默认值：10。
OUTPUT_PARTITION_COLUMN：可选。输出分区列名称。
FETCHSIZE：可选。每次往返要提取的行数。默认值：10。
QUERY 或 QUERY_FILE：必需。设置 QUERY 或 QUERY_FILE 以指定用于从 JDBC 提取数据的查询
TEMP_VIEW 和 TEMP_QUERY：可选。您可以使用这两个可选参数在将数据加载到 Cloud Storage 时应用 Spark SQL 转换。 TEMPVIEW 必须与查询中使用的表名称相同，而 TEMP_QUERY 是查询语句。
SERVICE_ACCOUNT：可选。如果未提供，则使用默认 Compute Engine 服务账号。
PROPERTY 和 PROPERTY_VALUE：可选。以英文逗号分隔的 Spark 属性=value 对列表。
LABEL 和 LABEL_VALUE：可选。以英文逗号分隔的 label=value 对列表。
JDBC_SESSION_INIT：可选。用于读取 Java 模板的会话初始化语句。
KMS_KEY：可选。用于加密的 Cloud Key Management Service 密钥。如果未指定密钥，系统会使用 Google-owned and Google-managed encryption key对静态数据进行加密。
示例： projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

HTTP 方法和网址：

POST https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches

请求 JSON 正文：


{
  "environmentConfig": {
    "executionConfig": {
      "subnetworkUri": "SUBNET",
      "kmsKey": "KMS_KEY",
      "serviceAccount": "SERVICE_ACCOUNT"
    }
  },
  "labels": {
    "LABEL": "LABEL_VALUE"
  },
  "runtimeConfig": {
    "version": "1.2",
    "properties": {
      "PROPERTY": "PROPERTY_VALUE"
    }
  },
  "sparkBatch": {
    "mainClass": "com.google.cloud.dataproc.templates.main.DataProcTemplate",
    "args": [
      "--template=JDBCTOGCS",
      "--templateProperty","log.level=LOG_LEVEL",
      "--templateProperty","project.id=PROJECT_ID",
      "--templateProperty","jdbctogcs.jdbc.url=JDBC_CONNECTION_URL",
      "--templateProperty","jdbctogcs.jdbc.driver.class.name=DRIVER",
      "--templateProperty","jdbctogcs.output.location=CLOUD_STORAGE_OUTPUT_PATH",
      "--templateProperty","jdbctogcs.write.mode=MODE",
      "--templateProperty","jdbctogcs.output.format=FORMAT",
      "--templateProperty","jdbctogcs.sql.numPartitions=NUM_PARTITIONS",
      "--templateProperty","jdbctogcs.jdbc.fetchsize=FETCHSIZE",
      "--templateProperty","jdbctogcs.sql=QUERY",
      "--templateProperty","jdbctogcs.sql.file=QUERY_FILE",
      "--templateProperty","jdbctogcs.sql.partitionColumn=INPUT_PARTITION_COLUMN",
      "--templateProperty","jdbctogcs.sql.lowerBound=LOWERBOUND",
      "--templateProperty","jdbctogcs.sql.upperBound=UPPERBOUND",
      "--templateProperty","jdbctogcs.output.partition.col=OUTPUT_PARTITION_COLUMN",
      "--templateProperty","jdbctogcs.temp.table=TEMP_VIEW",
      "--templateProperty","jdbctogcs.temp.query=TEMP_QUERY",
      "--templateProperty","jdbctogcs.jdbc.sessioninitstatement=JDBC_SESSION_INIT"
    ],
    "jarFileUris": [
      "gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar", "JDBC_CONNECTOR_CLOUD_STORAGE_PATH"
    ]
  }
}

如需发送您的请求，请展开以下选项之一：

curl（Linux、macOS 或 Cloud Shell）

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI，或者使用了 Cloud Shell，这会使您自动登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches"

PowerShell (Windows)

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches" | Select-Object -Expand Content

您应该收到类似以下内容的 JSON 响应：


{
  "name": "projects/PROJECT_ID/regions/REGION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata",
    "batch": "projects/PROJECT_ID/locations/REGION/batches/BATCH_ID",
    "batchUuid": "de8af8d4-3599-4a7c-915c-798201ed1583",
    "createTime": "2023-02-24T03:31:03.440329Z",
    "operationType": "BATCH",
    "description": "Batch"
  }
}