Cloud Storage to JDBC 템플릿

서버리스 Dataproc Cloud Storage to JDBC 템플릿을 사용하여 Cloud Storage에서 JDBC 데이터베이스로 데이터를 추출하세요.

템플릿 사용하기

gcloud CLI 또는 Dataproc API를 사용해서 템플릿을 실행합니다.

gcloud

아래의 명령어 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: (필수사항) IAM 설정에 나열된 Google Cloud 프로젝트 ID입니다.
REGION: (필수사항) Compute Engine 리전입니다.
SUBNET: (선택사항) 서브넷이 지정되지 않은 경우 default 네트워크의 지정된 리전에 있는 서브넷이 선택됩니다.
예시: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

JDBC_CONNECTOR_CLOUD_STORAGE_PATH: (필수사항) JDBC 커넥터 jar이 저장되는 파일 이름이 포함된 전체 Cloud Storage 경로입니다. 다음 명령어를 사용해서 Cloud Storage에 업로드할 JDBC 커넥터를 다운로드할 수 있습니다.

MySQL:

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

Postgres SQL:

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server:

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle:

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

CLOUD_STORAGE_PATH: (필수사항) 입력 파일이 저장되는 Cloud Storage 경로입니다.
예시: gs://dataproc-templates/cloud_storage_to_jdbc_input
FORMAT: (필수사항) 출력 데이터 형식입니다. 옵션은 avro, parquet, csv, orc입니다. 기본값은 avro입니다. 참고: avro의 경우 'file:///usr/lib/spark/connector/spark-avro.jar'을 jars gcloud CLI 플래그 또는 API 필드에 추가해야 합니다.
예시(file:// 접두사는 Dataproc Serverless jar 파일을 참조):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [, ... 기타 jar]
MODE: (선택사항) Cloud Storage 출력의 쓰기 모드입니다. 옵션: Append, Overwrite, Ignore, ErrorIfExists. 기본값은 ErrorIfExists입니다.

다음 변수는 필요한 JDBC_CONNECTION_URL을 구성하는 데 사용됩니다.

JDBC_HOST
JDBC_PORT
JDBC_DATABASE, 또는 JDBC_SERVICE(Oracle)
JDBC_USERNAME
JDBC_PASSWORD

다음 커넥터별 형식 중 하나를 사용하여 JDBC_CONNECTION_URL을 구성하세요.

MySQL:

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Postgres SQL:

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server:

jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle:

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=

JDBC_TABLE: (필수사항) 출력을 작성할 테이블 이름입니다.

DRIVER: (필수사항) 연결에 사용되는 JDBC 드라이버입니다.

MySQL:
```
com.mysql.cj.jdbc.Driver
        
```
Postgres SQL:
```
org.postgresql.Driver
        
```

Microsoft SQL Server:

  
com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle:

oracle.jdbc.driver.OracleDriver

TEMPLATE_VERSION: (필수사항) 최신 템플릿 버전 또는 특정 버전의 날짜로 latest를 지정합니다(예시: 2023-03-17_v0.1.0-beta). 사용 가능한 템플릿 버전을 나열하려면 gs://dataproc-templates-binaries를 방문하거나 gcloud storage ls gs://dataproc-templates-binaries를 실행하세요.
LOG_LEVEL: (선택사항) 로깅 수준입니다. ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE, WARN 중 하나일 수 있습니다. 기본값은 INFO입니다.
NUM_PARTITIONS: (선택사항) 테이블 쓰기 동시 로드에 사용할 수 있는 최대 파티션 수입니다. 이 값을 지정하면 JDBC 출력 연결에 사용됩니다. 기본값은 Spark read()에서 설정한 초기 파티션입니다.
BATCH_SIZE: (선택사항) 왕복당 삽입할 레코드 수입니다. 기본값: 1000
SERVICE_ACCOUNT: (선택사항) 입력하지 않으면 기본 Compute Engine 서비스 계정이 사용됩니다.
PROPERTY 및 PROPERTY_VALUE: (선택사항) Spark 속성=value 쌍의 쉼표로 구분된 목록입니다.
LABEL 및 LABEL_VALUE: (선택사항) label=value 쌍의 쉼표로 구분된 목록입니다.
KMS_KEY: (선택사항) 암호화에 사용할 Cloud Key Management Service 키입니다. 키를 지정하지 않으면 Google 소유 및 Google 관리 키를 사용하여 데이터가 저장 상태에서 암호화됩니다.
예시: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

다음 명령어를 실행합니다.

Linux, macOS 또는 Cloud Shell

gcloud dataproc batches submit spark \
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate \
    --project="PROJECT_ID" \
    --region="REGION" \
    --version="1.2" \
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" \
    --subnet="SUBNET" \
    --kms-key="KMS_KEY" \
    --service-account="SERVICE_ACCOUNT" \
    --properties="PROPERTY=PROPERTY_VALUE" \
    --labels="LABEL=LABEL_VALUE" \
    -- --template=GCSTOJDBC \
    --templateProperty project.id="PROJECT_ID" \
    --templateProperty log.level="LOG_LEVEL" \
    --templateProperty gcs.jdbc.input.location="CLOUD_STORAGE_PATH" \
    --templateProperty gcs.jdbc.input.format="FORMAT" \
    --templateProperty gcs.jdbc.output.saveMode="MODE" \
    --templateProperty gcs.jdbc.output.url="JDBC_CONNECTION_URL" \
    --templateProperty gcs.jdbc.output.table="JDBC_TABLE" \
    --templateProperty gcs.jdbc.output.driver="DRIVER" \
    --templateProperty gcs.jdbc.spark.partitions="NUM_PARTITIONS" \
    --templateProperty gcs.jdbc.output.batchInsertSize="BATCH_SIZE"

Windows(PowerShell)

gcloud dataproc batches submit spark `
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate `
    --project="PROJECT_ID" `
    --region="REGION" `
    --version="1.2" `
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" `
    --subnet="SUBNET" `
    --kms-key="KMS_KEY" `
    --service-account="SERVICE_ACCOUNT" `
    --properties="PROPERTY=PROPERTY_VALUE" `
    --labels="LABEL=LABEL_VALUE" `
    -- --template=GCSTOJDBC `
    --templateProperty project.id="PROJECT_ID" `
    --templateProperty log.level="LOG_LEVEL" `
    --templateProperty gcs.jdbc.input.location="CLOUD_STORAGE_PATH" `
    --templateProperty gcs.jdbc.input.format="FORMAT" `
    --templateProperty gcs.jdbc.output.saveMode="MODE" `
    --templateProperty gcs.jdbc.output.url="JDBC_CONNECTION_URL" `
    --templateProperty gcs.jdbc.output.table="JDBC_TABLE" `
    --templateProperty gcs.jdbc.output.driver="DRIVER" `
    --templateProperty gcs.jdbc.spark.partitions="NUM_PARTITIONS" `
    --templateProperty gcs.jdbc.output.batchInsertSize="BATCH_SIZE"

Windows(cmd.exe)

gcloud dataproc batches submit spark ^
    --class=com.google.cloud.dataproc.templates.main.DataProcTemplate ^
    --project="PROJECT_ID" ^
    --region="REGION" ^
    --version="1.2" ^
    --jars="gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar,JDBC_CONNECTOR_CLOUD_STORAGE_PATH" ^
    --subnet="SUBNET" ^
    --kms-key="KMS_KEY" ^
    --service-account="SERVICE_ACCOUNT" ^
    --properties="PROPERTY=PROPERTY_VALUE" ^
    --labels="LABEL=LABEL_VALUE" ^
    -- --template=GCSTOJDBC ^
    --templateProperty project.id="PROJECT_ID" ^
    --templateProperty log.level="LOG_LEVEL" ^
    --templateProperty gcs.jdbc.input.location="CLOUD_STORAGE_PATH" ^
    --templateProperty gcs.jdbc.input.format="FORMAT" ^
    --templateProperty gcs.jdbc.output.saveMode="MODE" ^
    --templateProperty gcs.jdbc.output.url="JDBC_CONNECTION_URL" ^
    --templateProperty gcs.jdbc.output.table="JDBC_TABLE" ^
    --templateProperty gcs.jdbc.output.driver="DRIVER" ^
    --templateProperty gcs.jdbc.spark.partitions="NUM_PARTITIONS" ^
    --templateProperty gcs.jdbc.output.batchInsertSize="BATCH_SIZE"

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: (필수사항) IAM 설정에 나열된 Google Cloud 프로젝트 ID입니다.
REGION: (필수사항) Compute Engine 리전입니다.
SUBNET: (선택사항) 서브넷이 지정되지 않은 경우 default 네트워크의 지정된 리전에 있는 서브넷이 선택됩니다.
예시: projects/PROJECT_ID/regions/REGION/subnetworks/SUBNET_NAME

MySQL:

wget http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.30.tar.gz

Postgres SQL:

wget https://jdbc.postgresql.org/download/postgresql-42.2.6.jar

Microsoft SQL Server:

  
wget https://repo1.maven.org/maven2/com/microsoft/sqlserver/mssql-jdbc/6.4.0.jre8/mssql-jdbc-6.4.0.jre8.jar

Oracle:

wget https://repo1.maven.org/maven2/com/oracle/database/jdbc/ojdbc8/21.7.0.0/ojdbc8-21.7.0.0.jar

CLOUD_STORAGE_PATH: (필수사항) 입력 파일이 저장되는 Cloud Storage 경로입니다.
예시: gs://dataproc-templates/cloud_storage_to_jdbc_input
FORMAT: (필수사항) 출력 데이터 형식입니다. 옵션은 avro, parquet, csv, orc입니다. 기본값은 avro입니다. 참고: avro의 경우 'file:///usr/lib/spark/connector/spark-avro.jar'을 jars gcloud CLI 플래그 또는 API 필드에 추가해야 합니다.
예시(file:// 접두사는 Dataproc Serverless jar 파일을 참조):
--jars=file:///usr/lib/spark/connector/spark-avro.jar, [, ... 기타 jar]
MODE: (선택사항) Cloud Storage 출력의 쓰기 모드입니다. 옵션: Append, Overwrite, Ignore, ErrorIfExists. 기본값은 ErrorIfExists입니다.

다음 변수는 필요한 JDBC_CONNECTION_URL을 구성하는 데 사용됩니다.

JDBC_HOST
JDBC_PORT
JDBC_DATABASE, 또는 JDBC_SERVICE(Oracle)
JDBC_USERNAME
JDBC_PASSWORD

다음 커넥터별 형식 중 하나를 사용하여 JDBC_CONNECTION_URL을 구성하세요.

MySQL:

jdbc:mysql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Postgres SQL:

jdbc:postgresql://JDBC_HOST:JDBC_PORT/JDBC_DATABASE?user=JDBC_USERNAME&password=JDBC_PASSWORD

Microsoft SQL Server:

jdbc:sqlserver://JDBC_HOST:JDBC_PORT;databaseName=JDBC_DATABASE;user=JDBC_USERNAME;password=JDBC_PASSWORD

Oracle:

jdbc:oracle:thin:@//JDBC_HOST:JDBC_PORT/JDBC_SERVICE?user=JDBC_USERNAME&password=

JDBC_TABLE: (필수사항) 출력을 작성할 테이블 이름입니다.

DRIVER: (필수사항) 연결에 사용되는 JDBC 드라이버입니다.

MySQL:
```
com.mysql.cj.jdbc.Driver
        
```
Postgres SQL:
```
org.postgresql.Driver
        
```

Microsoft SQL Server:

  
com.microsoft.sqlserver.jdbc.SQLServerDriver

Oracle:

oracle.jdbc.driver.OracleDriver

TEMPLATE_VERSION: (필수사항) 최신 템플릿 버전 또는 특정 버전의 날짜로 latest를 지정합니다(예시: 2023-03-17_v0.1.0-beta). 사용 가능한 템플릿 버전을 나열하려면 gs://dataproc-templates-binaries를 방문하거나 gcloud storage ls gs://dataproc-templates-binaries를 실행하세요.
LOG_LEVEL: (선택사항) 로깅 수준입니다. ALL, DEBUG, ERROR, FATAL, INFO, OFF, TRACE, WARN 중 하나일 수 있습니다. 기본값은 INFO입니다.
NUM_PARTITIONS: (선택사항) 테이블 쓰기 동시 로드에 사용할 수 있는 최대 파티션 수입니다. 이 값을 지정하면 JDBC 출력 연결에 사용됩니다. 기본값은 Spark read()에서 설정한 초기 파티션입니다.
BATCH_SIZE: (선택사항) 왕복당 삽입할 레코드 수입니다. 기본값: 1000
SERVICE_ACCOUNT: (선택사항) 입력하지 않으면 기본 Compute Engine 서비스 계정이 사용됩니다.
PROPERTY 및 PROPERTY_VALUE: (선택사항) Spark 속성=value 쌍의 쉼표로 구분된 목록입니다.
LABEL 및 LABEL_VALUE: (선택사항) label=value 쌍의 쉼표로 구분된 목록입니다.
KMS_KEY: (선택사항) 암호화에 사용할 Cloud Key Management Service 키입니다. 키를 지정하지 않으면 Google 소유 및 Google 관리 키를 사용하여 데이터가 저장 상태에서 암호화됩니다.
예시: projects/PROJECT_ID/regions/REGION/keyRings/KEY_RING_NAME/cryptoKeys/KEY_NAME

HTTP 메서드 및 URL:

POST https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches

JSON 요청 본문:


{
  "environmentConfig": {
    "executionConfig": {
      "subnetworkUri": "SUBNET",
      "kmsKey": "KMS_KEY",
      "serviceAccount": "SERVICE_ACCOUNT"
    }
  },
  "labels": {
    "LABEL": "LABEL_VALUE"
  },
  "runtimeConfig": {
    "version": "1.2",
    "properties": {
      "PROPERTY": "PROPERTY_VALUE"
    }
  },
  "sparkBatch": {
    "mainClass": "com.google.cloud.dataproc.templates.main.DataProcTemplate",
    "args": [
      "--template=GCSTOJDBC",
      "--templateProperty","project.id=PROJECT_ID",
      "--templateProperty","log.level=LOG_LEVEL",
      "--templateProperty","gcs.jdbc.input.location=CLOUD_STORAGE_PATH",
      "--templateProperty","gcs.jdbc.input.format=FORMAT",
      "--templateProperty","gcs.jdbc.output.saveMode=MODE",
      "--templateProperty","gcs.jdbc.output.url=JDBC_CONNECTION_URL",
      "--templateProperty","gcs.jdbc.output.table=JDBC_TABLE",
      "--templateProperty","gcs.jdbc.output.driver=DRIVER",
      "--templateProperty","gcs.jdbc.spark.partitions=NUM_PARTITIONS",
      "--templateProperty","gcs.jdbc.output.batchInsertSize=BATCH_SIZE"
    ],
    "jarFileUris": [
      "gs://dataproc-templates-binaries/TEMPLATE_VERSION/java/dataproc-templates.jar", "JDBC_CONNECTOR_CLOUD_STORAGE_PATH"
    ]
  }
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches"

PowerShell(Windows)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://dataproc.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/batches" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.


{
  "name": "projects/PROJECT_ID/regions/REGION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata",
    "batch": "projects/PROJECT_ID/locations/REGION/batches/BATCH_ID",
    "batchUuid": "de8af8d4-3599-4a7c-915c-798201ed1583",
    "createTime": "2023-02-24T03:31:03.440329Z",
    "operationType": "BATCH",
    "description": "Batch"
  }
}