Esta página se ha traducido con Cloud Translation API.

Plantilla de Java Database Connectivity (JDBC) para BigQuery

La plantilla de JDBC a BigQuery es una canalización por lotes que copia datos de una tabla de una base de datos relacional en una tabla de BigQuery. Esta canalización usa JDBC para conectarse a la base de datos relacional. Usa esta plantilla para copiar datos de cualquier base de datos relacional con controladores JDBC disponibles en BigQuery.

Para añadir una capa de protección adicional, puedes proporcionar una clave de Cloud KMS junto con parámetros de nombre de usuario, contraseña y cadena de conexión codificados en Base64 y encriptados con la clave de Cloud KMS. Para obtener más información sobre cómo cifrar tu nombre de usuario, contraseña y parámetros de cadena de conexión, consulta el endpoint de cifrado de la API Cloud KMS.

Requisitos del flujo de procesamiento

Los controladores JDBC de la base de datos relacional deben estar disponibles.
La tabla de BigQuery debe existir antes de ejecutar el flujo de procesamiento.
La tabla de BigQuery debe tener un esquema compatible.
Se debe poder acceder a la base de datos relacional desde la subred en la que se ejecuta Dataflow.

Parámetros de plantilla

Parámetros obligatorios

driverJars lista separada por comas de archivos JAR del controlador. Por ejemplo, gs://your-bucket/driver_jar1.jar,gs://your-bucket/driver_jar2.jar.
driverClassName el nombre de la clase del controlador JDBC. Por ejemplo, com.mysql.jdbc.Driver.
connectionURL: la cadena de URL de conexión JDBC. Por ejemplo, jdbc:mysql://some-host:3306/sampledb. Puedes introducir este valor como una cadena cifrada con una clave de Cloud KMS y, a continuación, codificada en Base64. Quita los espacios de la cadena codificada en Base64. Ten en cuenta la diferencia entre una cadena de conexión de base de datos de Oracle no RAC (jdbc:oracle:thin:@some-host:<port>:<sid>) y una cadena de conexión de base de datos de Oracle RAC (jdbc:oracle:thin:@//some-host[:<port>]/<service_name>). Por ejemplo, jdbc:mysql://some-host:3306/sampledb.
outputTable la ubicación de la tabla de salida de BigQuery. Por ejemplo, <PROJECT_ID>:<DATASET_NAME>.<TABLE_NAME>.
bigQueryLoadingTemporaryDirectory directorio temporal del proceso de carga de BigQuery. Por ejemplo, gs://your-bucket/your-files/temp_dir.

Parámetros opcionales

connectionProperties la cadena de propiedades que se va a usar para la conexión JDBC. El formato de la cadena debe ser [propertyName=property;]*.Para obtener más información, consulta Configuration Properties (https://dev.mysql.com/doc/connector-j/en/connector-j-reference-configuration-properties.html) en la documentación de MySQL. Por ejemplo, unicode=true;characterEncoding=UTF-8.
username: el nombre de usuario que se usará para la conexión JDBC. Se puede enviar como una cadena cifrada con una clave de Cloud KMS o como un secreto de Secret Manager con el formato projects/{project}/secrets/{secret}/versions/{secret_version}.
password: la contraseña que se usará para la conexión JDBC. Se puede enviar como una cadena cifrada con una clave de Cloud KMS o como un secreto de Secret Manager con el formato projects/{project}/secrets/{secret}/versions/{secret_version}.
Consulta: la consulta que se va a ejecutar en la fuente para extraer los datos. Ten en cuenta que algunos tipos de JDBC SQL y BigQuery, aunque tengan el mismo nombre, presentan algunas diferencias. Estas son algunas asignaciones importantes de tipos de SQL a BigQuery que debes tener en cuenta:DATETIME --> TIMESTAMP Puede que sea necesario convertir tipos si los esquemas no coinciden. Por ejemplo, select * from sampledb.sample_table.
KMSEncryptionKey clave de encriptado de Cloud KMS que se va a usar para desencriptar el nombre de usuario, la contraseña y la cadena de conexión. Si proporcionas una clave de Cloud KMS, también debes cifrar el nombre de usuario, la contraseña y la cadena de conexión. Por ejemplo, projects/your-project/locations/global/keyRings/your-keyring/cryptoKeys/your-key.
useColumnAlias si se define como true, la canalización usa el alias de columna (AS) en lugar del nombre de columna para asignar las filas a BigQuery. El valor predeterminado es false.
isTruncate si se define como true, la canalización se trunca antes de cargar los datos en BigQuery. El valor predeterminado es false, lo que hace que la canalización añada datos.
partitionColumn si se especifica partitionColumn junto con table, JdbcIO lee la tabla en paralelo ejecutando varias instancias de la consulta en la misma tabla (subconsulta) mediante intervalos. Actualmente, admite columnas de partición Long y DateTime. Pasa el tipo de columna por partitionColumnType.
partitionColumnType el tipo de partitionColumn. Puede ser long o datetime. El valor predeterminado es "long".
table: la tabla de la que se leerá al usar particiones. Este parámetro también acepta una subconsulta entre paréntesis. Por ejemplo, (select id, name from Person) as subq.
numPartitions el número de particiones. Junto con los límites inferior y superior, este valor forma pasos de partición para las expresiones de la cláusula WHERE generadas que se usan para dividir la columna de partición de forma uniforme. Si el valor introducido es inferior a 1, el número se establece en 1.
lowerBound el límite inferior que se va a usar en el esquema de partición. Si no se proporciona, Apache Beam infiere automáticamente este valor para los tipos admitidos. datetime partitionColumnType acepta el límite inferior en el formato yyyy-MM-dd HH:mm:ss.SSSZ. Por ejemplo, 2024-02-20 07:55:45.000+03:30.
upperBound límite superior que se va a usar en el esquema de partición. Si no se proporciona, Apache Beam infiere automáticamente este valor para los tipos admitidos. datetime partitionColumnType acepta el límite superior en el formato yyyy-MM-dd HH:mm:ss.SSSZ. Por ejemplo, 2024-02-20 07:55:45.000+03:30.
fetchSize número de filas que se van a obtener de la base de datos a la vez. No se usa para lecturas particionadas. El valor predeterminado es 50.000.
createDisposition el valor de CreateDisposition de BigQuery que se va a usar. Por ejemplo, CREATE_IF_NEEDED o CREATE_NEVER. El valor predeterminado es CREATE_NEVER.
bigQuerySchemaPath la ruta de Cloud Storage del esquema JSON de BigQuery. Si createDisposition se define como CREATE_IF_NEEDED, este parámetro debe especificarse. Por ejemplo, gs://your-bucket/your-schema.json.
outputDeadletterTable la tabla de BigQuery que se va a usar para los mensajes que no se hayan podido enviar a la tabla de salida, con el formato "PROJECT_ID:DATASET_NAME.TABLE_NAME". Si la tabla no existe, se crea cuando se ejecuta la canalización. Si no se especifica este parámetro, la canalización fallará si se producen errores de escritura.Este parámetro solo se puede especificar si useStorageWriteApi o useStorageWriteApiAtLeastOnce tienen el valor "true".
disabledAlgorithms algoritmos separados por comas que se van a inhabilitar. Si se le asigna el valor none, no se inhabilita ningún algoritmo. Usa este parámetro con precaución, ya que los algoritmos inhabilitados de forma predeterminada pueden tener vulnerabilidades o problemas de rendimiento. Por ejemplo, SSLv3, RC4.
extraFilesToStage rutas de Cloud Storage o secretos de Secret Manager separados por comas de los archivos que se van a almacenar en el trabajador. Estos archivos se guardan en el directorio /extra_files de cada trabajador. Por ejemplo, gs://<BUCKET_NAME>/file.txt,projects/<PROJECT_ID>/secrets/<SECRET_ID>/versions/<VERSION_ID>.
useStorageWriteApi si es true, la canalización usa la API Storage Write de BigQuery (https://cloud.google.com/bigquery/docs/write-api). El valor predeterminado es false. Para obtener más información, consulta el artículo sobre cómo usar la API Storage Write (https://beam.apache.org/documentation/io/built-in/google-bigquery/#storage-write-api).
useStorageWriteApiAtLeastOnce cuando se usa la API Storage Write, especifica la semántica de escritura. Para usar la semántica de al menos una vez (https://beam.apache.org/documentation/io/built-in/google-bigquery/#at-least-once-semantics), asigna a este parámetro el valor true. Para usar la semántica de entrega única, asigna el valor false al parámetro. Este parámetro solo se aplica cuando useStorageWriteApi es true. El valor predeterminado es false.

Ejecutar la plantilla

Consola

Ve a la página Crear tarea a partir de plantilla de Dataflow.

Ir a Crear tarea a partir de plantilla

En el campo Nombre de la tarea, introduce un nombre único.
Opcional: En Endpoint regional, seleccione un valor en el menú desplegable. La región predeterminada es us-central1.
Para ver una lista de las regiones en las que puedes ejecutar una tarea de Dataflow, consulta Ubicaciones de Dataflow.
En el menú desplegable Plantilla de flujo de datos, seleccione the JDBC to BigQuery with BigQuery Storage API support template.
En los campos de parámetros proporcionados, introduzca los valores de los parámetros.
Haz clic en Ejecutar trabajo.

gcloud

En tu shell o terminal, ejecuta la plantilla:

gcloud dataflow flex-template run JOB_NAME \
    --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/Jdbc_to_BigQuery_Flex \
    --project=PROJECT_ID \
    --region=REGION_NAME \
    --parameters \
       driverJars=DRIVER_JARS,\
       driverClassName=DRIVER_CLASS_NAME,\
       connectionURL=CONNECTION_URL,\
       outputTable=OUTPUT_TABLE,\
       bigQueryLoadingTemporaryDirectory=BIG_QUERY_LOADING_TEMPORARY_DIRECTORY,\

Haz los cambios siguientes:

JOB_NAME: un nombre de trabajo único que elijas
VERSION: la versión de la plantilla que quieres usar
Puedes usar los siguientes valores:
- latest para usar la última versión de la plantilla, que está disponible en la carpeta principal sin fecha del contenedor: gs://dataflow-templates-REGION_NAME/latest/
- el nombre de la versión, como 2023-09-12-00_RC00, para usar una versión específica de la plantilla, que se encuentra anidada en la carpeta principal correspondiente con la fecha en el bucket: gs://dataflow-templates-REGION_NAME/
Precaución: La última versión de las plantillas puede actualizarse con cambios importantes. Tus entornos de producción deben usar plantillas que se encuentren en la carpeta principal con fecha más reciente para evitar que estos cambios afecten a tus flujos de trabajo de producción.
REGION_NAME: la región en la que quieras desplegar tu trabajo de Dataflow. Por ejemplo, us-central1
DRIVER_JARS: la ruta o las rutas de Cloud Storage separadas por comas de los controladores JDBC.
DRIVER_CLASS_NAME: nombre de la clase del controlador JDBC
CONNECTION_URL: cadena de URL de conexión JDBC.
OUTPUT_TABLE: la tabla de salida de BigQuery
BIG_QUERY_LOADING_TEMPORARY_DIRECTORY: el directorio temporal del proceso de carga de BigQuery

API

Para ejecutar la plantilla mediante la API REST, envía una solicitud HTTP POST. Para obtener más información sobre la API y sus ámbitos de autorización, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launchParameter": {
     "jobName": "JOB_NAME",
     "parameters": {
       "driverJars": "DRIVER_JARS",
       "driverClassName": "DRIVER_CLASS_NAME",
       "connectionURL": "CONNECTION_URL",
       "outputTable": "OUTPUT_TABLE",
       "bigQueryLoadingTemporaryDirectory": "BIG_QUERY_LOADING_TEMPORARY_DIRECTORY",
     },
     "containerSpecGcsPath": "gs://dataflow-templates-LOCATION/VERSION/flex/Jdbc_to_BigQuery_Flex",
     "environment": { "maxWorkers": "10" }
  }
}