Se usó la API de Cloud Translation para traducir esta página.

Procesa datos con plantillas

Dataplex proporciona plantillas, potenciadas por Dataflow, para realizar tareas comunes de procesamiento de datos, como la transferencia, el procesamiento y la administración del ciclo de vida de los datos. En esta guía, se describe cómo configurar y ejecutar plantillas de procesamiento de datos.

Antes de comenzar

Las plantillas de Dataplex se basan en Dataflow. Antes de usar plantillas, habilita las APIs de Dataflow.

Habilita las APIs de Dataflow

Ten en cuenta lo siguiente:

Todas las plantillas admiten opciones de canalización de Dataflow comunes.
Dataplex usa canalizaciones de datos para programar las tareas definidas por las plantillas.
Solo puedes ver las tareas que programas a través de Dataplex en la página Dataplex de la consola de Google Cloud.

Plantilla: Convierte datos sin procesar en datos seleccionados

La plantilla de conversión de formato de archivo de Dataplex convierte los datos de un activo de Cloud Storage de Dataplex, o una lista de entidades de Dataplex almacenadas en formatos CSV o JSON, a datos en formato Parquet o Avro en otro activo de Dataplex. El diseño de la partición se conserva en la conversión. También admite la compresión de los archivos de salida.

Parámetros de la plantilla

Parámetro	Descripción
`inputAssetOrEntitiesList`	El activo de Dataplex o las entidades de Dataplex que contienen los archivos de entrada Este parámetro debe seguir el formato: `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name>` o `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/entities/<entity1-name>,projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/entities/<entity 2 name>...`
`outputFileFormat`	Es el formato de archivo de salida en Cloud Storage. Este parámetro debe seguir el formato `PARQUET` o `AVRO`.
`outputAsset`	Es el nombre del activo de Dataplex que contiene el bucket de Cloud Storage en el que se almacenarán los archivos de salida. Este parámetro debe seguir el formato `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name>`. Puedes encontrar el `outputAsset` en la consola de Google Cloud, en la pestaña `Details` del activo de Dataplex.
`outputFileCompression`	Opcional: La compresión del archivo de salida. El valor predeterminado para este parámetro es `SNAPPY`. Otros valores del parámetro pueden ser `UNCOMPRESSED`, `SNAPPY`, `GZIP` o `BZIP2`. `BZIP2` no es compatible con los archivos `PARQUET`.
`writeDisposition`	Opcional: Especifica la acción que ocurre si ya existe un archivo de destino. El valor predeterminado de este parámetro es `SKIP`, que indica que se deben procesar solo los archivos que no existen en el directorio de destino. Otros valores para el parámetro pueden ser `OVERWRITE` (reemplazar los archivos existentes) o `FAIL` (no procesar nada y generar un error si ya existe al menos un archivo de destino).
`updateDataplexMetadata`	Opcional: Indica si deseas actualizar los metadatos de Dataplex para las entidades creadas recientemente. El valor predeterminado para este parámetro es `false`. Si está habilitada, la canalización copiará automáticamente el esquema de la fuente a las entidades de Dataplex de destino, y no se ejecutará el descubrimiento automático de Dataplex. Usa esta marca si Dataplex administra el esquema de los datos fuente (sin procesar).

Ejecuta la plantilla

Console

En la consola de Google Cloud, ve a la página Dataplex.

Ir a Dataplex
Navega a la vista Process.
Haz clic en Crear tarea.
En Convertir a formatos seleccionados, haz clic en Crear tarea.
Elige un lake de Dataplex.
Proporciona un nombre para la tarea.
Elige una región para la ejecución de tareas.
Completa los parámetros obligatorios.
Haz clic en Continuar.

gcloud

En tu shell o terminal, ejecuta la plantilla:

gcloud beta dataflow flex-template run JOB_NAME \
--project=PROJECT_ID \
--region=REGION_NAME \
--template-file-gcs-location=gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_File_Format_Conversion_Preview \
--parameters \
inputAssetOrEntitiesList=INPUT_ASSET_OR_ENTITIES_LIST,\
outputFileFormat=OUTPUT_FILE_FORMAT,\
outputAsset=OUTPUT_ASSET

Reemplaza lo siguiente:

JOB_NAME: a job name of your choice
PROJECT_ID: your template project ID
REGION_NAME: region in which to run the job
INPUT_ASSET_OR_ENTITIES_LIST: path to your JDBC drivers
OUTPUT_FILE_FORMAT: your output file format in Cloud Storage
OUTPUT_ASSET: your Dataplex output asset ID

REST

Envía una solicitud HTTP POST:

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION_NAME/flexTemplates:launch
{
  "launch_parameter": {
    "jobName": "JOB_NAME",
    "parameters": {
        "inputAssetOrEntitiesList": "INPUT_ASSET_OR_ENTITIES_LIST",
        "outputFileFormat": "OUTPUT_FILE_FORMAT",
        "outputAsset": "OUTPUT_ASSET",
    },
    "containerSpecGcsPath": "gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_File_Format_Conversion_Preview",
 }
}

Reemplaza lo siguiente:

PROJECT_ID: your template project ID
REGION_NAME: region in which to run the job
JOB_NAME: a job name of your choice
INPUT_ASSET_OR_ENTITIES_LIST: path to your JDBC drivers
OUTPUT_FILE_FORMAT: your output file format in Cloud Storage
OUTPUT_ASSET: your Dataplex output asset ID

Plantilla: Asignar datos de nivel de un activo de BigQuery a un activo de Cloud Storage

La plantilla de BigQuery a Cloud Storage de Dataplex copia datos de un activo de BigQuery de Dataplex a un activo de Cloud Storage de Dataplex en un diseño y formato compatibles con Dataplex. Puedes especificar un conjunto de datos de BigQuery o una lista de tablas de BigQuery que se copiarán. Para mayor flexibilidad, la plantilla permite copiar datos que son anteriores a una fecha de modificación especificada y, de manera opcional, borrar datos de BigQuery después de una copia correcta.

Cuando copies tablas particionadas de BigQuery a Cloud Storage, ten en cuenta lo siguiente:

La plantilla crea particiones de estilo Hive en el bucket de Cloud Storage. BigQuery no puede tener la clave de partición de estilo Hive igual que una columna existente. Puedes usar la opción enforceSamePartitionKey para crear una clave de partición nueva o mantener la misma clave de partición, pero cambiar el nombre de la columna existente.
Dataplex Discovery registra el tipo de partición como string cuando se crea una tabla de BigQuery (y una tabla en Dataproc Metastore). Esto puede afectar tus filtros de partición existentes.

Existe un límite para la cantidad de tablas y particiones que se pueden transformar en una sola ejecución de plantilla, que es de aproximadamente 300. La cantidad exacta depende de la longitud de los nombres de las tablas y de otros factores.

Parámetros de la plantilla

Parámetro	Descripción
`sourceBigQueryDataset`	Es el conjunto de datos de BigQuery del que se estratifican los datos. Este parámetro debe contener un nombre de activo de Dataplex en el formato `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name>` o un ID de conjunto de datos de BigQuery en el formato `projects/<name>/datasets/<dataset-id>`.
`destinationStorageBucketAssetName`	El nombre del activo de Dataplex para el bucket de Cloud Storage al que se segmentarán los datos Este parámetro debe seguir el formato `projects/<name>/locations/<loc>/lakes/<lake-name>/zones/<zone-name>/assets/<asset-name>`.
`tables`	Opcional: Una lista separada por comas de las tablas de BigQuery que se van a agrupar. Si no se proporciona una lista, todas las tablas se organizarán en niveles. Las tablas deben especificarse solo por su nombre (sin prefijo de proyecto o conjunto de datos) y distinguen mayúsculas de minúsculas.
`exportDataModifiedBeforeDateTime`	Opcional: Usa este parámetro para mover datos anteriores a esta fecha (y una hora opcional). En el caso de las tablas de BigQuery particionadas, mueve las particiones que se modificaron por última vez antes de esta fecha y hora. En el caso de las tablas no particionadas, muévelas si la última modificación se realizó antes de esta fecha y hora. Si no se especifica, se mueven todas las tablas o particiones. La fecha y la hora se analizan en la zona horaria predeterminada de forma predeterminada, pero se admiten los sufijos opcionales `Z` y `+HH:mm`. Este parámetro debe seguir el formato `YYYY-MM-DD`, `YYYY-MM-DDTHH:mm:ss` o `YYYY-MM-DDTHH:mm:ss+03:00`. También se admite la fecha y hora relativas, que debe seguir el formato `-PnDTnHnMn.nS` (debe comenzar con `-P`, que indica la hora anterior).
`fileFormat`	Opcional: El formato del archivo de salida en Cloud Storage. El valor predeterminado para este parámetro es `PARQUET`. Otro valor para el parámetro puede ser `AVRO`.
`fileCompression`	Opcional: La compresión del archivo de salida. El valor predeterminado para este parámetro es `SNAPPY`. Otros valores del parámetro pueden ser `UNCOMPRESSED`, `SNAPPY`, `GZIP` o `BZIP2`. `BZIP2` no es compatible con los archivos `PARQUET`.
`deleteSourceData`	Opcional: Indica si se deben borrar los datos de origen de BigQuery después de una exportación correcta. Los valores pueden ser `true` o `false`. El valor predeterminado para este parámetro es `false`.
`partitionIdRegExp`	Opcional: Procesa solo las particiones con un ID de partición que coincida con esta expresión regular. Si no se proporciona ningún valor, este parámetro procesará todo de forma predeterminada.
`writeDisposition`	Opcional: Especifica la acción que ocurre si ya existe un archivo de destino, lo que significa que una o más tablas o particiones ya se asignaron a niveles previamente. El valor predeterminado para este parámetro es `SKIP`, que indica que se deben procesar solo las tablas o particiones que aún no se habían dividido en niveles. Otros valores para el parámetro pueden ser `OVERWRITE` (reemplazar los archivos existentes) o `FAIL` (no procesar nada y generar un error si ya existe al menos un archivo de destino).
`enforceSamePartitionKey`	Opcional: Indica si se debe aplicar la misma clave de partición. Debido a una limitación de BigQuery, no es posible que la clave de partición (en la ruta de acceso del archivo) de una tabla externa particionada tenga el mismo nombre que una de las columnas del archivo. Si este parámetro es verdadero (que es el valor predeterminado), la clave de partición del archivo de destino se establece en el nombre de la columna de partición original y se cambia el nombre de la columna del archivo. Si es "false", se cambia el nombre de la clave de partición. Por ejemplo, si la tabla original está particionada en una columna llamada `TS` y `enforceSamePartitionKey=true`, la ruta de acceso al archivo de destino es `gs://<bucket>/TS=<partition ID>/<file>` y el nombre de la columna cambia a `TS_pkey` en el archivo. Esto permite que las consultas existentes se ejecuten en las mismas particiones de la tabla anterior o la nueva. Si es `enforceSamePartitionKey=false`, la ruta de acceso del archivo de destino es `gs://<bucket>/TS_pid=<partition ID>/<file>`, pero el nombre de la columna se mantiene como `TS` en el archivo.
`updateDataplexMetadata`	Opcional: Indica si deseas actualizar los metadatos de Dataplex para las entidades creadas recientemente. El valor predeterminado para este parámetro es `false`. Si está habilitada, la canalización copiará automáticamente el esquema de la fuente a las entidades de Dataplex de destino, y no se ejecutará el descubrimiento automático de Dataplex. Usa esta marca si administras el esquema de las tablas de BigQuery de origen.

Ejecuta la plantilla

Console

En la consola de Google Cloud, ve a la página Dataplex.

Ir a Dataplex
Navega a la vista Process.
Haz clic en Crear tarea.
En Ordenar en niveles de elementos de BQ a GCS, haz clic en Crear tarea.
Elige un lake de Dataplex.
Proporciona un nombre para la tarea.
Elige una región para la ejecución de tareas.
Completa los parámetros obligatorios.
Haz clic en Continuar.

gcloud

En tu shell o terminal, ejecuta la plantilla:

gcloud beta dataflow flex-template run JOB_NAME \
--project=PROJECT_ID \
--region=REGION_NAME \
--template-file-gcs-location=gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_BigQuery_to_GCS_Preview \
--parameters \
sourceBigQueryDataset=SOURCE_ASSET_NAME_OR_DATASET_ID,\
destinationStorageBucketAssetName=DESTINATION_ASSET_NAME

Reemplaza lo siguiente:

JOB_NAME: a job name of your choice
PROJECT_ID: your template project ID
REGION_NAME: region in which to run the job
SOURCE_ASSET_NAME_OR_DATASET_ID: your Dataplex asset
name for the source BigQuery dataset, or the dataset ID
DESTINATION_ASSET_NAME: your Dataplex asset name for
the destination Cloud Storage bucket

REST

Envía una solicitud HTTP POST:

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/REGION_NAME/flexTemplates:launch
{
 "launch_parameter": {
    "jobName": "JOB_NAME",
    "parameters": {
        "sourceBigQueryDataset": "SOURCE_ASSET_NAME_OR_DATASET_ID",
        "destinationStorageBucketAssetName": "DESTINATION_ASSET_NAME",
    },
    "containerSpecGcsPath": "gs://dataflow-templates-REGION_NAME/latest/flex/Dataplex_BigQuery_to_GCS_Preview",
 }
}

Reemplaza lo siguiente:

PROJECT_ID: your template project ID
REGION_NAME: region in which to run the job
JOB_NAME: a job name of your choice
SOURCE_ASSET_NAME_OR_DATASET_ID: your Dataplex asset
name for the source BigQuery dataset, or the dataset ID
DESTINATION_ASSET_NAME: your Dataplex asset name for
the destination Cloud Storage bucket
REGION_NAME: region in which to run the job

Programa otras plantillas de Dataflow personalizadas o proporcionadas por Google Cloud

Dataplex te permite programar y supervisar cualquiera de las plantillas de Dataflow proporcionadas porGoogle Cloudo tu plantilla de Dataflow personalizada en la consola.

Programar

Console

En la consola de Google Cloud, ve a la página Dataplex.

Ir a Dataplex
Navega a la vista Process.
Haz clic en Crear tarea.
En Crea una canalización de Dataflow, haz clic en Crear canalización de Dataflow.
Elige un lake de Dataplex.
Proporciona un nombre para la tarea.
Elige una región para ejecutar la tarea.
Elige una plantilla de Dataflow.
Completa los parámetros obligatorios.
Haz clic en Continuar.

Supervisar

Console

En la consola de Google Cloud, ve a la página Dataplex.

Ir a Dataplex
Navega a la vista Process.
Haz clic en Canalizaciones de Dataflow.
Filtrar por nombre de lago o canalización