Crea y usa análisis de perfil de datos

En esta página, se muestra cómo crear un análisis de perfil de datos con la consola deGoogle Cloud , Google Cloud CLI o la API de REST.

Para obtener más información sobre los análisis de perfiles de datos de Dataplex, consulta Acerca de la generación de perfiles de datos.

Antes de comenzar

En la consola de Google Cloud , habilita la API de Dataplex.

Habilitar la API

Permisos

Para generar perfiles de tablas de BigQuery, necesitas los siguientes permisos:

  • Para ejecutar un análisis de perfil de datos en una tabla de BigQuery, necesitas permiso para leer la tabla de BigQuery y permiso para crear un trabajo de BigQuery en el proyecto que se usa para analizar la tabla.

  • Si la tabla de BigQuery y el análisis del perfil de datos están en proyectos diferentes, debes otorgar a la cuenta de servicio de Dataplex permiso de lectura en la tabla de BigQuery correspondiente.

  • Si los datos de BigQuery están organizados en un lago de Dataplex, para crear un análisis de perfil de datos, necesitas los roles de Dataplex roles/dataplex.metadataReader y roles/dataplex.viewer. Esto otorga los siguientes permisos:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Si analizas una tabla externa de BigQuery desde Cloud Storage, asigna a la cuenta de servicio de Dataplex el rol de Visualizador de objetos de Cloud Storage (roles/storage.objectViewer) o los siguientes permisos para el bucket:

    • storage.buckets.get
    • storage.objects.get
  • Si deseas publicar los resultados del análisis del perfil de datos en las páginas BigQuery y Data Catalog de la consola deGoogle Cloud para las tablas de origen, debes tener el rol de IAM de Editor de datos de BigQuery (roles/bigquery.dataEditor) o el permiso bigquery.tables.update en la tabla.

  • Para exportar los resultados de la búsqueda a una tabla de BigQuery, tu cuenta de servicio de Dataplex necesita el rol de Editor de datos de BigQuery (roles/bigquery.dataEditor). Esto otorga los siguientes permisos:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Si necesitas acceder a columnas protegidas por las políticas de acceso a nivel de columna de BigQuery, asigna los permisos de la cuenta de servicio de Dataplex a esas columnas. El usuario que crea o actualiza un análisis de datos también necesita permisos para las columnas.

  • Si una tabla tiene habilitadas las políticas de acceso a nivel de fila de BigQuery, solo puedes analizar las filas visibles para la cuenta de servicio de Dataplex. Ten en cuenta que los privilegios de acceso del usuario individual no se evalúan para las políticas a nivel de la fila.

Roles y permisos de análisis de datos

Para usar el perfilado de datos, un administrador de proyectos asigna un rol predefinido con permisos ya otorgados o otorga permisos individuales. Los roles son los siguientes:

  • roles/dataplex.dataScanAdmin: Acceso completo a los recursos de DataScan.
  • roles/dataplex.dataScanEditor: Acceso de escritura a los recursos DataScan.
  • roles/dataplex.dataScanViewer: Acceso de lectura a los recursos de DataScan, sin incluir los resultados.
  • roles/dataplex.dataScanDataViewer: Acceso de lectura a los recursos DataScan, incluidos los resultados.

En la siguiente tabla, se enumeran los permisos de análisis de datos:

Nombre del permiso Otorga permiso para hacer lo siguiente:
dataplex.datascans.create Crea una DataScan
dataplex.datascans.delete Borra una DataScan
dataplex.datascans.get Ver detalles de DataScan sin resultados
dataplex.datascans.getData Ver los detalles de DataScan, incluidos los resultados
dataplex.datascans.list Enumera DataScan
dataplex.datascans.run Ejecuta una DataScan
dataplex.datascans.update Se actualizó la descripción de un DataScan
dataplex.datascans.getIamPolicy Consulta los permisos de IAM actuales en el análisis
dataplex.datascans.setIamPolicy Establece permisos de IAM en el análisis

Crea un análisis de perfil de datos

Console

  1. En la consola de Google Cloud , ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. Haz clic en Crear análisis de perfil de datos.

  3. Ingresa un Nombre visible.

  4. Para cambiar el ID de análisis generado automáticamente, proporciona el tuyo. Consulta la convención de asignación de nombres de recursos.

  5. Ingresa una Descripción (opcional).

  6. En el campo Tabla, haz clic en Explorar.

  7. Selecciona una tabla y haz clic en Seleccionar.

  8. En el campo Alcance, elige Datos incrementales o Datos completos.

    • Si eliges Datos incrementales, en el campo Columna de marca de tiempo, selecciona una columna de tipo DATE o TIMESTAMP de tu tabla de BigQuery que aumente de forma monótona y se pueda usar para identificar registros nuevos. Para las tablas particionadas en una columna de tipo DATE o TIMESTAMP, recomendamos usar la columna de partición como el campo de marca de tiempo.
  9. Para aplicar el muestreo a tu análisis de perfil de datos, en la lista Tamaño de muestreo, selecciona un porcentaje de muestreo.

    • Elige un valor de porcentaje que oscile entre el 0.0% y el 100.0% con hasta 3 dígitos decimales.
    • Para conjuntos de datos más grandes, elige un porcentaje de muestreo más bajo. Por ejemplo, para una tabla de alrededor de 1 PB, si ingresas un valor entre el 0.1% y el 1.0%, Dataplex toma muestras de entre 1 y 10 TB de datos.
    • Necesitas al menos 100 registros en los datos muestreados para que se muestre un resultado.
    • Para los análisis de datos incrementales, Dataplex aplica el muestreo al incremento más reciente.
  10. Para filtrar por fila, haz clic en Filtros y selecciona Filtrar filas.

  11. Opcional: Haz clic en Filtros. Selecciona la casilla de verificación Filtrar columnas.

    a. En el campo Incluir columnas, haz clic en Explorar.

    • Especifica las columnas que se deben incluir en el análisis de perfiles. Para seleccionar las columnas que quieras, marca las casillas y haz clic en Seleccionar.

    b. En el campo Excluir columnas, haz clic en Explorar.

    • Especifica las columnas que deseas excluir del análisis de perfiles. Para seleccionar las columnas que quieras, marca las casillas y haz clic en Seleccionar.
  12. Opcional: Publica los resultados del análisis de perfiles de datos en las páginas de BigQuery y Data Catalog en la consola deGoogle Cloud para la tabla de origen. Haz clic en la casilla de verificación Publicar los resultados en la IU de BigQuery y Dataplex Catalog.

    Puedes ver los resultados de análisis más recientes en la pestaña Data Profile de las páginas de BigQuery y Data Catalog de la tabla de origen. Para permitir que los usuarios accedan a los resultados del análisis publicados, consulta Cómo compartir los resultados publicados.

    Es posible que la opción de publicación no esté disponible en los siguientes casos:

    • No tienes los permisos necesarios en la tabla.
    • Otro análisis de calidad de los datos está configurado para publicar resultados.

    Para obtener más información sobre los permisos necesarios para ver los resultados publicados, consulta Permisos.

  13. Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. Haz clic en Explorar para seleccionar un conjunto de datos de BigQuery existente para almacenar los resultados del análisis del perfil de datos.

    Si la tabla especificada no existe, Dataplex la creará por ti. Si usas una tabla existente, asegúrate de que sea compatible con el esquema de la tabla que se describe más adelante en esta sección.

  14. Opcional: Agrega etiquetas. Las etiquetas son pares key:value que te permiten agrupar objetos relacionados entre sí o con otros recursos de Google Cloud .

  15. En Opciones de programación, elige una de las siguientes opciones:

    • Repetir: Ejecuta la tarea de análisis de perfiles de datos según un programa: diario, semanal, mensual o personalizado. Especifica la frecuencia con la que se debe ejecutar el análisis y a qué hora. Si eliges personalizado, usa el formato cron para especificar el programa.

    • Según demanda: Crea tu análisis de perfil de datos y ejecútalo en cualquier momento con la acción Ejecutar ahora.

  16. Haz clic en Crear.

gcloud

Para crear un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY
| --data-source-resource=DATA_SOURCE_RESOURCE

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis de perfil de datos.
  • LOCATION: Es la región de Google Cloud en la que se creará el análisis de perfiles de datos.
  • DATA_SOURCE_ENTITY: Es la entidad de Dataplex que contiene los datos del análisis de perfiles de datos. Por ejemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
  • DATA_SOURCE_RESOURCE: Es el nombre del recurso que contiene los datos del análisis de perfil de datos. Por ejemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

Para obtener información sobre los argumentos opcionales, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para crear un análisis de perfil de datos.

Crea varios análisis de perfil de datos

Console

  1. En la consola de Google Cloud, ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. Haz clic en Crear varios análisis de perfiles.

  3. Ingresa un prefijo de ID. Dataplex genera automáticamente los IDs de análisis con el prefijo y los sufijos únicos proporcionados.

  4. Ingresa una Descripción para todos los análisis de perfil de datos.

  5. En el campo Conjunto de datos, haz clic en Explorar. Selecciona un conjunto de datos para elegir las tablas. Haz clic en Seleccionar.

  6. Si el conjunto de datos es multirregional, selecciona una región en la que crear los análisis de perfiles de datos.

  7. Selecciona Opciones de configuración comunes:

    1. En el campo Alcance, elige Datos incrementales o Datos completos.

    2. Para aplicar el muestreo a tus análisis de perfiles de datos, en la lista Tamaño de muestreo, selecciona un porcentaje de muestreo.

      Elige un valor de porcentaje entre 0.0% y 100.0% con hasta 3 dígitos decimales.

    3. Para mostrar los resultados de todos los análisis, selecciona Publicación. Puedes ver los resultados en la pestaña Perfil de los detalles de la tabla de BigQuery o Data Catalog. Asegúrate de tener los permisos bigquery.tables.update en las tablas de origen.

    4. En Opciones de programación, elige una de las siguientes opciones:

      1. Repetir: Ejecuta tus trabajos de análisis de perfiles de datos de forma periódica. Especifica la frecuencia con la que se debe ejecutar el análisis (diariamente, semanalmente, mensualmente o personalizado) y a qué hora. Si eliges personalizado, usa el formato cron para especificar el programa.

      2. On-demand: Crea tus trabajos de análisis de perfil de los datos y ejecútalos en cualquier momento haciendo clic en Ejecutar.

  8. En la opción Elegir tablas, haz clic en Explorar. Elige una o más de las tablas que se analizarán. Haz clic en Seleccionar.

  9. Selecciona Configuración adicional:

    1. Para guardar los resultados de los análisis de perfiles de datos en una tabla de BigQuery que elijas, selecciona una tabla en Exportar los resultados del análisis a la tabla de BigQuery. Dataplex copia y guarda automáticamente los resultados en esta tabla para cada tarea de análisis.

      1. Haz clic en Explorar para seleccionar un conjunto de datos.

      2. Ingresa una tabla de BigQuery en la que se guardarán los resultados. Esta puede ser una tabla existente que usan otros análisis de perfiles de datos de Dataplex para guardar los resultados. Si no hay una tabla con el nombre especificado, Dataplex la crea.

    2. Agrega Etiquetas para anotar el análisis de tu perfil de datos.

  10. Haz clic en Ejecutar análisis para crear y ejecutar todos los análisis. Esta opción solo está disponible para análisis a pedido.

  11. Haz clic en Crear para crear todos los análisis.

gcloud

No compatible.

REST

No compatible.

Cómo exportar el esquema de una tabla

Si deseas exportar los resultados del análisis de perfil de datos a una tabla de BigQuery existente, asegúrate de que sea compatible con el siguiente esquema de tabla:

Nombre de la columna Tipo de datos de la columna Nombre del subcampo
(si corresponde)
Tipo de datos del subcampo Modo Ejemplo
data_profile_scan struct/record resource_name string anulable //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string anulable test-project
location string anulable us-central1
data_scan_id string anulable test-datascan
data_source struct/record resource_name string anulable Caso de la entidad:
//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Caso de la tabla: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
dataplex_entity_project_id string anulable test-project
dataplex_entity_project_number integer anulable 123456789012
dataplex_lake_id string anulable (Solo es válido si la fuente es una entidad)
test-lake
dataplex_zone_id string anulable (Solo es válido si la fuente es una entidad)
test-zone
dataplex_entity_id string anulable (Solo es válido si la fuente es una entidad)
test-entity
table_project_id string anulable dataplex-table
table_project_number int64 anulable 345678901234
dataset_id string anulable (Solo es válido si la fuente es una tabla)
test-dataset
table_id string anulable (Solo es válido si la fuente es una tabla)
test-table
data_profile_job_id string anulable caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string anulable ondemand/schedule
incremental boolean anulable true/false
sampling_percent float anulable (0-100)
20.0 (indica el 20%)
row_filter string anulable col1 >= 0 AND col2 < 10
column_filter json anulable {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json anulable {"key1":value1}
job_start_time timestamp anulable 2023-01-01 00:00:00 UTC
job_end_time timestamp anulable 2023-01-01 00:00:00 UTC
job_rows_scanned integer anulable 7500
column_name string anulable column-1
column_type string anulable string
column_mode string anulable repeated
percent_null float anulable (0.0-100.0)
20.0 (indica el 20%)
percent_unique float anulable (0.0-100.0)
92.5
min_string_length integer anulable (Solo es válido si el tipo de columna es cadena)
10
max_string_length integer anulable (Solo es válido si el tipo de columna es cadena)
4
average_string_length float anulable (Solo es válido si el tipo de columna es cadena)
7.2
min_value float anulable (Solo es válido si el tipo de columna es numérico: número entero o decimal).
max_value float anulable (Solo es válido si el tipo de columna es numérico: número entero o decimal).
average_value float anulable (Solo es válido si el tipo de columna es numérico: número entero o decimal).
standard_deviation float anulable (Solo es válido si el tipo de columna es numérico: número entero o decimal).
quartile_lower integer anulable (Solo es válido si el tipo de columna es numérico: número entero o decimal).
quartile_median integer anulable (Solo es válido si el tipo de columna es numérico: número entero o decimal).
quartile_upper integer anulable (Solo es válido si el tipo de columna es numérico: número entero o decimal).
top_n struct/record - repeated value string anulable "4009"
count integer anulable 20
percent float anulable 10 (indica el 10%)

Configuración de la exportación de tablas

Cuando exportes a tablas de BigQueryExport, sigue estos lineamientos:

  • Para el campo resultsTable, usa el formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Usa una tabla estándar de BigQuery.
  • Si la tabla no existe cuando se crea o actualiza el análisis, Dataplex la crea por ti.
  • De forma predeterminada, la tabla se particiona en la columna job_start_time a diario.
  • Si deseas que la tabla se particione en otras configuraciones o si no quieres la partición, vuelve a crear la tabla con el esquema y las configuraciones requeridos y, luego, proporciona la tabla creada previamente como la tabla de resultados.
  • Asegúrate de que la tabla de resultados esté en la misma ubicación que la tabla de origen.
  • Si se configuró VPC-SC en el proyecto, la tabla de resultados debe estar en el mismo perímetro de VPC-SC que la tabla de origen.
  • Si la tabla se modifica durante la etapa de ejecución del análisis, el trabajo en ejecución actual se exporta a la tabla de resultados anterior y el cambio de la tabla se aplica a partir del siguiente trabajo de análisis.
  • No modifiques el esquema de la tabla. Si necesitas columnas personalizadas, crea una vista sobre la tabla.
  • Para reducir los costos, establece una fecha de vencimiento en la partición según tu caso de uso. Para obtener más información, consulta cómo configurar el vencimiento de la partición.

Ejecuta un análisis de perfil de datos

Console

  1. En la consola de Google Cloud , ve a la página Profile de Dataplex. Ir a Perfil
  2. Haz clic en el análisis del perfil de datos para ejecutarlo.
  3. Haz clic en Ejecutar ahora.

gcloud

Para ejecutar un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis de perfil de datos.
  • LOCATION: Es la región de Google Cloud en la que se creó el análisis de perfiles de datos.

Para conocer los argumentos opcionales, consulta la referencia de gcloud CLI.

REST

Usa el Explorador de APIs para ejecutar el análisis de tu perfil de datos.

Consulta los resultados de la tarea de análisis de perfiles de datos

Console

Todos los análisis de perfil de los datos que crees aparecerán en la página Perfil.

Para ver los resultados detallados de un análisis, haz clic en su nombre.

  • En la sección Descripción general, se muestran las ejecuciones de análisis, el tiempo de cada ejecución, la cantidad de registros de tablas analizados y el estado del trabajo.

  • La sección Configuración de análisis de perfil contiene detalles sobre el análisis.

gcloud

Para ver los resultados de una tarea de análisis de perfiles de datos, ejecuta el siguiente comando:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Reemplaza las siguientes variables:

  • JOB: Es el ID del trabajo de análisis de perfiles de datos.
  • LOCATION: Es la región de Google Cloud en la que se creó el análisis de perfiles de datos.
  • DATASCAN: Es el nombre del análisis de perfil de datos al que pertenece la tarea.
  • --view=FULL: Para ver el resultado de la tarea de análisis, especifica FULL.

Para conocer los argumentos opcionales, consulta la referencia de gcloud CLI.

REST

Usa el Explorador de APIs para ver los resultados de un análisis de perfil de datos.

Cómo ver el trabajo de análisis de perfil de datos más reciente

Console

La pestaña Resultados del trabajo más reciente, cuando hay al menos una ejecución completada correctamente, proporciona información sobre el trabajo más reciente. En ella, se enumeran las columnas de la tabla analizada y las estadísticas sobre las columnas que se encontraron en el análisis.

gcloud

Para ver el análisis de perfil de datos correcto más reciente, ejecuta el siguiente comando:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis de perfil de datos para ver el trabajo más reciente.
  • LOCATION: Es la región de Google Cloud en la que se creó el análisis de perfiles de datos.
  • --view=FULL: Para ver el resultado de la tarea de análisis, especifica FULL.

Para conocer los argumentos opcionales, consulta la referencia de gcloud CLI.

REST

Usa el Explorador de APIs para ver el trabajo de análisis más reciente.

Cómo ver todos los trabajos de análisis de perfiles de datos

Dataplex guarda el historial de análisis de perfiles de datos de los últimos 300 trabajos o del año anterior, lo que ocurra primero.

Console

La pestaña Historial de trabajos proporciona información sobre los trabajos anteriores. En ella, se enumeran todos los trabajos, la cantidad de registros analizados en cada uno, el estado, el tiempo de ejecución y mucho más.

Para ver la información detallada de un trabajo, haz clic en cualquiera de los trabajos que aparecen en ID del trabajo.

gcloud

Para ver todas las tareas de un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Reemplaza las siguientes variables:

  • LOCATION: Es la región de Google Cloud en la que se creó el análisis de perfiles de datos.
  • DATASCAN: Es el nombre del análisis de perfil de datos para ver todas las tareas.

Para conocer los argumentos opcionales, consulta la referencia de gcloud CLI.

REST

Usa el Explorador de APIs para ver todas las tareas de análisis.

Comparte los resultados publicados

Cuando crees un análisis de perfil de datos, si eliges publicar los resultados del análisis en las páginas de BigQuery y Data Catalog en la consola deGoogle Cloud , los resultados más recientes del análisis estarán disponibles en la pestaña Data profile de esas páginas.

Puedes permitir que los usuarios de tu organización accedan a los resultados de la búsqueda publicados. Para otorgar acceso a los resultados del análisis, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. Haz clic en el análisis de perfiles de datos cuyos resultados deseas compartir.

  3. Ve a la pestaña Permisos.

  4. Haz clic en Otorgar acceso.

  5. En el campo Principales nuevos, agrega la principal a la que deseas otorgar acceso.

  6. En el campo Selecciona un rol, selecciona Visualizador de datos de DataScan de Dataplex.

  7. Haz clic en Guardar.

Para quitar el acceso a los resultados del análisis publicados de un principal, sigue estos pasos:

  1. En la consola de Google Cloud , ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. Haz clic en el análisis de perfil de datos cuyos resultados deseas compartir.

  3. Ve a la pestaña Permisos.

  4. Selecciona el principal para el que deseas quitar el rol de Visualizador de datos de DataScan de Dataplex.

  5. Haga clic en Quitar acceso.

  6. Haz clic en Confirmar.

Actualiza un análisis de perfil de datos

Console

  1. En la consola de Google Cloud , ve a la página Perfil.

    Ir a Perfil de Dataplex

  2. En la fila del análisis que deseas editar, haz clic en > Editar.

  3. Edite los valores.

  4. Haz clic en Guardar.

gcloud

Para actualizar un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis de perfil de datos que se actualizará.
  • LOCATION: Es la región de Google Cloud en la que se creó el análisis de perfiles de datos.
  • DESCRIPTION: Es la descripción nueva del análisis de perfiles de datos.

Para actualizar los campos de especificación, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para editar un análisis de perfil de datos.

Borra un análisis de perfil de datos

Console

  1. En la consola de Google Cloud , ve a la página Perfil. Ve a Perfil de Dataplex.

  2. Haz clic en el análisis que quieres borrar.

  3. Haz clic en Borrar.

gcloud

Para borrar un análisis de perfil de datos, ejecuta el siguiente comando:

gcloud dataplex datascans delete \
DATASCAN --location=LOCATION \
--async

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis de perfil de datos que se borrará.
  • LOCATION: Es la región de Google Cloud en la que se creó el análisis de perfiles de datos.

Para obtener información sobre los argumentos opcionales, consulta la referencia de la CLI de gcloud.

REST

Usa el Explorador de APIs para borrar el análisis del perfil de datos.

Próximos pasos