Crear y usar análisis de perfil de datos

En esta página se explica cómo crear y gestionar análisis de perfiles de datos. La creación de perfiles de datos te permite identificar las características estadísticas comunes de las columnas de tus tablas de BigQuery. Esta información te ayuda a entender y analizar tus datos de forma más eficaz.

Para obtener más información sobre los análisis de perfiles de datos de Dataplex Universal Catalog, consulta Información sobre la elaboración de perfiles de datos.

Antes de empezar

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Roles obligatorios

Para crear perfiles de tablas de BigQuery, necesitas los siguientes permisos:

  • Para ejecutar un análisis de perfil de datos en una tabla de BigQuery, necesitas permiso para leer la tabla de BigQuery y permiso para crear una tarea de BigQuery en el proyecto usado para analizar la tabla.

  • Si la tabla de BigQuery y el análisis del perfil de datos están en proyectos diferentes, debes dar permiso de lectura a la cuenta de servicio de Universal Catalog de Dataplex en la tabla de BigQuery correspondiente.

  • Si los datos de BigQuery están organizados en un lago de Universal Catalog de Dataplex, para crear un análisis de perfil de datos, necesitas los roles roles/dataplex.metadataReader y roles/dataplex.viewer de Universal Catalog de Dataplex. Esto concede los siguientes permisos:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Si vas a analizar una tabla externa de BigQuery desde Cloud Storage, asigna a la cuenta de servicio de Universal Catalog de Dataplex el rol de lector de objetos de almacenamiento (roles/storage.objectViewer) o los siguientes permisos en el segmento:

    • storage.buckets.get
    • storage.objects.get
  • Si quieres publicar los resultados del análisis de perfil de datos en las páginas de BigQuery y Universal Catalog de Dataplex de laGoogle Cloud consolaroles/bigquery.dataEditor de las tablas de origen, debes tener asignado el rol Editor de datos de BigQuery (roles/bigquery.dataEditor) en la tabla. También puede tener todos los permisos siguientes:

    • bigquery.tables.get
    • bigquery.tables.update
    • bigquery.tables.updateData
    • bigquery.tables.delete
  • Para exportar los resultados del análisis a una tabla de BigQuery, tu cuenta de servicio de Dataplex Universal Catalog necesita el rol Editor de datos de BigQuery (roles/bigquery.dataEditor). De esta forma, se conceden los siguientes permisos:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Si necesitas acceder a columnas protegidas por políticas de acceso a nivel de columna de BigQuery, asigna permisos a la cuenta de servicio de Universal Catalog de Dataplex en esas columnas. El usuario que cree o actualice un análisis de datos también necesita permisos en las columnas.

  • Si una tabla tiene habilitadas las políticas de acceso a nivel de fila de BigQuery, solo puedes analizar las filas visibles para la cuenta de servicio de Universal Catalog de Dataplex. Ten en cuenta que los privilegios de acceso de cada usuario no se evalúan en las políticas a nivel de fila.

Roles y permisos de análisis de datos

Para usar la creación de perfiles de datos, pide a tu administrador que te conceda uno de los siguientes roles de gestión de identidades y accesos:

  • roles/dataplex.dataScanAdmin: acceso completo a los recursos de DataScan.
  • roles/dataplex.dataScanEditor: acceso de escritura a los recursos de DataScan.
  • roles/dataplex.dataScanViewer: acceso de lectura a los recursos de DataScan, excepto a los resultados.
  • roles/dataplex.dataScanDataViewer: acceso de lectura a los recursos de DataScan, incluidos los resultados.

En la siguiente tabla se enumeran los permisos de análisis de datos:

Nombre del permiso Concede permiso para hacer lo siguiente:
dataplex.datascans.create Crear un DataScan
dataplex.datascans.delete Eliminar un DataScan
dataplex.datascans.get Ver los detalles de DataScan sin incluir los resultados
dataplex.datascans.getData Ver los detalles de DataScan, incluidos los resultados
dataplex.datascans.list Listar DataScans
dataplex.datascans.run Ejecutar DataScan
dataplex.datascans.update Actualizar la descripción de un DataScan
dataplex.datascans.getIamPolicy Ver los permisos de gestión de identidades y accesos actuales de la exploración
dataplex.datascans.setIamPolicy Definir permisos de gestión de identidades y accesos en la búsqueda

Crear un análisis de perfil de datos

Consola

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haz clic en Crear análisis de perfil de datos.

  3. Opcional: Introduce un Nombre visible.

  4. Introduce un ID. Consulta las convenciones para asignar nombres de recursos.

  5. Opcional: Introduce una Descripción.

  6. En el campo Tabla, haz clic en Buscar. Elige la tabla que quieras escanear y, a continuación, haz clic en Seleccionar.

    En el caso de las tablas de conjuntos de datos multirregionales, elige una región en la que crear el análisis de datos.

    Para consultar las tablas organizadas en los lagos de Dataplex Universal Catalog, haz clic en Consultar en lagos de Dataplex.

  7. En el campo Ámbito, elija Incremental o Todos los datos.

    • Si elige Datos incrementales, en el campo Columna de marca de tiempo, seleccione una columna de tipo DATE o TIMESTAMP de su tabla de BigQuery que aumente a medida que se añadan registros nuevos y que se pueda usar para identificar registros nuevos. En las tablas con particiones basadas en una columna de tipo DATE o TIMESTAMP, recomendamos usar la columna de partición como campo de marca de tiempo.
  8. Opcional: Para filtrar los datos, haga lo siguiente:

    • Para filtrar por filas, seleccione la casilla Filtrar filas. Introduce una expresión SQL válida que se pueda usar en una cláusula WHERE con sintaxis de GoogleSQL. Por ejemplo: col1 >= 0.

      El filtro puede ser una combinación de condiciones SQL en varias columnas. Por ejemplo: col1 >= 0 AND col2 < 10.

    • Para filtrar por columnas, marque la casilla Filtrar columnas.

      • Para incluir columnas en el análisis del perfil, en el campo Incluir columnas, haga clic en Examinar. Seleccione las columnas que quiera incluir y, a continuación, haga clic en Seleccionar.

      • Para excluir columnas del análisis del perfil, en el campo Excluir columnas, haga clic en Examinar. Selecciona las columnas que quieras excluir y, a continuación, haz clic en Seleccionar.

  9. Para aplicar el muestreo al análisis de tu perfil de datos, en la lista Tamaño del muestreo, selecciona un porcentaje de muestreo. Elige un valor porcentual entre 0,0% y 100,0% con un máximo de 3 decimales.

    • En el caso de conjuntos de datos más grandes, elija un porcentaje de muestreo más bajo. Por ejemplo, en una tabla de 1 PB, si introduces un valor entre el 0,1% y el 1,0%, el perfil de datos toma muestras de entre 1 y 10 TB de datos.

    • Debe haber al menos 100 registros en los datos muestreados para obtener un resultado.

    • En el caso de los análisis de datos incrementales, el análisis de perfil de datos aplica el muestreo al incremento más reciente.

  10. Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Universal Catalog de Dataplex de laGoogle Cloud consola de la tabla de origen. Selecciona la casilla Publicar resultados en la interfaz de usuario de BigQuery y Dataplex Catalog.

    Puede ver los resultados del análisis más reciente en la pestaña Perfil de datos de las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex de la tabla de origen. Para permitir que los usuarios accedan a los resultados de los análisis publicados, consulta la sección Conceder acceso a los resultados de los análisis de perfil de datos de este documento.

    Es posible que la opción de publicación no esté disponible en los siguientes casos:

    • No tienes los permisos necesarios en la tabla.
    • Se va a publicar otro análisis de calidad de los datos.
  11. En la sección Programación, elija una de las siguientes opciones:

    • Repetir: ejecuta el análisis del perfil de datos según una programación: cada hora, cada día, cada semana, cada mes o personalizada. Especifica con qué frecuencia y a qué hora debe ejecutarse el análisis. Si eliges la opción personalizada, usa el formato cron para especificar la programación.

    • Bajo demanda: ejecuta el análisis de perfil de datos bajo demanda.

  12. Haz clic en Continuar.

  13. Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table (Exportar resultados del análisis a una tabla de BigQuery), haz lo siguiente:

    1. En el campo Seleccionar conjunto de datos de BigQuery, haga clic en Buscar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis de perfiles de datos.

    2. En el campo Tabla de BigQuery, especifica la tabla en la que se deben almacenar los resultados del análisis del perfil de datos. Si usas una tabla que ya tienes, asegúrate de que sea compatible con el esquema de la tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.

  14. Opcional: añade etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros Google Cloud recursos.

  15. Para crear el análisis, haz clic en Crear.

    Si programas el análisis para que se ejecute bajo demanda, también puedes ejecutarlo ahora haciendo clic en Ejecutar análisis.

gcloud

Para crear un análisis de perfil de datos, usa el comando gcloud dataplex datascans create data-profile.

Si los datos de origen están organizados en un lago de Dataplex Universal Catalog, incluya la marca --data-source-entity:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Si los datos de origen no están organizados en un lago de Dataplex Universal Catalog, incluya la marca --data-source-resource:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Sustituye las siguientes variables:

  • DATASCAN: el nombre del análisis de perfil de datos.
  • LOCATION: región en la que se creará el análisis de perfil de datos. Google Cloud
  • DATA_SOURCE_ENTITY: entidad de Dataplex Universal Catalog que contiene los datos del análisis del perfil de datos. Por ejemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: nombre del recurso que contiene los datos del análisis del perfil de datos. Por ejemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Para crear un análisis de perfil de datos, usa el método dataScans.create.

Exportar el esquema de una tabla

Si quiere exportar los resultados del análisis del perfil de datos a una tabla de BigQuery, asegúrese de que sea compatible con el siguiente esquema de tabla:

Nombre de la columna Tipo de datos de la columna Nombre del subcampo (si procede) Tipo de datos del subcampo Modo Ejemplo
data_profile_scan struct/record resource_name string Permite valores nulos //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string Permite valores nulos test-project
location string Permite valores nulos us-central1
data_scan_id string Permite valores nulos test-datascan
data_source struct/record resource_name string Permite valores nulos

Caso de entidad: //dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Caso de tabla: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

dataplex_entity_project_id string Permite valores nulos test-project
dataplex_entity_project_number integer Permite valores nulos 123456789012
dataplex_lake_id string Permite valores nulos

Solo es válido si la fuente es una entidad.

test-lake

dataplex_zone_id string Permite valores nulos

Solo es válido si la fuente es una entidad.

test-zone

dataplex_entity_id string Permite valores nulos

Solo es válido si la fuente es una entidad.

test-entity

table_project_id string Permite valores nulos dataplex-table
table_project_number int64 Permite valores nulos 345678901234
dataset_id string Permite valores nulos

(Válido solo si la fuente es una tabla)

test-dataset

table_id string Permite valores nulos

(Válido solo si la fuente es una tabla)

test-table

data_profile_job_id string Permite valores nulos caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string Permite valores nulos ondemand/schedule
incremental boolean Permite valores nulos true/false
sampling_percent float Permite valores nulos

(0-100)

20.0 (indica el 20%)

row_filter string Permite valores nulos col1 >= 0 AND col2 < 10
column_filter json Permite valores nulos {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json Permite valores nulos {"key1":value1}
job_start_time timestamp Permite valores nulos 2023-01-01 00:00:00 UTC
job_end_time timestamp Permite valores nulos 2023-01-01 00:00:00 UTC
job_rows_scanned integer Permite valores nulos 7500
column_name string Permite valores nulos column-1
column_type string Permite valores nulos string
column_mode string Permite valores nulos repeated
percent_null float Permite valores nulos

(0,0-100,0)

20.0 (indica el 20%)

percent_unique float Permite valores nulos

(0,0-100,0)

92.5

min_string_length integer Permite valores nulos

(Solo es válido si el tipo de columna es una cadena)

10

max_string_length integer Permite valores nulos

(Solo es válido si el tipo de columna es una cadena)

4

average_string_length float Permite valores nulos

(Solo es válido si el tipo de columna es una cadena)

7.2

min_value float Permite valores nulos Solo es válido si el tipo de columna es numérico (entero o flotante).
max_value float Permite valores nulos Solo es válido si el tipo de columna es numérico (entero o flotante).
average_value float Permite valores nulos Solo es válido si el tipo de columna es numérico (entero o flotante).
standard_deviation float Permite valores nulos Solo es válido si el tipo de columna es numérico (entero o flotante).
quartile_lower integer Permite valores nulos Solo es válido si el tipo de columna es numérico (entero o flotante).
quartile_median integer Permite valores nulos Solo es válido si el tipo de columna es numérico (entero o flotante).
quartile_upper integer Permite valores nulos Solo es válido si el tipo de columna es numérico (entero o flotante).
top_n struct/record - repeated value string Permite valores nulos "4009"
count integer Permite valores nulos 20
percent float Permite valores nulos 10 (indica el 10%)

Configuración de la exportación de tablas

Cuando exporte datos a tablas de BigQueryExport, siga estas directrices:

  • En el campo resultsTable, usa el formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Usar una tabla estándar de BigQuery.
  • Si la tabla no existe cuando se crea o actualiza el análisis, Dataplex Universal Catalog la crea automáticamente.
  • De forma predeterminada, la tabla se particiona diariamente en la columna job_start_time.
  • Si quieres que la tabla se particione con otras configuraciones o no quieres que se particione, vuelve a crear la tabla con el esquema y las configuraciones necesarios y, a continuación, proporciona la tabla creada previamente como tabla de resultados.
  • Asegúrate de que la tabla de resultados esté en la misma ubicación que la tabla de origen.
  • Si los Controles de Servicio de VPC están configurados en el proyecto, la tabla de resultados debe estar en el mismo perímetro de los Controles de Servicio de VPC que la tabla de origen.
  • Si la tabla se modifica durante la fase de ejecución del análisis, la tarea en curso exporta los datos a la tabla de resultados anterior y el cambio en la tabla se aplica a partir de la siguiente tarea de análisis.
  • No modifiques el esquema de la tabla. Si necesitas columnas personalizadas, crea una vista de la tabla.
  • Para reducir los costes, establece una fecha de vencimiento para la partición en función de tu caso de uso. Para obtener más información, consulte cómo establecer la caducidad de la partición.

Crear varios análisis de perfil de datos

Puedes configurar análisis de perfil de datos para varias tablas de un conjunto de datos de BigQuery al mismo tiempo mediante la Google Cloud consola.

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haz clic en Crear análisis de perfil de datos.

  3. Selecciona la opción Varias búsquedas de perfil de datos.

  4. Introduce un prefijo de ID. Dataplex Universal Catalog genera automáticamente IDs de análisis mediante el prefijo proporcionado y sufijos únicos.

  5. Introduce una Descripción para todos los análisis de perfil de datos.

  6. En el campo Conjunto de datos, haz clic en Buscar. Selecciona un conjunto de datos para elegir las tablas. Haz clic en Seleccionar.

  7. Si el conjunto de datos es multirregional, selecciona una región en la que crear los análisis de perfil de datos.

  8. Configura los ajustes comunes de los análisis:

    1. En el campo Ámbito, elija Incremental o Todos los datos.

    2. Para aplicar el muestreo a los análisis de perfil de datos, en la lista Tamaño de muestreo, seleccione un porcentaje de muestreo.

      Elige un valor porcentual entre 0,0% y 100,0% con un máximo de 3 decimales.

    3. Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Universal Catalog de Dataplex de laGoogle Cloud consola de la tabla de origen. Selecciona la casilla Publicar resultados en la interfaz de usuario de BigQuery y Dataplex Catalog.

      Puede ver los resultados del análisis más reciente en la pestaña Perfil de datos de las páginas Catálogo universal de BigQuery y Catálogo universal de Dataplex de la tabla de origen. Para permitir que los usuarios accedan a los resultados de análisis publicados, consulta la sección Conceder acceso a los resultados del análisis de perfil de datos de este documento.

    4. En la sección Programación, elija una de las siguientes opciones:

      • Repetir: ejecuta los análisis de perfil de datos según una programación: cada hora, cada día, cada semana, cada mes o personalizada. Especifica con qué frecuencia deben ejecutarse los análisis y a qué hora. Si eliges la opción personalizada, usa el formato cron para especificar la programación.

      • Bajo demanda: ejecuta los análisis de perfil de datos bajo demanda.

  9. Haz clic en Continuar.

  10. En el campo Elegir tablas, haz clic en Explorar. Elige una o varias tablas que quieras analizar y, a continuación, haz clic en Seleccionar.

  11. Haz clic en Continuar.

  12. Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table (Exportar resultados del análisis a una tabla de BigQuery), haz lo siguiente:

    1. En el campo Seleccionar conjunto de datos de BigQuery, haga clic en Buscar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis de perfiles de datos.

    2. En el campo Tabla de BigQuery, especifica la tabla en la que se deben almacenar los resultados del análisis del perfil de datos. Si usas una tabla, asegúrate de que sea compatible con el esquema de tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.

      Dataplex Universal Catalog usa la misma tabla de resultados para todos los análisis de perfil de datos.

  13. Opcional: añade etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros Google Cloud recursos.

  14. Para crear los análisis, haz clic en Crear.

    Si programas el análisis para que se ejecute bajo demanda, también puedes ejecutarlo ahora haciendo clic en Ejecutar análisis.

Ejecutar un análisis de perfil de datos

Consola

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haga clic en el análisis de perfil de datos que quiera ejecutar.
  3. Haz clic en Ejecutar ahora.

gcloud

Para ejecutar un análisis de perfil de datos, usa el comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Sustituye las siguientes variables:

  • DATASCAN: el nombre del análisis de perfil de datos.
  • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.

REST

Para ejecutar un análisis de perfil de datos, usa el método dataScans.run.

Ver los resultados de un análisis de perfil de datos

Consola

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haga clic en el nombre de un análisis de perfil de datos.

    • En la sección Resumen se muestra información sobre los trabajos más recientes, como cuándo se ejecutó el análisis, el número de registros de tabla analizados y el estado del trabajo.

    • En la sección Configuración de análisis de perfil de datos se muestran detalles sobre el análisis.

  3. Para ver información detallada sobre un trabajo, como las columnas de la tabla escaneada, estadísticas sobre las columnas que se han encontrado en el escaneo y los registros del trabajo, haz clic en la pestaña Historial de trabajos. A continuación, haz clic en un ID de tarea.

gcloud

Para ver los resultados de un trabajo de análisis de perfil de datos, usa el comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Sustituye las siguientes variables:

  • JOB: ID del trabajo de análisis de perfil de datos.
  • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.
  • DATASCAN: nombre del análisis de perfil de datos al que pertenece el trabajo.
  • --view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

REST

Para ver los resultados de un análisis de perfil de datos, usa el método dataScans.get.

Ver los resultados publicados

Si los resultados del análisis del perfil de datos se publican en las páginas de BigQuery y del catálogo universal de Dataplex de la consola Google Cloud , puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos de la tabla de origen.

  1. En la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a la búsqueda

  2. Busca la tabla y selecciónala.

  3. Haga clic en la pestaña Perfil de datos.

    Se muestran los últimos resultados publicados.

Ver el trabajo de análisis de perfil de datos más reciente

Consola

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haga clic en el nombre de un análisis de perfil de datos.

  3. Haz clic en la pestaña Últimos resultados de los trabajos.

    La pestaña Resultados de la última tarea, cuando hay al menos una ejecución completada correctamente, proporciona información sobre la tarea más reciente. Muestra las columnas de la tabla analizada y estadísticas sobre las columnas que se han encontrado en el análisis.

gcloud

Para ver el análisis de perfil de datos correcto más reciente, usa el comando gcloud dataplex datascans describe:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Sustituye las siguientes variables:

  • DATASCAN: el nombre del análisis de elaboración de perfiles de datos del que quieres ver el trabajo más reciente.
  • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.
  • --view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

REST

Para ver el análisis más reciente, usa el método dataScans.get.

Ver el historial de resultados de análisis

Dataplex Universal Catalog guarda el historial de análisis de perfiles de datos de los últimos 300 trabajos o del último año, lo que ocurra primero.

Consola

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haga clic en el nombre de un análisis de perfil de datos.

  3. Haz clic en la pestaña Historial de trabajos.

    La pestaña Historial de tareas proporciona información sobre las tareas anteriores, como el número de registros analizados en cada tarea, el estado de la tarea y la hora en la que se ejecutó.

  4. Para ver información detallada sobre un trabajo, haz clic en cualquiera de los trabajos de la columna ID de trabajo.

gcloud

Para ver el historial de las tareas de análisis de perfil de datos, usa el comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Sustituye las siguientes variables:

  • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.
  • DATASCAN: el nombre del análisis de perfil de datos del que quieres ver los trabajos.

REST

Para ver el historial de trabajos de análisis de perfiles de datos, usa el método dataScans.jobs.list.

Conceder acceso a los resultados de análisis de perfiles de datos

Para que los usuarios de tu organización puedan ver los resultados del análisis, haz lo siguiente:

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haz clic en el análisis de calidad de los datos cuyos resultados quieras compartir.

  3. Haz clic en la pestaña Permisos.

  4. Sigue estos pasos:

    • Para conceder acceso a un principal, haz clic en Conceder acceso. Asigna el rol Dataplex DataScan DataViewer al principal asociado.
    • Para quitar el acceso a un principal, selecciona el principal al que quieras quitarle el rol Dataplex DataScan DataViewer. Haz clic en Quitar acceso y, a continuación, confirma la acción cuando se te pida.

Gestionar análisis de perfil de datos de una tabla específica

En este documento se explica cómo gestionar los análisis de perfil de datos en tu proyecto mediante la página Elaboración de perfiles y calidad de los datos de Dataplex Universal Catalog en la consola de Google Cloud .

También puedes crear y gestionar análisis de perfil de datos cuando trabajes con una tabla específica. En la consola de Google Cloud , en la página Dataplex Universal Catalog (Catálogo universal de Dataplex) de la tabla, usa la pestaña Perfil de datos. Sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a la búsqueda

    Busca la tabla y selecciónala.

  2. Haga clic en la pestaña Perfil de datos.

  3. En función de si la tabla tiene un análisis de perfil de datos cuyos resultados se han publicado, puedes trabajar con los análisis de perfil de datos de la tabla de las siguientes formas:

    • Se publican los resultados del análisis del perfil de datos: en la página se muestran los resultados del análisis publicado más reciente.

      Para gestionar los análisis de perfil de datos de esta tabla, haga clic en Análisis de perfil de datos y, a continuación, seleccione una de las siguientes opciones:

      • Crear análisis: crea un análisis de perfil de datos. Para obtener más información, consulta la sección Crear un análisis de perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se selecciona automáticamente.

      • Ejecutar ahora: ejecuta el análisis.

      • Editar configuración de análisis: edita los ajustes, como el nombre visible, los filtros, el tamaño de la muestra y la programación.

      • Gestionar permisos de análisis: controla quién puede acceder a los resultados de los análisis. Para obtener más información, consulta la sección Conceder acceso a los resultados del análisis de perfiles de datos de este documento.

      • Ver resultados históricos: consulta información detallada sobre los análisis de perfil de datos anteriores. Para obtener más información, consulta las secciones Ver los resultados del análisis de perfil de datos y Ver el historial de resultados de análisis de este documento.

      • Ver todos los análisis: consulta una lista de análisis de perfil de datos que se aplican a esta tabla.

    • Los resultados del análisis del perfil de datos no se publican: haz clic en el menú situado junto a Perfil de datos rápido y, a continuación, selecciona una de las siguientes opciones:

      • Personalizar la elaboración de perfiles de datos: crea un nuevo análisis de perfil de datos. Para obtener más información, consulta la sección Crear un análisis de perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se selecciona automáticamente.

      • Ver perfiles anteriores: consulta una lista de análisis de perfil de datos que se aplican a esta tabla.

Actualizar un análisis de perfil de datos

Consola

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haga clic en el nombre de un análisis de perfil de datos.

  3. Haga clic en Editar y, a continuación, edite los valores.

  4. Haz clic en Guardar.

gcloud

Para actualizar un análisis de perfil de datos, usa el comando gcloud dataplex datascans update data-profile:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Sustituye las siguientes variables:

  • DATASCAN: nombre del análisis de perfil de datos que se va a actualizar.
  • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.
  • DESCRIPTION: la nueva descripción del análisis del perfil de datos.

REST

Para editar un análisis de perfil de datos, usa el método dataScans.patch.

Eliminar un análisis de perfil de datos

Consola

  1. En la Google Cloud consola, ve a la página Elaboración de perfiles y calidad de los datos de Universal Catalog de Dataplex.

    Ir a Perfil y calidad de los datos

  2. Haz clic en el análisis que quieras eliminar.

  3. Haz clic en Eliminar y, a continuación, confirma la acción cuando se te pida.

gcloud

Para eliminar un análisis de perfil de datos, usa el comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Sustituye las siguientes variables:

  • DATASCAN: nombre del análisis de perfil de datos que se va a eliminar.
  • LOCATION: la Google Cloud región en la que se creó el análisis de perfil de datos.

REST

Para eliminar un análisis de perfil de datos, usa el método dataScans.delete.

Siguientes pasos