Crea y usa análisis de perfil de datos

En esta página, se muestra cómo crear y administrar análisis de perfil de datos. La creación de perfiles de datos te permite identificar características estadísticas comunes de las columnas en tus tablas de BigQuery. Esta información te ayuda a comprender y analizar tus datos de manera más eficaz.

Para obtener más información sobre los análisis de perfiles de datos de Dataplex Universal Catalog, consulta Acerca de la generación de perfiles de datos.

Antes de comenzar

Enable the Dataplex API.

Enable the API

Roles requeridos

Para crear perfiles de tablas de BigQuery, necesitas los siguientes permisos:

  • Para ejecutar un análisis de perfil de datos en una tabla de BigQuery, necesitas permiso para leer la tabla de BigQuery y permiso para crear un trabajo de BigQuery en el proyecto que se usa para analizar la tabla.

  • Si la tabla de BigQuery y el análisis del perfil de datos están en proyectos diferentes, debes otorgar a la cuenta de servicio del catálogo universal de Dataplex permiso de lectura en la tabla de BigQuery correspondiente.

  • Si los datos de BigQuery están organizados en un lago de Dataplex Universal Catalog, para crear un análisis de perfil de datos, necesitas los roles roles/dataplex.metadataReader y roles/dataplex.viewer de Dataplex Universal Catalog. Esto otorga los siguientes permisos:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Si analizas una tabla externa de BigQuery desde Cloud Storage, asigna a la cuenta de servicio de Dataplex Universal Catalog el rol de Visualizador de objetos de Storage (roles/storage.objectViewer) o los siguientes permisos en el bucket:

    • storage.buckets.get
    • storage.objects.get
  • Si deseas publicar los resultados del análisis del perfil de datos en las páginas del catálogo universal de BigQuery y Dataplex en la consola deGoogle Cloud para las tablas de origen, debes tener el rol de editor de datos de BigQuery (roles/bigquery.dataEditor) en la tabla. Como alternativa, necesitas todos los siguientes permisos:

    • bigquery.tables.get
    • bigquery.tables.update
    • bigquery.tables.updateData
    • bigquery.tables.delete
  • Para exportar los resultados del análisis a una tabla de BigQuery, tu cuenta de servicio de Dataplex Universal Catalog necesita el rol de editor de datos de BigQuery (roles/bigquery.dataEditor). Esto otorga los siguientes permisos:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Si necesitas acceder a columnas protegidas por políticas de acceso a nivel de columnas de BigQuery, asigna permisos a la cuenta de servicio de Dataplex Universal Catalog en esas columnas. El usuario que crea o actualiza un análisis de datos también necesita permisos en las columnas.

  • Si una tabla tiene habilitadas las políticas de acceso a nivel de la fila de BigQuery, solo puedes analizar las filas visibles para la cuenta de servicio de Dataplex Universal Catalog. Ten en cuenta que los privilegios de acceso del usuario individual no se evalúan para las políticas a nivel de las filas.

Roles y permisos de análisis de datos

Para usar el perfilamiento de datos, pídele a tu administrador que te otorgue uno de los siguientes roles de IAM:

  • roles/dataplex.dataScanAdmin: Acceso completo a los recursos de DataScan
  • roles/dataplex.dataScanEditor: Acceso de escritura a los recursos de DataScan.
  • roles/dataplex.dataScanViewer: Acceso de lectura a los recursos de DataScan, sin incluir los resultados.
  • roles/dataplex.dataScanDataViewer: Acceso de lectura a los recursos de DataScan, incluidos los resultados.

En la siguiente tabla, se enumeran los permisos de análisis de datos:

Nombre del permiso Otorga permiso para realizar las siguientes acciones:
dataplex.datascans.create Crea una DataScan
dataplex.datascans.delete Borra una DataScan
dataplex.datascans.get Ver los detalles de DataScan sin incluir los resultados
dataplex.datascans.getData Ver detalles de DataScan, incluidos los resultados
dataplex.datascans.list Enumera DataScans
dataplex.datascans.run Ejecuta una DataScan
dataplex.datascans.update Actualiza la descripción de un DataScan
dataplex.datascans.getIamPolicy Visualiza los permisos de IAM actuales en el análisis
dataplex.datascans.setIamPolicy Establece permisos de IAM en el análisis

Crea un análisis de perfil de datos

Console

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en Crear análisis del perfil de datos.

  3. Opcional: Ingresa un nombre visible.

  4. Ingresa un ID. Consulta las convenciones de nomenclatura de recursos.

  5. Escribe una descripción (opcional).

  6. En el campo Tabla, haz clic en Explorar. Elige la tabla que deseas analizar y, luego, haz clic en Seleccionar.

    Para las tablas en conjuntos de datos multirregionales, elige una región en la que se creará el análisis de datos.

    Para explorar las tablas organizadas en los lakes de Dataplex Universal Catalog, haz clic en Browse within Dataplex Lakes.

  7. En el campo Alcance, elige Incremental o Datos completos.

    • Si eliges Datos incrementales, en el campo Columna de marca de tiempo, selecciona una columna de tipo DATE o TIMESTAMP de tu tabla de BigQuery que aumente a medida que se agreguen registros nuevos y que se pueda usar para identificar registros nuevos. Para las tablas particionadas en una columna de tipo DATE o TIMESTAMP, recomendamos usar la columna de partición como el campo de marca de tiempo.
  8. Opcional: Para filtrar tus datos, haz cualquiera de las siguientes acciones:

    • Para filtrar por filas, haz clic en la casilla de verificación Filtrar filas. Ingresa una expresión de SQL válida que se pueda usar en una cláusula WHERE en la sintaxis de GoogleSQL. Por ejemplo: col1 >= 0.

      El filtro puede ser una combinación de condiciones de SQL en varias columnas. Por ejemplo: col1 >= 0 AND col2 < 10.

    • Para filtrar por columnas, selecciona la casilla de verificación Filtrar columnas.

      • Para incluir columnas en el análisis del perfil, en el campo Incluir columnas, haz clic en Explorar. Selecciona las columnas que deseas incluir y, luego, haz clic en Seleccionar.

      • Para excluir columnas del análisis del perfil, en el campo Exclude columns, haz clic en Browse. Selecciona las columnas que deseas excluir y, luego, haz clic en Seleccionar.

  9. Para aplicar el muestreo al análisis del perfil de datos, selecciona un porcentaje de muestreo en la lista Tamaño de muestreo. Elige un valor de porcentaje que oscile entre el 0.0% y el 100.0% con hasta 3 dígitos decimales.

    • Para conjuntos de datos más grandes, elige un porcentaje de muestreo más bajo. Por ejemplo, para una tabla de 1 PB, si ingresas un valor entre el 0.1% y el 1.0%, el perfil de datos muestreará entre 1 y 10 TB de datos.

    • Debe haber al menos 100 registros en los datos de la muestra para devolver un resultado.

    • Para los análisis de datos incrementales, el análisis del perfil de datos aplica el muestreo al incremento más reciente.

  10. Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog en la consola deGoogle Cloud para la tabla de origen. Selecciona la casilla de verificación Publicar los resultados en la IU de BigQuery y Dataplex Catalog.

    Puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog de la tabla de origen. Para permitir que los usuarios accedan a los resultados del análisis publicado, consulta la sección Otorga acceso a los resultados del análisis de perfil de datos de este documento.

    Es posible que la opción de publicación no esté disponible en los siguientes casos:

    • No tienes los permisos necesarios en la tabla.
    • Otro análisis de calidad de los datos está configurado para publicar los resultados.
  11. En la sección Programación, elige una de las siguientes opciones:

    • Repetir: Ejecuta el análisis del perfil de datos según un programa: por hora, diario, semanal, mensual o personalizado. Especifica la frecuencia con la que se debe ejecutar el análisis y a qué hora. Si eliges la opción personalizada, usa el formato cron para especificar la programación.

    • On demand: Ejecuta el análisis del perfil de datos según demanda.

  12. Haz clic en Continuar.

  13. Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table, haz lo siguiente:

    1. En el campo Selecciona un conjunto de datos de BigQuery, haz clic en Explorar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis del perfil de datos.

    2. En el campo Tabla de BigQuery, especifica la tabla en la que se almacenarán los resultados del análisis del perfil de datos. Si usas una tabla existente, asegúrate de que sea compatible con el esquema de la tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.

  14. Opcional: Agrega etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros recursos de Google Cloud .

  15. Para crear el análisis, haz clic en Crear.

    Si configuras el programa como a pedido, también puedes ejecutar el análisis ahora haciendo clic en Ejecutar análisis.

gcloud

Para crear un análisis del perfil de datos, usa el comando gcloud dataplex datascans create data-profile.

Si los datos de origen están organizados en un lake de Dataplex Universal Catalog, incluye la marca --data-source-entity:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Si los datos de origen no están organizados en un lake de Dataplex Universal Catalog, incluye la marca --data-source-resource:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis del perfil de datos.
  • LOCATION: Es la región Google Cloud en la que se creará el análisis del perfil de datos.
  • DATA_SOURCE_ENTITY: Es la entidad de Dataplex Universal Catalog que contiene los datos para el análisis de perfil de datos. Por ejemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
  • DATA_SOURCE_RESOURCE: Es el nombre del recurso que contiene los datos para el análisis del perfil de datos. Por ejemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

REST

Para crear un análisis del perfil de datos, usa el método dataScans.create.

Exporta el esquema de la tabla

Si deseas exportar los resultados del análisis de perfil de datos a una tabla de BigQuery existente, asegúrate de que sea compatible con el siguiente esquema de tabla:

Nombre de la columna Tipo de datos de la columna Nombre del subcampo (si corresponde) Tipo de datos del subcampo Modo Ejemplo
data_profile_scan struct/record resource_name string anulable //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string anulable test-project
location string anulable us-central1
data_scan_id string anulable test-datascan
data_source struct/record resource_name string anulable

Caso de entidad: //dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity

Caso de tabla: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

dataplex_entity_project_id string anulable test-project
dataplex_entity_project_number integer anulable 123456789012
dataplex_lake_id string anulable

(Solo es válido si la fuente es una entidad)

test-lake

dataplex_zone_id string anulable

(Solo es válido si la fuente es una entidad)

test-zone

dataplex_entity_id string anulable

(Solo es válido si la fuente es una entidad)

test-entity

table_project_id string anulable dataplex-table
table_project_number int64 anulable 345678901234
dataset_id string anulable

(Solo es válido si la fuente es una tabla)

test-dataset

table_id string anulable

(Solo es válido si la fuente es una tabla)

test-table

data_profile_job_id string anulable caeba234-cfde-4fca-9e5b-fe02a9812e38
data_profile_job_configuration json trigger string anulable ondemand/schedule
incremental boolean anulable true/false
sampling_percent float anulable

(0-100)

20.0 (indica un 20%)

row_filter string anulable col1 >= 0 AND col2 < 10
column_filter json anulable {"include_fields":["col1","col2"], "exclude_fields":["col3"]}
job_labels json anulable {"key1":value1}
job_start_time timestamp anulable 2023-01-01 00:00:00 UTC
job_end_time timestamp anulable 2023-01-01 00:00:00 UTC
job_rows_scanned integer anulable 7500
column_name string anulable column-1
column_type string anulable string
column_mode string anulable repeated
percent_null float anulable

(0.0-100.0)

20.0 (indica un 20%)

percent_unique float anulable

(0.0-100.0)

92.5

min_string_length integer anulable

(Solo es válido si el tipo de columna es cadena)

10

max_string_length integer anulable

(Solo es válido si el tipo de columna es cadena)

4

average_string_length float anulable

(Solo es válido si el tipo de columna es cadena)

7.2

min_value float anulable (Solo es válido si el tipo de columna es numérico: entero o flotante)
max_value float anulable (Solo es válido si el tipo de columna es numérico: entero o flotante)
average_value float anulable (Solo es válido si el tipo de columna es numérico: entero o flotante)
standard_deviation float anulable (Solo es válido si el tipo de columna es numérico: entero o flotante)
quartile_lower integer anulable (Solo es válido si el tipo de columna es numérico: entero o flotante)
quartile_median integer anulable (Solo es válido si el tipo de columna es numérico: entero o flotante)
quartile_upper integer anulable (Solo es válido si el tipo de columna es numérico: entero o flotante)
top_n struct/record - repeated value string anulable "4009"
count integer anulable 20
percent float anulable 10 (indica un 10%)

Configuración de la tabla de exportación

Cuando exportes a tablas de BigQueryExport, sigue estos lineamientos:

  • Para el campo resultsTable, usa el siguiente formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Usa una tabla estándar de BigQuery.
  • Si la tabla no existe cuando se crea o actualiza el análisis, Dataplex Universal Catalog la crea por ti.
  • De forma predeterminada, la tabla se particiona en la columna job_start_time todos los días.
  • Si deseas que la tabla se particione en otras configuraciones o si no deseas la partición, vuelve a crear la tabla con el esquema y las configuraciones requeridos y, luego, proporciona la tabla creada previamente como la tabla de resultados.
  • Asegúrate de que la tabla de resultados esté en la misma ubicación que la tabla de origen.
  • Si se configura VPC-SC en el proyecto, la tabla de resultados debe estar en el mismo perímetro de VPC-SC que la tabla de origen.
  • Si la tabla se modifica durante la etapa de ejecución del análisis, el trabajo en ejecución actual se exporta a la tabla de resultados anterior y el cambio en la tabla entra en vigencia a partir del siguiente trabajo de análisis.
  • No modifiques el esquema de la tabla. Si necesitas columnas personalizadas, crea una vista sobre la tabla.
  • Para reducir los costos, establece una fecha de vencimiento en la partición según tu caso de uso. Para obtener más información, consulta cómo configurar el vencimiento de la partición.

Crear varios análisis de perfiles de datos

Puedes configurar análisis de perfil de datos para varias tablas en un conjunto de datos de BigQuery al mismo tiempo con la consola de Google Cloud .

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en Crear análisis del perfil de datos.

  3. Selecciona la opción Varios análisis del perfil de datos.

  4. Ingresa un prefijo de ID. Dataplex Universal Catalog genera automáticamente IDs de análisis con el prefijo proporcionado y sufijos únicos.

  5. Ingresa una Descripción para todos los análisis del perfil de datos.

  6. En el campo Conjunto de datos, haz clic en Explorar. Selecciona un conjunto de datos para elegir tablas. Haz clic en Seleccionar.

  7. Si el conjunto de datos es multirregional, selecciona una región en la que crear los análisis de perfiles de datos.

  8. Establece la configuración común para los análisis:

    1. En el campo Alcance, elige Incremental o Datos completos.

    2. Para aplicar el muestreo a los análisis de perfiles de datos, en la lista Tamaño de muestreo, selecciona un porcentaje de muestreo.

      Elige un valor de porcentaje entre 0.0% y 100.0% con hasta 3 dígitos decimales.

    3. Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog en la consola deGoogle Cloud para la tabla de origen. Selecciona la casilla de verificación Publicar los resultados en la IU de BigQuery y Dataplex Catalog.

      Puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog de la tabla de origen. Para permitir que los usuarios accedan a los resultados del análisis publicado, consulta la sección Otorga acceso a los resultados del análisis de perfil de datos de este documento.

    4. En la sección Programación, elige una de las siguientes opciones:

      • Repetir: Ejecuta los análisis de perfil de datos según un programa: por hora, diario, semanal, mensual o personalizado. Especifica con qué frecuencia y a qué hora se deben ejecutar los análisis. Si eliges la opción personalizada, usa el formato cron para especificar la programación.

      • A pedido: Ejecuta los análisis del perfil de datos a pedido.

  9. Haz clic en Continuar.

  10. En el campo Elegir tablas, haz clic en Explorar. Elige una o más tablas para analizar y, luego, haz clic en Seleccionar.

  11. Haz clic en Continuar.

  12. Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table, haz lo siguiente:

    1. En el campo Selecciona un conjunto de datos de BigQuery, haz clic en Explorar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis del perfil de datos.

    2. En el campo Tabla de BigQuery, especifica la tabla en la que se almacenarán los resultados del análisis del perfil de datos. Si usas una tabla existente, asegúrate de que sea compatible con el esquema de la tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.

      Dataplex Universal Catalog usa la misma tabla de resultados para todos los análisis de perfil de datos.

  13. Opcional: Agrega etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros Google Cloud recursos.

  14. Para crear los análisis, haz clic en Crear.

    Si configuras la programación a pedido, también puedes ejecutar los análisis ahora haciendo clic en Ejecutar análisis.

Ejecuta un análisis de perfil de datos

Console

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en el análisis del perfil de datos que deseas ejecutar.
  3. Haz clic en Ejecutar ahora.

gcloud

Para ejecutar un análisis de perfil de datos, usa el comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis del perfil de datos.
  • LOCATION: La Google Cloud región en la que se creó el análisis del perfil de datos.

REST

Para ejecutar un análisis de perfil de datos, usa el método dataScans.run.

Visualiza los resultados del análisis de perfiles de datos

Console

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en el nombre de un análisis del perfil de datos.

    • En la sección Descripción general, se muestra información sobre los trabajos más recientes, como cuándo se ejecutó el análisis, la cantidad de registros de la tabla analizados y el estado del trabajo.

    • En la sección Configuración del análisis de perfil de datos, se muestran detalles sobre el análisis.

  3. Para ver información detallada sobre un trabajo, como las columnas de la tabla analizada, las estadísticas sobre las columnas que se encontraron en el análisis y los registros del trabajo, haz clic en la pestaña Historial de trabajos. Luego, haz clic en un ID de trabajo.

gcloud

Para ver los resultados de un trabajo de análisis de perfil de datos, usa el comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Reemplaza las siguientes variables:

  • JOB: Es el ID del trabajo de análisis del perfil de datos.
  • LOCATION: La Google Cloud región en la que se creó el análisis del perfil de datos.
  • DATASCAN: Es el nombre del análisis del perfil de datos al que pertenece el trabajo.
  • --view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

REST

Para ver los resultados de un análisis de perfil de los datos, usa el método dataScans.get.

Visualiza los resultados publicados

Si los resultados del análisis del perfil de datos se publican en las páginas de BigQuery y Dataplex Universal Catalog en la consola de Google Cloud , puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos de la tabla de origen.

  1. En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a Búsqueda

  2. Busca y selecciona la tabla.

  3. Haz clic en la pestaña Perfil de datos.

    Se muestran los resultados publicados más recientes.

Cómo ver el trabajo de análisis de perfil de datos más reciente

Console

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en el nombre de un análisis del perfil de datos.

  3. Haz clic en la pestaña Resultados del trabajo más reciente.

    La pestaña Resultados del trabajo más reciente, cuando hay al menos una ejecución completada correctamente, proporciona información sobre el trabajo más reciente. En ella, se enumeran las columnas de la tabla analizada y las estadísticas sobre las columnas que se encontraron en el análisis.

gcloud

Para ver el análisis de perfil de datos exitoso más reciente, usa el comando gcloud dataplex datascans describe:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis del perfil de datos para el que se desea ver el trabajo más reciente.
  • LOCATION: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.
  • --view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

REST

Para ver el trabajo de análisis más reciente, usa el método dataScans.get.

Visualiza los resultados del análisis histórico

Dataplex Universal Catalog guarda el historial de análisis de perfil de datos de los últimos 300 trabajos o del último año, lo que ocurra primero.

Console

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en el nombre de un análisis del perfil de datos.

  3. Haz clic en la pestaña Historial de trabajos.

    La pestaña Historial de trabajos proporciona información sobre los trabajos anteriores, como la cantidad de registros analizados en cada trabajo, el estado del trabajo y la hora en que se ejecutó.

  4. Para ver información detallada sobre un trabajo, haz clic en cualquiera de los trabajos de la columna ID del trabajo.

gcloud

Para ver los trabajos históricos de análisis de perfiles de datos, usa el comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Reemplaza las siguientes variables:

  • LOCATION: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.
  • DATASCAN: Es el nombre del análisis del perfil de datos para el que se visualizarán los trabajos.

REST

Para ver los trabajos históricos de análisis de perfil de los datos, usa el método dataScans.jobs.list.

Otorga acceso a los resultados del análisis de perfil de datos

Para permitir que los usuarios de tu organización vean los resultados del análisis, haz lo siguiente:

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en el análisis de calidad de los datos cuyos resultados quieras compartir.

  3. Haz clic en la pestaña Permisos.

  4. Haz lo siguiente:

    • Para otorgar acceso a una principal, haz clic en Otorgar acceso. Otorga el rol Visualizador de datos de DataScan de Dataplex a la principal asociada.
    • Para quitar el acceso de una principal, selecciona la principal de la que deseas quitar el rol Visualizador de datos de DataScan de Dataplex. Haz clic en Quitar acceso y, luego, confirma la acción cuando se te solicite.

Administra los análisis de perfil de datos para una tabla específica

En este documento, se muestran los pasos para administrar los análisis de perfiles de datos en tu proyecto con la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog en la consola de Google Cloud .

También puedes crear y administrar análisis de perfiles de datos cuando trabajas con una tabla específica. En la consola de Google Cloud , en la página Dataplex Universal Catalog de la tabla, usa la pestaña Perfil de datos. Haz lo siguiente:

  1. En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.

    Ir a Búsqueda

    Busca y selecciona la tabla.

  2. Haz clic en la pestaña Perfil de datos.

  3. Según si la tabla tiene un análisis de perfil de datos cuyos resultados se publicaron, puedes trabajar con los análisis de perfil de datos de la tabla de las siguientes maneras:

    • Se publicaron los resultados del análisis del perfil de datos: En la página, se muestran los resultados del análisis publicado más reciente.

      Para administrar los análisis de perfil de los datos de esta tabla, haz clic en Análisis de perfil de los datos y, luego, selecciona una de las siguientes opciones:

      • Crear análisis nuevo: Crea un análisis de perfil de datos nuevo. Para obtener más información, consulta la sección Crea un análisis del perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se preselecciona.

      • Ejecutar ahora: Ejecuta el análisis.

      • Editar configuración de análisis: Edita la configuración, incluido el nombre visible, los filtros, el tamaño de la muestra y la programación.

      • Administrar permisos del análisis: Controla quién puede acceder a los resultados del análisis. Para obtener más información, consulta la sección Otorga acceso a los resultados del análisis de perfil de los datos de este documento.

      • Ver resultados históricos: Consulta información detallada sobre los trabajos de análisis de perfiles de datos anteriores. Para obtener más información, consulta las secciones Visualiza los resultados del análisis de perfiles de datos y Visualiza los resultados históricos del análisis de este documento.

      • Ver todos los análisis: Consulta una lista de los análisis de perfil de los datos que se aplican a esta tabla.

    • No se publican los resultados del análisis de perfil de datos: Haz clic en el menú junto a Perfil de datos rápido y, luego, selecciona una de las siguientes opciones:

      • Personaliza la generación de perfiles de datos: Crea un análisis de perfil de datos nuevo. Para obtener más información, consulta la sección Crea un análisis del perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se preselecciona.

      • Ver perfiles anteriores: Consulta una lista de los análisis de perfil de los datos que se aplican a esta tabla.

Actualiza un análisis de perfil de datos

Console

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en el nombre de un análisis del perfil de datos.

  3. Haz clic en Editar y, luego, edita los valores.

  4. Haz clic en Guardar.

gcloud

Para actualizar un análisis del perfil de datos, usa el comando gcloud dataplex datascans update data-profile:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis del perfil de datos que se actualizará.
  • LOCATION: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.
  • DESCRIPTION: Es la nueva descripción del análisis del perfil de datos.

REST

Para editar un análisis del perfil de datos, usa el método dataScans.patch.

Borra un análisis de perfil de datos

Console

  1. En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

    Ir a Creación de perfiles de datos y calidad

  2. Haz clic en el análisis que quieras borrar.

  3. Haz clic en Borrar y, luego, confirma cuando se te solicite.

gcloud

Para borrar un análisis del perfil de datos, usa el comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Reemplaza las siguientes variables:

  • DATASCAN: Es el nombre del análisis del perfil de datos que se borrará.
  • LOCATION: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.

REST

Para borrar un análisis del perfil de datos, usa el método dataScans.delete.

Próximos pasos