Se usó la API de Cloud Translation para traducir esta página.

Crea y usa análisis de perfil de datos

Dataplex Universal Catalog te permite identificar características estadísticas comunes (valores comunes, distribución de datos, recuentos de nulos) de las columnas en tus tablas de BigQuery. Esta información te ayuda a comprender y analizar tus datos de manera más eficaz.

Para obtener más información sobre los análisis de perfiles de datos de Dataplex Universal Catalog, consulta Acerca de la generación de perfiles de datos.

Antes de comenzar

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Roles requeridos

Para crear perfiles de tablas de BigQuery, necesitas los siguientes permisos:

Para ejecutar un análisis de perfil de datos en una tabla de BigQuery, necesitas permiso para leer la tabla de BigQuery y permiso para crear un trabajo de BigQuery en el proyecto que se usa para analizar la tabla.

Nota: Dataplex Universal Catalog no crea un trabajo de BigQuery en el proyecto. Sin embargo, necesitas este permiso para crear un trabajo de DryRun y verificar los permisos de la tabla.
Si la tabla de BigQuery y el análisis del perfil de datos están en proyectos diferentes, debes otorgar a la cuenta de servicio de Dataplex Universal Catalog permiso de lectura en la tabla de BigQuery correspondiente.

Nota: Si aún no creaste ningún análisis de calidad de los datos o de perfil de datos, o si no tienes un lake de Dataplex Universal Catalog en el proyecto de BigQuery, ejecuta gcloud beta services identity create --service=dataplex.googleapis.com para crear un identificador de servicio. Este comando devuelve un identificador de servicio de Dataplex Universal Catalog si existe.
Si los datos de BigQuery están organizados en un lago de Dataplex Universal Catalog, para crear un análisis de perfil de datos, necesitas los roles roles/dataplex.metadataReader y roles/dataplex.viewer de Dataplex Universal Catalog. Esto otorga los siguientes permisos:
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Si analizas una tabla externa de BigQuery desde Cloud Storage, asigna a la cuenta de servicio de Dataplex Universal Catalog el rol de Visualizador de objetos de Storage (roles/storage.objectViewer) o los siguientes permisos en el bucket:
- storage.buckets.get
- storage.objects.get
Si deseas publicar los resultados del análisis del perfil de datos en las páginas del catálogo universal de BigQuery y Dataplex en la consola deGoogle Cloud para las tablas de origen, debes tener el rol de editor de datos de BigQuery (roles/bigquery.dataEditor) en la tabla. Como alternativa, necesitas todos los siguientes permisos:
- bigquery.tables.get
- bigquery.tables.update
- bigquery.tables.updateData
- bigquery.tables.delete
Para exportar los resultados del análisis a una tabla de BigQuery, tu cuenta de servicio de Dataplex Universal Catalog necesita el rol de editor de datos de BigQuery (roles/bigquery.dataEditor). Esto otorga los siguientes permisos:
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
Si necesitas acceder a columnas protegidas por políticas de acceso a nivel de columnas de BigQuery, asigna permisos a la cuenta de servicio de Dataplex Universal Catalog en esas columnas. El usuario que crea o actualiza un análisis de datos también necesita permisos en las columnas.
Si una tabla tiene habilitadas las políticas de acceso a nivel de la fila de BigQuery, solo puedes analizar las filas visibles para la cuenta de servicio de Dataplex Universal Catalog. Ten en cuenta que los privilegios de acceso del usuario individual no se evalúan para las políticas a nivel de las filas.

Roles y permisos de análisis de datos

Para usar el perfilamiento de datos, pídele a tu administrador que te otorgue uno de los siguientes roles de IAM:

roles/dataplex.dataScanAdmin: Acceso completo a los recursos de DataScan
roles/dataplex.dataScanEditor: Acceso de escritura a los recursos de DataScan.
roles/dataplex.dataScanViewer: Acceso de lectura a los recursos de DataScan, excepto los resultados.
roles/dataplex.dataScanDataViewer: Acceso de lectura a los recursos de DataScan, incluidos los resultados.

En la siguiente tabla, se enumeran los permisos de análisis de datos:

Nombre del permiso	Otorga permiso para realizar las siguientes acciones:
`dataplex.datascans.create`	Crea una `DataScan`
`dataplex.datascans.delete`	Borra una `DataScan`
`dataplex.datascans.get`	Ver los detalles de `DataScan` sin incluir los resultados
`dataplex.datascans.getData`	Ver detalles de `DataScan`, incluidos los resultados
`dataplex.datascans.list`	Enumera `DataScan`s
`dataplex.datascans.run`	Ejecuta una `DataScan`
`dataplex.datascans.update`	Actualiza la descripción de un `DataScan`
`dataplex.datascans.getIamPolicy`	Visualiza los permisos de IAM actuales en el análisis
`dataplex.datascans.setIamPolicy`	Establece permisos de IAM en el análisis

Crea un análisis de perfil de datos

Console

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en Crear análisis del perfil de datos.
Opcional: Ingresa un nombre visible.
Ingresa un ID. Consulta las convenciones de nomenclatura de recursos.
Escribe una descripción (opcional).
En el campo Tabla, haz clic en Explorar. Elige la tabla que deseas analizar y, luego, haz clic en Seleccionar.

Para las tablas en conjuntos de datos multirregionales, elige una región en la que se creará el análisis de datos.

Para explorar las tablas organizadas en los data lakes de Dataplex Universal Catalog, haz clic en Browse within Dataplex Lakes.
En el campo Alcance, elige Incremental o Datos completos.
- Si eliges Datos incrementales, en el campo Columna de marca de tiempo, selecciona una columna de tipo DATE o TIMESTAMP de tu tabla de BigQuery que aumente a medida que se agreguen registros nuevos y que se pueda usar para identificar registros nuevos. Para las tablas particionadas en una columna de tipo DATE o TIMESTAMP, recomendamos usar la columna de partición como el campo de marca de tiempo.
Opcional: Para filtrar tus datos, haz cualquiera de las siguientes acciones:
- Para filtrar por filas, haz clic en la casilla de verificación Filtrar filas. Ingresa una expresión de SQL válida que se pueda usar en una cláusula WHERE en la sintaxis de GoogleSQL. Por ejemplo: col1 >= 0.
  
  El filtro puede ser una combinación de condiciones de SQL en varias columnas. Por ejemplo: col1 >= 0 AND col2 < 10.
- Para filtrar por columnas, selecciona la casilla de verificación Filtrar columnas.
  - Para incluir columnas en el análisis del perfil, en el campo Incluir columnas, haz clic en Explorar. Selecciona las columnas que deseas incluir y, luego, haz clic en Seleccionar.
  - Para excluir columnas del análisis del perfil, en el campo Exclude columns, haz clic en Browse. Selecciona las columnas que deseas excluir y, luego, haz clic en Seleccionar.
  Nota: Puedes usar Incluir columnas, Excluir columnas o ambas. Si usas ambos campos, el análisis del perfil de datos primero selecciona las columnas según tu entrada en el campo Incluir columnas y, luego, excluye las columnas según tu entrada en el campo Excluir columnas.
Para aplicar el muestreo al análisis del perfil de datos, selecciona un porcentaje de muestreo en la lista Tamaño de muestreo. Elige un valor de porcentaje que oscile entre el 0.0% y el 100.0% con hasta 3 dígitos decimales.
- Para conjuntos de datos más grandes, elige un porcentaje de muestreo más bajo. Por ejemplo, para una tabla de 1 PB, si ingresas un valor entre el 0.1% y el 1.0%, el perfil de datos muestreará entre 1 y 10 TB de datos.
- Debe haber al menos 100 registros en los datos de la muestra para devolver un resultado.
- Para los análisis de datos incrementales, el análisis del perfil de datos aplica el muestreo al incremento más reciente.
Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog en la consola deGoogle Cloud para la tabla de origen. Selecciona la casilla de verificación Publicar los resultados en la IU de BigQuery y Dataplex Catalog.

Puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog de la tabla de origen. Para permitir que los usuarios accedan a los resultados del análisis publicados, consulta la sección Otorga acceso a los resultados del análisis de perfil de datos de este documento.

Es posible que la opción de publicación no esté disponible en los siguientes casos:
- No tienes los permisos necesarios en la tabla.
- Otro análisis de calidad de los datos está configurado para publicar los resultados.
En la sección Programación, elige una de las siguientes opciones:
- Repetir: Ejecuta el análisis del perfil de datos según un programa: por hora, diario, semanal, mensual o personalizado. Especifica la frecuencia con la que se debe ejecutar el análisis y a qué hora. Si eliges la opción personalizada, usa el formato cron para especificar la programación.
- On demand: Ejecuta el análisis del perfil de datos según demanda.
Haz clic en Continuar.
Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table, haz lo siguiente:
1. En el campo Selecciona un conjunto de datos de BigQuery, haz clic en Explorar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis del perfil de datos.
2. En el campo Tabla de BigQuery, especifica la tabla en la que se almacenarán los resultados del análisis del perfil de datos. Si usas una tabla existente, asegúrate de que sea compatible con el esquema de la tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.
  
  Nota: Puedes usar la misma tabla de resultados para varios análisis de perfil de datos.
Opcional: Agrega etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros recursos de Google Cloud .
Para crear el análisis, haz clic en Crear.

Si configuras el programa como a pedido, también puedes ejecutar el análisis ahora haciendo clic en Ejecutar análisis.

gcloud

Para crear un análisis del perfil de datos, usa el comando gcloud dataplex datascans create data-profile.

Si los datos de origen están organizados en un lake de Dataplex Universal Catalog, incluye la marca --data-source-entity:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Si los datos de origen no están organizados en un lake de Dataplex Universal Catalog, incluye la marca --data-source-resource:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Reemplaza las siguientes variables:

DATASCAN: Es el nombre del análisis del perfil de datos.
LOCATION: Es la región Google Cloud en la que se creará el análisis del perfil de datos.
DATA_SOURCE_ENTITY: Es la entidad de Dataplex Universal Catalog que contiene los datos para el análisis de perfil de datos. Por ejemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE: Es el nombre del recurso que contiene los datos para el análisis del perfil de datos. Por ejemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table

REST

Para crear un análisis del perfil de datos, usa el método dataScans.create.

Exporta el esquema de la tabla

Si deseas exportar los resultados del análisis de perfil de datos a una tabla de BigQuery existente, asegúrate de que sea compatible con el siguiente esquema de tabla:

Nombre de la columna	Tipo de datos de la columna	Nombre del subcampo (si corresponde)	Tipo de datos del subcampo	Modo	Ejemplo
data_profile_scan	`struct/record`	`resource_name`	`string`	anulable	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	anulable	`test-project`
		`location`	`string`	anulable	`us-central1`
		`data_scan_id`	`string`	anulable	`test-datascan`
data_source	`struct/record`	`resource_name`	`string`	anulable	Caso de entidad: `//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity` Caso de tabla: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	anulable	`test-project`
		`dataplex_entity_project_number`	`integer`	anulable	`123456789012`
		`dataplex_lake_id`	`string`	anulable	(Solo es válido si la fuente es una entidad) `test-lake`
		`dataplex_zone_id`	`string`	anulable	(Solo es válido si la fuente es una entidad) `test-zone`
		`dataplex_entity_id`	`string`	anulable	(Solo es válido si la fuente es una entidad) `test-entity`
		`table_project_id`	`string`	anulable	`dataplex-table`
		`table_project_number`	`int64`	anulable	`345678901234`
		`dataset_id`	`string`	anulable	(Solo es válido si la fuente es una tabla) `test-dataset`
		`table_id`	`string`	anulable	(Solo es válido si la fuente es una tabla) `test-table`
data_profile_job_id	`string`			anulable	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_profile_job_configuration	`json`	`trigger`	`string`	anulable	`ondemand`/`schedule`
		`incremental`	`boolean`	anulable	`true`/`false`
		`sampling_percent`	`float`	anulable	(0-100) `20.0` (indica un 20%)
		`row_filter`	`string`	anulable	`col1 >= 0 AND col2 < 10`
		`column_filter`	`json`	anulable	`{"include_fields":["col1","col2"], "exclude_fields":["col3"]}`
job_labels	`json`			anulable	`{"key1":value1}`
job_start_time	`timestamp`			anulable	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			anulable	`2023-01-01 00:00:00 UTC`
job_rows_scanned	`integer`			anulable	`7500`
column_name	`string`			anulable	`column-1`
column_type	`string`			anulable	`string`
column_mode	`string`			anulable	`repeated`
percent_null	`float`			anulable	(0.0-100.0) `20.0` (indica un 20%)
percent_unique	`float`			anulable	(0.0-100.0) `92.5`
min_string_length	`integer`			anulable	(Solo es válido si el tipo de columna es cadena) `10`
max_string_length	`integer`			anulable	(Solo es válido si el tipo de columna es cadena) `4`
average_string_length	`float`			anulable	(Solo es válido si el tipo de columna es cadena) `7.2`
min_value	`float`			anulable	(Solo es válido si el tipo de columna es numérico: entero o flotante)
max_value	`float`			anulable	(Solo es válido si el tipo de columna es numérico: entero o flotante)
average_value	`float`			anulable	(Solo es válido si el tipo de columna es numérico: entero o flotante)
standard_deviation	`float`			anulable	(Solo es válido si el tipo de columna es numérico: entero o flotante)
quartile_lower	`integer`			anulable	(Solo es válido si el tipo de columna es numérico: entero o flotante)
quartile_median	`integer`			anulable	(Solo es válido si el tipo de columna es numérico: entero o flotante)
quartile_upper	`integer`			anulable	(Solo es válido si el tipo de columna es numérico: entero o flotante)
top_n	`struct/record - repeated`	`value`	`string`	anulable	`"4009"`
		`count`	`integer`	anulable	`20`
		`percent`	`float`	anulable	`10` (indica un 10%)

Configuración de la tabla de exportación

Cuando exportes a tablas de BigQueryExport, sigue estos lineamientos:

Para el campo resultsTable, usa el siguiente formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
Usa una tabla estándar de BigQuery.
Si la tabla no existe cuando se crea o actualiza el análisis, Dataplex Universal Catalog la crea por ti.
De forma predeterminada, la tabla se particiona en la columna job_start_time todos los días.
Si deseas que la tabla se particione en otras configuraciones o si no deseas la partición, vuelve a crear la tabla con el esquema y las configuraciones requeridos y, luego, proporciona la tabla creada previamente como la tabla de resultados.
Asegúrate de que la tabla de resultados esté en la misma ubicación que la tabla de origen.
Si VPC-SC está configurado en el proyecto, la tabla de resultados debe estar en el mismo perímetro de VPC-SC que la tabla de origen.
Si la tabla se modifica durante la etapa de ejecución del análisis, el trabajo en ejecución actual se exporta a la tabla de resultados anterior y el cambio en la tabla entra en vigencia a partir del siguiente trabajo de análisis.
No modifiques el esquema de la tabla. Si necesitas columnas personalizadas, crea una vista sobre la tabla.
Para reducir los costos, establece una fecha de vencimiento en la partición según tu caso de uso. Para obtener más información, consulta cómo configurar el vencimiento de la partición.

Crear varios análisis de perfiles de datos

Puedes configurar análisis de perfil de datos para varias tablas en un conjunto de datos de BigQuery al mismo tiempo con la consola de Google Cloud .

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en Crear análisis del perfil de datos.
Selecciona la opción Varios análisis del perfil de datos.
Ingresa un prefijo de ID. Dataplex Universal Catalog genera automáticamente IDs de análisis con el prefijo proporcionado y sufijos únicos.
Ingresa una Descripción para todos los análisis del perfil de datos.
En el campo Conjunto de datos, haz clic en Explorar. Selecciona un conjunto de datos para elegir tablas. Haz clic en Seleccionar.
Si el conjunto de datos es multirregional, selecciona una región en la que crear los análisis de perfiles de datos.
Establece la configuración común para los análisis:
1. En el campo Alcance, elige Incremental o Datos completos.
  
  Nota: Si eliges datos incrementales, solo puedes seleccionar tablas que estén particionadas en una columna de tipo DATE o TIMESTAMP.
2. Para aplicar el muestreo a los análisis de perfiles de datos, en la lista Tamaño de muestreo, selecciona un porcentaje de muestreo.
  
  Elige un valor de porcentaje entre 0.0% y 100.0% con hasta 3 dígitos decimales.
3. Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog en la consola deGoogle Cloud para la tabla de origen. Selecciona la casilla de verificación Publicar los resultados en la IU de BigQuery y Dataplex Catalog.
  
  Puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog de la tabla de origen. Para permitir que los usuarios accedan a los resultados del análisis publicados, consulta la sección Otorga acceso a los resultados del análisis del perfil de datos de este documento.
  
  Nota: Debes elegir tablas que no tengan ninguna publicación de análisis existente de sus resultados.
4. En la sección Programación, elige una de las siguientes opciones:
  - Repetir: Ejecuta los análisis del perfil de datos según un programa: por hora, diario, semanal, mensual o personalizado. Especifica con qué frecuencia y a qué hora se deben ejecutar los análisis. Si eliges la opción personalizada, usa el formato cron para especificar la programación.
  - A pedido: Ejecuta los análisis del perfil de datos a pedido.
Haz clic en Continuar.
En el campo Elegir tablas, haz clic en Explorar. Elige una o más tablas para analizar y, luego, haz clic en Seleccionar.
Haz clic en Continuar.
Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table, haz lo siguiente:
1. En el campo Selecciona un conjunto de datos de BigQuery, haz clic en Explorar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis del perfil de datos.
2. En el campo Tabla de BigQuery, especifica la tabla en la que se almacenarán los resultados del análisis del perfil de datos. Si usas una tabla existente, asegúrate de que sea compatible con el esquema de la tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.
  
  Dataplex Universal Catalog usa la misma tabla de resultados para todos los análisis de perfil de datos.
Opcional: Agrega etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros Google Cloud recursos.
Para crear los análisis, haz clic en Crear.

Si configuras la programación a pedido, también puedes ejecutar los análisis ahora haciendo clic en Ejecutar análisis.

Ejecuta un análisis de perfil de datos

Console

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en el análisis del perfil de datos que deseas ejecutar.
Haz clic en Ejecutar ahora.

gcloud

Para ejecutar un análisis de perfil de datos, usa el comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Reemplaza las siguientes variables:

DATASCAN: Es el nombre del análisis del perfil de datos.
LOCATION: La Google Cloud región en la que se creó el análisis del perfil de datos.

REST

Para ejecutar un análisis de perfil de datos, usa el método dataScans.run.

Visualiza los resultados del análisis de perfiles de datos

Console

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en el nombre de un análisis del perfil de datos.
- En la sección Descripción general, se muestra información sobre los trabajos más recientes, como cuándo se ejecutó el análisis, la cantidad de registros de la tabla analizados y el estado del trabajo.
- En la sección Configuración del análisis del perfil de datos, se muestran detalles sobre el análisis.
Para ver información detallada sobre un trabajo, como las columnas de la tabla analizada, las estadísticas sobre las columnas que se encontraron en el análisis y los registros del trabajo, haz clic en la pestaña Historial de trabajos. Luego, haz clic en un ID de trabajo.

gcloud

Para ver los resultados de un trabajo de análisis de perfil de datos, usa el comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Reemplaza las siguientes variables:

JOB: Es el ID del trabajo de análisis del perfil de datos.
LOCATION: La Google Cloud región en la que se creó el análisis del perfil de datos.
DATASCAN: Es el nombre del análisis del perfil de datos al que pertenece el trabajo.
--view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

REST

Para ver los resultados de un análisis de perfil de los datos, usa el método dataScans.get.

Visualiza los resultados publicados

Si los resultados del análisis del perfil de datos se publican en las páginas de BigQuery y Dataplex Universal Catalog en la consola de Google Cloud , puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos de la tabla de origen.

En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.

Ir a Búsqueda
Busca y selecciona la tabla.
Haz clic en la pestaña Perfil de datos.

Se muestran los resultados publicados más recientes.

Nota: Es posible que los resultados publicados no estén disponibles si se ejecuta un análisis por primera vez.

Cómo ver el trabajo de análisis de perfil de datos más reciente

Console

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en el nombre de un análisis del perfil de datos.
Haz clic en la pestaña Resultados del trabajo más reciente.

La pestaña Resultados del trabajo más reciente, cuando hay al menos una ejecución completada correctamente, proporciona información sobre el trabajo más reciente. En ella, se enumeran las columnas de la tabla analizada y las estadísticas sobre las columnas que se encontraron en el análisis.

gcloud

Para ver el análisis de perfil de datos exitoso más reciente, usa el comando gcloud dataplex datascans describe:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Reemplaza las siguientes variables:

DATASCAN: Es el nombre del análisis del perfil de datos para el que se desea ver el trabajo más reciente.
LOCATION: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.
--view=FULL: Para ver el resultado del trabajo de análisis, especifica FULL.

REST

Para ver el trabajo de análisis más reciente, usa el método dataScans.get.

Visualiza los resultados del análisis histórico

Dataplex Universal Catalog guarda el historial de análisis de perfil de datos de los últimos 300 trabajos o del último año, lo que ocurra primero.

Console

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en el nombre de un análisis del perfil de datos.
Haz clic en la pestaña Historial de trabajos.

La pestaña Historial de trabajos proporciona información sobre los trabajos anteriores, como la cantidad de registros analizados en cada trabajo, el estado del trabajo y la hora en que se ejecutó.
Para ver información detallada sobre un trabajo, haz clic en cualquiera de los trabajos de la columna ID del trabajo.

gcloud

Para ver los trabajos históricos de análisis de perfiles de datos, usa el comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Reemplaza las siguientes variables:

LOCATION: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.
DATASCAN: Es el nombre del análisis del perfil de datos para el que se visualizarán los trabajos.

REST

Para ver los trabajos históricos de análisis de perfil de los datos, usa el método dataScans.jobs.list.

Para permitir que los usuarios de tu organización vean los resultados del análisis, haz lo siguiente:

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en el análisis de calidad de los datos cuyos resultados quieras compartir.
Haz clic en la pestaña Permisos.
Haz lo siguiente:
- Para otorgar acceso a una principal, haz clic en Otorgar acceso. Otorga el rol Visualizador de datos de DataScan de Dataplex a la principal asociada.
- Para quitar el acceso de una principal, selecciona la principal de la que deseas quitar el rol Visualizador de datos de DataScan de Dataplex. Haz clic en Quitar acceso y, luego, confirma la acción cuando se te solicite.

Administra los análisis de perfil de datos para una tabla específica

En este documento, se muestran los pasos para administrar los análisis de perfiles de datos en tu proyecto con la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog en la consola de Google Cloud .

También puedes crear y administrar análisis de perfiles de datos cuando trabajas con una tabla específica. En la consola de Google Cloud , en la página Dataplex Universal Catalog de la tabla, usa la pestaña Perfil de datos. Haz lo siguiente:

En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.

Ir a Búsqueda

Busca y selecciona la tabla.
Haz clic en la pestaña Perfil de datos.
Según si la tabla tiene un análisis de perfil de datos cuyos resultados se publicaron, puedes trabajar con los análisis de perfil de datos de la tabla de las siguientes maneras:
- Se publicaron los resultados del análisis de perfil de datos: En la página, se muestran los resultados del análisis publicado más reciente.
  
  Para administrar los análisis de perfil de los datos de esta tabla, haz clic en Análisis de perfil de los datos y, luego, selecciona una de las siguientes opciones:
  - Crear análisis nuevo: Crea un análisis de perfil de datos nuevo. Para obtener más información, consulta la sección Crea un análisis del perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se preselecciona.
  - Ejecutar ahora: Ejecuta el análisis.
  - Editar configuración de análisis: Edita la configuración, incluido el nombre visible, los filtros, el tamaño de la muestra y la programación.
  - Administrar permisos del análisis: Controla quién puede acceder a los resultados del análisis. Para obtener más información, consulta la sección Otorga acceso a los resultados del análisis de perfil de los datos de este documento.
  - Ver resultados históricos: Consulta información detallada sobre los trabajos de análisis de perfiles de datos anteriores. Para obtener más información, consulta las secciones Visualiza los resultados del análisis de perfiles de datos y Visualiza los resultados históricos del análisis de este documento.
  - Ver todos los análisis: Consulta una lista de los análisis de perfil de los datos que se aplican a esta tabla.
- Los resultados del análisis de perfil de datos no se publican: Haz clic en el menú junto a Perfil de datos rápido y, luego, selecciona una de las siguientes opciones:
  - Personaliza la generación de perfiles de datos: Crea un análisis de perfil de datos nuevo. Para obtener más información, consulta la sección Crea un análisis del perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se preselecciona.
  - Ver perfiles anteriores: Consulta una lista de los análisis de perfil de los datos que se aplican a esta tabla.

Actualiza un análisis del perfil de datos

Console

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en el nombre de un análisis del perfil de datos.
Haz clic en Editar y, luego, edita los valores.
Haz clic en Guardar.

gcloud

Para actualizar un análisis del perfil de datos, usa el comando gcloud dataplex datascans update data-profile:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Reemplaza las siguientes variables:

DATASCAN: Es el nombre del análisis del perfil de datos que se actualizará.
LOCATION: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.
DESCRIPTION: Es la nueva descripción del análisis del perfil de datos.

REST

Para editar un análisis del perfil de datos, usa el método dataScans.patch.

Borra un análisis de perfil de datos

Console

En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.

Ir a Creación de perfiles de datos y calidad
Haz clic en el análisis que quieras borrar.
Haz clic en Borrar y, luego, confirma cuando se te solicite.

gcloud

Para borrar un análisis del perfil de datos, usa el comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Reemplaza las siguientes variables:

DATASCAN: Es el nombre del análisis del perfil de datos que se borrará.
LOCATION: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.

REST

Para borrar un análisis del perfil de datos, usa el método dataScans.delete.

Próximos pasos

Aprende a explorar tus datos y generar estadísticas de ellos.
Obtén más información sobre la generación de perfiles de datos.
Obtén más información sobre la calidad de los datos automática.
Obtén más información para usar la calidad de los datos automática.

Crea y usa análisis de perfil de datos

Antes de comenzar

Roles requeridos

Roles y permisos de análisis de datos

Crea un análisis de perfil de datos

Console

gcloud

REST

Exporta el esquema de la tabla

Configuración de la tabla de exportación

Crear varios análisis de perfiles de datos

Ejecuta un análisis de perfil de datos

Console

gcloud

REST

Visualiza los resultados del análisis de perfiles de datos

Console

gcloud

REST

Visualiza los resultados publicados

Cómo ver el trabajo de análisis de perfil de datos más reciente

Console

gcloud

REST

Visualiza los resultados del análisis histórico

Console

gcloud

REST

Otorga acceso a los resultados del análisis de perfil de datos

Administra los análisis de perfil de datos para una tabla específica

Actualiza un análisis del perfil de datos

Console

gcloud

REST

Borra un análisis de perfil de datos

Console

gcloud

REST

Próximos pasos