En esta página, se muestra cómo crear y administrar análisis de perfil de datos. La creación de perfiles de datos te permite identificar características estadísticas comunes de las columnas en tus tablas de BigQuery. Esta información te ayuda a comprender y analizar tus datos de manera más eficaz.
Para obtener más información sobre los análisis de perfiles de datos de Dataplex Universal Catalog, consulta Acerca de la generación de perfiles de datos.
Antes de comenzar
Enable the Dataplex API.
Roles requeridos
Para crear perfiles de tablas de BigQuery, necesitas los siguientes permisos:
Para ejecutar un análisis de perfil de datos en una tabla de BigQuery, necesitas permiso para leer la tabla de BigQuery y permiso para crear un trabajo de BigQuery en el proyecto que se usa para analizar la tabla.
Si la tabla de BigQuery y el análisis del perfil de datos están en proyectos diferentes, debes otorgar a la cuenta de servicio del catálogo universal de Dataplex permiso de lectura en la tabla de BigQuery correspondiente.
Si los datos de BigQuery están organizados en un lago de Dataplex Universal Catalog, para crear un análisis de perfil de datos, necesitas los roles
roles/dataplex.metadataReader
yroles/dataplex.viewer
de Dataplex Universal Catalog. Esto otorga los siguientes permisos:dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Si analizas una tabla externa de BigQuery desde Cloud Storage, asigna a la cuenta de servicio de Dataplex Universal Catalog el rol de Visualizador de objetos de Storage (
roles/storage.objectViewer
) o los siguientes permisos en el bucket:storage.buckets.get
storage.objects.get
Si deseas publicar los resultados del análisis del perfil de datos en las páginas del catálogo universal de BigQuery y Dataplex en la consola deGoogle Cloud para las tablas de origen, debes tener el rol de editor de datos de BigQuery (
roles/bigquery.dataEditor
) en la tabla. Como alternativa, necesitas todos los siguientes permisos:bigquery.tables.get
bigquery.tables.update
bigquery.tables.updateData
bigquery.tables.delete
Para exportar los resultados del análisis a una tabla de BigQuery, tu cuenta de servicio de Dataplex Universal Catalog necesita el rol de editor de datos de BigQuery (
roles/bigquery.dataEditor
). Esto otorga los siguientes permisos:bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Si necesitas acceder a columnas protegidas por políticas de acceso a nivel de columnas de BigQuery, asigna permisos a la cuenta de servicio de Dataplex Universal Catalog en esas columnas. El usuario que crea o actualiza un análisis de datos también necesita permisos en las columnas.
Si una tabla tiene habilitadas las políticas de acceso a nivel de la fila de BigQuery, solo puedes analizar las filas visibles para la cuenta de servicio de Dataplex Universal Catalog. Ten en cuenta que los privilegios de acceso del usuario individual no se evalúan para las políticas a nivel de las filas.
Roles y permisos de análisis de datos
Para usar el perfilamiento de datos, pídele a tu administrador que te otorgue uno de los siguientes roles de IAM:
roles/dataplex.dataScanAdmin
: Acceso completo a los recursos deDataScan
roles/dataplex.dataScanEditor
: Acceso de escritura a los recursos deDataScan
.roles/dataplex.dataScanViewer
: Acceso de lectura a los recursos deDataScan
, sin incluir los resultados.roles/dataplex.dataScanDataViewer
: Acceso de lectura a los recursos deDataScan
, incluidos los resultados.
En la siguiente tabla, se enumeran los permisos de análisis de datos:
Nombre del permiso | Otorga permiso para realizar las siguientes acciones: |
---|---|
dataplex.datascans.create |
Crea una DataScan |
dataplex.datascans.delete |
Borra una DataScan |
dataplex.datascans.get |
Ver los detalles de DataScan sin incluir los resultados |
dataplex.datascans.getData |
Ver detalles de DataScan , incluidos los resultados |
dataplex.datascans.list |
Enumera DataScan s |
dataplex.datascans.run |
Ejecuta una DataScan |
dataplex.datascans.update |
Actualiza la descripción de un DataScan |
dataplex.datascans.getIamPolicy |
Visualiza los permisos de IAM actuales en el análisis |
dataplex.datascans.setIamPolicy |
Establece permisos de IAM en el análisis |
Crea un análisis de perfil de datos
Console
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
Haz clic en Crear análisis del perfil de datos.
Opcional: Ingresa un nombre visible.
Ingresa un ID. Consulta las convenciones de nomenclatura de recursos.
Escribe una descripción (opcional).
En el campo Tabla, haz clic en Explorar. Elige la tabla que deseas analizar y, luego, haz clic en Seleccionar.
Para las tablas en conjuntos de datos multirregionales, elige una región en la que se creará el análisis de datos.
Para explorar las tablas organizadas en los lakes de Dataplex Universal Catalog, haz clic en Browse within Dataplex Lakes.
En el campo Alcance, elige Incremental o Datos completos.
- Si eliges Datos incrementales, en el campo Columna de marca de tiempo, selecciona una columna de tipo
DATE
oTIMESTAMP
de tu tabla de BigQuery que aumente a medida que se agreguen registros nuevos y que se pueda usar para identificar registros nuevos. Para las tablas particionadas en una columna de tipoDATE
oTIMESTAMP
, recomendamos usar la columna de partición como el campo de marca de tiempo.
- Si eliges Datos incrementales, en el campo Columna de marca de tiempo, selecciona una columna de tipo
Opcional: Para filtrar tus datos, haz cualquiera de las siguientes acciones:
Para filtrar por filas, haz clic en la casilla de verificación Filtrar filas. Ingresa una expresión de SQL válida que se pueda usar en una cláusula
WHERE
en la sintaxis de GoogleSQL. Por ejemplo:col1 >= 0
.El filtro puede ser una combinación de condiciones de SQL en varias columnas. Por ejemplo:
col1 >= 0 AND col2 < 10
.Para filtrar por columnas, selecciona la casilla de verificación Filtrar columnas.
Para incluir columnas en el análisis del perfil, en el campo Incluir columnas, haz clic en Explorar. Selecciona las columnas que deseas incluir y, luego, haz clic en Seleccionar.
Para excluir columnas del análisis del perfil, en el campo Exclude columns, haz clic en Browse. Selecciona las columnas que deseas excluir y, luego, haz clic en Seleccionar.
Para aplicar el muestreo al análisis del perfil de datos, selecciona un porcentaje de muestreo en la lista Tamaño de muestreo. Elige un valor de porcentaje que oscile entre el 0.0% y el 100.0% con hasta 3 dígitos decimales.
Para conjuntos de datos más grandes, elige un porcentaje de muestreo más bajo. Por ejemplo, para una tabla de 1 PB, si ingresas un valor entre el 0.1% y el 1.0%, el perfil de datos muestreará entre 1 y 10 TB de datos.
Debe haber al menos 100 registros en los datos de la muestra para devolver un resultado.
Para los análisis de datos incrementales, el análisis del perfil de datos aplica el muestreo al incremento más reciente.
Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog en la consola deGoogle Cloud para la tabla de origen. Selecciona la casilla de verificación Publicar los resultados en la IU de BigQuery y Dataplex Catalog.
Puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog de la tabla de origen. Para permitir que los usuarios accedan a los resultados del análisis publicado, consulta la sección Otorga acceso a los resultados del análisis de perfil de datos de este documento.
Es posible que la opción de publicación no esté disponible en los siguientes casos:
- No tienes los permisos necesarios en la tabla.
- Otro análisis de calidad de los datos está configurado para publicar los resultados.
En la sección Programación, elige una de las siguientes opciones:
Repetir: Ejecuta el análisis del perfil de datos según un programa: por hora, diario, semanal, mensual o personalizado. Especifica la frecuencia con la que se debe ejecutar el análisis y a qué hora. Si eliges la opción personalizada, usa el formato cron para especificar la programación.
On demand: Ejecuta el análisis del perfil de datos según demanda.
Haz clic en Continuar.
Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table, haz lo siguiente:
En el campo Selecciona un conjunto de datos de BigQuery, haz clic en Explorar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis del perfil de datos.
En el campo Tabla de BigQuery, especifica la tabla en la que se almacenarán los resultados del análisis del perfil de datos. Si usas una tabla existente, asegúrate de que sea compatible con el esquema de la tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.
Opcional: Agrega etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros recursos de Google Cloud .
Para crear el análisis, haz clic en Crear.
Si configuras el programa como a pedido, también puedes ejecutar el análisis ahora haciendo clic en Ejecutar análisis.
gcloud
Para crear un análisis del perfil de datos, usa el comando gcloud dataplex datascans create data-profile
.
Si los datos de origen están organizados en un lake de Dataplex Universal Catalog, incluye la marca --data-source-entity
:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-entity=DATA_SOURCE_ENTITY
Si los datos de origen no están organizados en un lake de Dataplex Universal Catalog, incluye la marca --data-source-resource
:
gcloud dataplex datascans create data-profile DATASCAN \ --location=LOCATION \ --data-source-resource=DATA_SOURCE_RESOURCE
Reemplaza las siguientes variables:
DATASCAN
: Es el nombre del análisis del perfil de datos.LOCATION
: Es la región Google Cloud en la que se creará el análisis del perfil de datos.DATA_SOURCE_ENTITY
: Es la entidad de Dataplex Universal Catalog que contiene los datos para el análisis de perfil de datos. Por ejemplo,projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
DATA_SOURCE_RESOURCE
: Es el nombre del recurso que contiene los datos para el análisis del perfil de datos. Por ejemplo,//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
REST
Para crear un análisis del perfil de datos, usa el método dataScans.create
.
Exporta el esquema de la tabla
Si deseas exportar los resultados del análisis de perfil de datos a una tabla de BigQuery existente, asegúrate de que sea compatible con el siguiente esquema de tabla:
Nombre de la columna | Tipo de datos de la columna | Nombre del subcampo (si corresponde) | Tipo de datos del subcampo | Modo | Ejemplo |
---|---|---|---|---|---|
data_profile_scan | struct/record |
resource_name |
string |
anulable | //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan |
project_id |
string |
anulable | test-project |
||
location |
string |
anulable | us-central1 |
||
data_scan_id |
string |
anulable | test-datascan |
||
data_source | struct/record |
resource_name |
string |
anulable |
Caso de entidad:
Caso de tabla:
|
dataplex_entity_project_id |
string |
anulable | test-project |
||
dataplex_entity_project_number |
integer |
anulable | 123456789012 |
||
dataplex_lake_id |
string |
anulable |
(Solo es válido si la fuente es una entidad)
|
||
dataplex_zone_id |
string |
anulable |
(Solo es válido si la fuente es una entidad)
|
||
dataplex_entity_id |
string |
anulable |
(Solo es válido si la fuente es una entidad)
|
||
table_project_id |
string |
anulable | dataplex-table |
||
table_project_number |
int64 |
anulable | 345678901234 |
||
dataset_id |
string |
anulable |
(Solo es válido si la fuente es una tabla)
|
||
table_id |
string |
anulable |
(Solo es válido si la fuente es una tabla)
|
||
data_profile_job_id | string |
anulable | caeba234-cfde-4fca-9e5b-fe02a9812e38 |
||
data_profile_job_configuration | json |
trigger |
string |
anulable | ondemand /schedule |
incremental |
boolean |
anulable | true /false |
||
sampling_percent |
float |
anulable |
(0-100)
|
||
row_filter |
string |
anulable | col1 >= 0 AND col2 < 10 |
||
column_filter |
json |
anulable | {"include_fields":["col1","col2"], "exclude_fields":["col3"]} |
||
job_labels | json |
anulable | {"key1":value1} |
||
job_start_time | timestamp |
anulable | 2023-01-01 00:00:00 UTC |
||
job_end_time | timestamp |
anulable | 2023-01-01 00:00:00 UTC |
||
job_rows_scanned | integer |
anulable | 7500 |
||
column_name | string |
anulable | column-1 |
||
column_type | string |
anulable | string |
||
column_mode | string |
anulable | repeated |
||
percent_null | float |
anulable |
(0.0-100.0)
|
||
percent_unique | float |
anulable |
(0.0-100.0)
|
||
min_string_length | integer |
anulable |
(Solo es válido si el tipo de columna es cadena)
|
||
max_string_length | integer |
anulable |
(Solo es válido si el tipo de columna es cadena)
|
||
average_string_length | float |
anulable |
(Solo es válido si el tipo de columna es cadena)
|
||
min_value | float |
anulable | (Solo es válido si el tipo de columna es numérico: entero o flotante) | ||
max_value | float |
anulable | (Solo es válido si el tipo de columna es numérico: entero o flotante) | ||
average_value | float |
anulable | (Solo es válido si el tipo de columna es numérico: entero o flotante) | ||
standard_deviation | float |
anulable | (Solo es válido si el tipo de columna es numérico: entero o flotante) | ||
quartile_lower | integer |
anulable | (Solo es válido si el tipo de columna es numérico: entero o flotante) | ||
quartile_median | integer |
anulable | (Solo es válido si el tipo de columna es numérico: entero o flotante) | ||
quartile_upper | integer |
anulable | (Solo es válido si el tipo de columna es numérico: entero o flotante) | ||
top_n | struct/record - repeated |
value |
string |
anulable | "4009" |
count |
integer |
anulable | 20 |
||
percent |
float |
anulable | 10 (indica un 10%) |
Configuración de la tabla de exportación
Cuando exportes a tablas de BigQueryExport, sigue estos lineamientos:
- Para el campo
resultsTable
, usa el siguiente formato://bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}
. - Usa una tabla estándar de BigQuery.
- Si la tabla no existe cuando se crea o actualiza el análisis, Dataplex Universal Catalog la crea por ti.
- De forma predeterminada, la tabla se particiona en la columna
job_start_time
todos los días. - Si deseas que la tabla se particione en otras configuraciones o si no deseas la partición, vuelve a crear la tabla con el esquema y las configuraciones requeridos y, luego, proporciona la tabla creada previamente como la tabla de resultados.
- Asegúrate de que la tabla de resultados esté en la misma ubicación que la tabla de origen.
- Si se configura VPC-SC en el proyecto, la tabla de resultados debe estar en el mismo perímetro de VPC-SC que la tabla de origen.
- Si la tabla se modifica durante la etapa de ejecución del análisis, el trabajo en ejecución actual se exporta a la tabla de resultados anterior y el cambio en la tabla entra en vigencia a partir del siguiente trabajo de análisis.
- No modifiques el esquema de la tabla. Si necesitas columnas personalizadas, crea una vista sobre la tabla.
- Para reducir los costos, establece una fecha de vencimiento en la partición según tu caso de uso. Para obtener más información, consulta cómo configurar el vencimiento de la partición.
Crear varios análisis de perfiles de datos
Puedes configurar análisis de perfil de datos para varias tablas en un conjunto de datos de BigQuery al mismo tiempo con la consola de Google Cloud .
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
Haz clic en Crear análisis del perfil de datos.
Selecciona la opción Varios análisis del perfil de datos.
Ingresa un prefijo de ID. Dataplex Universal Catalog genera automáticamente IDs de análisis con el prefijo proporcionado y sufijos únicos.
Ingresa una Descripción para todos los análisis del perfil de datos.
En el campo Conjunto de datos, haz clic en Explorar. Selecciona un conjunto de datos para elegir tablas. Haz clic en Seleccionar.
Si el conjunto de datos es multirregional, selecciona una región en la que crear los análisis de perfiles de datos.
Establece la configuración común para los análisis:
En el campo Alcance, elige Incremental o Datos completos.
Para aplicar el muestreo a los análisis de perfiles de datos, en la lista Tamaño de muestreo, selecciona un porcentaje de muestreo.
Elige un valor de porcentaje entre 0.0% y 100.0% con hasta 3 dígitos decimales.
Opcional: Publica los resultados del análisis del perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog en la consola deGoogle Cloud para la tabla de origen. Selecciona la casilla de verificación Publicar los resultados en la IU de BigQuery y Dataplex Catalog.
Puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos en las páginas de BigQuery y Dataplex Universal Catalog de la tabla de origen. Para permitir que los usuarios accedan a los resultados del análisis publicado, consulta la sección Otorga acceso a los resultados del análisis de perfil de datos de este documento.
En la sección Programación, elige una de las siguientes opciones:
Repetir: Ejecuta los análisis de perfil de datos según un programa: por hora, diario, semanal, mensual o personalizado. Especifica con qué frecuencia y a qué hora se deben ejecutar los análisis. Si eliges la opción personalizada, usa el formato cron para especificar la programación.
A pedido: Ejecuta los análisis del perfil de datos a pedido.
Haz clic en Continuar.
En el campo Elegir tablas, haz clic en Explorar. Elige una o más tablas para analizar y, luego, haz clic en Seleccionar.
Haz clic en Continuar.
Opcional: Exporta los resultados del análisis a una tabla estándar de BigQuery. En la sección Export scan results to BigQuery table, haz lo siguiente:
En el campo Selecciona un conjunto de datos de BigQuery, haz clic en Explorar. Selecciona un conjunto de datos de BigQuery para almacenar los resultados del análisis del perfil de datos.
En el campo Tabla de BigQuery, especifica la tabla en la que se almacenarán los resultados del análisis del perfil de datos. Si usas una tabla existente, asegúrate de que sea compatible con el esquema de la tabla de exportación. Si la tabla especificada no existe, Dataplex Universal Catalog la crea por ti.
Dataplex Universal Catalog usa la misma tabla de resultados para todos los análisis de perfil de datos.
Opcional: Agrega etiquetas. Las etiquetas son pares clave-valor que te permiten agrupar objetos relacionados entre sí o con otros Google Cloud recursos.
Para crear los análisis, haz clic en Crear.
Si configuras la programación a pedido, también puedes ejecutar los análisis ahora haciendo clic en Ejecutar análisis.
Ejecuta un análisis de perfil de datos
Console
-
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
- Haz clic en el análisis del perfil de datos que deseas ejecutar.
- Haz clic en Ejecutar ahora.
gcloud
Para ejecutar un análisis de perfil de datos, usa el comando gcloud dataplex datascans run
:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION
Reemplaza las siguientes variables:
DATASCAN
: Es el nombre del análisis del perfil de datos.LOCATION
: La Google Cloud región en la que se creó el análisis del perfil de datos.
REST
Para ejecutar un análisis de perfil de datos, usa el método dataScans.run
.
Visualiza los resultados del análisis de perfiles de datos
Console
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
Haz clic en el nombre de un análisis del perfil de datos.
En la sección Descripción general, se muestra información sobre los trabajos más recientes, como cuándo se ejecutó el análisis, la cantidad de registros de la tabla analizados y el estado del trabajo.
En la sección Configuración del análisis de perfil de datos, se muestran detalles sobre el análisis.
Para ver información detallada sobre un trabajo, como las columnas de la tabla analizada, las estadísticas sobre las columnas que se encontraron en el análisis y los registros del trabajo, haz clic en la pestaña Historial de trabajos. Luego, haz clic en un ID de trabajo.
gcloud
Para ver los resultados de un trabajo de análisis de perfil de datos, usa el comando gcloud dataplex datascans jobs describe
:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Reemplaza las siguientes variables:
JOB
: Es el ID del trabajo de análisis del perfil de datos.LOCATION
: La Google Cloud región en la que se creó el análisis del perfil de datos.DATASCAN
: Es el nombre del análisis del perfil de datos al que pertenece el trabajo.--view=FULL
: Para ver el resultado del trabajo de análisis, especificaFULL
.
REST
Para ver los resultados de un análisis de perfil de los datos, usa el método dataScans.get
.
Visualiza los resultados publicados
Si los resultados del análisis del perfil de datos se publican en las páginas de BigQuery y Dataplex Universal Catalog en la consola de Google Cloud , puedes ver los resultados del análisis más recientes en la pestaña Perfil de datos de la tabla de origen.
En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.
Busca y selecciona la tabla.
Haz clic en la pestaña Perfil de datos.
Se muestran los resultados publicados más recientes.
Cómo ver el trabajo de análisis de perfil de datos más reciente
Console
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
Haz clic en el nombre de un análisis del perfil de datos.
Haz clic en la pestaña Resultados del trabajo más reciente.
La pestaña Resultados del trabajo más reciente, cuando hay al menos una ejecución completada correctamente, proporciona información sobre el trabajo más reciente. En ella, se enumeran las columnas de la tabla analizada y las estadísticas sobre las columnas que se encontraron en el análisis.
gcloud
Para ver el análisis de perfil de datos exitoso más reciente, usa el comando gcloud dataplex datascans describe
:
gcloud dataplex datascans describe DATASCAN \ --location=LOCATION \ --view=FULL
Reemplaza las siguientes variables:
DATASCAN
: Es el nombre del análisis del perfil de datos para el que se desea ver el trabajo más reciente.LOCATION
: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.--view=FULL
: Para ver el resultado del trabajo de análisis, especificaFULL
.
REST
Para ver el trabajo de análisis más reciente, usa el método dataScans.get
.
Visualiza los resultados del análisis histórico
Dataplex Universal Catalog guarda el historial de análisis de perfil de datos de los últimos 300 trabajos o del último año, lo que ocurra primero.
Console
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
Haz clic en el nombre de un análisis del perfil de datos.
Haz clic en la pestaña Historial de trabajos.
La pestaña Historial de trabajos proporciona información sobre los trabajos anteriores, como la cantidad de registros analizados en cada trabajo, el estado del trabajo y la hora en que se ejecutó.
Para ver información detallada sobre un trabajo, haz clic en cualquiera de los trabajos de la columna ID del trabajo.
gcloud
Para ver los trabajos históricos de análisis de perfiles de datos, usa el comando gcloud dataplex datascans jobs list
:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN
Reemplaza las siguientes variables:
LOCATION
: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.DATASCAN
: Es el nombre del análisis del perfil de datos para el que se visualizarán los trabajos.
REST
Para ver los trabajos históricos de análisis de perfil de los datos, usa el método dataScans.jobs.list
.
Otorga acceso a los resultados del análisis de perfil de datos
Para permitir que los usuarios de tu organización vean los resultados del análisis, haz lo siguiente:
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
Haz clic en el análisis de calidad de los datos cuyos resultados quieras compartir.
Haz clic en la pestaña Permisos.
Haz lo siguiente:
- Para otorgar acceso a una principal, haz clic en Otorgar acceso. Otorga el rol Visualizador de datos de DataScan de Dataplex a la principal asociada.
- Para quitar el acceso de una principal, selecciona la principal de la que deseas quitar el rol Visualizador de datos de DataScan de Dataplex. Haz clic en Quitar acceso y, luego, confirma la acción cuando se te solicite.
Administra los análisis de perfil de datos para una tabla específica
En este documento, se muestran los pasos para administrar los análisis de perfiles de datos en tu proyecto con la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog en la consola de Google Cloud .
También puedes crear y administrar análisis de perfiles de datos cuando trabajas con una tabla específica. En la consola de Google Cloud , en la página Dataplex Universal Catalog de la tabla, usa la pestaña Perfil de datos. Haz lo siguiente:
En la consola de Google Cloud , ve a la página Búsqueda de Dataplex Universal Catalog.
Busca y selecciona la tabla.
Haz clic en la pestaña Perfil de datos.
Según si la tabla tiene un análisis de perfil de datos cuyos resultados se publicaron, puedes trabajar con los análisis de perfil de datos de la tabla de las siguientes maneras:
Se publicaron los resultados del análisis del perfil de datos: En la página, se muestran los resultados del análisis publicado más reciente.
Para administrar los análisis de perfil de los datos de esta tabla, haz clic en Análisis de perfil de los datos y, luego, selecciona una de las siguientes opciones:
Crear análisis nuevo: Crea un análisis de perfil de datos nuevo. Para obtener más información, consulta la sección Crea un análisis del perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se preselecciona.
Ejecutar ahora: Ejecuta el análisis.
Editar configuración de análisis: Edita la configuración, incluido el nombre visible, los filtros, el tamaño de la muestra y la programación.
Administrar permisos del análisis: Controla quién puede acceder a los resultados del análisis. Para obtener más información, consulta la sección Otorga acceso a los resultados del análisis de perfil de los datos de este documento.
Ver resultados históricos: Consulta información detallada sobre los trabajos de análisis de perfiles de datos anteriores. Para obtener más información, consulta las secciones Visualiza los resultados del análisis de perfiles de datos y Visualiza los resultados históricos del análisis de este documento.
Ver todos los análisis: Consulta una lista de los análisis de perfil de los datos que se aplican a esta tabla.
No se publican los resultados del análisis de perfil de datos: Haz clic en el menú junto a Perfil de datos rápido y, luego, selecciona una de las siguientes opciones:
Personaliza la generación de perfiles de datos: Crea un análisis de perfil de datos nuevo. Para obtener más información, consulta la sección Crea un análisis del perfil de datos de este documento. Cuando creas un análisis desde la página de detalles de una tabla, esta se preselecciona.
Ver perfiles anteriores: Consulta una lista de los análisis de perfil de los datos que se aplican a esta tabla.
Actualiza un análisis de perfil de datos
Console
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
Haz clic en el nombre de un análisis del perfil de datos.
Haz clic en Editar y, luego, edita los valores.
Haz clic en Guardar.
gcloud
Para actualizar un análisis del perfil de datos, usa el comando gcloud dataplex datascans update data-profile
:
gcloud dataplex datascans update data-profile DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Reemplaza las siguientes variables:
DATASCAN
: Es el nombre del análisis del perfil de datos que se actualizará.LOCATION
: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.DESCRIPTION
: Es la nueva descripción del análisis del perfil de datos.
REST
Para editar un análisis del perfil de datos, usa el método dataScans.patch
.
Borra un análisis de perfil de datos
Console
En la consola de Google Cloud , ve a la página Generación de perfiles de datos y calidad de Dataplex Universal Catalog.
Haz clic en el análisis que quieras borrar.
Haz clic en Borrar y, luego, confirma cuando se te solicite.
gcloud
Para borrar un análisis del perfil de datos, usa el comando gcloud dataplex datascans delete
:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION --async
Reemplaza las siguientes variables:
DATASCAN
: Es el nombre del análisis del perfil de datos que se borrará.LOCATION
: Es la región de Google Cloud en la que se creó el análisis del perfil de datos.
REST
Para borrar un análisis del perfil de datos, usa el método dataScans.delete
.
Próximos pasos
- Aprende a explorar tus datos y generar estadísticas de ellos.
- Obtén más información sobre la generación de perfiles de datos.
- Obtén más información sobre la calidad de los datos automática.
- Obtén más información para usar la calidad de los datos automática.