En esta página se describe cómo aplicar automáticamente etiquetas de Data Catalog a tablas de BigQuery después de que Protección de Datos Sensibles cree perfiles de esas tablas. En esta página también se incluyen consultas de ejemplo que puede usar para encontrar datos etiquetados en su organización y sus proyectos.
Esta función es útil si quieres enriquecer los metadatos seleccionados manualmente en Dataplex Universal Catalog con las estadísticas recogidas de los perfiles de datos de Protección de Datos Sensibles. Las etiquetas generadas incluyen las siguientes estadísticas:
- Tipos de información (infoTypes) detectados en las columnas de la tabla
- Nivel de sensibilidad calculado de la tabla
- Nivel de riesgo de datos calculado de la tabla
Las estadísticas de los perfiles de datos de Protección de Datos Sensibles pueden ayudarte a usar el catálogo universal de Dataplex para descubrir datos sensibles y de alto riesgo en tu organización. Usa estas estadísticas para tomar decisiones fundamentadas sobre cómo gestionar y controlar tus datos.
Si quieres enviar los resultados de los trabajos de inspección (no de las operaciones de creación de perfiles de datos) a Dataplex Universal Catalog, consulta el artículo Enviar los resultados de inspección de Protección de Datos Sensibles a Data Catalog.
Acerca de los perfiles de datos
Puedes configurar Protección de Datos Sensibles para que genere automáticamente perfiles sobre los datos de una organización, una carpeta o un proyecto. Los perfiles de datos contienen métricas y metadatos sobre tus datos, y te ayudan a determinar dónde se encuentran los datos sensibles y de alto riesgo. Protección de Datos Sensibles genera informes de estas métricas con distintos niveles de detalle. Para obtener información sobre los tipos de datos que puede perfilar, consulte Recursos admitidos.
Acerca de Dataplex Universal Catalog y Data Catalog
Dataplex Universal Catalog es un Google Cloud servicio que unifica los datos distribuidos y automatiza la gestión y la gobernanza de esos datos. Data Catalog (obsoleto) es un servicio de gestión de metadatos escalable y totalmente gestionado.
Data Catalog te permite usar etiquetas y plantillas de etiquetas para asociar metadatos empresariales a tus datos. De esta forma, podrás buscar y gestionar todos los metadatos de tu organización o proyecto en un servicio unificado. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.
Cómo funciona
Si la configuración de tu análisis de descubrimiento tiene habilitada la acción Enviar a Dataplex como etiquetas, Protección de Datos Sensibles hará lo siguiente cada vez que cree un perfil de tus datos. Esta acción solo se aplica a los perfiles nuevos y actualizados. Los perfiles que no se actualicen no se enviarán a Dataplex Universal Catalog.
Crea una plantilla de etiqueta privada que contenga el esquema de las etiquetas que se adjuntarán a tus tablas de BigQuery. Para obtener información sobre el nombre, el ID y la ubicación de la plantilla de etiqueta, consulte Detalles de la plantilla de etiqueta.
Solo los principales con los roles y permisos adecuados pueden ver la plantilla de etiqueta.
Crea una etiqueta para cada tabla de BigQuery de la que crees un perfil. La etiqueta se basa en la plantilla de etiqueta recién creada.
Por ejemplo, una etiqueta resultante adjunta a una tabla puede tener los siguientes metadatos:
Nombre visible Valor Column Insights
ccn: CREDIT_CARD_NUMBER
first_name: PERSON_NAME
last_name: PERSON_NAME
ssn: US_SOCIAL_SECURITY_NUMBER
email: EMAIL_ADDRESS
Column Sensitivity
ccn: HIGH
first_name: MODERATE
last_name: MODERATE
favorite_animal: LOW
ssn: HIGH
email: MODERATE
id: LOW
Data Risk Level
HIGH
Other InfoTypes
PHONE_NUMBER
Predicted InfoTypes
CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
Profile Last Generated
DATE at TIME
Sensitive Data Profile
organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
Sensitivity Score
HIGH
Una tabla tiene dos etiquetas si se ha creado un perfil de ella de las dos formas siguientes:
- Una configuración de análisis a nivel de organización o de carpeta
- Una configuración de análisis a nivel de proyecto
Una vez que las tablas se hayan etiquetado, puedes buscar en el catálogo universal de Dataplex todos los datos de tu organización o proyecto con valores de etiqueta específicos.
Detalles de la plantilla de etiqueta
El nombre de la plantilla, el ID de la plantilla y el proyecto en el que se almacena la nueva plantilla de etiqueta dependen del recurso al que se refiera la configuración del análisis.
- Si la configuración del análisis es a nivel de organización o de carpeta, la plantilla de etiqueta se almacena en el contenedor del agente de servicio. El nombre de la plantilla de etiqueta es
Sensitive Data Profile
. Su ID de plantilla essensitive_data_profile
. - Si la configuración de análisis es a nivel de proyecto, la plantilla de etiqueta se almacena en el proyecto que se va a crear el perfil. El nombre de la plantilla de etiqueta es
Sensitive Data Profile (Project)
. Su ID de plantilla essensitive_data_profile_project
.
Precios
Para obtener información sobre cómo pueden cobrarte otros servicios de Google Cloud por exportar perfiles de datos, consulta Precios de la exportación de perfiles de datos.
Etiquetar automáticamente tablas de BigQuery en función de los perfiles de datos
Crea una configuración de análisis. También puedes editar una configuración de análisis que ya tengas.
- Para crear una configuración de análisis a nivel de organización o de carpeta, consulta el artículo Elaborar perfiles de datos de una organización o una carpeta.
- Para crear una configuración de análisis a nivel de proyecto, consulta Crear perfiles de datos en un solo proyecto.
En el paso Añadir acciones, asegúrate de que la opción Enviar a Dataplex en formato de etiqueta esté activada.
- Si estás creando una configuración de análisis, esta acción está habilitada de forma predeterminada.
- Si editas una configuración de análisis, debes habilitar esta acción.
Una vez que se hayan creado los perfiles de los datos y se hayan etiquetado, puede empezar a buscar datos etiquetados en Dataplex Universal Catalog.
Roles y permisos para ver etiquetas
Los resultados de búsqueda de Dataplex Universal Catalog solo muestran los datos a los que tienes acceso. Necesitas los siguientes roles o permisos de gestión de identidades y accesos (IAM) para buscar las etiquetas que están asociadas a tus tablas de BigQuery.
Finalidad | Rol predefinido | Permisos pertinentes |
---|---|---|
Ver la plantilla de etiqueta privada | Lector de valores TagTemplate de Data Catalog (roles/datacatalog.tagTemplateViewer ) |
datacatalog.tagTemplates.getTag |
Ver las etiquetas aplicadas a las tablas de BigQuery | Lector de metadatos de BigQuery (roles/bigquery.metadataViewer ) |
bigquery.datasets.get bigquery.tables.get |
Para obtener más información sobre los roles de Dataplex Universal Catalog, consulta Roles para ver etiquetas públicas y privadas.
Para obtener información sobre cómo conceder un rol predefinido, consulta el artículo Asignar un rol concreto. Si quieres usar un rol personalizado en lugar de uno predefinido, asegúrate de que el rol personalizado tenga los permisos pertinentes. Para obtener más información, consulta el artículo Crear un rol personalizado.
Buscar la plantilla de etiqueta generada
En la Google Cloud consola, ve a la página Plantillas de etiquetas del catálogo universal de Dataplex.
En la lista, busca la plantilla de etiqueta. Para obtener información sobre el nombre, el ID y la ubicación de la plantilla de etiqueta, consulte Detalles de la plantilla de etiqueta.
Opcional: Para encontrar la plantilla de etiqueta que ha generado una configuración de análisis de descubrimiento concreta, introduce lo siguiente en el campo Filtro:
name:PROJECT_ID.TAG_TEMPLATE_ID
Haz los cambios siguientes:
- PROJECT_ID: el ID del proyecto asociado a la configuración del análisis. Si has creado un perfil de tus datos a nivel de organización o de carpeta, introduce el ID del proyecto del contenedor de agentes de servicio.
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto.
Buscar la etiqueta generada de un perfil de datos de tabla concreto
En la Google Cloud consola, ve a la página Búsqueda de Dataplex Universal Catalog.
En el campo Buscar, introduce lo siguiente:
name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
Haz los cambios siguientes:
- TABLE_ID: el ID de la tabla de la que se ha creado el perfil.
- PROJECT_ID: el ID del proyecto que contiene la plantilla de etiqueta. Si has creado un perfil de tus datos a nivel de organización o de carpeta, introduce el ID del proyecto del contenedor de agentes de servicio.
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto.
En la lista que aparece, haz clic en el ID de la tabla. Aparecerán los detalles de la tabla de BigQuery junto con las etiquetas
Sensitive Data Profile
oSensitive Data Profile (Project)
que tenga asignadas.Una tabla tiene dos etiquetas si se ha creado un perfil de ella de las dos formas siguientes:
- Una configuración de análisis a nivel de organización o de carpeta
- Una configuración de análisis a nivel de proyecto
Para obtener información sobre cómo realizar una búsqueda a través de la API Data Catalog, consulta Cómo buscar recursos de datos.
Ejemplos de consultas de búsqueda
En esta sección se proporcionan consultas de búsqueda de ejemplo que puede usar en Dataplex Universal Catalog para encontrar datos de su organización o proyecto con valores de etiqueta específicos.
Solo puede encontrar los datos a los que tiene acceso. El acceso a los datos se controla mediante permisos de gestión de identidades y accesos. Para obtener más información, consulta la sección Roles y permisos para ver etiquetas de esta página.
Puedes introducir estas consultas en la página Búsqueda del catálogo universal de Dataplex en la consola de Google Cloud .
Para obtener información sobre cómo formular las consultas, consulta la sintaxis de búsqueda de Data Catalog. Para obtener información sobre cómo realizar una búsqueda a través de la API Data Catalog, consulta Cómo buscar recursos de datos.
Buscar todas las tablas que estén etiquetadas con la nueva plantilla de etiqueta
tag:PROJECT_ID.TAG_TEMPLATE_ID
Haz los cambios siguientes:
- PROJECT_ID: el ID del proyecto que contiene la plantilla de etiqueta. Si has creado un perfil de tus datos a nivel de organización o de carpeta, introduce el ID del proyecto del contenedor de agentes de servicio.
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto.
En los ejemplos siguientes de esta página no se incluye el ID de proyecto, por lo que es posible que obtengas resultados asociados a varias configuraciones de análisis de descubrimiento. Para limitar los resultados a una configuración de análisis concreta, añade el ID del proyecto a la consulta, como se muestra en este ejemplo.
Buscar todas las tablas cuyo perfil se creó antes de una fecha determinada
tag:TAG_TEMPLATE_ID.profile_last_generated<DATE
Haz los cambios siguientes:
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto. - DATE: una fecha con el formato
YYYY-MM-DD
, por ejemplo,2023-01-15
.
Buscar todas las tablas con una puntuación de sensibilidad de nivel de tabla determinada
tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE
Haz los cambios siguientes:
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto. - SENSITIVITY_SCORE: uno de los valores
HIGH
,MODERATE
oLOW
.
Para obtener más información, consulta Riesgo y niveles de sensibilidad de los datos.
Buscar todas las tablas con un nivel de riesgo de datos determinado
tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL
Haz los cambios siguientes:
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto. - DATA_RISK_LEVEL: uno de los valores
HIGH
,MODERATE
oLOW
.
Para obtener más información, consulta Riesgo y niveles de sensibilidad de los datos.
Buscar todas las tablas que contengan un infoType previsto determinado
tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE
Haz los cambios siguientes:
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto. - INFOTYPE: el infoType (por ejemplo,
PERSON_NAME
).
Para ver una lista de todos los infoTypes integrados, consulta la referencia de detectores de infoType.
Para obtener más información, consulta Predicted infoType (infoType previsto) en la referencia de métricas.
Buscar todas las tablas que contengan parcialmente un infoType determinado
tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE
Haz los cambios siguientes:
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto. - INFOTYPE: el infoType (por ejemplo,
PERSON_NAME
).
Para ver una lista de todos los infoTypes integrados, consulta la referencia de detectores de infoType.
Para obtener más información, consulta Otros infoTypes en la referencia de métricas.
Buscar todas las tablas que contengan una columna determinada con un infoType previsto determinado
tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE
Haz los cambios siguientes:
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto. - COLUMN_NAME: el nombre de la columna de la tabla de BigQuery.
- INFOTYPE: el infoType (por ejemplo,
PERSON_NAME
).
Para ver una lista de todos los infoTypes integrados, consulta la referencia de detectores de infoType.
Para obtener más información, consulta Predicted infoType (infoType previsto) en la referencia de métricas.
Buscar todas las tablas que contengan una columna determinada con una puntuación de sensibilidad a nivel de columna determinada
tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE
Haz los cambios siguientes:
- TAG_TEMPLATE_ID:
sensitive_data_profile
si la configuración del análisis es para una organización o una carpeta;sensitive_data_profile_project
si la configuración del análisis es para un proyecto. - COLUMN_NAME: el nombre de la columna de la tabla de BigQuery.
- SENSITIVITY_SCORE: uno de los valores
HIGH
,MODERATE
oLOW
.
Para obtener más información, consulta Riesgo y niveles de sensibilidad de los datos.
Valores de etiquetas truncados
Si los datos del encabezado de una columna de una tabla de BigQuery superan los 10 MB, es posible que la etiqueta resultante muestre [TRUNCATED]
en el campo Column Insights
o Column
Sensitivity
. En este caso, te recomendamos que vayas a Protección de Datos Sensibles para revisar el perfil de datos de la tabla y los perfiles de datos de las columnas asociadas.