Etiqueta tablas en Dataplex según las estadísticas de los perfiles de datos

En esta página, se describe cómo aplicar automáticamente las etiquetas de Dataplex a las tablas de BigQuery después de que la protección de datos sensibles genere perfiles de esas tablas. En esta página, también se proporcionan consultas de ejemplo que puedes usar para encontrar datos etiquetados en tu organización y proyectos.

Esta función es útil si deseas enriquecer los metadatos seleccionados de forma manual en Dataplex con estadísticas recopiladas de los perfiles de datos de protección de datos sensibles. Las etiquetas generadas incluyen las siguientes estadísticas:

  • Tipos de información (infoTypes) detectados en las columnas de la tabla
  • Nivel de sensibilidad calculado de la tabla
  • Nivel de riesgo de los datos calculado de la tabla

Las estadísticas de los perfiles de datos de protección de datos sensibles pueden ayudarte a usar Dataplex para descubrir datos sensibles y de alto riesgo en tu organización. Usa estas estadísticas para tomar decisiones fundamentadas sobre cómo administrar tus datos.

Si deseas enviar los resultados de los trabajos de inspección (no de las operaciones de creación de perfiles de datos) a Dataplex, consulta Envía los resultados de la inspección de la protección de datos sensibles a Data Catalog.

Información acerca de los perfiles de datos

Puedes configurar la protección de datos sensibles para que genere automáticamente perfiles sobre los datos en una organización, una carpeta o un proyecto. Los perfiles de datos contienen métricas y metadatos sobre tus datos y te ayudan a determinar dónde residen los datos sensibles y de alto riesgo. La protección de datos sensibles informa estas métricas en varios niveles de detalle. Para obtener información sobre los tipos de datos de los que puedes generar perfiles, consulta Recursos admitidos.

Acerca de Dataplex y Data Catalog

Dataplex es un servicio de Google Cloud que unifica los datos distribuidos y automatiza la administración de datos. Data Catalog es un servicio de administración de metadatos escalable y completamente administrado dentro de Dataplex.

Data Catalog te permite usar etiquetas y plantillas de etiquetas para adjuntar metadatos empresariales a tus datos. Luego, puedes buscar y administrar todos los metadatos de tu organización o proyecto en un servicio unificado. Para obtener más información, consulta Etiquetas y plantillas de etiquetas.

Cómo funciona

Si la configuración de análisis de descubrimiento tiene habilitada la acción Enviar a Dataplex como etiquetas, la Protección de datos sensibles hace lo siguiente cada vez que genera perfiles de tus datos. Esta acción solo se aplica a los perfiles nuevos y actualizados. Los perfiles existentes que no se actualizan no se envían a Dataplex.

  1. Crea una plantilla de etiqueta privada que contiene el esquema de las etiquetas que se adjuntarán a tus tablas de BigQuery. Para obtener información sobre el nombre, el ID y la ubicación de la plantilla de etiqueta, consulta Detalles de la plantilla de etiqueta.

    Solo las principales con las funciones y los permisos adecuados pueden ver la plantilla de etiqueta.

  2. Crea una etiqueta para cada tabla de BigQuery de la que generes perfiles. La etiqueta se basa en la plantilla de etiqueta recién creada.

    Por ejemplo, una etiqueta resultante adjunta a una tabla puede tener los siguientes metadatos:

    Nombre visible Valor
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

Una tabla tiene dos etiquetas si se perfilaron a través de los siguientes elementos:

  • Una configuración de análisis a nivel de la organización o de la carpeta
  • Una configuración de análisis a nivel de proyecto

Después de etiquetar las tablas, puedes buscar en Dataplex todos los datos de tu organización o proyecto con valores de etiqueta específicos.

Detalles de la plantilla de etiqueta

El nombre de la plantilla, el ID de la plantilla y el proyecto en el que se almacena la plantilla de etiqueta nueva dependen del recurso al que corresponde la configuración de análisis.

  • Si la configuración de análisis es a nivel de la organización o de la carpeta, la plantilla de etiqueta se almacena en el contenedor del agente de servicio. El nombre de la plantilla de etiqueta es Sensitive Data Profile. Su ID de plantilla es sensitive_data_profile.
  • Si la configuración de análisis es a nivel de proyecto, la plantilla de etiquetas se almacena en el proyecto para el que se va a generar el perfil. El nombre de la plantilla de etiqueta es Sensitive Data Profile (Project). Su ID de plantilla es sensitive_data_profile_project.

Precios

Para obtener información sobre cómo otros servicios de Google Cloud pueden cobrarte por exportar perfiles de datos, consulta Precios para exportar perfiles de datos.

Etiquetar automáticamente las tablas de BigQuery según los perfiles de datos

  1. Crea una configuración de análisis. Como alternativa, edita una configuración de análisis existente.

  2. En el paso Agregar acciones, asegúrate de que la opción Enviar a Dataplex como etiquetas esté activada.

    • Si creas una configuración de análisis, esta acción estará habilitada de forma predeterminada.
    • Si editas una configuración de análisis, debes habilitar esta acción.

Después de perfilar y etiquetar los datos, puedes comenzar a buscar datos etiquetados en Dataplex.

Funciones y permisos para ver etiquetas

Los resultados de la búsqueda de Dataplex te muestran solo los datos a los que tienes acceso. Necesitas los siguientes permisos o funciones de Identity and Access Management (IAM) para buscar las etiquetas que se adjuntan a tus tablas de BigQuery.

Objetivo Función predefinida Permisos relevantes
Cómo ver la plantilla de etiqueta privada Visualizador de TagTemplate de Data Catalog (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
Visualiza las etiquetas aplicadas a las tablas de BigQuery Visualizador de metadatos de BigQuery (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

Si quieres obtener más información sobre los roles de Dataplex, consulta Funciones para ver etiquetas públicas y privadas.

Para obtener información sobre cómo otorgar una función predefinida, consulta Cómo otorgar una sola función. Si deseas usar una función personalizada en lugar de una predefinida, asegúrate de que esta tenga los permisos relevantes. Para obtener más información, consulta Crea una función personalizada.

Busca la plantilla de etiqueta generada

  1. En la consola de Google Cloud, ve a la página Plantillas de etiqueta de Dataplex.

    Ir a Plantillas de etiquetas

  2. En la lista, busca la plantilla de etiqueta. Para obtener información sobre el nombre, el ID y la ubicación de la plantilla de etiqueta, consulta Detalles de la plantilla de etiqueta.

  3. Opcional: Para encontrar la plantilla de etiqueta que se generó mediante una configuración de análisis de descubrimiento determinada, ingresa lo siguiente en el campo Filtro:

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    Reemplaza lo siguiente:

    • PROJECT_ID: Es el ID del proyecto asociado con la configuración de análisis. Si creaste perfiles de tus datos a nivel de la organización o de la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
    • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.

Cómo buscar la etiqueta generada para un perfil de datos de tabla determinado

  1. En la consola de Google Cloud, ve a la página de búsqueda de Dataplex.

    Ir a Búsqueda

  2. En el campo Buscar, ingresa lo siguiente:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    Reemplaza lo siguiente:

    • TABLE_ID: El ID de la tabla para la que se generó el perfil
    • PROJECT_ID: Es el ID del proyecto que contiene la plantilla de etiqueta. Si creaste perfiles de tus datos a nivel de la organización o de la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
    • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  3. En la lista que aparece, haz clic en el ID de la tabla. Los detalles de la tabla de BigQuery aparecen junto con las etiquetas Sensitive Data Profile o Sensitive Data Profile (Project) adjuntas.

    Una tabla tiene dos etiquetas si se perfilaron a través de los siguientes elementos:

    • Una configuración de análisis a nivel de la organización o de la carpeta
    • Una configuración de análisis a nivel de proyecto

Para obtener información sobre cómo realizar una búsqueda a través de la API de Data Catalog, consulta Cómo buscar recursos de datos.

Ejemplos de búsquedas

En esta sección, se proporcionan ejemplos de consultas de búsqueda que puedes usar en Dataplex para encontrar datos en tu organización o proyecto con valores de etiqueta específicos.

Solo puedes encontrar los datos a los que tienes acceso. El acceso a los datos se controla mediante permisos de IAM. A fin de obtener más información, consulta Funciones y permisos para ver etiquetas en esta página.

Puedes ingresar estas consultas en la página de búsqueda de Dataplex en la consola de Google Cloud.

Ir a Búsqueda

Para obtener información sobre cómo formar las consultas, consulta la sintaxis de búsqueda de Data Catalog. Si deseas obtener información para realizar una búsqueda a través de la API de Data Catalog, consulta Cómo buscar recursos de datos.

Buscar todas las tablas que están etiquetadas con la nueva plantilla de etiqueta

tag:PROJECT_ID.TAG_TEMPLATE_ID

Reemplaza lo siguiente:

  • PROJECT_ID: Es el ID del proyecto que contiene la plantilla de etiqueta. Si creaste perfiles de tus datos a nivel de la organización o de la carpeta, ingresa el ID del proyecto del contenedor del agente de servicio.
  • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.

Los siguientes ejemplos de esta página no incluyen el ID del proyecto, por lo que puedes obtener resultados asociados con varias configuraciones de análisis de descubrimiento. Para limitar los resultados a una configuración de análisis en particular, agrega el ID del proyecto a la consulta como se muestra en este ejemplo.

Buscar todas las tablas de las que se crearon perfiles por última vez antes de una fecha determinada

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • DATE: Es una fecha en el formato YYYY-MM-DD, por ejemplo, 2023-01-15.

Buscar todas las tablas con una puntuación de sensibilidad a nivel de la tabla determinada

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • SENSITIVITY_SCORE: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de riesgo y sensibilidad de datos.

Buscar todas las tablas con un nivel de riesgo de datos determinado

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • DATA_RISK_LEVEL: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de riesgo y sensibilidad de datos.

Buscar todas las tablas que contengan un Infotipo previsto determinado

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • INFOTYPE: Es el Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta Referencia del detector de Infotipos.

Para obtener más información, consulta Infotipo previsto en la Referencia de métricas.

Buscar todas las tablas que contengan parcialmente un Infotipo determinado

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • INFOTYPE: Es el Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta Referencia del detector de Infotipos.

Para obtener más información, consulta Otros Infotipos en la Referencia de métricas.

Buscar todas las tablas que contengan una columna determinada con un Infotipo previsto determinado

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • COLUMN_NAME: Es el nombre de la columna en la tabla de BigQuery.
  • INFOTYPE: Es el Infotipo, por ejemplo, PERSON_NAME.

Para obtener una lista de todos los Infotipos integrados, consulta Referencia del detector de Infotipos.

Para obtener más información, consulta Infotipo previsto en la Referencia de métricas.

Buscar todas las tablas que contengan una columna determinada con una puntuación de sensibilidad a nivel de columna

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

Reemplaza lo siguiente:

  • TAG_TEMPLATE_ID: Es sensitive_data_profile si la configuración de análisis es para una organización o una carpeta; sensitive_data_profile_project si la configuración de análisis es para un proyecto.
  • COLUMN_NAME: Es el nombre de la columna en la tabla de BigQuery.
  • SENSITIVITY_SCORE: uno de HIGH, MODERATE o LOW.

Para obtener más información, consulta Niveles de riesgo y sensibilidad de datos.