Cómo generar perfiles de datos de BigQuery en un solo proyecto

En esta página, se describe cómo configurar el descubrimiento de datos de BigQuery a nivel de proyecto. Si deseas generar el perfil de una organización o carpeta, consulta Cómo generar perfiles de datos de BigQuery en una organización o carpeta.

Para obtener más información sobre el servicio de descubrimiento, consulta Perfiles de datos.

Para comenzar a generar perfiles de datos, debes crear una configuración de análisis.

Antes de comenzar

  1. Asegúrate de que la API de Cloud Data Loss Prevention esté habilitada en tu proyecto:

    1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

      Go to project selector

    2. Make sure that billing is enabled for your Google Cloud project.

    3. Enable the required API.

      Enable the API

  2. Confirma que tienes los permisos de IAM necesarios para configurar perfiles de datos en el nivel de proyecto.

  3. Debes tener una plantilla de inspección en cada región en la que tengas datos para generar perfiles. Si quieres usar una sola plantilla para varias regiones, puedes utilizar una plantilla que se almacena en la región global. Si las políticas de la organización te impiden crear una plantilla de inspección de global, debes establecer una plantilla de inspección dedicada para cada región. Para obtener más información, consulta Consideraciones de residencia de datos.

    Esta tarea te permite crear una plantilla de inspección solo en la región global. Si necesitas plantillas de inspección dedicadas para una o más regiones, debes crear esas plantillas antes de realizar esta tarea.

  4. Puedes configurar la protección de datos sensibles para que envíe notificaciones a Pub/Sub cuando se producen ciertos eventos, como cuando esta protección genera perfiles de una tabla nueva. Si deseas utilizar esta función, primero debes crear un tema de Pub/Sub.

Crear una configuración de análisis

  1. Ve a la página Crear configuración de análisis.

    Ir a Crear configuración de análisis

  2. Ve a tu proyecto. En la barra de herramientas, haz clic en el selector de proyectos y selecciona tu proyecto.

En las siguientes secciones, se proporciona más información sobre los pasos en la página Crea una configuración de análisis. Al final de cada sección, haz clic en Continuar.

Selecciona un tipo de descubrimiento

Selecciona BigQuery.

Selecciona el permiso

Realiza una de las siguientes acciones:

  • Si deseas analizar una sola tabla en modo de prueba, selecciona Analizar una tabla (modo de prueba).

    Se muestra la cantidad de análisis de tablas gratuitos disponibles. Los análisis gratuitos de tablas solo se aplican a las tablas que tienen 1 TB de tamaño o menos. Para cada tabla, solo puedes tener una configuración de análisis a nivel de la tabla. Para obtener más información, consulta Cómo generar el perfil de una tabla en el modo de prueba.

    Completa los detalles de la tabla de la que quieres generar perfiles.

  • Si deseas realizar una generación de perfiles estándar a nivel de proyecto, selecciona la opción para analizar todo el proyecto.

Administrar programas

Si la frecuencia de generación de perfiles predeterminada se adapta a tus necesidades, puedes omitir esta sección de la página Crear configuración de análisis. Esta sección es útil si deseas realizar ajustes detallados en la frecuencia de generación de perfiles de todos tus datos o de ciertos subconjuntos de ellos. También es útil si no deseas que se generen perfiles de ciertas tablas alguna vez o si deseas que se genere un perfil de ellas una y otra vez.

En esta sección, crearás filtros para especificar ciertos subconjuntos de tus datos que te interesan. Para estos subconjuntos, debes definir si la protección de datos sensibles debe generar perfiles de las tablas y con qué frecuencia. Aquí, también especificas los tipos de cambios que deberían hacer que se vuelva a generar el perfil de una tabla. Por último, debes especificar las condiciones que debe cumplir cada tabla en los subconjuntos antes de que la protección de datos sensibles comience a generar perfiles de la tabla.

Para realizar ajustes precisos en la frecuencia de generación de perfiles, sigue estos pasos:

  1. Haz clic en Agregar programación.
  2. En la sección Filtros, defines uno o más filtros que especifican qué tablas están en el alcance de la programación.

    Especifica, al menos, una de las siguientes opciones:

    • Un ID del proyecto o una expresión regular que especifica uno o más proyectos.
    • ID de un conjunto de datos o expresión regular que especifica uno o más conjuntos de datos.
    • Un ID de tabla o una expresión regular que especifica una o más tablas.

    Las expresiones regulares deben seguir la sintaxis RE2.

    Por ejemplo, si deseas que todas las tablas de un conjunto de datos se incluyan en el filtro, especifica el ID del conjunto de datos y deja los otros dos campos en blanco.

    Si deseas agregar más filtros, haz clic en Agregar filtro y repite este paso.

  3. Haz clic en Frecuencia.

  4. En la sección Frecuencia, especifica si la protección de datos sensibles debe generar perfiles de las tablas que definiste en tus filtros y, de ser así, con qué frecuencia:

    • Si no deseas que se generen perfiles para las tablas nunca, desactiva Generar perfiles de las tablas.

    • Si deseas que se generen perfiles para las tablas al menos una vez, deja activada la opción Generar perfiles de las tablas.

      En los campos siguientes de esta sección, debes especificar si el sistema debe volver a generar el perfil de tus datos y qué eventos deben activar una operación para hacerlo. Para obtener más información, consulta Frecuencia de generación de perfiles de datos.

      1. En Cuando el esquema cambia, especifica la frecuencia con la que la protección de datos sensibles debe verificar si las tablas seleccionadas tienen cambios de esquema después de la última creación de perfiles. Solo se volverá a generar el perfil de las tablas con cambios de esquema.
      2. En Types of schema change, especifica qué tipos de cambios de esquema deben activar una operación para volver a generar el perfil. Selecciona una de las siguientes opciones:
        • Columnas nuevas: Vuelve a generar el perfil de las tablas que obtuvieron columnas nuevas.
        • Removed columns: Vuelve a generar el perfil de las tablas a las que se les quitaron columnas.

        Por ejemplo, supongamos que tienes tablas que obtienen columnas nuevas todos los días y que necesitas generar perfiles de su contenido cada vez. Puedes configurar Cuando el esquema cambia como Volver a generar el perfil diariamente y configurar Tipos de cambio de esquema (Types of schema change) en Columnas nuevas (New columns).

      3. En Cuando la tabla cambia, especifica la frecuencia con la que la Protección de datos sensibles debe verificar si las tablas seleccionadas tienen algún cambio después de su última creación de perfiles. Solo se volverá a generar el perfil de las tablas con cambios. Algunos ejemplos de cambios en la tabla son las eliminaciones de filas y los cambios de esquema.

        Debes seleccionar un valor que sea igual o menos frecuente que el que configuraste en el campo Cuando el esquema cambia.

      4. En Cuando la plantilla de inspección cambia, especifica si quieres que se vuelvan a generar los perfiles de tus datos cuando se actualice la plantilla de inspección asociada y, de ser así, con qué frecuencia.

        Se detecta un cambio en la plantilla de inspección cuando ocurre alguna de las siguientes situaciones:

        • El nombre de una plantilla de inspección cambia en la configuración de análisis.
        • El updateTime de una plantilla de inspección cambia.

      5. Por ejemplo, si configuras una plantilla de inspección para la región us-west1 y actualizas esa plantilla, solo se volverán a generar los perfiles de los datos de la región us-west1. Sin embargo, si borras esa plantilla de inspección, entonces no se vuelve a generar el perfil de los datos en us-west1, ya que no hay una plantilla de inspección que puedas usar para hacerlo.

  5. Haz clic en Condiciones.

  6. En la sección Condiciones, especifica las condiciones que deben cumplir las tablas, definidas en tus filtros, antes de que la protección de datos sensibles las genere perfiles. Si estableces las condiciones mínimas y la condición de tiempo, la protección de datos sensibles solo genera perfiles de las tablas que cumplen con ambos tipos de condiciones.

    • Condiciones mínimas: Estas condiciones son útiles si deseas retrasar la generación de perfiles de una tabla hasta que tenga suficientes filas o hasta que alcance una edad determinada. Activa las condiciones que desees aplicar y especifica la duración o el recuento de filas mínimos.
    • Condición de tiempo: Esta condición es útil si no quieres que se generen perfiles de tablas antiguas. Activa la condición de hora y elige una fecha y una hora. Cualquier tabla creada en esa fecha o antes de esa fecha se excluye de la generación de perfiles.

    Supongamos que tienes la siguiente configuración:

    • Condiciones mínimas

      • Cantidad mínima de filas: 10 filas
      • Duración mínima: 24 horas
    • Condición de tiempo

      • Marca de tiempo: 4/5/22, 11:59 p.m.

    En este caso, la protección de datos sensibles excluye cualquier tabla creada a partir del 4 de mayo de 2022 a las 11:59 p.m. Entre las tablas creadas después de esta fecha y hora, la protección de datos sensibles solo genera perfiles de las tablas que tienen 10 filas o tienen al menos 24 horas de antigüedad.

  7. En la sección Tablas para generar perfiles, selecciona una de las siguientes opciones, según los tipos de tablas de los que desees generar perfiles:

    • Crear perfiles de todas las tablas: Selecciona esta opción si quieres que la Protección de datos sensibles genere perfiles de todos los tipos de tablas que coincidan con tus filtros y condiciones.

      En el caso de los tipos de tablas que no son compatibles, la protección de datos sensibles solo genera perfiles propagados parcialmente. Esos perfiles muestran errores que indican que las tablas a las que pertenecen no son compatibles. Selecciona esta opción si deseas ver los perfiles parciales a pesar de los mensajes de error.

      Cuando la protección de datos sensibles agrega compatibilidad para un tipo de tabla nuevo, vuelve a generar el perfil de las tablas de ese tipo durante la siguiente ejecución programada.

    • Perfiles de tablas admitidas: Selecciona esta opción si deseas que la Protección de datos sensibles genere perfiles solo de las tablas compatibles que coinciden con tus filtros y condiciones. Las tablas no compatibles no tendrán perfiles parciales.

    • Generar perfiles para tipos de tablas específicos: Selecciona esta opción si deseas que la Protección de datos sensibles genere perfiles solo de los tipos de tablas que seleccionas. En la lista que aparece, selecciona uno o más tipos.

      Cuando la protección de datos sensibles agrega compatibilidad para un tipo de tabla nuevo, no genera perfiles automáticamente de las tablas de ese tipo. Para generar perfiles de los tipos de tabla admitidos recientemente, debes editar la configuración de análisis y seleccionar esos tipos.

    Si no seleccionas una opción, Sensitive Data Protection solo genera perfiles de las tablas de BigQuery y muestra errores de las tablas no compatibles.

    Los precios de la creación de perfiles de datos varían según los tipos de tablas para los que se crean perfiles. Para obtener más información, consulta Precios de la creación de perfiles de datos.

  8. Haz clic en Listo.

  9. Si deseas agregar más programas, haz clic en Agregar programación y repite los pasos anteriores.

  10. Para reordenar las programaciones según la prioridad, usa las flechas hacia arriba y hacia abajo de . Por ejemplo, si los filtros en dos programas diferentes coinciden con la Tabla A, tiene prioridad el programa que se encuentra más arriba en la lista de prioridad.

    La última programación de la lista es siempre la que tiene la etiqueta Programación predeterminada. Esta programación predeterminada abarca las tablas de tu proyecto que no coinciden con ninguna de las programaciones que creaste. Este programa predeterminado sigue la frecuencia de generación de perfiles predeterminada del sistema.

  11. Si deseas ajustar el programa predeterminado, haz clic en Edit schedule y ajusta la configuración según sea necesario.

Selecciona una plantilla de inspección

Según cómo desees proporcionar una configuración de inspección, elige una de las siguientes opciones. Sin importar la opción que elijas, la protección de datos sensibles analiza tus datos en la región en la que se almacenan. Es decir, tus datos no salen de su región de origen.

Opción 1: Crea una plantilla de inspección

Elige esta opción si quieres crear una plantilla de inspección nueva en la región global.

  1. Haz clic en Crear nueva plantilla de inspección.
  2. Opcional: Para modificar la selección predeterminada de los Infotipos, haz clic en Administrar infotipos.

    Si quieres obtener más información para administrar Infotipos integrados y personalizados en esta sección, consulta Administra Infotipos a través de la consola de Google Cloud.

    Debes tener al menos un Infotipo seleccionado para continuar.

  3. Opcional: Configura aún más la plantilla de inspección mediante el agregado de conjuntos de reglas y la configuración de un umbral de confianza. Para obtener más información, consulta Configura la detección.

    Cuando la Protección de datos sensibles crea la configuración del análisis, almacena esta plantilla de inspección nueva en la región global.

Opción 2: Usa una plantilla de inspección existente

Elige esta opción si tienes plantillas de inspección existentes que deseas usar.

  1. Haz clic en Seleccionar plantilla de inspección existente.

  2. Ingresa el nombre completo del recurso de la plantilla de inspección que deseas usar. El campo Región se propaga de forma automática con el nombre de la región en la que se almacena tu plantilla de inspección.

    La plantilla de inspección que ingreses debe estar en la misma región que los datos para los que se generarán perfiles. Para respetar la residencia de los datos, la protección de datos sensibles no usa una plantilla de inspección fuera de su propia región.

    Para encontrar el nombre completo del recurso de una plantilla de inspección, sigue estos pasos:

    1. Ve a la lista de plantillas de inspección. Esta página se abre en otra pestaña.

      Ir a las plantillas de inspección

    2. Cambia al proyecto que contiene la plantilla de inspección que deseas usar.

    3. En la pestaña Plantillas, haz clic en el ID de la plantilla que quieres usar.

    4. En la página que se abre, copia el nombre completo del recurso de la plantilla. El nombre completo del recurso tiene el siguiente formato:

      projects/PROJECT_ID/locations/REGION/inspectTemplates/TEMPLATE_ID
    5. En la página Crear configuración de análisis, en el campo Nombre de la plantilla, pega el nombre completo del recurso de la plantilla.

  3. Si tienes datos en otra región y una plantilla de inspección que quieres usar para esa región, sigue estos pasos:

    1. Haz clic en Agregar plantilla de inspección.
    2. Ingresa el nombre completo del recurso de la plantilla de inspección.

    Repite estos pasos para cada región en la que tengas una plantilla de inspección dedicada.

  4. Opcional: Agrega una plantilla de inspección que se almacene en la región global. La protección de datos sensibles usa esa plantilla automáticamente para los datos en regiones en las que no tienes una plantilla de inspección dedicada.

Agrega acciones

En las siguientes secciones, debes especificar acciones que deseas que realice la protección de datos sensibles después de generar los perfiles de datos.

Para obtener información sobre cómo otros servicios de Google Cloud pueden cobrarte por las acciones de configuración, consulta Precios para exportar perfiles de datos.

Publicar en Security Command Center

Esta acción te permite enviar el riesgo de datos calculado y los niveles de sensibilidad de los perfiles de datos de tablas a Security Command Center.

Security Command Center es el servicio centralizado de informes de vulnerabilidades y amenazas de Google Cloud. Puedes usar las estadísticas de los perfiles de datos cuando clasifiques y desarrolles planes de respuesta para los hallazgos de vulnerabilidades y amenazas en Security Command Center.

Para poder usar esta acción, Security Command Center debe activarse a nivel de la organización. Activar Security Command Center a nivel de la organización permite el flujo de resultados desde servicios integrados, como la protección de datos sensibles. La protección de datos sensibles funciona con Security Command Center Standard y Premium.

Si Security Command Center no está activado a nivel de la organización, los resultados de la protección de datos sensibles no aparecerán en Security Command Center. Para obtener más información, consulta Verifica el nivel de activación de Security Command Center.

Para enviar los resultados de tus perfiles de datos a Security Command Center, asegúrate de que la opción Publicar en Security Command Center esté activada.

Para obtener más información, consulta Publica perfiles de datos en Security Command Center.

Guardar copias de los perfiles de datos en BigQuery

Activar Guardar copias de perfiles de datos en BigQuery te permite conservar una copia guardada o un historial de todos los perfiles generados. Esto puede ser útil para crear informes de auditoría y visualizar perfiles de datos. También puedes cargar esta información en otros sistemas.

Además, esta opción te permite ver todos tus perfiles de datos en una sola vista, sin importar la región en la que residan tus datos. Si desactivas esta opción, aún puedes ver los perfiles de datos en tu panel. Sin embargo, en el panel, debes seleccionar una región a la vez y ver solo los perfiles de datos de esa región.

Para exportar copias de los perfiles de datos a una tabla de BigQuery, sigue estos pasos:

  1. Activa Guardar copias de perfiles de datos en BigQuery.

  2. Ingresa los detalles de la tabla de BigQuery en la que deseas guardar los perfiles de datos:

    • En ID del proyecto, ingresa el ID de un proyecto existente al que deseas exportar los perfiles de datos.

    • En ID del conjunto de datos, ingresa el nombre de un conjunto de datos existente en el proyecto al que deseas exportar los perfiles de datos.

    • En ID de tabla, ingresa un nombre para la tabla de BigQuery a la que se exportarán los perfiles de datos. Si no creaste esta tabla, la protección de datos sensibles la crea de forma automática con el nombre que proporciones.

La protección de datos sensibles comienza a exportar perfiles desde el momento en que activas esta opción. Los perfiles que se generaron antes de activar la exportación no se guardan en BigQuery.

Publicar en Pub/Sub

Activar Publicar en Pub/Sub te permite realizar acciones programáticas en función de los resultados de la generación de perfiles. Puedes usar las notificaciones de Pub/Sub a fin de desarrollar un flujo de trabajo para detectar y solucionar los resultados con una sensibilidad o un riesgo de datos significativo.

Para enviar notificaciones a un tema de Pub/Sub, sigue estos pasos:

  1. Activa Publicar en Pub/Sub.

    Aparecerá una lista de opciones. Cada opción describe un evento que hace que la protección de datos sensibles envíe una notificación a Pub/Sub.

  2. Selecciona los eventos que deben activar una notificación de Pub/Sub.

    Si seleccionas Enviar una notificación de Pub/Sub cada vez que se actualiza un perfil, la Protección de datos sensibles envía una notificación cuando se produce un cambio en las siguientes métricas a nivel de la tabla:

    • Riesgo de datos
    • Sensibilidad
    • Infotipos previstos
    • Otros Infotipos
    • Pública
    • Encriptación
  3. Para cada evento que selecciones, sigue estos pasos:

    1. Ingresa el nombre del tema. El nombre debe tener el siguiente formato:

      projects/PROJECT_ID/topics/TOPIC_ID
      

      Reemplaza lo siguiente:

      • PROJECT_ID: Es el ID del proyecto asociado con el tema de Pub/Sub.
      • TOPIC_ID: Es el ID del tema de Pub/Sub.
    2. Especifica si deseas incluir el perfil de tabla completo en la notificación o solo el nombre completo del recurso de la tabla para la que se creó el perfil.

    3. Establece los niveles mínimos de riesgo y sensibilidad de los datos que se deben cumplir para que la protección de datos sensibles envíe una notificación.

    4. Especifica si solo se debe cumplir una o ambas condiciones de riesgo y sensibilidad de los datos. Por ejemplo, si eliges AND, se deben cumplir las condiciones de sensibilidad y riesgo de datos antes de que la protección de datos sensibles envíe una notificación.

Enviar a Dataplex como etiquetas

Esta acción te permite crear etiquetas en Dataplex en función de las estadísticas de los perfiles de datos. Esta acción solo se aplica a los perfiles nuevos y actualizados. Los perfiles existentes que no se actualizan no se envían a Dataplex.

Dataplex es un servicio de Google Cloud que unifica los datos distribuidos y automatiza la administración y el control de esos datos. Cuando habilitas esta acción, las tablas de las que generas perfiles se etiquetan automáticamente en Dataplex según las estadísticas recopiladas de los perfiles de datos. Luego, puedes buscar en tu organización y tus proyectos tablas con valores de etiqueta específicos.

Para enviar los perfiles de datos a Dataplex, asegúrate de que la opción Enviar a Dataplex como etiquetas esté activada.

Para obtener más información, consulta Cómo etiquetar tablas en Dataplex según las estadísticas de los perfiles de datos.

Establece la ubicación en la que se almacenará la configuración

Haz clic en la lista Ubicación de los recursos y selecciona la región en la que deseas almacenar esta configuración del análisis. Todas las configuraciones de análisis que crees más adelante también se almacenarán en esta ubicación.

El lugar en el que eliges almacenar la configuración de análisis no afecta los datos que se analizarán. Tampoco afecta el lugar en el que se almacenan los perfiles de datos. Tus datos se analizan en la misma región en la que se almacenan. Para obtener más información, consulta Consideraciones de residencia de datos.

Revisa y crea

  1. Si deseas asegurarte de que la generación de perfiles no se inicie automáticamente después de crear la configuración del análisis, selecciona Create scan in paused mode.

    Esta opción es útil en los siguientes casos:

    • Optaste por guardar perfiles de datos en BigQuery y deseas asegurarte de que el agente de servicio tenga acceso de escritura a tu tabla de salida.
    • Configuraste las notificaciones de Pub/Sub y deseas otorgar acceso de publicación al agente de servicio.
  2. Revisa tu configuración y haz clic en Crear.

    La protección de datos sensibles crea la configuración del análisis y la agrega a la lista de configuraciones de análisis de descubrimiento.

Para ver o administrar tu configuración de análisis, consulta Administra las configuraciones de análisis.

Si tu agente de servicio tiene los roles necesarios para acceder a tus datos y generar perfiles de ellos, la protección de datos sensibles comienza a analizar tus datos poco después de crear la configuración de análisis o reanudar una configuración en pausa. De lo contrario, la Protección de datos sensibles muestra un error cuando ves los detalles de configuración del análisis.

¿Qué sigue?

  • Obtén información para estimar el costo de la creación de perfiles de datos en un solo proyecto.
  • Obtén información sobre cómo ver los perfiles de datos.
  • Obtén más información para administrar las configuraciones de análisis.
  • Obtén información sobre cómo recibir y analizar mensajes de Pub/Sub publicados por el generador de perfiles de datos.
  • Obtén información sobre cómo solucionar problemas con los perfiles de datos.