Perfiles de datos para datos de BigQuery

En esta página, se describe el servicio de generación de perfiles de datos y cómo usarlo para determinar dónde residen los datos sensibles y de alto riesgo en tu organización.

Descripción general

El servicio de perfilado de datos de Cloud Data Loss Prevention (DLP) te permite proteger los datos en toda la organización mediante la identificación de dónde residen los datos sensibles y de alto riesgo. Cuando activas la generación de perfiles de datos, Cloud DLP analiza de manera automática todas las tablas y columnas de BigQuery en toda la organización, las carpetas individuales y los proyectos. Luego, crea perfiles de datos a nivel de tabla, columna y proyecto.

Un perfil de datos es un conjunto de métricas que Cloud DLP recopila del análisis de un recurso en particular. Estas métricas incluyen los infotipos previstos, la unicidad de los valores en cada columna, los niveles de sensibilidad y riesgo de datos evaluados y tus metadatos sobre tus tablas. Usa estas estadísticas para tomar decisiones fundamentadas sobre cómo proteger, compartir y usar los datos.

Siempre que la configuración del generador de perfiles de datos esté activa, Cloud DLP analiza automáticamente las tablas que agregas y modificas, y genera perfiles de datos nuevos y actualizados para esas tablas.

Captura de pantalla de perfiles de datos de columnas

Para obtener una lista de las métricas incluidas en cada perfil de datos, consulta la Referencia de métricas.

Creación de perfiles de datos

Para comenzar a generar perfiles de datos, debes crear una configuración de análisis (también llamada configuración de perfiles de datos). Esta configuración de análisis es en la que estableces el recurso (organización, carpeta o proyecto) que deseas analizar. Todos los conjuntos de datos y tablas de BigQuery en ese recurso están dentro del alcance de la generación de perfiles de datos.

Cuando crees una configuración de análisis, también configurarás la plantilla de inspección. La plantilla de inspección es en la que especificas los tipos de datos sensibles que Cloud DLP debe analizar.

Cuando Cloud DLP crea perfiles de datos, analiza tus tablas y columnas de BigQuery según tu configuración de análisis e plantilla de inspección. Un perfil de datos es una instantánea del análisis, las estadísticas y las métricas en ese momento.

Trabaja con perfiles de datos

El flujo de trabajo para usar perfiles de datos es el siguiente:

  1. Solicita acceso al generador de perfiles de datos.
  2. Confirma que tienes las funciones del usuario necesarias.
  3. Crea una configuración de análisis.
  4. Solo análisis de carpeta o de organización: otorga acceso de generación de perfiles al agente de servicio.
  5. Visualiza los perfiles de datos.
  6. Soluciona los problemas

Solicitar acceso al generador de perfiles de datos

Completa el formulario de registro para solicitar acceso a la función de generador de perfiles de datos.

Solicitar acceso

Se abrirá el formulario de registro en una pestaña nueva.

Después de enviar el formulario, el equipo de Cloud DLP revisará tu solicitud para asegurarse de que cumplas con los criterios de acceso. Recibirás un correo electrónico en respuesta a tu solicitud.

Funciones necesarias para configurar y ver perfiles de datos

En las siguientes secciones, se enumeran las funciones de usuario requeridas y clasificadas según su propósito. Según cómo esté configurada tu organización, puedes decidir que diferentes personas realicen diferentes tareas. Por ejemplo, la persona que configura perfiles de datos puede ser diferente de la persona que los supervisa con regularidad.

Funciones necesarias para trabajar con perfiles de datos a nivel de organización o carpeta

Estas funciones te permiten configurar y ver perfiles de datos a nivel de organización o de carpeta.

Asegúrate de que estas funciones se otorguen a las personas adecuadas a nivel de la organización. Como alternativa, tu administrador de Google Cloud puede crear funciones personalizadas que solo tengan los permisos relevantes.

Objetivo Función predefinida Permisos relevantes
Cómo configurar y ver perfiles de datos Administrador de DLP(roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Creador del proyecto (roles/resourcemanager.projectCreator)
  • resourcemanager.organizations.get
  • resourcemanager.projects.create
Cómo otorgar acceso para la generación de perfiles de datos Uno de los siguientes:
  • Administrador de la organización (roles/resourcemanager.organizationAdmin)
  • Administrador de seguridad (roles/iam.securityAdmin)
  • resourcemanager.organizations.getIamPolicy
  • resourcemanager.organizations.setIamPolicy
Ver perfiles de datos (solo lectura) Lector de perfiles de datos de DLP (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Lector de PPD (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Funciones necesarias para trabajar con perfiles de datos a nivel de proyecto

Estas funciones te permiten configurar y ver perfiles de datos a nivel de proyecto.

Asegúrate de que estas funciones se otorguen a las personas adecuadas a nivel de proyecto. Como alternativa, tu administrador de Google Cloud puede crear funciones personalizadas que solo tengan los permisos relevantes.

Objetivo Función predefinida Permisos relevantes
Cómo configurar y ver perfiles de datos Administrador de DLP(roles/dlp.admin)
  • dlp.inspectTemplates.create
  • dlp.jobs.create
  • dlp.jobTriggers.create
  • dlp.columnDataProfiles.list
  • dlp.jobs.list
  • dlp.jobTriggers.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Ver perfiles de datos (solo lectura) Lector de perfiles de datos de DLP (roles/dlp.dataProfilesReader)
  • dlp.columnDataProfiles.list
  • dlp.projectDataProfiles.list
  • dlp.tableDataProfiles.list
Lector de PPD (roles/dlp.reader)
  • dlp.jobs.list
  • dlp.jobTriggers.list

Configuración de análisis

Una configuración de análisis o una configuración de perfil de datos especifica qué recurso (una organización, una carpeta o un proyecto) se debe especificar. qué plantilla de inspección usar, y qué hacer con los resultados. También contiene detalles administrativos, por ejemplo, a qué contenedor de agente de servicio se debe asociar el análisis y qué cuenta de facturación usar.

Puedes crear una configuración de análisis para tu organización y otra para una carpeta en particular. Si dos o más configuraciones de análisis activas tienen el mismo proyecto en su alcance, Cloud DLP determina qué configuración de análisis puede generar perfiles para ese proyecto.

También puedes crear una configuración de análisis a nivel de proyecto. Este tipo de configuración de análisis siempre puede generar perfiles del proyecto de destino y no compite con otras configuraciones a nivel de la organización o carpeta superior.

La primera vez que creas una configuración de análisis, debes especificar el lugar en el que quieres que Cloud DLP la almacene. Todas las configuraciones de análisis posteriores que crees se almacenarán en esa misma región.

Por ejemplo, si creas una configuración de análisis para la carpeta A y la almacenas en la región us-west1, también se almacenará en esa región cualquier configuración de análisis que crees más tarde para cualquier otro recurso.

Plantilla de inspección

Una plantilla de inspección especifica qué tipo de información (o infoTypes) busca Cloud DLP mientras analiza tus datos. Aquí proporcionas una combinación de infotipos integrados e infotipos personalizados opcionales.

También puedes proporcionar un nivel de probabilidad para reducir lo que Cloud DLP considera una coincidencia. Puedes agregar conjuntos de reglas para excluir los resultados no deseados o incluir hallazgos adicionales.

Si cambias una plantilla de inspección que usa la configuración de análisis, los cambios se aplicarán solo a los análisis futuros. Los perfiles de datos existentes no se reemplazan. Por ejemplo, si editas tu plantilla para agregar un infotipo, ese cambio solo afectará a las tablas que aún no se hayan analizado. Tu acción no hace que se vuelva a realizar el análisis de todas las tablas existentes.

La plantilla de inspección debe estar en la misma región que los datos para el perfil. Si tienes datos en varias regiones, usa una plantilla de inspección que se almacene en la región global. Para obtener más información, consulta Consideraciones sobre la residencia de los datos.

Las plantillas de inspección son un componente central de la plataforma de Cloud DLP. Los perfiles de datos usan las mismas plantillas de inspección que puedes usar en todos los servicios de Cloud DLP. Para obtener más información sobre las plantillas de inspección, consulta Plantillas.

Contenedor del agente de servicio

Cuando creas una configuración de análisis para tu organización o para una carpeta, Cloud DLP requiere que proporciones un contenedor de agente de servicio. Un contenedor de agente de servicio es un proyecto que contiene un agente de servicio. Necesitas un agente de servicio para autenticarte en Cloud DLP y otras API. El agente de servicio debe tener todos los permisos necesarios para acceder a los datos y generar perfiles de ellos.

Cuando configuras el contenedor del agente de servicio, puedes elegir un proyecto existente. Si el proyecto que seleccionas contiene un agente de servicios, Cloud DLP otorga los permisos de IAM necesarios a ese agente. Si el proyecto no tiene un agente de servicio, Cloud DLP crea uno y le otorga permisos de generación de perfiles de datos de forma automática.

Como alternativa, puedes elegir que Cloud DLP cree de forma automática el contenedor del agente de servicio y el agente de servicio. Cloud DLP otorga de manera automática permisos de generación de perfiles de datos al agente de servicio.

En ambos casos, si Cloud DLP no puede otorgar acceso a la generación de perfiles de datos a tu agente de servicio, se mostrará unaerror cuandover los detalles de la configuración del análisis ,

Para configuraciones de análisis a nivel de proyecto, no necesitas un contenedor de agente de servicio. El proyecto para el que generes perfiles cumple con el propósito del contenedor del agente de servicio.

Acceso a la generación de perfiles de datos a nivel de la organización o de la carpeta

Cuando creas una configuración de análisis a nivel de organización o de carpeta, Cloud DLP intenta otorgar de forma automática acceso de perfilado de datos al agente de servicio. Sin embargo, si no tienes los permisos para otorgar funciones de IAM, Cloud DLP no puede realizar esta acción en tu nombre. Un usuario con esos permisos en tu organización, como un administrador de Google Cloud, debe otorgar acceso a la generación de perfiles de datos a tu agente de servicio.

Frecuencia de creación del perfil de datos

Después de crear una configuración de análisis para un recurso en particular, Cloud DLP realiza un análisis inicial y genera un perfil de todas las tablas en ese recurso. Después del análisis inicial, supervisa de forma continua las tablas de BigQuery en busca de adiciones o cambios que introduzcas. Todas las tablas nuevas que agregue se perfilarán poco después de que las agregue. Todas las tablas que modifiques se perfilarán en el próximo mes calendario. Las tablas sin cambios no se perfilan de nuevo.

Por diseño, Cloud DLP no vuelve a crear el perfil de las tablas que no han cambiado desde la última vez que se generaron sus perfiles. Si deseas que Cloud DLP vuelva a generar el perfil de las tablas existentes, puedes enviar una solicitud al equipo de Cloud DLP.

Para situaciones de ejemplo, consulta Ejemplos de precios de la generación de perfiles de datos.

Retención de perfiles de datos

Cloud DLP conserva la última versión de un perfil de datos durante 13 meses. Cuando Cloud DLP vuelve a generar el perfil de una tabla actualizada, reemplaza los perfiles de datos existentes de esa tabla con otros nuevos.

Considere estas situaciones:

  • El 1 de enero, la tabla A de los perfiles de Cloud DLP. La tabla A no cambia en un año, por lo que no se vuelve a generar un perfil. En este caso, Cloud DLP conserva los perfiles de datos de la tabla A durante 13 meses antes de borrarlos.

  • El 1 de enero, la tabla A de los perfiles de Cloud DLP. En el mes, alguien de tu organización actualiza esa tabla. Debido a este cambio, el mes siguiente, Cloud DLP volverá a perfilar automáticamente la tabla A. Los perfiles de datos recién generados reemplazan a los que se crearon en enero.

Para obtener información sobre cómo Cloud DLP cobra por la creación de perfiles de tablas nuevas y modificadas, consulta los precios de la generación de perfiles de datos.

Si deseas conservar los perfiles de datos de forma indefinida o mantener un registro de los cambios que se producen, considera guardar los perfiles de datos en BigQuery cuando crees una configuración de análisis. Tú eliges en qué conjunto de datos de BigQuery se guardan los perfiles y controlas la política de vencimiento de tablas para ese conjunto de datos.

Anula configuraciones de análisis

Puedes crear un máximo de una configuración de análisis para cada organización, carpeta y proyecto.

Si dos o más configuraciones de análisis activas tienen el mismo proyecto en su alcance, se aplican las siguientes reglas:

  • Entre las configuraciones de análisis a nivel de organización y de carpeta, la que esté más cerca del proyecto podrá generar perfiles de datos para ese proyecto. Esto ocurre incluso si también existe una configuración de análisis a nivel de proyecto para ese proyecto.
  • Cloud DLP trata las configuraciones de análisis a nivel de proyecto de manera independiente de las configuraciones a nivel de organización y de carpeta. Una configuración de análisis que creas a nivel de proyecto no puede anular una que hayas creado para una organización o carpeta superior.

Considera el siguiente ejemplo, en el que hay tres configuraciones de análisis activas:

Diagrama de una jerarquía de recursos con una configuración de análisis aplicada a la organización y a una carpeta

Aquí, la Configuración de análisis 1 se aplica a toda la organización, la Configuración de análisis 2 se aplica a la carpeta Equipo B y al Configuración de análisis 3 se aplica al proyecto de Producción. En este ejemplo:

  • Cloud DLP perfila todas las tablas en los proyectos que no están en la carpeta Equipo B según la Configuración de análisis 1.
  • Cloud DLP perfila todas las tablas en los proyectos en la carpeta Equipo B según la Configuración de análisis 2. Esto incluye las tablas del proyecto de Producción.
  • Cloud DLP genera perfiles de todas las tablas en el proyecto Producción según la Scan configuration 3.

En este ejemplo, Cloud DLP genera de manera eficaz dos conjuntos de perfiles para el proyecto de Producción: uno para cada una de las siguientes opciones de configuración de análisis:

  • Configuración de análisis 2
  • Configuración de análisis 3

Sin embargo, aunque hay dos conjuntos de perfiles para el mismo proyecto, no los ves todos en el panel. Solo ves los perfiles que se generaron en la región y la región que estás viendo en ese momento.

Para obtener más información sobre la jerarquía de recursos de Google Cloud, consulta Jerarquía de recursos.

Instantáneas de perfiles de datos

Cada perfil de datos incluye una instantánea de la configuración del análisis y la plantilla de inspección que se usó para generarla. Esto significa que, aunque cambies más tarde la configuración de análisis o la plantilla de inspección, siempre puedes verificar la configuración que usaste para generar un perfil de datos en particular.

Consideraciones sobre la residencia de los datos

Cloud DLP se diseñó para admitir la residencia de datos. Si debes cumplir con los requisitos de residencia de datos, ten en cuenta los siguientes puntos:

Regiones de inspección

Cloud DLP inspecciona tus datos en la misma región en la que se almacenan. Es decir, los datos de BigQuery no dejan su región actual.

Además, una plantilla de inspección solo se puede usar para generar perfiles de datos que residan en la misma región que esa plantilla. Por ejemplo, si configuras el generador de perfiles de datos para que use una plantilla de inspección almacenada en la región us-west1, Cloud DLP solo podrá perfilar datos en esa región. Para todas las tablas fuera de esa región, la generación de perfiles falla con un error.

Si quieres generar perfiles de los datos almacenados en varias regiones, usa una plantilla de inspección que se almacene en la región global.

En la siguiente tabla, se proporcionan ejemplos de situaciones:

Situación Asistencia
Analiza datos en la región us mediante una plantilla de inspección de la región us. Admitido
Analiza datos en la región global mediante una plantilla de inspección de la región us. No compatible
Analiza datos en la región us mediante una plantilla de inspección de la región global. Admitido
Analiza datos en la región us mediante una plantilla de inspección de la región us-east1. No compatible
Analiza datos en la región us-east1 mediante una plantilla de inspección de la región us. No compatible
Analiza datos en la región us mediante una plantilla de inspección de la región asia. No compatible

Configuración del perfil de datos

Cuando Cloud DLP crea perfiles de datos, toma una instantánea de la plantilla de inspección y de la configuración del análisis, y la almacena en cada perfil de datos de la tabla. Si configuras el generador de perfiles de datos para que use una plantilla de inspección de la región global, Cloud DLP copiará esa plantilla en cualquier región en la que se hayan registrado datos. Del mismo modo, copia la configuración de análisis en esas regiones.

Considera este ejemplo: el Proyecto A contiene la Tabla 1. La tabla 1 se encuentra en la región us-west1. La configuración de análisis está en la región us-west2, y la plantilla de inspección está en la región global.

Cuando Cloud DLP analiza el Proyecto A, crea perfiles de datos para la Tabla 1 y los almacena en la región us-west1. El perfil de datos de la tabla 1 contiene copias de la configuración de análisis y la plantilla de inspección que se usa en la operación de generación de perfiles.

Si no quieres que tu plantilla de inspección se copie en otras regiones, no configures Cloud DLP para que analice datos en esas regiones.

Almacenamiento regional de perfiles de datos

Después de inspeccionar tus datos, Cloud DLP genera perfiles de datos. Almacena cada perfil de datos en la misma región en la que se almacenan los datos de destino (que también es donde se procesa la inspección). Para ver perfiles de datos en tu panel, primero debes seleccionar la región en la que residen. Si tienes datos en varias regiones, debes cambiar de región para ver cada conjunto de perfiles.

Regiones no admitidas

Si tienes tablas en una región que Cloud DLP no admite, omite esas tablas y muestra un error cuando ves los perfiles de datos.

Multirregiones

Cloud DLP trata una multirregión como una región, no una colección de regiones. Por ejemplo, la multirregión us y la región us-west1 se tratan como dos regiones distintas en lo que respecta a la residencia de datos.

Cumplimiento

Para obtener información sobre cómo Cloud DLP maneja tus datos y te ayuda a cumplir con los requisitos de cumplimiento, consulta Seguridad de los datos.

Cómo obtener ayuda y asistencia

Para obtener comentarios y consultas de asistencia durante la vista previa, envía un correo electrónico a cloud-dlp-feedback@google.com.

¿Qué sigue?