Crea copias desidentificadas de los datos almacenados en Cloud Storage con la consola de Google Cloud

En esta página, se describe cómo inspeccionar un directorio de Cloud Storage y crear copias desidentificadas de los archivos compatibles, con Sensitive Data Protection en la consola de Google Cloud.

Esta operación ayuda a garantizar que los archivos que usas en tus procesos de la empresa no contengan datos sensibles, como información de identificación personal (PII). La Protección de datos sensibles puede inspeccionar los archivos en un bucket de Cloud Storage en busca de datos sensibles y crear copias desidentificadas de esos archivos en un bucket independiente. Luego, puedes usar las copias desidentificadas en tus procesos comerciales.

Para obtener más información sobre lo que sucede cuando desidentificas datos en el almacenamiento, consulta Desidentificación de datos sensibles en el almacenamiento.

Antes de comenzar

En esta página, se supone lo siguiente:

Obtén información sobre las limitaciones y los puntos a tener en cuenta para esta operación.

La inspección de almacenamiento requiere el siguiente permiso de OAuth: https://www.googleapis.com/auth/cloud-platform. Para obtener más información, consulta Autenticación en la API de DLP.

Roles de IAM obligatorios

Si todos los recursos de esta operación están en el mismo proyecto, el rol de agente de servicio de la API de DLP (roles/dlp.serviceAgent) en el agente de servicio es suficiente. Con ese rol, puedes hacer lo siguiente:

  • Crea el trabajo de inspección
  • Lee los archivos del directorio de entrada
  • Escribe los archivos desidentificados en el directorio de salida
  • Escribe los detalles de la transformación en una tabla de BigQuery

Los recursos relevantes incluyen el trabajo de inspección, las plantillas de desidentificación, el bucket de entrada, el bucket de salida y la tabla de detalles de la transformación.

Si debes tener los recursos en proyectos separados, asegúrate de que el agente de servicio de tu proyecto también tenga los siguientes roles:

  • El rol de visualizador de objetos de almacenamiento (roles/storage.objectViewer) en el bucket de entrada o el proyecto que lo contiene
  • El rol de creador de objetos de almacenamiento (roles/storage.objectCreator) en el bucket de salida o en el proyecto que lo contiene
  • El rol de editor de datos de BigQuery (roles/bigquery.dataEditor) en la tabla de detalles de la transformación o el proyecto que la contiene

Para otorgar un rol al agente de servicio, consulta Otorga un solo rol. También puedes controlar el acceso en los siguientes niveles:

Descripción general

Para crear copias desidentificadas de tus archivos de Cloud Storage, configura un trabajo de inspección que busque datos sensibles según los criterios que especifiques. Luego, dentro del trabajo de inspección, habilitas la acción Hacer una copia desidentificada. Puedes establecer plantillas de desidentificación que indiquen cómo la Protección de datos sensibles debe transformar los resultados. Si no proporcionas ninguna plantilla de desidentificación, Sensitive Data Protection transforma los resultados como se describe en Comportamiento predeterminado de desidentificación.

Si habilitas la acción Hacer una copia desidentificada, de forma predeterminada, Sensitive Data Protection transforma todos los tipos de archivos compatibles incluidos en el análisis. Sin embargo, puedes configurar el trabajo para que transforme solo un subconjunto de los tipos de archivos compatibles.

Opcional: Crea plantillas de desidentificación

Si quieres controlar cómo se transforman los resultados, crea las siguientes plantillas. Estas plantillas proporcionan instrucciones sobre cómo transformar los resultados en archivos estructurados, no estructurados y imágenes.

  • Plantilla de desidentificación: Es una plantilla de desidentificación predeterminada que se usa para archivos no estructurados, como archivos de texto de formato libre. Este tipo de plantilla de desidentificación no puede contener transformaciones de registro, que solo se admiten para el contenido estructurado. Si no está presente esta plantilla, Sensitive Data Protection usa el método de reemplazo de infoType para transformar archivos no estructurados.

  • Plantilla de desidentificación estructurada: Es una plantilla de desidentificación que se usará para archivos estructurados, como archivos CSV. Esta plantilla de desidentificación puede contener transformaciones de registros. Si no está presente, la Protección de datos sensibles usa la plantilla de desidentificación predeterminada que creaste. Si tampoco está presente, Sensitive Data Protection usa el método de reemplazo de Infotipo para transformar archivos estructurados.

  • Plantilla de ocultación de imágenes: Es una plantilla de desidentificación que se usará para las imágenes. Si no está presente esta plantilla, Sensitive Data Protection oculta todos los hallazgos en las imágenes con un cuadro negro.

Obtén más información para crear una plantilla de anonimización.

Crea un trabajo de inspección que tenga una acción de desidentificación

  1. En la consola de Google Cloud, ve a la página Crear trabajo o activador de trabajo.

    Ir a Crear trabajo o activador de trabajo

  2. Ingresa la información del trabajo de Protección de datos sensibles y haz clic en Continuar para completar cada paso.

En las siguientes secciones, se describe cómo completar las secciones relevantes de la página.

Elige los datos de entrada

En la sección Elige los datos de entrada, haz lo siguiente:

  1. Opcional: En Nombre, ingresa un identificador para el trabajo de inspección.
  2. En Ubicación del recurso, selecciona Global o la región en la que deseas almacenar el trabajo de inspección.
  3. En Ubicación, selecciona Google Cloud Storage.
  4. En URL, ingresa la ruta de acceso al directorio de entrada. El directorio de entrada contiene los datos que deseas analizar, por ejemplo, gs://input-bucket/folder1/folder1a. Si deseas analizar el directorio de entrada de forma recursiva, agrega una barra final a la URL y, luego, selecciona Analizar de forma recursiva.
  5. En la sección Muestreo, en la lista Método de muestreo, selecciona Sin muestreo.

    El muestreo no es compatible con los trabajos y los activadores de trabajos configurados con la desidentificación.

Configura la detección

En la sección Configura la detección, elige los tipos de datos sensibles que deseas inspeccionar. Estos se denominan infoTypes. Puedes elegir de la lista de infotipos predefinidos o seleccionar una plantilla si la hay. Para obtener más detalles, consulta Configura la detección.

Agrega acciones

En la sección Agregar acciones, haz lo siguiente:

  1. Activa Crear una copia desidentificada.
  2. Opcional: En Plantilla de desidentificación, ingresa el nombre completo del recurso de la plantilla de desidentificación predeterminada si creaste una.
  3. Opcional: En Plantilla de desidentificación estructurada, ingresa el nombre de recurso completo de la plantilla de desidentificación para archivos estructurados si creaste una. Si no lo hiciste, Sensitive Data Protection usará la plantilla predeterminada si creaste una.
  4. Opcional: En Plantilla de ocultación de imágenes, ingresa el nombre de recurso completo de la plantilla de ocultación de imágenes para las imágenes si creaste una.
  5. Opcional: Si deseas que la Protección de datos sensibles almacene los detalles de la transformación en una tabla de BigQuery, selecciona Exportar los detalles de la transformación a BigQuery y, luego, completa la siguiente información:

    • ID del proyecto: Es el proyecto que contiene la tabla de BigQuery.
    • ID del conjunto de datos: Es el conjunto de datos que contiene la tabla de BigQuery.
    • ID de tabla: Es la tabla en la que Sensitive Data Protection debe almacenar detalles sobre cada transformación. Sensitive Data Protection crea esta tabla con el ID de la tabla que proporcionas. Si no proporcionas un ID de tabla, el sistema creará uno automáticamente.

    Esta tabla no almacena el contenido desidentificado real.

    Cuando se escriben datos en una tabla de BigQuery, el uso de cuotas y la facturación se aplican al proyecto que contiene la tabla de destino.

  6. En Ubicación de salida de Cloud Storage, ingresa la URL del directorio de Cloud Storage en el que deseas almacenar los archivos desidentificados. Este directorio no debe estar en el mismo bucket de Cloud Storage que el directorio de entrada.

  7. Opcional: En Tipos de archivos, selecciona los tipos de archivos que deseas transformar.

Para obtener más información sobre otras acciones que puedes agregar, consulta Agrega acciones.

Programar

En la sección Programación, especifica si deseas que esta tarea sea una tarea recurrente:

  • Para ejecutar el análisis solo una vez, mantén el campo configurado en Ninguno.
  • Para programar análisis que se ejecuten de forma periódica, haz clic en Crear un activador para ejecutar el trabajo de forma periódica.

Para obtener más información, consulta Programa.

Revisar

  1. En la sección Programar, revisa la configuración de la tarea y, si es necesario, modifícala.

  2. Haz clic en Crear.

Si no programaste el trabajo, la Protección de datos sensibles lo comenzará a ejecutar de inmediato. Una vez que se complete el trabajo, el sistema te redireccionará a la página Detalles del trabajo, en la que puedes ver los resultados de las operaciones de inspección y desidentificación.

Si elegiste exportar los detalles de la transformación a una tabla de BigQuery, la tabla se propagará. Contiene una fila para cada transformación que realizó Sensitive Data Protection. Para cada transformación, los detalles incluyen una descripción, un código de error o de éxito, cualquier detalle del error, la cantidad de bytes transformados, la ubicación del contenido transformado y el nombre del trabajo de inspección en el que la Protección de datos sensibles realizó la transformación. Esta tabla no contiene el contenido desidentificado real.

Confirma que los archivos se hayan desidentificado

  1. En la página Detalles del trabajo, haz clic en la pestaña Configuración.
  2. Para ver los archivos desidentificados en el directorio de salida, haz clic en el vínculo del campo Bucket de salida para datos desidentificados de Cloud Storage.
  3. Para ver la tabla de BigQuery que contiene los detalles de la transformación, haz clic en el vínculo del campo Transformation Details.

    Para obtener información sobre cómo consultar una tabla de BigQuery, consulta Ejecuta consultas interactivas.

¿Qué sigue?