Crea copias desidentificadas de datos almacenados en Cloud Storage con la consola de Google Cloud

En esta página, se describe cómo inspeccionar un directorio de Cloud Storage y crear copias desidentificadas de los archivos compatibles mediante la protección de datos sensibles en la consola de Google Cloud.

Esta operación ayuda a garantizar que los archivos que uses en tus procesos comerciales no contengan datos sensibles, como información de identificación personal (PII). La protección de datos sensibles puede inspeccionar archivos en un bucket de Cloud Storage en busca de datos sensibles y crear copias desidentificadas de esos archivos en un bucket separado. Luego, puedes usar las copias desidentificadas en los procesos empresariales.

Para obtener más información sobre lo que sucede cuando desidentificas datos en el almacenamiento, consulta Desidentificación de datos sensibles en el almacenamiento.

Antes de comenzar

En esta página, se supone lo siguiente:

Obtén información sobre las limitaciones y los puntos de consideración para esta operación.

La inspección de almacenamiento requiere el siguiente permiso de OAuth: https://www.googleapis.com/auth/cloud-platform. Para obtener más información, consulta Autenticación en la API de DLP.

Roles de IAM obligatorios

Si todos los recursos para esta operación están en el mismo proyecto, la función de agente de servicio de la API de DLP (roles/dlp.serviceAgent) en el agente de servicio es suficiente. Con ese rol, puedes hacer lo siguiente:

  • Crea el trabajo de inspección
  • Cómo leer los archivos en el directorio de entrada
  • Escribe los archivos desidentificados en el directorio de salida
  • Escribe los detalles de la transformación en una tabla de BigQuery

Entre los recursos relevantes, se incluyen el trabajo de inspección, las plantillas de desidentificación, el bucket de entrada, el bucket de salida y la tabla de detalles de transformación.

Si debes tener los recursos en proyectos separados, asegúrate de que el agente de servicio de tu proyecto también tenga las siguientes funciones:

  • La función de visualizador de objetos de Storage (roles/storage.objectViewer) en el bucket de entrada o el proyecto que lo contiene.
  • La función de Creador de objetos de almacenamiento (roles/storage.objectCreator) en el bucket de salida o en el proyecto que lo contiene.
  • La función de editor de datos de BigQuery (roles/bigquery.dataEditor) en la tabla de detalles de la transformación o en el proyecto que la contiene.

Para otorgar una función a tu agente de servicio, que es una cuenta de servicio administrada por Google, consulta Otorga una sola función. También puedes controlar el acceso en los siguientes niveles:

Descripción general

Para crear copias desidentificadas de tus archivos de Cloud Storage, configura un trabajo de inspección que busque datos sensibles de acuerdo con los criterios que especifiques. Luego, en el trabajo de inspección, habilitas la acción Hacer una copia desidentificada. Puedes configurar plantillas de desidentificación que determinen cómo la protección de datos sensibles debe transformar los resultados. Si no proporcionas ninguna plantilla de desidentificación, la protección de datos sensibles transforma los resultados como se describe en Comportamiento de desidentificación predeterminado.

Si habilitas la acción Hacer una copia desidentificada, la protección de datos sensibles transforma todos los tipos de archivos compatibles incluidos en el análisis de forma predeterminada. Sin embargo, puedes configurar el trabajo para transformar solo un subconjunto de los tipos de archivos compatibles.

Crea plantillas de desidentificación (opcional)

Si deseas controlar cómo se transforman los resultados, crea las siguientes plantillas. En estas plantillas, se proporcionan instrucciones para transformar los resultados en imágenes, archivos estructurados y archivos no estructurados.

  • Plantilla de desidentificación: Es una plantilla de desidentificación predeterminada que se usa para archivos no estructurados, como archivos de texto de formato libre. Este tipo de plantilla de desidentificación no puede contener transformaciones de registros, que solo son compatibles con el contenido estructurado. Si esta plantilla no está presente, la protección de datos sensibles usa el método de reemplazo de Infotipo para transformar archivos no estructurados.

  • Plantilla de desidentificación estructurada: Es una plantilla de desidentificación que se usa para archivos estructurados, como archivos CSV. Esta plantilla de desidentificación puede contener transformaciones de registro. Si esta plantilla no está presente, la protección de datos sensibles usa la plantilla de desidentificación predeterminada que creaste. Si tampoco está presente, la Protección de datos sensibles usa el método de reemplazo del Infotipo para transformar los archivos estructurados.

  • Plantilla de ocultamiento de imágenes: Es una plantilla de desidentificación que se usa para imágenes. Si esta plantilla no está presente, la protección de datos sensibles oculta todos los resultados de las imágenes con una caja negra.

Aprende a crear una plantilla de desidentificación.

Crea un trabajo de inspección que tenga una acción de desidentificación

  1. En la consola de Google Cloud, ve a la página Crear trabajo o activador de trabajo.

    Ir a Crear trabajo o activador de trabajo

  2. Ingresa la información del trabajo de protección de datos sensibles y haz clic en Continuar para completar cada paso.

En las siguientes secciones, se describe cómo completar las secciones relevantes de la página.

Elige los datos de entrada

En la sección Choose input data, haz lo siguiente:

  1. Opcional: En Nombre, ingresa un identificador para el trabajo de inspección.
  2. En Ubicación del recurso, selecciona Global o la región en la que deseas almacenar el trabajo de inspección.
  3. En Ubicación, selecciona Google Cloud Storage.
  4. En URL, ingresa la ruta de acceso al directorio de entrada. El directorio de entrada contiene los datos que deseas analizar, por ejemplo, gs://input-bucket/folder1/folder1a. Si deseas analizar el directorio de entrada de forma recurrente, agrega una barra diagonal al final de la URL y, luego, selecciona Analizar de forma recurrente.
  5. En la sección Muestreo, en la lista Método de muestreo, selecciona Sin muestreo.

    El muestreo no es compatible con los trabajos y activadores de trabajo configurados con la desidentificación.

Configura la detección

En la sección Configurar detección, elige los tipos de datos sensibles que deseas inspeccionar. Estos se denominan infoTypes. Puedes seleccionar una opción de la lista de Infotipos predefinidos o seleccionar una plantilla, si la hay. Para obtener más detalles, consulta Configura la detección.

Agrega acciones

En la sección Agrega acciones, haz lo siguiente:

  1. Activa Hacer una copia desidentificada.
  2. Opcional: En Plantilla de desidentificación, ingresa el nombre completo del recurso de la plantilla de desidentificación predeterminada si creaste una.
  3. Opcional: En Plantilla de desidentificación estructurada, ingresa el nombre completo del recurso de la plantilla de desidentificación para archivos estructurados si creaste una. De lo contrario, la Protección de datos sensibles usará la plantilla predeterminada si creaste una.
  4. Opcional: En Plantilla de ocultación de imágenes, ingresa el nombre completo del recurso de la plantilla de ocultación de imágenes para imágenes (si creaste una).
  5. Opcional: Si deseas que la protección de datos sensibles almacene los detalles de la transformación en una tabla de BigQuery, selecciona Exportar detalles de la transformación a BigQuery y, luego, completa la siguiente información:

    • ID del proyecto: El proyecto que contiene la tabla de BigQuery.
    • ID del conjunto de datos: Es el conjunto de datos que contiene la tabla de BigQuery.
    • ID de tabla: La tabla en la que la protección de datos sensibles debe almacenar los detalles de cada transformación. La protección de datos sensibles crea esta tabla con el ID de tabla que proporcionas. Si no proporcionas un ID de tabla, el sistema crea uno automáticamente.

    Esta tabla no almacena el contenido desidentificado real.

    Cuando los datos se escriben en una tabla de BigQuery, el uso de la facturación y las cuotas se aplican al proyecto que contiene la tabla de destino.

  6. En Ubicación de salida de Cloud Storage (Cloud Storage output location), ingresa la URL del directorio de Cloud Storage en el que deseas almacenar los archivos desidentificados. Este directorio no debe estar en el mismo bucket de Cloud Storage que el directorio de entrada.

  7. Opcional: En Tipos de archivo, selecciona los tipos de archivos que deseas transformar.

Para obtener más información sobre otras acciones que puedes agregar, consulta Cómo agregar acciones.

Programa

En la sección Programación, especifica si deseas que este trabajo sea recurrente:

  • Para ejecutar el análisis solo una vez, mantén el campo configurado en None.
  • Si quieres programar análisis que se ejecuten de forma periódica, haz clic en Crear un activador para ejecutar el trabajo de forma periódica.

Para obtener más información, consulta Programa.

Repaso

  1. En la sección Programación, revisa la configuración del trabajo y, si es necesario, edítalo.

  2. Haz clic en Crear.

Si optaste por no programar el trabajo, la Protección de datos sensibles comienza a ejecutarlo de inmediato. Una vez que se completa el trabajo, el sistema te redirecciona a la página Detalles del trabajo, en la que puedes ver los resultados de las operaciones de inspección y desidentificación.

Si optaste por exportar los detalles de la transformación a una tabla de BigQuery, la tabla se propaga. Contiene una fila por cada transformación que realizó la protección de datos sensibles. Para cada transformación, los detalles incluyen una descripción, un código de éxito o error, cualquier detalle de error, la cantidad de bytes transformados, la ubicación del contenido transformado y el nombre del trabajo de inspección en el que la protección de datos sensibles realizó la transformación. Esta tabla no incluye el contenido desidentificado real.

Confirma que se desidentificaron los archivos

  1. En la página Detalles del trabajo, haz clic en la pestaña Configuración.
  2. Para ver los archivos desidentificados en el directorio de salida, haz clic en el vínculo del campo Bucket de salida para los datos desidentificados de Cloud Storage.
  3. Para ver la tabla de BigQuery que contiene los detalles de la transformación, haz clic en el vínculo del campo Detalles de la transformación.

    Para obtener información sobre cómo consultar una tabla de BigQuery, lee Ejecuta consultas interactivas.

¿Qué sigue?