Desidentificación de datos sensibles de Cloud Storage

En esta página, se describe cómo la protección de datos sensibles puede crear copias desidentificadas de datos almacenados en Cloud Storage. También se enumeran las limitaciones de esta operación y los puntos que debes considerar antes de comenzar.

Si quieres obtener información sobre cómo usar la protección de datos sensibles para crear copias desidentificadas de tus datos de Cloud Storage, consulta los siguientes vínculos:

Acerca de la desidentificación

La desidentificación es el proceso de quitar información de identificación de los datos. Su objetivo es permitir el uso y el uso compartido de información personal, como información de salud, financiera o demográfica, mientras cumple con los requisitos de privacidad. Para obtener más información sobre la desidentificación, consulta Desidentifica datos sensibles.

Para obtener información más detallada sobre las transformaciones de desidentificación en la protección de datos sensibles, consulta la Referencia de transformación. Para obtener más información sobre cómo la protección de datos sensibles oculta los datos sensibles de las imágenes, consulta Inspección y ocultamiento de imágenes.

Cuándo usar esta función

Esta función es útil si los archivos que usas en tus operaciones comerciales contienen datos sensibles, como información de identificación personal (PII). Esta función te permite usar y compartir información como parte de tus procesos empresariales, al tiempo que mantiene ocultos los datos sensibles.

Proceso de desidentificación

En esta sección, se describe el proceso de desidentificación en la protección de datos sensibles para el contenido en Cloud Storage.

Si quieres usar esta función, crea un trabajo de inspección (DlpJob) configurado para hacer copias desidentificadas de los archivos de Cloud Storage. La protección de datos sensibles analiza los archivos en la ubicación especificada y los inspecciona según tu configuración. A medida que inspecciona cada archivo, la Protección de datos sensibles desidentifica los datos que coinciden con tus criterios para datos sensibles y, luego, escribe el contenido en un archivo nuevo. El archivo nuevo siempre tiene el mismo nombre que el archivo original. Almacena este archivo nuevo en el directorio de salida que especifiques. Si se incluye un archivo en tu análisis, pero ningún dato coincide con tus criterios de desidentificación y no hay errores en su procesamiento, el archivo se copia, sin alteraciones, en el directorio de salida.

El directorio de salida que establezcas debe estar en un bucket de Cloud Storage distinto del bucket que contiene tus archivos de entrada. En el directorio de salida, la protección de datos sensibles crea una estructura de archivos que refleja la estructura de archivos del directorio de entrada.

Por ejemplo, supongamos que configuras los siguientes directorios de entrada y salida:

  • Directorio de entrada: gs://input-bucket/folder1/folder1a
  • Directorio de salida: gs://output-bucket/output-directory

Durante la desidentificación, la protección de datos sensibles almacena los archivos desidentificados en gs://output-bucket/output-directory/folder1/folder1a.

Si existe un archivo en el directorio de salida con el mismo nombre de archivo que un archivo desidentificado, ese archivo se reemplaza. Si no quieres que se reemplacen los archivos existentes, cambia el directorio de salida antes de ejecutar esta operación. Como alternativa, considera habilitar el control de versiones de objetos en el bucket de salida.

Las listas de control de acceso (LCA) a nivel de archivo de los archivos originales se copian en los archivos nuevos, sin importar si se encontraron y desidentificaron datos sensibles. Sin embargo, si el bucket de salida está configurado solo para permisos uniformes a nivel de bucket y no permisos detallados (a nivel de objeto), las LCA no se copiarán en los archivos desidentificados.

En el siguiente diagrama, se muestra el proceso de desidentificación de cuatro archivos almacenados en un bucket de Cloud Storage. Cada archivo se copia independientemente de si la Protección de datos sensibles detecta datos sensibles. Cada archivo copiado tiene el mismo nombre que el original.

Desidentificación de archivos almacenados en Cloud Storage.
Desidentificación de archivos almacenados en Cloud Storage (haz clic para ampliar).

Precios

Para obtener información sobre precios, consulta Inspección y transformación de datos en el almacenamiento.

Tipos de archivos admitidos

La protección de datos sensibles puede desidentificar los siguientes grupos de tipos de archivos:

  • CSV
  • Imagen
  • Texto
  • TSV

Comportamiento de desidentificación predeterminado

Si deseas definir cómo la protección de datos sensibles transforma los resultados, puedes proporcionar plantillas de desidentificación para los siguientes tipos de archivos:

  • Archivos no estructurados, como archivos de texto con texto en formato libre
  • Archivos estructurados, como archivos CSV
  • Imágenes

Si no proporcionas ninguna plantilla de desidentificación, la Protección de datos sensibles transforma los resultados de la siguiente manera:

  • En los archivos no estructurados y estructurados, la Protección de datos sensibles reemplaza todos los resultados por su Infotipo correspondiente, como se describe en Reemplazo de Infotipos.
  • En las imágenes, la protección de datos sensibles cubre todos los resultados con una caja negra.

Limitaciones y consideraciones

Ten en cuenta los siguientes puntos antes de crear copias desidentificadas de datos de Cloud Storage.

Espacio en el disco

Esta operación solo admite contenido almacenado en Cloud Storage.

Esta operación crea una copia de cada archivo a medida que la protección de datos sensibles lo inspecciona. No modifica ni quita el contenido original. Los datos copiados ocuparán aproximadamente la misma cantidad de espacio adicional en el disco que los datos originales.

Acceso de escritura al almacenamiento

Debido a que la protección de datos sensibles crea una copia de los archivos originales, el agente de servicio de tu proyecto debe tener acceso de escritura en el bucket de salida de Cloud Storage.

Muestreo y configuración de los límites de resultados

Esta operación no admite el muestreo. Específicamente, no puedes limitar la cantidad de cada archivo que la Protección de datos sensibles analiza y desidentifica. Es decir, si usas la API de Cloud Data Loss Prevention, no puedes usar bytesLimitPerFile ni bytesLimitPerFilePercent en el objeto CloudStorageOptions de tu DlpJob.

Además, no puedes controlar la cantidad máxima de resultados que se muestran. Si usas la API de DLP, no puedes establecer un objeto FindingLimits en tu DlpJob.

Requisito para inspeccionar datos

Cuando ejecutas tu trabajo de inspección, la protección de datos sensibles inspecciona los datos, según la configuración de inspección, antes de realizar la desidentificación. No puede omitir el proceso de inspección.

Requisito para usar extensiones de archivo

La protección de datos sensibles se basa en las extensiones de archivo para identificar los tipos de archivo de tu directorio de entrada. Es posible que no desidentifique los archivos que no tienen extensiones, incluso si son de los tipos compatibles.

Archivos omitidos

Cuando se desidentifican archivos del almacenamiento, la Protección de datos sensibles omite los siguientes archivos:

  • Archivos que superen los 60,000 KB Si tienes archivos grandes que exceden este límite, considera dividirlos en fragmentos más pequeños.
  • Archivos de tipos no admitidos Para obtener una lista de los tipos de archivos admitidos, consulta Tipos de archivos admitidos en esta página.
  • Tipos de archivo que excluiste a propósito de la configuración de desidentificación. Si usas la API de DLP, se omiten los tipos de archivo que excluiste del campo file_types_to_transform de la acción Deidentify de tu DlpJob.
  • Archivos que encontraron errores de transformación.

Orden de las filas de salida en tablas desidentificadas

No hay garantía de que el orden de las filas en una tabla desidentificada coincida con el orden de las filas en la tabla original. Si deseas comparar la tabla original con la tabla desidentificada, no puedes confiar en el número de fila para identificar las filas correspondientes. Si quieres comparar filas de las tablas, debes usar un identificador único para identificar cada registro.

Claves transitorias

Si eliges un método criptográfico como tu método de transformación, primero debes crear una clave unida con Cloud Key Management Service. Luego, proporciona esa clave en tu plantilla de desidentificación. Las claves transitorias (sin procesar) no son compatibles.

¿Qué sigue?