Desidentificación de datos sensibles de Cloud Storage

En esta página, se describe cómo la Protección de datos sensibles puede crear copias desidentificadas de los datos almacenados en Cloud Storage. También se enumeran las limitaciones de esta operación y los puntos que debes tener en cuenta antes de comenzar.

Si quieres obtener información para usar la Protección de datos sensibles y crear copias desidentificadas de tus datos de Cloud Storage, consulta los siguientes vínculos:

Acerca de la desidentificación

La desidentificación es el proceso de quitar información de identificación de los datos. Su objetivo es permitir el uso y el uso compartido de información personal, como información demográfica, financiera o de salud, a la vez que se cumplen los requisitos de privacidad. Para obtener más información sobre la desidentificación, consulta Desidentifica datos sensibles.

Para obtener información más detallada sobre las transformaciones de desidentificación en la Protección de datos sensibles, consulta la Referencia de transformación. Para obtener más información sobre cómo Sensitive Data Protection oculta datos sensibles en imágenes, consulta Ocultamiento y revisión de imágenes.

Cuándo usar esta función

Esta función es útil si los archivos que usas en tus operaciones comerciales contienen datos sensibles, como información de identificación personal (PII). Esta función te permite usar y compartir información como parte de tus procesos comerciales y, al mismo tiempo, mantener ocultos los datos sensibles.

Proceso de desidentificación

En esta sección, se describe el proceso de desidentificación en la Protección de datos sensibles para el contenido de Cloud Storage.

Para usar esta función, crea un trabajo de inspección (DlpJob) que esté configurado para crear copias desidentificadas de los archivos de Cloud Storage. La Protección de datos sensibles analiza los archivos en la ubicación especificada y los revisa según tu configuración. A medida que inspecciona cada archivo, Sensitive Data Protection desidentifica los datos que coinciden con tus criterios para datos sensibles y, luego, escribe el contenido en un archivo nuevo. El archivo nuevo siempre tiene el mismo nombre que el archivo original. Almacena este archivo nuevo en un directorio de salida que especifiques. Si se incluye un archivo en el análisis, pero no hay datos que coincidan con tus criterios de desidentificación y no hay errores en su procesamiento, el archivo se copia sin modificaciones en el directorio de salida.

El directorio de salida que establezcas debe estar en un bucket de Cloud Storage que sea diferente del bucket que contiene tus archivos de entrada. En el directorio de salida, la Protección de datos sensibles crea una estructura de archivos que refleja la estructura de archivos del directorio de entrada.

Por ejemplo, supongamos que configuras los siguientes directorios de entrada y salida:

  • Directorio de entrada: gs://input-bucket/folder1/folder1a
  • Directorio de salida: gs://output-bucket/output-directory

Durante la desidentificación, la Protección de datos sensibles almacena los archivos desidentificados en gs://output-bucket/output-directory/folder1/folder1a.

Si existe un archivo en el directorio de salida con el mismo nombre que un archivo desidentificado, se reemplazará. Si no quieres que se reemplacen los archivos existentes, cambia el directorio de salida antes de ejecutar esta operación. Como alternativa, considera habilitar el control de versiones de objetos en el bucket de salida.

Las listas de control de acceso (LCA) a nivel de archivo de los archivos originales se copian en los archivos nuevos, independientemente de si se encontraron datos sensibles y se desidentificaron. Sin embargo, si el bucket de salida está configurado solo para permisos uniformes a nivel del bucket y no para permisos detallados (a nivel del objeto), las LCA no se copian en los archivos desidentificados.

En el siguiente diagrama, se muestra el proceso de desidentificación de cuatro archivos almacenados en un bucket de Cloud Storage. Se copia cada archivo, independientemente de si Sensitive Data Protection detecta datos sensibles. Cada archivo copiado tiene el mismo nombre que el original.

Desidentificación de los archivos almacenados en Cloud Storage
Desidentificación de archivos almacenados en Cloud Storage (haz clic para ampliar).

Precios

Para obtener información sobre los precios, consulta Inspección y transformación de datos en el almacenamiento.

Tipos de archivos admitidos

Sensitive Data Protection puede desidentificar los siguientes grupos de tipos de archivos:

  • CSV
  • Imagen
  • Texto
  • TSV

Comportamiento de desidentificación predeterminado

Si deseas definir cómo Sensitive Data Protection transforma los resultados, puedes proporcionar plantillas de desidentificación para los siguientes tipos de archivos:

  • Archivos no estructurados, como archivos de texto con texto en formato libre
  • Archivos estructurados, como archivos CSV
  • Imágenes

Si no proporcionas ninguna plantilla de desidentificación, Sensitive Data Protection transforma los resultados de la siguiente manera:

  • En los archivos estructurados y no estructurados, la Protección de datos sensibles reemplaza todos los resultados por su Infotipo correspondiente, como se describe en Reemplazo de InfoType.
  • En las imágenes, Sensitive Data Protection cubre todos los resultados con un cuadro negro.

Limitaciones y consideraciones

Ten en cuenta los siguientes puntos antes de crear copias desidentificadas de datos de Cloud Storage.

Espacio en el disco

Esta operación solo admite contenido almacenado en Cloud Storage.

Esta operación crea una copia de cada archivo a medida que Sensitive Data Protection lo inspecciona. No modifica ni quita el contenido original. Los datos copiados ocuparán aproximadamente la misma cantidad de espacio en el disco adicional que los datos originales.

Acceso de escritura al almacenamiento

Debido a que la Protección de datos sensibles crea una copia de los archivos originales, el agente de servicio de tu proyecto debe tener acceso de escritura en el bucket de salida de Cloud Storage.

Muestreo y configuración de límites de búsqueda

Esta operación no admite el muestreo. Específicamente, no puedes limitar la cantidad de cada archivo que la Protección de datos sensibles analiza y desidentifica. Es decir, si usas la API de Cloud Data Loss Prevention, no puedes usar bytesLimitPerFile ni bytesLimitPerFilePercent en el objeto CloudStorageOptions de tu DlpJob.

Además, no puedes controlar la cantidad máxima de resultados que se mostrarán. Si usas la API de DLP, no puedes establecer un objeto FindingLimits en tu DlpJob.

Requisitos para inspeccionar los datos

Cuando ejecutas tu trabajo de inspección, Sensitive Data Protection primero inspecciona los datos, según tu configuración de inspección, antes de realizar la desidentificación. No se puede omitir el proceso de inspección.

Requisitos para usar extensiones de archivo

Sensitive Data Protection se basa en extensiones de archivo para identificar los tipos de archivo de los archivos en tu directorio de entrada. Es posible que no se desidentifiquen los archivos que no tengan extensiones, incluso si son de tipos compatibles.

Archivos omitidos

Cuando se desidentifican archivos en el almacenamiento, Sensitive Data Protection omite los siguientes archivos:

  • Archivos que superan los 60,000 KB Si tienes archivos grandes que superan este límite, considera dividirlos en fragmentos más pequeños.
  • Archivos de tipos no admitidos Para obtener una lista de los tipos de archivos compatibles, consulta Tipos de archivos compatibles en esta página.
  • Tipos de archivos que excluiste de forma intencional de la configuración de desidentificación Si usas la API de DLP, se omiten los tipos de archivo que excluyes del campo file_types_to_transform de la acción Deidentify de tu DlpJob.
  • Archivos que encontraron errores de transformación

Orden de las filas de salida en las tablas desidentificadas

No hay garantía de que el orden de las filas de una tabla desidentificada coincida con el orden de las filas de la tabla original. Si deseas comparar la tabla original con la tabla desidentificada, no puedes depender del número de fila para identificar las filas correspondientes. Si deseas comparar filas de las tablas, debes usar un identificador único para identificar cada registro.

Claves transitorias

Si eliges un método criptográfico como método de transformación, primero debes crear una clave unida con Cloud Key Management Service. Luego, proporciona esa clave en tu plantilla de desidentificación. No se admiten claves transitorias (sin procesar).

¿Qué sigue?