Desidentifica datos sensibles almacenados

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.
{}

Cloud Data Loss Prevention puede desidentificar datos sensibles del contenido almacenado en Cloud Storage.

La desidentificación es el proceso de quitar información de identificación de los datos. Su objetivo es permitir el uso y el uso compartido de información personal, como información sanitaria, financiera o demográfica, a la vez que se cumplen los requisitos de privacidad. Para obtener más información sobre la desidentificación, consulta Desidentifica datos sensibles.

En este tema, se describe el proceso de desidentificación del contenido almacenado en Cloud Storage. También enumera las limitaciones de esta operación y los puntos que debes considerar antes de comenzar.

Para obtener información más detallada sobre las transformaciones de desidentificación en Cloud DLP, consulta Referencia de transformación. Para obtener más información sobre cómo oculta Cloud DLP los datos sensibles de las imágenes, consulta Oculta y examina imágenes.

Proceso de desidentificación

En esta sección, se describe el proceso de desidentificación en Cloud DLP para el contenido en Cloud Storage.

A fin de desidentificar datos sensibles en el almacenamiento, crea un trabajo de inspección (DlpJob) que esté configurado para desidentificar los resultados. Cloud DLP analiza los archivos en la ubicación especificada y los inspecciona de acuerdo con tu configuración. A medida que inspecciona cada archivo, Cloud DLP desidentifica cualquier dato que coincida con tus criterios para datos sensibles y, luego, escribe el contenido en un archivo nuevo. El archivo nuevo siempre tiene el mismo nombre que el archivo original. Almacena este archivo nuevo en un directorio de salida que especifiques. Si se incluye un archivo en tu análisis, pero ningún dato coincide con tus criterios de desidentificación y no hay errores en su procesamiento, el archivo se copia, sin alteraciones, en el directorio de salida.

El directorio de salida que establezcas debe estar en un bucket de Cloud Storage que sea diferente del bucket que contiene tus archivos de entrada. En el directorio de salida, Cloud DLP crea una estructura de archivos que duplica la estructura del archivo de entrada.

Por ejemplo, supongamos que estableces los siguientes directorios de entrada y salida:

  • Directorio de entrada: gs://input-bucket/folder1/folder1a
  • Directorio de salida: gs://output-bucket/output-directory

Durante la desidentificación, Cloud DLP almacena los archivos desidentificados en gs://output-bucket/output-directory/folder1/folder1a.

Si existe un archivo en el directorio de salida con el mismo nombre de archivo que un archivo desidentificado, ese archivo se reemplaza. Si no quieres que se reemplacen los archivos existentes, cambia el directorio de salida antes de ejecutar esta operación. Como alternativa, considera habilitar el control de versiones de objetos en el bucket de salida.

Las listas de control de acceso (LCA) de los archivos originales se copian en los archivos nuevos, sin importar si se encontraron datos sensibles y si se desidentificaron. Sin embargo, si el bucket de salida está configurado solo para permisos a nivel de bucket uniformes y no permisos detallados (a nivel de objeto), las LCA no se copian en los archivos desidentificados.

En el siguiente diagrama, se muestra el proceso de desidentificación de cuatro archivos almacenados en un bucket de Cloud Storage. Cada archivo se copia sin importar si Cloud DLP detecta datos sensibles. Cada archivo copiado tiene el mismo nombre que el original.

Diagrama que muestra la desidentificación de archivos almacenados en Cloud Storage
Diagrama que muestra la desidentificación de archivos almacenados en Cloud Storage (haz clic para ampliar)

Cuándo usar este servicio

Este servicio es útil si los archivos que usas en tus operaciones comerciales contienen datos sensibles, como la información de identificación personal (PII). Esta función te permite usar y compartir información como parte de los procesos empresariales y, al mismo tiempo, ocultar los datos sensibles.

Precios

Para obtener información sobre los precios, consulta Inspección y transformación de datos en almacenamiento.

Tipos de archivos admitidos

Cloud DLP puede desidentificar los siguientes grupos de tipos de archivo:

  • CSV
  • Imagen
  • Texto
  • TSV

Comportamiento de desidentificación predeterminado

Si quieres definir cómo Cloud DLP transforma los resultados, puedes proporcionar plantillas de desidentificación para los siguientes tipos de archivos:

  • Archivos no estructurados, como archivos de texto con texto de formato libre
  • Archivos estructurados, como archivos CSV
  • Imágenes

Si no proporcionas ninguna plantilla de desidentificación, Cloud DLP transforma los resultados de la siguiente manera:

  • En los archivos no estructurados y estructurados, Cloud DLP reemplaza todos los resultados con su Infotipo correspondiente, como se describe en Reemplazo de Infotipo.
  • En las imágenes, Cloud DLP cubre todos los resultados con una caja negra.

Limitaciones y consideraciones

Considera los siguientes puntos antes de comenzar una operación de desidentificación en el almacenamiento.

Espacio en el disco

Esta operación solo admite contenido almacenado en Cloud Storage.

Esta operación realiza una copia de cada archivo a medida que Cloud DLP lo inspecciona. No modifica ni quita el contenido original. Los datos copiados ocuparán aproximadamente la misma cantidad de espacio adicional en el disco que los datos originales.

Acceso de escritura al almacenamiento

Debido a que Cloud DLP crea una copia de los archivos originales, el agente de servicio de tu proyecto debe tener acceso de escritura en el bucket de salida de Cloud Storage.

Muestreo y configuración de límites de hallazgos

Esta operación no admite el muestreo. En particular, no puedes limitar la cantidad de archivos que Cloud DLP analiza y desidentifica. Es decir, si usas la API de Cloud Data Loss Prevention, no puedes usar bytesLimitPerFile ni bytesLimitPerFilePercent en el objeto CloudStorageOptions de tu DlpJob.

Además, no puedes controlar el número máximo de resultados que se muestran. Si usas la API de DLP, no puedes configurar un objeto FindingLimits en tu DlpJob.

Requisito de inspección de los datos

Cuando ejecutas tu trabajo de inspección, Cloud DLP primero inspecciona los datos, según tu configuración de inspección, antes de realizar la desidentificación. No se puede omitir el proceso de inspección.

Requisito de usar extensiones de archivo

Cloud DLP se basa en las extensiones de archivo para identificar los tipos de archivo de tu directorio de entrada. Es posible que no desidentifique archivos que no tienen extensiones de archivo, incluso si esos tipos son compatibles.

Archivos omitidos

Cuando se desidentifican archivos en el almacenamiento, Cloud DLP omite los siguientes archivos:

  • Archivos que superen los 60,000 KB Si tienes archivos grandes que superan este límite, considera dividirlos en fragmentos más pequeños.
  • Archivos de tipos no admitidos Para obtener una lista de los tipos de archivos compatibles, consulta Tipos de archivos compatibles en esta página.
  • Los tipos de archivo que excluiste deliberadamente de la configuración de desidentificación. Si usas la API de DLP, se omiten los tipos de archivos que excluiste del campo file_types_to_transform de la acción Deidentify de tu DlpJob.
  • Archivos que encontraron errores de transformación

Claves transitorias

Si eliges un método criptográfico como tu método de transformación, primero debes crear una clave unida con Cloud Key Management Service. Luego, proporciona esa clave en tu plantilla de desidentificación. No se admiten claves transitorias (sin procesar).

¿Qué sigue?