En esta página, se describe cómo la protección de datos sensibles puede crear copias desidentificadas de datos almacenados en Cloud Storage. También se enumeran las limitaciones de esta operación y los puntos que debes considerar antes de comenzar.
Si quieres obtener información sobre cómo usar la protección de datos sensibles para crear copias desidentificadas de tus datos de Cloud Storage, consulta los siguientes vínculos:
- Crea copias desidentificadas de datos almacenados en Cloud Storage con la consola de Google Cloud
- Crea copias desidentificadas de datos almacenados en Cloud Storage con la API
Acerca de la desidentificación
La desidentificación es el proceso de quitar información de identificación de los datos. Su objetivo es permitir el uso y el uso compartido de información personal, como información de salud, financiera o demográfica, mientras cumple con los requisitos de privacidad. Para obtener más información sobre la desidentificación, consulta Desidentifica datos sensibles.
Para obtener información más detallada sobre las transformaciones de desidentificación en la protección de datos sensibles, consulta la Referencia de transformación. Para obtener más información sobre cómo la protección de datos sensibles oculta los datos sensibles de las imágenes, consulta Inspección y ocultamiento de imágenes.
Cuándo usar esta función
Esta función es útil si los archivos que usas en tus operaciones comerciales contienen datos sensibles, como información de identificación personal (PII). Esta función te permite usar y compartir información como parte de tus procesos empresariales, al tiempo que mantiene ocultos los datos sensibles.
Proceso de desidentificación
En esta sección, se describe el proceso de desidentificación en la protección de datos sensibles para el contenido en Cloud Storage.
Si quieres usar esta función, crea un trabajo de inspección (DlpJob
) configurado para hacer copias desidentificadas de los archivos de Cloud Storage.
La protección de datos sensibles analiza los archivos en la ubicación especificada y los inspecciona según tu configuración. A medida que inspecciona cada archivo, la Protección de datos sensibles desidentifica los datos que coinciden con tus criterios para datos sensibles y, luego, escribe el contenido en un archivo nuevo. El archivo nuevo siempre tiene el mismo nombre que el archivo original.
Almacena este archivo nuevo en el directorio de salida que especifiques. Si se incluye un archivo en tu análisis, pero ningún dato coincide con tus criterios de desidentificación y no hay errores en su procesamiento, el archivo se copia, sin alteraciones, en el directorio de salida.
El directorio de salida que establezcas debe estar en un bucket de Cloud Storage distinto del bucket que contiene tus archivos de entrada. En el directorio de salida, la protección de datos sensibles crea una estructura de archivos que refleja la estructura de archivos del directorio de entrada.
Por ejemplo, supongamos que configuras los siguientes directorios de entrada y salida:
- Directorio de entrada:
gs://input-bucket/folder1/folder1a
- Directorio de salida:
gs://output-bucket/output-directory
Durante la desidentificación, la protección de datos sensibles almacena los archivos desidentificados en gs://output-bucket/output-directory/folder1/folder1a
.
Si existe un archivo en el directorio de salida con el mismo nombre de archivo que un archivo desidentificado, ese archivo se reemplaza. Si no quieres que se reemplacen los archivos existentes, cambia el directorio de salida antes de ejecutar esta operación. Como alternativa, considera habilitar el control de versiones de objetos en el bucket de salida.
Las listas de control de acceso (LCA) a nivel de archivo de los archivos originales se copian en los archivos nuevos, sin importar si se encontraron y desidentificaron datos sensibles. Sin embargo, si el bucket de salida está configurado solo para permisos uniformes a nivel de bucket y no permisos detallados (a nivel de objeto), las LCA no se copiarán en los archivos desidentificados.
En el siguiente diagrama, se muestra el proceso de desidentificación de cuatro archivos almacenados en un bucket de Cloud Storage. Cada archivo se copia independientemente de si la Protección de datos sensibles detecta datos sensibles. Cada archivo copiado tiene el mismo nombre que el original.
Precios
Para obtener información sobre precios, consulta Inspección y transformación de datos en el almacenamiento.
Tipos de archivos admitidos
La protección de datos sensibles puede desidentificar los siguientes grupos de tipos de archivos:
- CSV
- Imagen
- Texto
- TSV
Comportamiento de desidentificación predeterminado
Si deseas definir cómo la protección de datos sensibles transforma los resultados, puedes proporcionar plantillas de desidentificación para los siguientes tipos de archivos:
- Archivos no estructurados, como archivos de texto con texto en formato libre
- Archivos estructurados, como archivos CSV
- Imágenes
Si no proporcionas ninguna plantilla de desidentificación, la Protección de datos sensibles transforma los resultados de la siguiente manera:
- En los archivos no estructurados y estructurados, la Protección de datos sensibles reemplaza todos los resultados por su Infotipo correspondiente, como se describe en Reemplazo de Infotipos.
- En las imágenes, la protección de datos sensibles cubre todos los resultados con una caja negra.
Limitaciones y consideraciones
Ten en cuenta los siguientes puntos antes de crear copias desidentificadas de datos de Cloud Storage.
Espacio en el disco
Esta operación solo admite contenido almacenado en Cloud Storage.
Esta operación crea una copia de cada archivo a medida que la protección de datos sensibles lo inspecciona. No modifica ni quita el contenido original. Los datos copiados ocuparán aproximadamente la misma cantidad de espacio adicional en el disco que los datos originales.
Acceso de escritura al almacenamiento
Debido a que la protección de datos sensibles crea una copia de los archivos originales, el agente de servicio de tu proyecto debe tener acceso de escritura en el bucket de salida de Cloud Storage.
Muestreo y configuración de los límites de resultados
Esta operación no admite el muestreo. Específicamente, no puedes limitar la cantidad de cada archivo que la Protección de datos sensibles analiza y desidentifica. Es decir, si usas la API de Cloud Data Loss Prevention, no puedes usar bytesLimitPerFile
ni bytesLimitPerFilePercent
en el objeto CloudStorageOptions
de tu DlpJob
.
Además, no puedes controlar la cantidad máxima de resultados que se muestran.
Si usas la API de DLP, no puedes establecer un objeto FindingLimits
en tu DlpJob
.
Requisito para inspeccionar datos
Cuando ejecutas tu trabajo de inspección, la protección de datos sensibles inspecciona los datos, según la configuración de inspección, antes de realizar la desidentificación. No puede omitir el proceso de inspección.
Requisito para usar extensiones de archivo
La protección de datos sensibles se basa en las extensiones de archivo para identificar los tipos de archivo de tu directorio de entrada. Es posible que no desidentifique los archivos que no tienen extensiones, incluso si son de los tipos compatibles.
Archivos omitidos
Cuando se desidentifican archivos del almacenamiento, la Protección de datos sensibles omite los siguientes archivos:
- Archivos que superen los 60,000 KB Si tienes archivos grandes que exceden este límite, considera dividirlos en fragmentos más pequeños.
- Archivos de tipos no admitidos Para obtener una lista de los tipos de archivos admitidos, consulta Tipos de archivos admitidos en esta página.
- Tipos de archivo que excluiste a propósito de la configuración de desidentificación. Si usas la API de DLP, se omiten los tipos de archivo que excluiste del campo
file_types_to_transform
de la acciónDeidentify
de tuDlpJob
. - Archivos que encontraron errores de transformación.
Orden de las filas de salida en tablas desidentificadas
No hay garantía de que el orden de las filas en una tabla desidentificada coincida con el orden de las filas en la tabla original. Si deseas comparar la tabla original con la tabla desidentificada, no puedes confiar en el número de fila para identificar las filas correspondientes. Si quieres comparar filas de las tablas, debes usar un identificador único para identificar cada registro.
Claves transitorias
Si eliges un método criptográfico como tu método de transformación, primero debes crear una clave unida con Cloud Key Management Service. Luego, proporciona esa clave en tu plantilla de desidentificación. Las claves transitorias (sin procesar) no son compatibles.
¿Qué sigue?
- Obtén más información para desidentificar datos sensibles almacenados en Cloud Storage con la API de DLP.
- Obtén más información para desidentificar datos sensibles almacenados en Cloud Storage con la consola de Google Cloud.
- Sigue el codelab Cómo crear una copia desidentificada de datos en Cloud Storage.
- Obtén más información sobre cómo inspeccionar el almacenamiento en busca de datos sensibles.