En esta página se describe cómo puede crear Protección de Datos Sensibles copias desidentificadas de los datos almacenados en Cloud Storage. También se indican las limitaciones de esta operación y los aspectos que debes tener en cuenta antes de empezar.
Para obtener información sobre cómo usar Protección de Datos Sensibles para crear copias desidentificadas de sus datos de Cloud Storage, consulte los siguientes artículos:
- Crear copias desidentificadas de datos almacenados en Cloud Storage mediante la Google Cloud consola
- Crear copias desidentificadas de datos almacenados en Cloud Storage mediante la API
Acerca de la desidentificación
La desidentificación es el proceso mediante el cual se elimina la información de identificación de los datos. Su objetivo es permitir el uso y el intercambio de información personal (como datos de salud, financieros o demográficos) y, al mismo tiempo, cumplir los requisitos de privacidad. Para obtener más información sobre la desidentificación, consulta Desidentificar datos sensibles.
Para obtener información más detallada sobre las transformaciones de desidentificación en Protección de Datos Sensibles, consulta la referencia de transformaciones. Para obtener más información sobre cómo oculta datos sensibles la protección de datos sensibles en imágenes, consulta Inspección y ocultación de imágenes.
Cuándo usar esta función
Esta función es útil si los archivos que usas en tus operaciones empresariales contienen datos sensibles, como información personal identificable (IPI). Esta función te permite usar y compartir información como parte de tus procesos empresariales, al tiempo que oculta los datos sensibles.
Proceso de desidentificación
En esta sección se describe el proceso de desidentificación de Protección de Datos Sensibles para el contenido de Cloud Storage.
Para usar esta función, debes crear un trabajo de inspección (DlpJob
) que esté configurado para crear copias desidentificadas de los archivos de Cloud Storage.
Protección de Datos Sensibles analiza los archivos de la ubicación especificada y los inspecciona según tu configuración. A medida que inspecciona cada archivo, Protección de datos sensibles desidentifica los datos que coinciden con tus criterios de datos sensibles y, a continuación, escribe el contenido en un archivo nuevo. El nuevo archivo siempre tiene el mismo nombre que el archivo original.
Almacena este nuevo archivo en un directorio de salida que especifiques. Si un archivo se incluye en tu análisis, pero no hay datos que coincidan con tus criterios de anonimización y no hay errores en su procesamiento, el archivo se copia sin modificar en el directorio de salida.
El directorio de salida que definas debe estar en un segmento de Cloud Storage diferente del que contenga los archivos de entrada. En el directorio de salida, Protección de Datos Sensibles crea una estructura de archivos que refleja la estructura de archivos del directorio de entrada.
Por ejemplo, supongamos que define los siguientes directorios de entrada y salida:
- Directorio de entrada:
gs://input-bucket/folder1/folder1a
- Directorio de salida:
gs://output-bucket/output-directory
Durante la desidentificación, Protección de Datos Sensibles almacena los archivos desidentificados en gs://output-bucket/output-directory/folder1/folder1a
.
Si en el directorio de salida hay un archivo con el mismo nombre que un archivo anonimizado, se sobrescribirá. Si no quieres que se sobrescriban los archivos, cambia el directorio de salida antes de ejecutar esta operación. También puedes habilitar la gestión de versiones de objetos en el segmento de salida.
Las listas de control de acceso (LCAs) a nivel de archivo de los archivos originales se copian en los archivos nuevos, independientemente de si se han encontrado datos sensibles y se han anonimizado. Sin embargo, si el segmento de salida solo está configurado para permisos uniformes a nivel de segmento y no para permisos detallados (a nivel de objeto), las listas de control de acceso no se copiarán en los archivos anonimizados.
En el siguiente diagrama se muestra el proceso de desidentificación de cuatro archivos almacenados en un segmento de Cloud Storage. Cada archivo se copia independientemente de si Protección de Datos Sensibles detecta datos sensibles. Cada archivo copiado tiene el mismo nombre que el original.
Precios
Para obtener información sobre los precios, consulta Inspección y transformación de datos en el almacenamiento.
Tipos de archivo admitidos
Protección de Datos Sensibles puede desidentificar los siguientes grupos de tipos de archivos:
- CSV
- Imagen
- Texto
- TSV
Comportamiento de desidentificación predeterminado
Si quieres definir cómo transforma Protección de Datos Sensibles los resultados, puedes proporcionar plantillas de desidentificación para los siguientes tipos de archivos:
- Archivos sin estructurar, como archivos de texto con texto libre
- Archivos estructurados, como los archivos CSV
- Imágenes
Si no proporcionas ninguna plantilla de desidentificación, Protección de Datos Sensibles transformará los hallazgos de la siguiente manera:
- En los archivos estructurados y no estructurados, Protección de Datos Sensibles sustituye todos los resultados por su infoType correspondiente, tal como se describe en la sección Sustitución de infoTypes.
- En las imágenes, Protección de Datos Sensibles cubre todos los resultados con un recuadro negro.
Limitaciones y consideraciones
Antes de crear copias desidentificadas de datos de Cloud Storage, tenga en cuenta los siguientes puntos.
Espacio en disco
Esta operación solo admite contenido almacenado en Cloud Storage.
Esta operación hace una copia de cada archivo mientras Protección de Datos Sensibles lo inspecciona. No modifica ni elimina el contenido original. Los datos copiados ocuparán aproximadamente la misma cantidad de espacio en disco adicional que los datos originales.
Acceso de escritura al almacenamiento
Como Protección de Datos Sensibles crea una copia de los archivos originales, el agente de servicio de tu proyecto debe tener acceso de escritura al segmento de salida de Cloud Storage.
Muestreo y límites de búsqueda de ajustes
Esta operación no admite muestreo. En concreto, no puedes limitar la cantidad de cada archivo que analiza y anonimiza Protección de Datos Sensibles. Es decir, si usas la API Cloud Data Loss Prevention, no puedes usar bytesLimitPerFile
y bytesLimitPerFilePercent
en el objeto CloudStorageOptions
de tu DlpJob
.
Además, no puedes controlar el número máximo de resultados que se devuelven.
Si usas la API DLP, no puedes definir un objeto FindingLimits
en tu DlpJob
.
Requisito de inspección de datos
Cuando ejecutas tu tarea de inspección, Protección de Datos Sensibles primero inspecciona los datos según tu configuración de inspección antes de anonimizarlos. No puede saltarse el proceso de inspección.
Requisito para usar extensiones de archivo
Protección de datos sensibles se basa en las extensiones de archivo para identificar los tipos de archivo del directorio de entrada. Es posible que no anonimice los archivos que no tengan extensiones, aunque sean de tipos admitidos.
Archivos omitidos
Al desidentificar archivos en el almacenamiento, Protección de Datos Sensibles omite los siguientes archivos:
- Archivos que superen los 60.000 KB. Si tienes archivos grandes que superan este límite, considera la posibilidad de dividirlos en fragmentos más pequeños.
- Tipos de archivo que no se indican en la sección Tipos de archivos admitidos de esta página.
- Tipos de archivo que has excluido deliberadamente de la configuración de desidentificación. Si usas la API DLP, se omitirán los tipos de archivo que hayas excluido del campo
file_types_to_transform
de la acciónDeidentify
de tuDlpJob
. - Archivos en los que se han producido errores de transformación.
Orden de las filas de salida en las tablas anonimizadas
No hay garantía de que el orden de las filas de una tabla anonimizada coincida con el orden de las filas de la tabla original. Si quieres comparar la tabla original con la anonimizada, no puedes usar el número de fila para identificar las filas correspondientes. Si quiere comparar filas de las tablas, debe usar un identificador único para identificar cada registro.
Claves transitorias
Si eliges un método criptográfico como método de transformación, primero debes crear una clave encapsulada con Cloud Key Management Service. A continuación, proporciona esa clave en tu plantilla de desidentificación. No se admiten las claves transitorias (sin formato).
Siguientes pasos
- Consulta cómo desidentificar datos sensibles almacenados en Cloud Storage con la API DLP.
- Consulta cómo desidentificar datos sensibles almacenados en Cloud Storage mediante la Google Cloud consola.
- Sigue los pasos del codelab Crear una copia desidentificada de los datos en Cloud Storage.
- Consulta cómo buscar datos sensibles en el almacenamiento.