El análisis de reidentificación de riesgo , o solo análisis de riesgo, es el proceso que consiste en analizar datos sensibles para encontrar propiedades que podrían aumentar el riesgo de que se identifique a las personas. Puedes usar métodos de análisis de riesgos antes de la desidentificación a fin de ayudarte a determinar una estrategia efectiva o después de esta para buscar cualquier cambio o valor atípico.
La protección de datos sensibles puede calcular cuatro métricas de riesgo de reidentificación: k-anonimato, l-diversidad, k-mapa y Qwiklabs-presencia. Si no estás familiarizado con el análisis de riesgos o con alguna de estas métricas, consulta el tema del concepto de análisis de riesgos antes de continuar.
En esta sección, se proporcionan descripciones generales sobre cómo usar la protección de datos sensibles para el análisis de riesgos de datos estructurados con cualquiera de estas métricas, además de otros temas relacionados.
Calcula el riesgo de reidentificación
La protección de datos sensibles puede analizar tus datos estructurados almacenados en tablas de BigQuery y calcular las siguientes métricas de riesgo de reidentificación. Haz clic en el vínculo de la métrica que deseas calcular para obtener más información.
Métrica | Descripción |
---|---|
k-anonimato. | Una propiedad de un conjunto de datos que indica la capacidad de reidentificación de sus registros. Un conjunto de datos es k-anónimo si los cuasi identificadores de cada persona en él son idénticos a los de al menos k – 1 personas en el conjunto. |
l-diversidad | Una extensión de k-anonimato que mide adicionalmente la diversidad de valores sensibles para cada columna. Un conjunto de datos tiene l-diversidad si, para cada conjunto de filas con cuasi identificadores idénticos, hay al menos l valores distintos para cada atributo sensible. |
k-mapa | Calcula el riesgo de la capacidad de reidentificación mediante la comparación de un conjunto de datos desidentificados de personas con un conjunto de datos de reidentificación, o “ataque”, más grande. |
δ-presencia | Calcula la probabilidad de que un usuario determinado en una población más grande esté en el conjunto de datos. Esto se usa cuando la membresía en el conjunto de datos es en sí misma información sensible. |
Calcular otras estadísticas
La protección de datos sensibles también puede calcular estadísticas numéricas y categóricas para los datos almacenados en tablas de BigQuery con el mismo recurso DlpJob
que las APIs de análisis de riesgos.
Métrica | Descripción |
---|---|
Estadísticas numéricas | Determina los valores mínimo, máximo y cuantil de una columna individual de BigQuery. |
Estadísticas numéricas categóricas | Calcula estadísticas numéricas categóricas de los buckets de histogramas individuales dentro de una columna de BigQuery. |
Para obtener más información, consulta Calcula estadísticas numéricas y categóricas.
Visualiza el riesgo de reidentificación
Puedes visualizar las métricas de riesgo que la protección de datos sensibles calcula directamente en la consola de Google Cloud mediante la protección de datos sensibles (k-anonimato o l-diversidad) o mediante otros productos de Google Cloud.
Producto | Descripción |
---|---|
Looker Studio | Después de calcular los valores de k-anonimato para un conjunto de datos con la protección de datos sensibles, puedes visualizar los resultados en Looker Studio. Esto también te permitirá comprender mejor el riesgo de reidentificación y evaluar las compensaciones en utilidad que podrías estar haciendo si ocultas o desidentificas datos. |