Generalización y agrupamiento

La generalización es el proceso de tomar un valor distintivo y abstraerlo a un valor más general y menos distintivo. La generalización intenta preservar la utilidad de los datos a la vez que reduce la capacidad de identificación de los datos.

Puede haber muchos niveles de generalización según el tipo de datos. La cantidad de generalización necesaria se puede medir en un conjunto de datos o en una población del mundo real mediante técnicas como las que se incluyen en los análisis de riesgos de Cloud Data Loss Prevention (DLP).

Una técnica de generalización común que admite Cloud DLP es el agrupamiento. Mediante el agrupamiento, los registros se agrupan en depósitos más pequeños para tratar de minimizar el riesgo de que un atacante asocie información sensible con información de identificación. Hacerlo puede conservar el significado y la utilidad, pero también ocultará los valores individuales que tienen muy pocos participantes.

Situación de agrupamiento 1

Considera esta situación de agrupamiento numérico: una base de datos almacena las puntuaciones de satisfacción de los usuarios, que van de 0 a 100. La base de datos tiene un aspecto similar al siguiente:

user_id score
1 100
2 100
3 92

Cuando analizas los datos, te das cuenta de que los usuarios rara vez usan algunos valores. De hecho, hay algunas puntuaciones que se asignan a un solo usuario. Por ejemplo, la mayoría de los usuarios eligen 0, 25, 50, 75 o 100. Sin embargo, cinco usuarios eligieron 95 y solo uno eligió 92. En lugar de mantener los datos sin procesar, puedes generalizar estos valores en grupos y a fin de no tener conjuntos con muy pocos participantes. Según cómo se usen los datos, generalizarlos de esta manera podría ayudar a prevenir la reidentificación.

Podrías elegir quitar estas filas de datos atípicos, o podrías intentar preservar su utilidad mediante el agrupamiento. Para este ejemplo, agrupemos todos los valores de acuerdo con lo siguiente:

  • De 0 a 25: “Baja”
  • De 26 a 75: “Media”
  • De 76 a 100: “Alta”

El agrupamiento en Cloud DLP es una de las muchas transformaciones básicas disponibles para la desidentificación. La siguiente configuración de JSON ilustra cómo implementar esta situación de agrupamiento en la API de Cloud DLP. Este JSON podría incluirse en una solicitud al método content.deidentify:

...
{
  "primitiveTransformation":
  {
    "bucketingConfig":
    {
      "buckets":
      [
        {
          "min":
          {
            "integerValue": "0"
          },
          "max":
          {
            "integerValue": "25"
          },
          "replacementValue":
          {
            "stringValue": "Low"
          }
        },
        {
          "min":
          {
            "integerValue": "26"
          },
          "max":
          {
            "integerValue": "75"
          },
          "replacementValue":
          {
            "stringValue": "Medium"
          }
        },
        {
          "min":
          {
            "integerValue": "76"
          },
          "max":
          {
            "integerValue": "100"
          },
          "replacementValue":
          {
            "stringValue": "High"
          }
        }
      ]
    }
  }
}
...

Situación de agrupamiento 2

El agrupamiento también se puede usar en strings o valores enumerados. Supongamos que deseas compartir datos salariales y también incluir cargos. Sin embargo, algunos cargos, como director ejecutivo o ingeniero distinguido, pueden vincularse a una persona o a un pequeño grupo de personas. Es muy fácil asociar estos cargos con los empleados que los tienen.

El agrupamiento también puede ser útil en este caso. En lugar de incluir cargos exactos, generalízalos y agrúpalos. Por ejemplo, “ingeniero sénior”, “ingeniero junior” y también “ingeniero distinguido” se generalizan y se agrupan como “ingeniero”. La siguiente tabla ilustra el agrupamiento de cargos específicos en familias.

Diagrama que ilustra el agrupamiento de cargos

Otras situaciones

En los ejemplos anteriores, aplicamos la transformación a datos estructurados. El agrupamiento también se puede usar en ejemplos no estructurados, siempre que el valor se pueda clasificar con un Infotipo predefinido o personalizado. A continuación, se muestran algunos ejemplos de situaciones:

  • Clasificar fechas y agruparlas en rangos de años
  • Clasificar nombres y agruparlos según la primera letra (A-M, N-Z)

Recursos

Para obtener más información sobre la generalización y el agrupamiento, consulta Desidentifica datos sensibles en el contenido de texto.

Para obtener documentación de la API, consulta lo siguiente:

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Documentación sobre prevención de pérdida de datos