Desidentificación

Protección de Datos Sensibles usa tipos de información (o infoTypes) para definir qué debe buscar. Un infoType es un tipo de dato sensible, como un nombre, una dirección de correo electrónico, un número de teléfono, un número de identificación, un número de tarjeta de crédito, etc.

Cada infoType definido en Protección de Datos Sensibles tiene un detector correspondiente. Protección de Datos Sensibles usa detectores de infoType en la configuración de sus análisis para determinar qué debe inspeccionar y cómo debe transformar los resultados. Los nombres de InfoType también se usan al mostrar o registrar los resultados de los análisis.

En este tema se describen en detalle los infoTypes y los detectores de infoType, y se ofrecen directrices sobre cómo usar los detectores de infoType al analizar contenido en busca de datos sensibles con Protección de Datos Sensibles.

Especificar detectores de infoType

Cuando configuras Protección de Datos Sensibles para que analice tu contenido, incluyes los detectores de infoType que quieres usar en la configuración del análisis.

Por ejemplo, el siguiente JSON muestra una solicitud de análisis sencilla a la API DLP. Ten en cuenta que el detector PHONE_NUMBER se especifica en inspectConfig, lo que indica a Protección de Datos Sensibles que analice la cadena dada en busca de un número de teléfono.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

La solicitud anterior devuelve lo siguiente:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Especifica siempre infoTypes en la configuración de tu análisis. Si no especifica ningún infoType, Protección de Datos Sensibles usará una lista de infoTypes predeterminada. En función de la cantidad de contenido que se vaya a analizar, el análisis de los infoTypes predeterminados puede llevar mucho tiempo o ser demasiado caro.

Para obtener más información sobre cómo usar los detectores de infoType para analizar tu contenido, consulta uno de los artículos de instrucciones sobre cómo inspeccionar, ocultar o anonimizar datos.

Tipos de detectores de infoType

Los detectores de tipo de información (o "infoType") son los mecanismos que usa Protección de Datos Sensibles para encontrar datos sensibles.

Protección de Datos Sensibles incluye varios tipos de detectores de infoType, que se resumen a continuación:

  • Los detectores de infoType integrados están integrados en Protección de Datos Sensibles. Incluyen detectores de tipos de datos sensibles específicos de un país o una región, así como tipos de datos aplicables a nivel mundial.
  • Los detectores de infoType personalizados son detectores que creas tú. Hay tres tipos de detectores de infoType personalizados:
    • Los detectores de diccionario personalizado normales son listas de palabras sencillas con las que Protección de Datos Sensibles busca coincidencias. Utiliza detectores de diccionario personalizado normales cuando tengas una lista de hasta varias decenas de miles de palabras o frases. Se recomienda usar detectores de diccionario personalizado normales si no prevés que tu lista de palabras vaya a cambiar significativamente.
    • Protección de Datos Sensibles genera detectores de diccionario personalizado almacenados a partir de grandes listas de palabras o frases almacenadas en Cloud Storage o BigQuery. Usa detectores de diccionarios personalizados almacenados cuando tengas una lista grande de palabras o frases (hasta decenas de millones).
    • Los detectores de expresiones regulares (regex) permiten que Protección de Datos Sensibles detecte coincidencias basadas en un patrón de expresión regular.

Además, Protección de Datos Sensibles incluye el concepto de reglas de inspección, que te permiten ajustar los resultados de los análisis con lo siguiente:

  • Las reglas de exclusión le permiten reducir el número de resultados devueltos añadiendo reglas a un detector de infoType integrado o personalizado.
  • Las reglas de palabras de activación te permiten aumentar la cantidad o cambiar el valor de probabilidad de los resultados devueltos añadiendo reglas a un detector de infoType integrado o personalizado.

Detectores de infoType integrados

Los detectores de infoType integrados están incluidos en Protección de Datos Sensibles y contienen detectores de tipos de datos sensibles específicos de cada país o región, como el Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR) de Francia, el número del carné de conducir del Reino Unido (UK_DRIVERS_LICENSE_NUMBER) y el número de la Seguridad Social de EE. UU. (US_SOCIAL_SECURITY_NUMBER). También incluyen tipos de datos aplicables a nivel mundial, como nombres de personas (PERSON_NAME), números de teléfono (PHONE_NUMBER), direcciones de correo electrónico (EMAIL_ADDRESS) y números de tarjetas de crédito (CREDIT_CARD_NUMBER). Para detectar contenido que se corresponda con infoTypes, Protección de Datos Sensibles utiliza varias técnicas, como la coincidencia de patrones, las sumas de comprobación, el aprendizaje automático y el análisis de contexto, entre otras.

La lista de detectores de infoType integrados se actualiza constantemente. Para ver una lista completa de los detectores de infoType integrados que se admiten actualmente, consulte la referencia del detector de infoType.

También puedes ver una lista completa de todos los detectores de infoType integrados llamando al método infoTypes.list de Protección de Datos Sensibles.

Detectores de infoType personalizados

Hay tres tipos de detectores de infoType personalizados:

Además, Protección de Datos Sensibles incluye reglas de inspección que te permiten ajustar los resultados de los análisis añadiendo lo siguiente a los detectores:

Detectores de diccionario personalizado normales

Usa detectores de diccionario personalizado normal para buscar una lista corta (hasta varias decenas de miles) de palabras o frases. Un diccionario personalizado normal puede actuar como su propio detector único.

Los detectores de diccionario personalizado son útiles cuando quieres buscar una lista de palabras o frases que no se pueden identificar fácilmente con una expresión regular o un detector integrado. Por ejemplo, supongamos que quieres buscar salas de conferencias que se identifiquen por el nombre que se les ha asignado en lugar de por su número, como nombres de estados o regiones, monumentos, personajes de ficción, etc. Puedes crear un detector de diccionario personalizado normal que contenga una lista de estos nombres de salas. Protección de datos sensibles puede analizar tu contenido en busca de cada uno de los nombres de las habitaciones y devolver una coincidencia cuando encuentre uno de ellos en el contexto. Consulta más información sobre cómo la protección de datos sensibles busca palabras y frases de diccionario en la sección Especificaciones de la coincidencia de diccionario del artículo Crear un detector de diccionario personalizado normal.

Para obtener más información sobre cómo funcionan los detectores de InfoType personalizados de diccionario normal, así como ejemplos prácticos, consulta el artículo Crear un detector de diccionario personalizado normal.

Detectores de diccionario personalizado almacenados

Usa detectores de diccionario personalizado almacenados cuando tengas más de unas pocas palabras o frases que buscar, o si tu lista de palabras o frases cambia con frecuencia. Los detectores de diccionario personalizado almacenados pueden coincidir con hasta decenas de millones de palabras o frases.

Los detectores de diccionario personalizado almacenados, por su naturaleza de detectores personalizados muy grandes, se crean de forma diferente a los detectores personalizados de expresiones regulares y a los detectores de diccionario personalizado normales. Cada diccionario personalizado almacenado tiene dos componentes:

  • Una lista de frases que creas y defines. La lista se almacena como un archivo de texto en Cloud Storage o como una columna en una tabla de BigQuery.
  • Los archivos de diccionario generados, que se crean con Protección de Datos Sensibles a partir de tu lista de frases. Los archivos de diccionario se almacenan en Cloud Storage y se componen de una copia de los datos de frases de origen más filtros Bloom, que ayudan a buscar y encontrar coincidencias. No puedes editar estos archivos directamente.

Una vez que hayas creado una lista de palabras y la hayas usado para generar un diccionario personalizado con Protección de Datos Sensibles, podrás iniciar o programar un análisis con un detector de diccionario personalizado almacenado de forma similar a otros detectores de infoType.

Para obtener más información sobre cómo funcionan los detectores de diccionario personalizado almacenado, así como ejemplos prácticos, consulta el artículo Crear un detector de diccionario personalizado almacenado.

Expresiones regulares

Un detector de InfoType personalizado de expresión regular (regex) te permite crear tus propios detectores de InfoType para que Protección de Datos Sensibles detecte coincidencias basadas en un patrón de regex. Por ejemplo, supongamos que tiene números de historial médico con el formato ###-#-#####. Podrías definir un patrón de regex como el siguiente:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Protección de Datos Sensibles coincidiría con elementos como este:

123-4-56789

También puede especificar una probabilidad que se asignará a cada coincidencia de infoType personalizado. Es decir, cuando Protección de Datos Sensibles encuentre la secuencia que especifiques, asignará la probabilidad que hayas indicado. Esto es útil porque, si tu expresión regular personalizada define una secuencia que es lo suficientemente común como para que coincida fácilmente con otra secuencia aleatoria, no querrás que Protección de Datos Sensibles etiquete cada coincidencia como VERY_LIKELY. Si lo hiciera, se perdería la confianza en los resultados del análisis y podría provocar que se anonimizara información incorrecta.

Para obtener más información sobre los detectores personalizados de InfoType de expresiones regulares y verlos en acción, consulta el artículo Crear un detector de expresiones regulares personalizado.

Detalles de las reglas

Las reglas de inspección se usan para acotar los resultados devueltos por los detectores de infoType, ya sean integrados o personalizados. Las reglas de inspección pueden ser útiles cuando los resultados que devuelve Protección de Datos Sensibles deben aumentarse de alguna forma, ya sea añadiendo o excluyendo elementos del detector de infoType.

Hay dos tipos de reglas de inspección:

  • Reglas de exclusión
  • Reglas de palabras de activación

Para obtener más información sobre las reglas de inspección, consulta Modificar los detectores de InfoType para acotar los resultados del análisis.

Reglas de exclusión

Las reglas de exclusión le permiten reducir la cantidad o la precisión de los resultados devueltos añadiendo reglas a un detector de infoType integrado o personalizado. Las reglas de exclusión pueden ayudarte a reducir el ruido u otros resultados no deseados que devuelva un detector de infoType.

Por ejemplo, si analiza una base de datos en busca de direcciones de correo electrónico, puede añadir una regla de exclusión en forma de expresión regular personalizada que indique a Protección de Datos Sensibles que excluya cualquier resultado que termine en "@example.com".

Las reglas de exclusión no se pueden aplicar a los infoTypes de objeto.

Para obtener más información sobre las reglas de exclusión, consulta Modificar los detectores de InfoType para acotar los resultados del análisis.

Reglas de palabras de activación

Las reglas de palabras de activación te permiten aumentar la cantidad o la precisión de los resultados devueltos añadiendo reglas a un detector de infoType integrado o personalizado. Las reglas de palabras de activación pueden ayudarte a flexibilizar las reglas de un detector de infoType.

Por ejemplo, supongamos que quieres buscar nombres de pacientes en una base de datos médica. Puedes usar el detector PERSON_NAME infoType integrado de Protección de Datos Sensibles, pero esto hará que Protección de Datos Sensibles busque coincidencias con todos los nombres de personas, no solo con los nombres de pacientes. Para solucionar este problema, puede incluir una regla de palabra de activación en forma de infoType personalizado de expresión regular que busque la palabra "paciente" a una distancia determinada del primer carácter de las posibles coincidencias. Después, puedes asignar a las detecciones que coincidan con este patrón una probabilidad de "muy probable", ya que se corresponden con tus criterios especiales.

Para obtener más información sobre las reglas de palabras de activación, consulta Modificar los detectores de InfoType para acotar los resultados del análisis.