Infotipos y detectores de Infotipos

Cloud Data Loss Prevention (DLP) usa tipos de información, o Infotipos, para definir lo que busca. Un Infotipo es un tipo de dato sensible, como un nombre, una dirección de correo electrónico, un número de teléfono, un número de identificación, un número de tarjeta de crédito, etcétera.

Cada Infotipo definido en Cloud DLP tiene un detector correspondiente. Cloud DLP usa los detectores de Infotipo en la configuración de sus análisis para determinar qué analizar y cómo transformar los resultados. Los nombres de Infotipo también se usan cuando se muestran o informan los resultados de análisis.

En este tema, se describen en detalle los Infotipos y los detectores de Infotipo, y se proporciona ayuda sobre cómo usar los detectores de Infotipo cuando se analiza contenido en busca de datos sensibles con Cloud DLP.

Especifica los detectores de Infotipo

Cuando configuras Cloud DLP para que analice tu contenido, debes incluir los detectores de Infotipo que usarás en la configuración de análisis.

Por ejemplo, en el siguiente JSON se muestra una solicitud de análisis simple a la API de Cloud DLP. Observa que el detector PHONE_NUMBER se especifica en inspectConfig, lo que le indica a Cloud DLP que analice la string dada en busca de un número de teléfono.

POST https://dlp.googleapis.com/v2/projects/[PROJECT_ID]/content:inspect?key={YOUR_API_KEY}

{
  "item":{
    "value":"My phone number is (415) 555-0890"
  },
  "inspectConfig":{
    "includeQuote":true,
    "minLikelihood":"POSSIBLE",
    "infoTypes":{
      "name":"PHONE_NUMBER"
    }
  }
}

La solicitud anterior muestra lo siguiente:

{
  "result":{
    "findings":[
      {
        "quote":"(415) 555-0890",
        "infoType":{
          "name":"PHONE_NUMBER"
        },
        "likelihood":"VERY_LIKELY",
        "location":{
          "byteRange":{
            "start":"19",
            "end":"33"
          },
          "codepointRange":{
            "start":"19",
            "end":"33"
          }
        },
        "createTime":"2018-10-29T23:46:34.535Z"
      }
    ]
  }
}

Siempre debes especificar un Infotipo en tu configuración de análisis. Si no lo haces, Cloud DLP usa por defecto el detector de Infotipo ALL_BASIC. Según la cantidad de contenido a analizar, la búsqueda de ALL_BASIC puede demorar mucho tiempo o ser muy costosa.

Si quieres obtener más información sobre cómo usar los detectores de Infotipo para analizar tu contenido, consulta uno de los temas prácticos sobre análisis, ocultamiento o desidentificación.

Tipos de detectores de Infotipo

Cloud DLP incluye varios tipos de detectores de Infotipo, los cuales se resumen a continuación:

  • Los detectores de Infotipo incorporados están integrados en Cloud DLP. Incluyen detectores para tipos de datos sensibles específicos de un país o región, así como tipos de datos aplicables a nivel mundial.
  • Los detectores de Infotipo personalizados son detectores que creas tú mismo. Existen tres tipos de detectores de Infotipos personalizados:
    • Los detectores de diccionarios personalizados normales son listas de palabras sencillas con las que Cloud DLP detecta coincidencias. Usa los detectores de diccionarios personalizados normales cuando tengas una lista de al menos varias decenas de miles de palabras o frases. Se prefieren los detectores de diccionarios personalizados normales si esperas que tu lista de palabras no cambie de forma significativa.
    • Cloud DLP genera detectores de diccionarios personalizados almacenados con grandes listas de palabras o frases almacenadas en Cloud Storage o BigQuery. Usa los detectores de diccionarios personalizados almacenados cuando tengas listas grandes de palabras o frases de hasta decenas de millones.
    • Los detectores de expresiones regulares (regex) permiten a Cloud DLP detectar las coincidencias basadas en un patrón de expresión regular.

Además, Cloud DLP incluye el concepto de reglas de inspección, que te permiten ajustar con precisión los resultados del análisis con las siguientes reglas:

  • Las reglas de exclusión te permiten reducir el número de resultados que se muestran mediante la adición de reglas a un detector de Infotipo incorporado o personalizado.
  • Las reglas de palabra clave te permiten aumentar la cantidad o cambiar el valor de probabilidad de los resultados que se muestran si agregas reglas a un detector de Infotipo incorporado o personalizado.

Detectores de Infotipo incorporados

Los detectores de Infotipo incorporados, integrados en Cloud DLP, incluyen detectores para tipos de datos sensibles específicos de un país o región, como el Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR) francés, el número de licencia de conducir del Reino Unido (UK_DRIVERS_LICENSE_NUMBER) y el número de identificación personal de EE.UU. (US_SOCIAL_SECURITY_NUMBER). También se incluyen tipos de datos aplicables a nivel mundial, como el nombre de una persona (PERSON_NAME), números de teléfono (PHONE_NUMBER), direcciones de correo electrónico (EMAIL_ADDRESS) y números de tarjetas de crédito (CREDIT_CARD_NUMBER).Para detectar el contenido que corresponde a los Infotipos, Cloud DLP aprovecha varias técnicas, como la comparación de patrones, las sumas de verificación, el aprendizaje automático, el análisis de contexto y otros.

La lista de detectores de Infotipo incorporados siempre se actualiza. Para obtener una lista completa de los detectores de Infotipo incorporados que se admiten por el momento, consulta la Referencia del detector de Infotipo.

También puedes ver una lista completa de todos los detectores de Infotipo incorporados si llamas al método infoTypes.list de Cloud DLP.

Los detectores de Infotipo incorporados no son un método de detección 100% preciso. Por ejemplo, no pueden asegurar el cumplimiento de los requisitos regulatorios. Debes decidir qué datos son sensibles y cómo protegerlos de la mejor forma. Google recomienda que pruebes tus opciones de configuración a fin de asegurarte de que cumplan con tus requisitos.

Detectores de Infotipo personalizados

Existen tres tipos de detectores de Infotipos personalizados:

Además, Cloud DLP incluye reglas de inspección que te permiten ajustar de manera precisa los resultados del análisis mediante la adición de las siguientes reglas a los detectores existentes:

Detectores de diccionarios personalizados normales

Usa los detectores de diccionarios personalizados normales para hacer coincidir una lista pequeña (hasta varias decenas de miles) de palabras o frases. Un diccionario personalizado normal puede funcionar como su propio detector único.

Los detectores de diccionarios personalizados son útiles cuando deseas analizar en busca de una lista de palabras o frases que no se pueden combinar con facilidad mediante una expresión regular ni un detector incorporado. Por ejemplo, supongamos que deseas analizar en busca de salas de conferencias a las que se suele hacer referencia por los nombres que tienen asignadas en lugar de los números de las salas, como los nombres de estados o regiones, puntos de referencia, personajes de ficción, etcétera. Puedes hacer un detector de diccionario personalizado normal que contenga una lista de estos nombres de salas. Cloud DLP puede analizar tu contenido para cada uno de los nombres de salas y mostrar una coincidencia cuando encuentre uno de ellos en contexto. Obtén más información sobre cómo Cloud DLP detecta coincidencias entre palabras y frases de diccionario en la sección “Detalles de coincidencias en el diccionario” de Crea un detector de diccionario personalizado normal.

Para obtener más detalles sobre cómo funcionan los detectores de Infotipo personalizados de diccionario normal, así como ejemplos prácticos, consulta Crea un detector de diccionario personalizado normal.

Detectores de diccionarios personalizados almacenados

Usa detectores de diccionarios personalizados almacenados cuando tengas más que unas pocas palabras o frases para buscar, o si tu lista de palabras o frases cambia con frecuencia. Los detectores de diccionario personalizados almacenados pueden detectar coincidencias con hasta decenas de millones de palabras o frases.

Los detectores de diccionarios personalizados almacenados, por ser detectores personalizados muy grandes, se crean de manera diferente a los detectores personalizados de expresiones regulares y los detectores de diccionarios personalizados normales. Cada diccionario personalizado almacenado tiene dos componentes:

  • Una lista de frases que creas y defines. La lista se almacena como un archivo de texto dentro de Cloud Storage o como una columna en una tabla de BigQuery.
  • Los archivos de diccionario generados, que Cloud DLP crea según tu lista de frases. Los archivos del diccionario se almacenan en Cloud Storage y se componen de una copia de los datos de la frase fuente más los filtros de Bloom que ayudan en la búsqueda y en la detección de coincidencias. No puedes editar estos archivos directamente.

Una vez que creaste una lista de palabras y usaste Cloud DLP para generar un diccionario personalizado, inicia o programa un análisis con un detector de diccionario personalizado almacenado de manera similar a otros detectores de Infotipo.

Para obtener más detalles sobre cómo funcionan los detectores de diccionarios personalizados almacenados, así como ejemplos prácticos, consulta Crea un detector de diccionario personalizado almacenado.

Expresiones regulares

Un detector de Infotipo personalizado de expresiones regulares (regex) te permite crear tus propios detectores de Infotipo que hacen posible que Cloud DLP detecte coincidencias basadas en un patrón de regex. Por ejemplo, supongamos que tenías números de historias clínicas en el formulario ###-#-#####. Podrías definir un patrón de regex como el siguiente:

[1-9]{3}-[1-9]{1}-[1-9]{5}

Cloud DLP detectaría coincidencias con elementos como este:

123-4-56789

También puedes especificar una probabilidad para asignar a cada coincidencia de Infotipo personalizada. Es decir, cuando Cloud DLP detecte coincidencias con la secuencia que especifiques, asignará la probabilidad que indicaste. Esto es útil, ya que si tu regex personalizada define una secuencia que es bastante común como para coincidir con facilidad con otra secuencia aleatoria, no querrías que Cloud DLP etiquetara cada coincidencia como VERY_LIKELY. Si eso sucediera, la confianza en los resultados del análisis se vería afectada y podría causar la desidentificación de la información incorrecta.

Para obtener más información sobre los detectores de Infotipo personalizados de expresiones regulares y ver ejemplos prácticos, consulta Crea un detector de regex personalizado.

Reglas de inspección

Usa las reglas de inspección para definir mejor los resultados que muestran los detectores de Infotipo existentes, ya sean incorporados o personalizados. Las reglas de inspección pueden ser útiles para los momentos en que los resultados que muestra Cloud DLP deben mejorarse de alguna manera, ya sea mediante la adición al detector de Infotipo existente o la exclusión desde este.

Los dos tipos de reglas de inspección son los siguientes:

  • Reglas de exclusión
  • Reglas de palabra clave

Si quieres obtener más información sobre las reglas de inspección, consulta Modifica los detectores de Infotipo para definir mejor los resultados del análisis.

Reglas de exclusión

Las reglas de exclusión te permiten disminuir la cantidad o precisión de los resultados que se muestran si agregas reglas a un detector de Infotipo incorporado o personalizado. Las reglas de exclusión pueden ayudarte a que un detector de Infotipo no muestre ruido ni otros resultados no deseados.

Por ejemplo, si analizas una base de datos en busca de direcciones de correo electrónico, puedes agregar una regla de exclusión en forma de una regex personalizada que indique a Cloud DLP que excluya cualquier resultado terminado en “@example.com”.

Si quieres obtener más información sobre las reglas de exclusión, consulta Modifica los detectores de Infotipo para definir mejor los resultados del análisis.

Reglas de palabra clave

Las reglas de palabra clave te permiten aumentar la cantidad o precisión de los resultados que se muestran si agregas reglas a un detector de Infotipo integrado o personalizado. Las reglas de palabra clave pueden ayudarte a disminuir la rigurosidad de las reglas de un detector de Infotipo existente.

Por ejemplo, supongamos que deseas analizar una base de datos médica en busca de nombres de pacientes. Puedes usar el detector de Infotipo integrado PERSON_NAME de Cloud DLP, pero eso hará que Cloud DLP arroje coincidencias con todos los nombres de personas, y no solo con los nombres de los pacientes. Para solucionar este problema, puedes incluir una regla de palabra clave en forma de un Infotipo personalizado de regex que busque la palabra “paciente” en un rango de proximidad de caracteres a partir del primer carácter en coincidencias potenciales. Luego, puedes asignar a los resultados que coincidan con este patrón una probabilidad de “very likely” (muy probable), ya que se corresponden con tus criterios especiales.

Si quieres obtener más información sobre las reglas de palabra clave, consulta Modifica los detectores de Infotipo para definir mejor los resultados del análisis.

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

Cloud Data Loss Prevention