Cloud Data Loss Prevention (Cloud DLP) ahora forma parte de la protección de datos sensibles. El nombre de la API sigue siendo el mismo: API de Cloud Data Loss Prevention (API de DLP). Para obtener información sobre los servicios que conforman la protección de datos sensibles, consulta la Descripción general de la protección de datos sensibles.

Crea un detector de diccionarios personalizado normal

Los diccionarios personalizados proporcionan la capacidad simple pero potente de hacer coincidir una lista de palabras o frases. Puedes usar un diccionario personalizado como detector o como lista de excepciones para los detectores integrados. También puedes usar diccionarios personalizados a fin de mejorar los detectores de Infotipo incorporados para que coincidan con los resultados adicionales.

En esta sección, se describe cómo crear un detector de diccionarios personalizado normal a partir de una lista de palabras.

Anatomía de un detector de Infotipo personalizado de diccionario

Como se resume en la Descripción general de la API, para crear un detector de Infotipo personalizado de diccionario, debes definir un objeto CustomInfoType que contenga lo siguiente:

El nombre que desees darle al detector de Infotipo personalizado, dentro de un objeto InfoType.
Un valor Likelihood opcional. Si omites este campo, las coincidencias con los elementos del diccionario mostrarán una probabilidad predeterminada de VERY_LIKELY.
Objetos DetectionRule opcionales o reglas de palabra clave. Estas reglas ajustan la probabilidad de resultados dentro de una proximidad determinada de las palabras clave específicas. Obtén más información sobre las reglas de palabras clave en Personaliza la probabilidad de coincidencia.
Un valor SensitivityScore opcional. Si omites este campo, las coincidencias con los elementos del diccionario mostrarán un nivel de sensibilidad predeterminado de HIGH.

Las puntuaciones de sensibilidad se usan en los perfiles de datos. Cuando generas perfiles de tus datos, la protección de datos sensibles usa las puntuaciones de sensibilidad de los Infotipos para calcular el nivel de sensibilidad.
Un Dictionary, como una WordList que contiene una lista de palabras para analizar o una CloudStoragePath a un archivo de solo texto que contiene una lista de palabras delimitadas por saltos de línea que se analizarán.

Como un objeto JSON, un detector de Infotipo personalizado de diccionario que incluye todos los componentes opcionales se ve de la siguiente manera. Este JSON incluye una ruta de acceso a un archivo de texto del diccionario almacenado en Cloud Storage. Para ver una lista de palabras intercaladas, consulta la sección Ejemplos más adelante en este tema.

{
  "customInfoTypes":[
    {
      "infoType":{
        "name":"CUSTOM_INFOTYPE_NAME"
      },
      "likelihood":"LIKELIHOOD_LEVEL",
      "detectionRules":[
        {
          "hotwordRule":{
            HOTWORD_RULE
          }
        },
        ...
      ],
      "sensitivityScore":{
          "score": "SENSITIVITY_SCORE"
        },
      "dictionary":
      {
        "cloudStoragePath":
        {
          "path": "gs://PATH_TO_TXT_FILE"
        }
      }
    }
  ],
  ...
}

Detalles de coincidencias en el diccionario

A continuación, se incluye orientación sobre cómo la protección de datos sensibles establece coincidencias entre palabras y frases del diccionario. Estos puntos se aplican a los diccionarios personalizados grandes y normales:

Las palabras del diccionario distinguen entre mayúsculas y minúsculas. Si tu diccionario incluye Abby, coincidirá con abby, ABBY, Abby, etcétera.
Todos los caracteres, en los diccionarios o en el contenido que se va a analizar, excepto las letras y los dígitos en el plano multilingüe básico de Unicode, se consideran como espacios en blanco cuando se buscan coincidencias. Si tu diccionario analiza Abby Abernathy, coincidirá con abby abernathy, Abby, Abernathy, Abby (ABERNATHY), etcétera.
Los caracteres que rodean cualquier coincidencia deben ser de un tipo diferente (letras o dígitos) de los caracteres adyacentes dentro de la palabra. Si tu diccionario analiza Abi, coincidirá con los tres primeros caracteres de Abi904, pero no de Abigail.
Las palabras del diccionario que contienen caracteres en el plano multilingüe complementario del estándar Unicode pueden generar resultados inesperados. Algunos ejemplos de estos caracteres son el chino, el japonés, el coreano y los emojis.

Ejemplos

Lista de palabras simples

Supongamos que tienes datos que incluyen en qué habitación de hospital se trató a un paciente durante una visita. Estas ubicaciones se pueden considerar sensibles en un conjunto de datos en particular, pero no son algo que los detectores integrados de la protección de datos sensibles podrían detectar.

Las habitaciones se catalogaron de la siguiente manera:

“RM-Orange”
“RM-Yellow”
“RM-Green”

C#

Para obtener información sobre cómo instalar y usar la biblioteca cliente de la protección de datos sensibles, consulta Bibliotecas cliente de la protección de datos sensibles.

Para autenticarte en la protección de datos sensibles, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.

Crea un detector de diccionarios personalizado normal

Anatomía de un detector de Infotipo personalizado de diccionario

Detalles de coincidencias en el diccionario

Ejemplos

Lista de palabras simples

C#

Go

Java

Node.js

PHP

Python

REST

Lista de excepciones

C#

Go

Java

Node.js

PHP

Python

REST

Mejora un detector de Infotipo incorporado

C#

Go

Java

Node.js

PHP

Python

REST

¿Qué sigue?