Cloud Data Loss Prevention (Cloud DLP) ahora forma parte de la protección de datos sensibles. El nombre de la API sigue siendo el mismo: API de Cloud Data Loss Prevention (API de DLP). Para obtener información sobre los servicios que conforman la protección de datos sensibles, consulta la Descripción general de la protección de datos sensibles.

Inspeccionar el almacenamiento y las bases de datos de Google Cloud en busca de datos sensibles

La administración correcta de los datos sensibles almacenados en un repositorio de almacenamiento comienza con la clasificación del almacenamiento: identifica dónde están los datos sensibles en el repositorio, de qué tipo de datos sensibles se trata y cómo se usan. Esta información te ayuda a establecer de manera correcta el control de acceso y los permisos para compartir y puede ser parte de un plan de supervisión constante.

La protección de datos sensibles puede detectar y clasificar los datos sensibles almacenados en una ubicación de Cloud Storage, un tipo de Datastore o una tabla de BigQuery. Cuando se analizan archivos en ubicaciones de Cloud Storage, la protección de datos sensibles admite el análisis de archivos binarios, de texto, de imágenes, de Microsoft Word, Microsoft Excel, Microsoft PowerPoint, PDF y Apache Avro. Los tipos de archivos que no se reconocen se analizan como archivos binarios. Para obtener más información sobre los tipos de archivos compatibles, consulta Tipos de archivos compatibles.

Para inspeccionar el almacenamiento y las bases de datos en busca de datos sensibles, especifica la ubicación de los datos y el tipo de datos sensibles que debe buscar la protección de datos sensibles. La protección de datos sensibles inicia un trabajo que inspecciona los datos en la ubicación determinada y, luego, pone a disposición detalles sobre los infoTypes que se encuentran en el contenido, los valores de probabilidad y mucho más.

Puedes configurar la inspección de almacenamiento y bases de datos con la protección de datos sensibles en la consola de Google Cloud, a través de la API de DLP de RESTful o de manera programática mediante una biblioteca cliente de la protección de datos sensibles en uno de varios lenguajes.

En este tema se incluye lo siguiente:

Prácticas recomendadas para configurar análisis de repositorios y bases de datos de almacenamiento en Google Cloud.
Obtén instrucciones para configurar un análisis de inspección mediante la protección de datos sensibles en la consola de Google Cloud y, de forma opcional, programar análisis de inspección periódicos.
JSON y muestras de código para cada tipo de repositorio de almacenamiento de Google Cloud: (Cloud Storage, Firestore en modo Datastore (Datastore) y BigQuery)
Una descripción detallada de las opciones de configuración para los trabajos de análisis
Instrucciones sobre cómo recuperar los resultados de los análisis y cómo administrar los trabajos de análisis que se crean en cada solicitud exitosa

Prácticas recomendadas

Identifica y prioriza el análisis

Es importante evaluar primero tus elementos y especificar cuáles tienen la prioridad más alta para el análisis. Cuando recién comienzas, es posible que tengas una gran cantidad de datos acumulados que necesiten clasificación y será imposible analizarlos de inmediato. En primer lugar, elige los datos que presenten el riesgo más alto posible, por ejemplo, datos a los que se accede con frecuencia, a los que se puede acceder con facilidad o que se desconocen.

Garantiza que la protección de datos sensibles pueda acceder a tus datos

La protección de datos sensibles debe tener acceso a los datos que se analizarán. Asegúrate de que la cuenta de servicio de la protección de datos sensibles tenga permiso para leer tus recursos.

Limita el alcance de tus primeros análisis

Para obtener mejores resultados, limita el alcance de tus primeros trabajos en lugar de analizar todos los datos. Comienza con una tabla, un bucket o algunos archivos y usa el muestreo. Cuando limitas el alcance de tus primeros análisis, puedes determinar mejor qué detectores habilitar y qué reglas de exclusión podrían ser necesarias para reducir los falsos positivos y que los resultados sean más significativos. Evita activar todos los Infotipos si no los necesitas a todos, ya que los falsos positivos o los resultados inutilizables pueden hacer que sea más difícil evaluar el riesgo. Si bien son útiles en ciertos casos, los Infotipos como DATE, TIME, DOMAIN_NAME y URL coinciden en una amplia gama de resultados y pueden no ser útiles para activarlos en análisis de datos grandes.

Cuando muestres un archivo estructurado, como un archivo CSV, TSV o Avro, asegúrate de que el tamaño de la muestra sea lo suficientemente grande como para cubrir el encabezado completo del archivo y una fila de datos. Para obtener más información, consulta Cómo analizar archivos estructurados en modo de análisis estructurado.

Programa tus análisis

Usa los activadores de trabajo de la protección de datos sensibles para ejecutar análisis automáticamente y generar resultados de forma diaria, semanal o trimestral. Estos análisis también se pueden configurar para inspeccionar solo los datos que cambiaron desde el último análisis, lo que puede ahorrar tiempo y reducir los costos. La ejecución de análisis con regularidad puede ayudarte a identificar tendencias o anomalías en los resultados de los análisis.

Latencia del trabajo

No hay objetivos de nivel de servicio (SLO) garantizados para trabajos y activadores de trabajos. La latencia se ve afectada por varios factores, como la cantidad de datos que se analizarán, el repositorio de almacenamiento que se analiza, el tipo y la cantidad de infotipos que buscas, la región en la que se procesa el trabajo y los recursos de procesamiento disponibles en esa región. Por lo tanto, la latencia de los trabajos de inspección no se puede determinar con anticipación.

Para ayudar a reducir la latencia del trabajo, puedes probar con las siguientes opciones:

Si el muestreo está disponible para tu trabajo o activador de trabajo, habilítalo.
Evita habilitar Infotipos que no necesitas. Aunque los siguientes son útiles en ciertas situaciones, estos Infotipos pueden hacer que las solicitudes se ejecuten mucho más lento que las solicitudes que no las incluyen:
- PERSON_NAME
- FEMALE_NAME
- MALE_NAME
- FIRST_NAME
- LAST_NAME
- DATE_OF_BIRTH
- LOCATION
- STREET_ADDRESS
- ORGANIZATION_NAME
Especifica siempre los Infotipos de forma explícita. No uses una lista de Infotipos vacía.
Si es posible, usa una región de procesamiento diferente.

Si aún tienes problemas de latencia con los trabajos después de probar estas técnicas, considera usar solicitudes content.inspect o content.deidentify en lugar de trabajos. Estos métodos están cubiertos por el Acuerdo de Nivel de Servicio. Para obtener más información, consulta el Acuerdo de Nivel de Servicio de Protección de Datos Sensibles.

Antes de comenzar

En las instrucciones proporcionadas en este tema, se supone lo siguiente:

Ya habilitaste la facturación.

Aprende a habilitar la facturación
Habilitaste la protección de datos sensibles.

Habilitar la protección de datos sensibles

La clasificación del almacenamiento requiere el siguiente alcance de OAuth: https://www.googleapis.com/auth/cloud-platform. Para obtener más información, consulta Autenticación en la API de DLP.

Inspecciona una ubicación de Cloud Storage

Puedes configurar una inspección de protección de datos sensibles de una ubicación de Cloud Storage con la consola de Google Cloud, la API de DLP a través de solicitudes de REST o RPC o de manera programática en varios lenguajes con una biblioteca cliente. Para obtener información sobre los parámetros incluidos en los siguientes JSON y muestras de código, consulta “Configura la inspección de almacenamiento” más adelante en este tema.

La protección de datos sensibles se basa en las extensiones de archivo y los tipos de contenido multimedia (MIME) para identificar los tipos de archivos que se analizarán y los modos de análisis que se aplicarán. Por ejemplo, la protección de datos sensibles analiza un archivo .txt en el modo de texto sin formato, incluso si el archivo está estructurado como un archivo CSV, que normalmente se analiza en modo de análisis estructurado.

Para configurar un trabajo de análisis de un bucket de Cloud Storage con la protección de datos sensibles, sigue estos pasos:

Console

En esta sección, se describe cómo inspeccionar un bucket o una carpeta de Cloud Storage. Si también quieres que la protección de datos sensibles cree una copia desidentificada de tus datos, consulta Desidentifica los datos sensibles almacenados en Cloud Storage mediante la consola de Google Cloud.

En la sección Protección de datos sensibles de la consola de Google Cloud, ve a la página Crear trabajo o activador de trabajo.

Ir a Crear trabajo o activador de trabajo

Nota: También puedes iniciar un análisis de protección de datos sensibles directamente desde el navegador de Cloud Storage. En la columna que se encuentra más a la derecha del bucket que deseas analizar, haz clic en el menú más acciones (que se muestra como tres puntos verticales) y, luego, haz clic en Analizar con la protección de datos sensibles. Se abrirá la página de creación de trabajos de protección de datos sensibles en una pestaña separada.
Ingresa la información del trabajo de protección de datos sensibles y haz clic en Continuar para completar cada paso:
- En el Paso 1: Selecciona datos de entrada, asígnale un nombre al trabajo mediante el ingreso de un valor en el campo Nombre. En Ubicación, elige Cloud Storage en el menú Tipo de almacenamiento y, luego, ingresa la ubicación de los datos que deseas analizar. La sección Muestreo está preconfigurada para ejecutar un análisis de muestra con tus datos. Puedes ajustar el campo Porcentaje de objetos analizados dentro del bucket para ahorrar recursos si tienes una gran cantidad de datos. Para obtener más detalles, consulta Elige los datos de entrada.
- (Opcional) En el Paso 2: Configura la detección, puedes configurar qué tipos de datos buscar, llamados “infoTypes”. Puedes elegir de la lista de Infotipos predefinidos o seleccionar una plantilla si la hay. Para obtener más detalles, consulta Configura la detección.
- (Opcional) En el Paso 3: Agrega acciones, asegúrate de que la opción Notificar por correo electrónico esté habilitada.
  
  Habilita Guardar en BigQuery para publicar los resultados de la protección de datos sensibles en una tabla de BigQuery. Proporcione lo siguiente:
  - En ID del proyecto, ingresa el ID del proyecto en el que se almacenarán los resultados.
  - En ID del conjunto de datos, ingresa el nombre del conjunto de datos en el que se almacenarán los resultados.
  - (Opcional) Si lo deseas, en ID de la tabla ingresa el nombre de la tabla en la que se almacenarán los resultados. Si no especificas un ID de tabla, se asignará un nombre predeterminado a una tabla nueva, similar al siguiente: dlp_googleapis_[DATE]_1234567890, en el que [DATE] representa la fecha en la que se ejecuta el análisis. Si especificas una tabla existente, los resultados se agregan a ella.
  - (Opcional) Habilita Incluir cita para incluir las strings que coinciden con un detector de Infotipo. Las comillas son potencialmente sensibles, por lo que, de forma predeterminada, Protección de datos sensibles no las incluye en los resultados.
  Cuando los datos se escriben en una tabla de BigQuery, el uso de la facturación y las cuotas se aplican al proyecto que contiene la tabla de destino.
  
  Si quieres crear una copia desidentificada de tus datos, habilita la opción Hacer una copia desidentificada. Para obtener más información, consulta Desidentifica los datos sensibles almacenados en Cloud Storage con la consola de Google Cloud.
  
  También puedes guardar resultados en Pub/Sub, Security Command Center, Data Catalog y Cloud Monitoring. Para obtener más detalles, consulta Agrega acciones.
- (Opcional) En el Paso 4: Programa, para ejecutar el análisis una sola vez, deja el menú configurado en Ninguno. A fin de programar análisis que se ejecuten de forma periódica, haz clic en Crear un activador para ejecutar el trabajo de forma periódica. Para obtener más detalles, consulta Programa.
Haz clic en Crear.
Una vez que se complete el trabajo de protección de datos sensibles, se te redireccionará a la página de detalles del trabajo y se te notificará por correo electrónico. Puedes ver los resultados de la inspección en la página de detalles del trabajo.
Opcional: Si elegiste publicar los resultados de la protección de datos sensibles en BigQuery, en la página Detalles del trabajo, haz clic en Ver resultados en BigQuery para abrir la tabla en la IU web de BigQuery. Luego, puedes consultar la tabla y analizar los resultados. Para obtener más información sobre cómo consultar los resultados en BigQuery, ve Cómo consultar los resultados de la protección de datos sensibles en BigQuery.

Protocolo

A continuación, se muestra un JSON de muestra que se puede enviar en una solicitud POST al extremo REST especificado de la protección de datos sensibles. En este JSON de ejemplo, se muestra cómo usar la API de DLP para inspeccionar los buckets de Cloud Storage. Para obtener información sobre los parámetros incluidos en la solicitud, consulta “Configura la inspección de almacenamiento” más adelante en este tema.

Puedes probar esto de forma rápida en el Explorador de API en la página de referencia de content.inspect:

Ir al Explorador de API

Ten en cuenta que una solicitud con éxito, incluso en el Explorador de API, creará un trabajo de análisis nuevo. Si quieres obtener información sobre cómo controlar los trabajos de análisis, consulta “Recupera los resultados de inspección” más adelante en este tema. Si quieres obtener información general sobre el uso de JSON para enviar solicitudes a la API de DLP, consulta la guía de inicio rápido de JSON.

Entrada de JSON:

POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/dlpJobs?key={YOUR_API_KEY}

{
  "inspectJob":{
    "storageConfig":{
      "cloudStorageOptions":{
        "fileSet":{
          "url":"gs://[BUCKET-NAME]/*"
        },
        "bytesLimitPerFile":"1073741824"
      },
      "timespanConfig":{
        "startTime":"2017-11-13T12:34:29.965633345Z",
        "endTime":"2018-01-05T04:45:04.240912125Z"
      }
    },
    "inspectConfig":{
      "infoTypes":[
        {
          "name":"PHONE_NUMBER"
        }
      ],
      "excludeInfoTypes":false,
      "includeQuote":true,
      "minLikelihood":"LIKELY"
    },
    "actions":[
      {
        "saveFindings":{
          "outputConfig":{
            "table":{
              "projectId":"[PROJECT-ID]",
              "datasetId":"[DATASET-ID]"
            }
          }
        }
      }
    ]
  }
}

Salida de JSON:

{
  "name":"projects/[PROJECT-ID]/dlpJobs/[JOB-ID]",
  "type":"INSPECT_JOB",
  "state":"PENDING",
  "inspectDetails":{
    "requestedOptions":{
      "snapshotInspectTemplate":{

      },
      "jobConfig":{
        "storageConfig":{
          "cloudStorageOptions":{
            "fileSet":{
              "url":"gs://[BUCKET-NAME]/*"
            },
            "bytesLimitPerFile":"1073741824"
          },
          "timespanConfig":{
            "startTime":"2017-11-13T12:34:29.965633345Z",
            "endTime":"2018-01-05T04:45:04.240912125Z"
          }
        },
        "inspectConfig":{
          "infoTypes":[
            {
              "name":"PHONE_NUMBER"
            }
          ],
          "minLikelihood":"LIKELY",
          "limits":{

          },
          "includeQuote":true
        },
        "actions":[
          {
            "saveFindings":{
              "outputConfig":{
                "table":{
                  "projectId":"[PROJECT-ID]",
                  "datasetId":"[DATASET-ID]",
                  "tableId":"[NEW-TABLE-ID]"
                }
              }
            }
          }
        ]
      }
    }
  },
  "createTime":"2018-11-07T18:01:14.225Z"
}

Java

Para obtener información sobre cómo instalar y usar la biblioteca cliente de la protección de datos sensibles, consulta Bibliotecas cliente de la protección de datos sensibles.

Para autenticarte en la protección de datos sensibles, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.

Inspeccionar el almacenamiento y las bases de datos de Google Cloud en busca de datos sensibles

Prácticas recomendadas

Identifica y prioriza el análisis

Garantiza que la protección de datos sensibles pueda acceder a tus datos

Limita el alcance de tus primeros análisis

Programa tus análisis

Latencia del trabajo

Antes de comenzar

Inspecciona una ubicación de Cloud Storage

Console

Protocolo

Java

Node.js

Python

Go

PHP

C#

Inspecciona un tipo de Datastore

Console

Protocolo

Java

Node.js

Python

Go

PHP

C#

Inspecciona una tabla de BigQuery

Console

Protocolo

Java

Node.js

Python

Go

PHP

C#

Configura la inspección del almacenamiento

Limita la cantidad de contenido inspeccionado

Limita los análisis de Cloud Storage

C#

Go

Java

Node.js

PHP

Python

REST

Limita los análisis de BigQuery

Go

Java

Node.js

PHP

Python

C#

REST

Recupera los resultados de la inspección

Próximos pasos