Envía los resultados del análisis de Cloud DLP a Data Catalog

En esta guía, se explica cómo usar Cloud Data Loss Prevention (DLP) para analizar recursos específicos de Google Cloud y enviar resultados a Data Catalog.

Data Catalog es un servicio escalable de administración de metadatos que te permite descubrir, administrar y comprender con rapidez todos tus datos en Google Cloud.

Cloud DLP se integra de forma nativa a Data Catalog. Cuando usas una acción de Cloud DLP para analizar tus tablas de BigQuery en busca de datos sensibles, esta puede enviar los resultados directamente a Data Catalog en forma de una plantilla de etiquetas.

Si completas los pasos de esta guía, realizarás las siguientes acciones:

  • Habilitarás Data Catalog y Cloud DLP.
  • Configurarás Cloud DLP para que analice una tabla de BigQuery.
  • Configurarás un análisis de Cloud DLP para que envíe los resultados del análisis a Data Catalog.

Para obtener más información sobre Data Catalog, consulta la documentación de Data Catalog.

Costos

Si sigues las instrucciones de este tema, usarás componentes facturables de Google Cloud, incluidos los siguientes:

  • Cloud DLP
  • BigQuery

Usa la calculadora de precios para generar una estimación de los costos según el uso previsto.

Los usuarios nuevos de Google Cloud pueden ser aptos para una prueba gratuita.

Antes de comenzar

Antes de enviar los resultados del análisis de Cloud DLP a Data Catalog, haz lo siguiente:

  • Paso 1: Configura la facturación
  • Paso 2: Crea un proyecto nuevo y propaga una tabla de BigQuery nueva (Opcional)
  • Paso 3: Habilita Data Catalog
  • Paso 4: Habilita Cloud DLP

Las siguientes subsecciones abarcan cada paso en detalle.

Paso 1: Configura la facturación

Primero, debes configurar una cuenta de facturación si aún no tienes una.

Aprende a habilitar la facturación

Paso 2: Crea un proyecto nuevo y propaga una tabla de BigQuery nueva (opcional)

Si configuras esta función para el trabajo de producción o ya tienes una tabla de BigQuery que deseas analizar, abre el proyecto de Google Cloud que contiene la tabla y avanza al paso 3.

Si estás probando esta función y deseas analizar un conjunto de datos de prueba o “ficticio”, crea un proyecto nuevo. Para completar este paso, debes tener la función de Creador de proyectos de Cloud IAM. Obtén más información sobre las funciones de Cloud IAM.

  1. Ve a la página Nuevo proyecto en Google Cloud Console.

    Nuevo proyecto

  2. En la lista desplegable Cuenta de facturación, selecciona la cuenta de facturación en la que se debe facturar el proyecto.
  3. En la lista desplegable Organización, selecciona la organización en la que deseas crear el proyecto.
  4. En la lista desplegable Ubicación, selecciona la organización o la carpeta en la que deseas crear el proyecto.
  5. Haz clic en Crear para crear el proyecto.

A continuación, descarga y almacena los datos de muestra:

  1. Ve al repositorio de instructivos de Cloud Functions en GitHub.
  2. Selecciona uno de los archivos CSV que contenga datos de ejemplo y, luego, descarga el archivo.
  3. A continuación, ve a BigQuery en Cloud Console.
  4. Selecciona tu proyecto.
  5. Haz clic en Crear conjunto de datos.
  6. Haz clic en Crear tabla.
  7. Haz clic en Subir y, luego, selecciona el archivo que deseas subir.
  8. Asígnale un nombre a la tabla y, luego, haz clic en Crear tabla.

Paso 3: Habilita Data Catalog

A continuación, habilita Data Catalog para el proyecto que contiene la tabla de BigQuery que deseas analizar mediante Cloud DLP.

Para habilitar Data Catalog mediante Cloud Console, haz lo siguiente:

  1. Registra tu aplicación en Data Catalog.

    Registrar tu aplicación en Data Catalog

  2. En la página de registro, en la lista desplegable Crear un proyecto, selecciona el proyecto que deseas usar con Data Catalog. Si solo quieres probar esta función, elige Crear un proyecto en la parte inferior del menú para crear un proyecto nuevo.
  3. Después de seleccionar el proyecto, haz clic en Continuar.

Data Catalog ya se encuentra habilitado para tu proyecto.

Paso 4: Habilita Cloud DLP

Habilita Cloud DLP para el mismo proyecto para el que habilitaste Data Catalog.

Para habilitar Cloud DLP mediante Cloud Console, haz lo siguiente:

  1. Registra tu aplicación en Cloud DLP.

    Registrar tu aplicación en Cloud DLP

  2. En la página de registro, en la lista desplegable Crear un proyecto, selecciona el mismo proyecto que elegiste en el paso anterior.
  3. Después de seleccionar el proyecto, haz clic en Continuar.

Cloud DLP ya se encuentra habilitado para tu proyecto.

Configura y ejecuta un análisis de inspección de Cloud DLP

Puedes configurar y ejecutar un análisis de inspección de Cloud DLP mediante Cloud Console o la API de DLP.

Cloud Console

Sigue los pasos a continuación para configurar un trabajo de análisis de una tabla de BigQuery mediante Cloud DLP:

  1. En Cloud Console, abre Cloud DLP.

    Ir a Cloud DLP

  2. En el menú Create (Crear), elige Job or job trigger (Trabajo o activador de trabajos).

    Captura de pantalla de la opción del menú para crear un trabajo o un activador de trabajos nuevo.

  3. Ingresa la información del trabajo de Cloud DLP y haz clic en Continuar para completar cada paso:

    • En el Paso 1: Elige los datos de entrada, asígnale un nombre al trabajo mediante el ingreso de un valor en el campo Nombre. En Ubicación, elige BigQuery en el menú Tipo de almacenamiento y, luego, ingresa la información de la tabla que deseas analizar. La sección Muestreo está preconfigurada para ejecutar un análisis de muestra con tus datos. Puedes ajustar los campos Limitar filas por y Cantidad máxima de filas para ahorrar recursos si tienes una gran cantidad de datos. Para obtener más detalles, consulta Elige los datos de entrada.

    • (Opcional) En el Paso 2: Configura la detección, puedes configurar qué tipos de datos buscar, llamados “Infotipos”. Para los fines de esta explicación, mantén seleccionados los Infotipos predeterminados. Para obtener más detalles, consulta Configura la detección.

    • En Paso 3: Agrega acciones, habilita Guardar en Data Catalog.

    • (Opcional) En Paso 4: Programa, a los fines de esta explicación, deja el menú configurado como Ninguno para que el análisis se ejecute solo una vez. Para obtener más información sobre cómo programar análisis recurrentes, consulta Programa.

  4. Haz clic en Crear. El trabajo se ejecuta de inmediato.

API de DLP

En esta sección, configurarás y ejecutarás un trabajo de análisis de Cloud DLP.

El trabajo de inspección que configurarás en esta sección le indica a Cloud DLP que analice los datos de muestra de BigQuery que se describen en el Paso 2 o tus propios datos de BigQuery. En la configuración del trabajo que especifiques también se le indicará a Cloud DLP que guarde los resultados del análisis en Data Catalog.

Paso 1: Anota tu identificador de proyecto

  1. Ve a Cloud Console.

    Ir a Cloud Console

  2. Haz clic en Seleccionar.

  3. En la lista desplegable Seleccionar de, selecciona la organización para la que habilitaste Data Catalog.

  4. En ID, copia el ID del proyecto que contiene los datos que deseas analizar. Este es el proyecto que se describe en el paso previo de esta página, Configura repositorios de almacenamiento.

  5. En Nombre, haz clic en el proyecto para seleccionarlo.

Paso 2: Abre el Explorador de API y configura el trabajo

  1. Ve al Explorador de API en la página de referencia del método dlpJobs.create. Para mantener estas instrucciones disponibles, haz clic con el botón derecho en el siguiente vínculo y ábrelo en una pestaña o una ventana nueva:

    Abrir el Explorador de API

  2. En el cuadro parent, ingresa el siguiente código, en el que project-id es el ID del proyecto que anotaste en el paso anterior:

    projects/project-id

    A continuación, copia el siguiente JSON. Selecciona el contenido del campo Cuerpo de la solicitud en el Explorador de API y, luego, pega el JSON para reemplazar el contenido. Asegúrate de reemplazar los marcadores de posición project-id, bigquery-dataset-name y bigquery-table-name por el ID del proyecto y los nombres del conjunto de datos y la tabla de BigQuery reales, respectivamente.

    {
      "inspectJob":
      {
        "storageConfig":
        {
          "bigQueryOptions":
          {
            "tableReference":
            {
              "projectId": "project-id",
              "datasetId": "bigquery-dataset-name",
              "tableId": "bigquery-table-name"
            }
          }
        },
        "inspectConfig":
        {
          "infoTypes":
          [
            {
              "name": "EMAIL_ADDRESS"
            },
            {
              "name": "PERSON_NAME"
            },
            {
              "name": "US_SOCIAL_SECURITY_NUMBER"
            },
            {
              "name": "PHONE_NUMBER"
            }
          ],
          "includeQuote": true,
          "minLikelihood": "UNLIKELY",
          "limits":
          {
            "maxFindingsPerRequest": 100
          }
        },
        "actions":
        [
          {
            "publishFindingsToCloudDataCatalog": {}
          }
        ]
      }
    }
    

Para obtener más información sobre las opciones de análisis disponibles, consulta Inspecciona el almacenamiento y las bases de datos en busca de datos sensibles. Para obtener una lista completa de los tipos de información que Cloud DLP puede detectar y analizar, consulta la referencia de los Infotipos.

Paso 3: Ejecuta la solicitud para iniciar el trabajo de análisis

Después de haber seguido los pasos anteriores para configurar el trabajo, haz clic en Ejecutar a fin de enviar la solicitud. Si la solicitud es exitosa, aparecerá una respuesta con un código de éxito y un objeto JSON que indica el estado del trabajo de Cloud DLP que acabas de crear.

La respuesta a tu solicitud de análisis incluye el ID del trabajo de análisis de inspección como la clave "name" y el estado actual del trabajo de análisis de inspección como la clave "state". Debido a que acabas de enviar la solicitud, el estado del trabajo en ese momento es "PENDING".

Verifica el estado del análisis de inspección de Cloud DLP

Después de enviar la solicitud de análisis, el análisis de tu contenido comienza de forma inmediata.

Cloud Console

Para verificar el estado del trabajo de análisis de inspección, haz lo siguiente:

  1. En Cloud Console, abre Cloud DLP.

    Ir a Cloud DLP

  2. Haz clic en la pestaña Trabajos y activadores de trabajos y, luego, en Todos los trabajos.

Es probable que el trabajo que acabas de ejecutar se encuentre en la parte superior de la lista. Verifica que el estado de la columna Estado sea Listo.

Puedes hacer clic en el ID del trabajo para ver sus resultados. Cada detector de Infotipos que se enumera en la página de detalles del trabajo va seguido de la cantidad de coincidencias que se encontraron en el contenido.

API de DLP

Para verificar el estado del trabajo de análisis de inspección, haz lo siguiente:

  1. Para ir al Explorador de API en la página de referencia del método dlpJobs.get, haz clic en el siguiente botón:

    Abrir el Explorador de API

  2. En el cuadro de texto name, escribe el nombre del trabajo de la respuesta JSON a la solicitud de análisis con el siguiente formato:

    projects/project-id/dlpJobs/job-id
    El ID del trabajo tiene el formato i-1234567890123456789.

  3. Para enviar la solicitud, haz clic en Ejecutar.

Si la clave "state" del objeto JSON de respuesta indica que el trabajo se encuentra "DONE", significa que el trabajo de análisis finalizó.

Para ver el resto de la respuesta JSON, desplázate hacia abajo en la página. En "result" > "infoTypeStats", cada tipo de información enumerado debe tener un valor "count" correspondiente. De lo contrario, asegúrate de haber ingresado el JSON de forma adecuada y de que la ruta de acceso o la ubicación de tus datos sea correcta.

Una vez que se finalice el trabajo de análisis, podrás avanzar a la siguiente sección de esta guía para ver los resultados del análisis en Security Command Center.

Visualiza los resultados del análisis de Cloud DLP en Data Catalog

Debido a que le indicaste a Cloud DLP que envíe los resultados del trabajo de análisis de inspección a Data Catalog, ahora puedes ver la plantilla de etiquetas y las etiquetas creadas de forma automática en la IU de Data Catalog:

  1. Ve a la página Data Catalog en Cloud Console.

    Ir a Data Catalog

  2. Busca la tabla que inspeccionaste.
  3. Haz clic en los resultados que coincidan con tu tabla para ver los metadatos de la tabla.

En la siguiente captura de pantalla, se muestra la vista de metadatos de Data Catalog de una tabla de ejemplo:

Detalles de DLP en Data Catalog..

Descubrimiento de datos de Cloud DLP

Los resultados de Cloud DLP de la tabla que analizaste se incluyen de forma resumida. En este resumen, se incluyen los recuentos totales de Infotipos, así como los datos de resumen sobre el trabajo de inspección, en los que se incluye el ID del recurso del trabajo y las fechas.

Se enumeran todos los infoTypes que se inspeccionaron. Los que tienen resultados muestran un recuento superior a cero.

Realiza una limpieza

Para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en este tema, realiza una de las siguientes acciones en función de si usaste datos de muestra o tus propios datos:

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto que creaste con las instrucciones que se proporcionan en este tema.

Para borrar el proyecto, haz lo siguiente:

  1. En Cloud Console, ve a la página Proyectos.

    Ir a la página Proyectos

  2. En la lista de proyectos, selecciona el que quieres borrar y haz clic en Delete project (Borrar proyecto).Después de seleccionar la casilla de verificación ubicada junto al nombre del proyecto, haz clic en Delete project (Borrar proyecto)
  3. En el cuadro de diálogo, escribe el ID del proyecto y haz clic en Cerrar para borrar el proyecto.

Si borras tu proyecto mediante este método, también se borran el trabajo de Cloud DLP y el depósito de Cloud Storage que creaste. Ya terminaste. No es necesario seguir las instrucciones en las siguientes secciones.

Borra el trabajo o el activador de trabajos de Cloud DLP

Si analizaste tus propios datos, borra el activador de trabajos o el trabajo de análisis de inspección que acabas de crear.

Cloud Console

  1. En Cloud Console, abre Cloud DLP.

    Ir a Cloud DLP

  2. Haz clic en la pestaña Trabajos y activadores de trabajos y, luego, en la pestaña Activadores de trabajos.

  3. En la columna Acciones del activador de trabajos que deseas borrar, haz clic en el menú Más acciones (se muestra como tres puntos verticales)  y, luego, haz clic en Borrar.

De manera opcional, también puedes borrar los detalles del trabajo que ejecutaste. Haz clic en la pestaña Todos los trabajos y, luego, en la columna Acciones del trabajo que deseas borrar. A continuación, haz clic en el menú Más acciones (se muestra como tres puntos verticales)  y, luego, en Borrar.

API de DLP

  1. Para ir al Explorador de API en la página de referencia del método dlpJobs.delete, haz clic en el siguiente botón:

    Abrir el Explorador de API

  2. En el cuadro name, escribe el nombre del trabajo de la respuesta JSON a la solicitud de análisis, el cual tiene el siguiente formato:

    projects/project-id/dlpJobs/job-id
    El ID del trabajo tiene el formato i-1234567890123456789.

Si creaste trabajos de análisis adicionales o si deseas asegurarte de haber borrado el trabajo de forma adecuada, puedes enumerar todos los trabajos existentes:

  1. Para ir al Explorador de API en la página de referencia del método dlpJobs.list, haz clic en el siguiente botón:

    Abrir el Explorador de API

  2. En el cuadro parent, escribe el identificador del proyecto en el siguiente formato, en el que project-id es el identificador de tu proyecto:

    projects/project-id

  3. Haz clic en Ejecutar.

Si no se enumeran trabajos en la respuesta, significa que borraste todos los trabajos. Si se enumeran trabajos en la respuesta, repite el procedimiento de eliminación anterior para esos trabajos.

Próximos pasos