Trabajos y activadores de trabajos

Un trabajo es una acción que Sensitive Data Protection ejecuta para analizar el contenido en busca de datos sensibles o a fin de calcular el riesgo de reidentificación. Sensitive Data Protection crea y ejecuta un recurso de trabajo cada vez que le solicitas que inspeccione los datos.

Actualmente, existen dos tipos de trabajos de Protección de datos sensibles:

  • Los trabajos de inspección inspeccionan el contenido en busca de datos sensibles según tus criterios y generan informes de resumen sobre qué tipo de datos sensibles existen y dónde se encuentran.
  • Los trabajos de análisis de riesgos analizan los datos desidentificados y muestran métricas sobre la probabilidad de que los datos se puedan reidentificar.

Puedes programar cuándo Sensitive Data Protection debe ejecutar trabajos mediante la creación de activadores de trabajo. Un activador de trabajo es un evento que automatiza la creación de trabajos de Protección de datos sensibles para analizar los repositorios de almacenamiento de Google Cloud, incluidos los buckets de Cloud Storage, las tablas de BigQuery y los tipos de Datastore.

Los activadores de trabajo te permiten programar trabajos de análisis mediante la configuración de intervalos en los que se inicia cada activador. Puedes configurarlos para buscar resultados nuevos desde el último análisis ejecutado a fin de supervisar los cambios o las adiciones al contenido o generar informes de resultados actualizados. Los activadores programados se ejecutan en un intervalo que estableces, desde 1 día hasta 60 días.

Próximos pasos

Obtén más información sobre cómo crear, editar y ejecutar trabajos y activadores de trabajo en los siguientes temas:

Además, está disponible la siguiente guía de inicio rápido:

El objeto JobTrigger

Un activador de trabajo se representa en la API de DLP con el objeto JobTrigger.

Campos de configuración del activador de trabajos

Cada JobTrigger contiene varios campos de configuración, incluidos los siguientes:

  • El nombre del activador, su nombre visible y una descripción
  • Una colección de objetos Trigger, cada uno de los cuales contiene un objeto Schedule, que define la recurrencia del análisis en segundos
  • Un objeto InspectJobConfig, que contiene la información de configuración para el trabajo activado
  • Una enumeración Status, que indica si el activador se encuentra activo
  • Campos de marca de tiempo que representan los tiempos de creación, actualización y última ejecución
  • Una colección de objetos Error, si se encontró alguno cuando se inició el activador

Métodos del activador de trabajos

Cada objeto JobTrigger también incluye varios métodos integrados. Con estos métodos, puedes hacer lo siguiente:

Latencia del trabajo

No hay objetivos de nivel de servicio (SLO) garantizados para las tareas ni los activadores de tareas. La latencia se ve afectada por varios factores, como la cantidad de datos que se analizarán, el repositorio de almacenamiento que se analiza, el tipo y la cantidad de infotipos que se buscan, la región en la que se procesa la tarea y los recursos de procesamiento disponibles en esa región. Por lo tanto, la latencia de los trabajos de inspección no se puede determinar con anticipación.

Para ayudar a reducir la latencia del trabajo, puedes probar con las siguientes opciones:

  • Si el muestreo está disponible para tu trabajo o activador de trabajo, habilítalo.
  • Evita habilitar infoTypes que no necesites. Si bien los siguientes son útiles en ciertas situaciones, estos infoTypes pueden hacer que las solicitudes se ejecuten mucho más lentamente que las que no los incluyen:

    • PERSON_NAME
    • FEMALE_NAME
    • MALE_NAME
    • FIRST_NAME
    • LAST_NAME
    • DATE_OF_BIRTH
    • LOCATION
    • STREET_ADDRESS
    • ORGANIZATION_NAME
  • Especifica siempre los Infotipos de forma explícita. No uses una lista de Infotipos vacía.

  • Si es posible, usa una región de procesamiento diferente.

Si aún tienes problemas de latencia con las tareas después de probar estas técnicas, considera usar solicitudes content.inspect o content.deidentify en lugar de tareas. Estos métodos se incluyen en el Acuerdo de Nivel de Servicio. Para obtener más información, consulta el Acuerdo de nivel de servicio de Protección de datos sensibles.

Limita el análisis solo al contenido nuevo

Puedes configurar el activador de trabajo para que establezca automáticamente la fecha del período de los archivos almacenados en Cloud Storage o BigQuery. Cuando configuras el objeto TimespanConfig para que se complete automáticamente, la Protección de datos sensibles solo analiza los datos que se agregaron o modificaron desde la última ejecución del activador:

...
  timespan_config {
        enable_auto_population_of_timespan_config: true
      }
...

Para la inspección de BigQuery, solo se incluyen en el análisis las filas que tengan al menos tres horas de antigüedad. Consulta el problema conocido relacionado con esta operación.

Activa trabajos en la carga de archivos

Además de la compatibilidad con activadores de trabajo, que está integrada en Sensitive Data Protection, Google Cloud también tiene una variedad de otros componentes que puedes usar para integrar o activar trabajos de Sensitive Data Protection. Por ejemplo, puedes usar funciones de Cloud Run para activar un análisis de Protección de datos sensibles cada vez que se suba un archivo a Cloud Storage.

Para obtener información sobre cómo configurar esta operación, consulta Cómo automatizar la clasificación de datos subidos a Cloud Storage.