作业和作业触发器

作业是指敏感数据保护为扫描内容中的敏感数据或计算重标识的风险而执行的操作。只要您让敏感数据保护检查您的数据,它就会创建并运行作业资源。

目前有两种类型的敏感数据保护作业:

  • 检查作业 - 根据您的标准检查内容中的敏感数据,并生成有关敏感数据的位置和类型的摘要报告。
  • 风险分析作业 - 对已经去标识化的数据进行分析,返回有关数据重标识可能性的指标。

您可以通过创建作业触发器来安排敏感数据保护运行作业的时间。作业触发器是一种自动创建敏感数据保护作业以扫描 Google Cloud 存储区(包括 Cloud Storage 存储分区、BigQuery 表和 Datastore 种类)的事件。

利用作业触发器,您可以通过设置每个触发器关闭的时间间隔来安排扫描作业。作业触发器可以配置为查找自上次扫描运行以来的新发现结果,以帮助监控内容的更改或添加,或生成最新的发现结果报告。安排好的触发器会按您设置的间隔(从 1 天到 60 天)运行。

后续步骤

如需详细了解如何创建、修改以及运行作业和作业触发器,请参阅下列主题:

此外,您也可以参考下列快速入门指南:

JobTrigger 对象

在 DLP API 中,作业触发器用 JobTrigger 对象来表示。

作业触发器配置字段

每个 JobTrigger 都包含多个配置字段,包括:

  • 触发器的名称、显示名称和说明。
  • 一系列 Trigger 对象,每个对象都包含一个 Schedule 对象,用于定义扫描周期(以秒为单位)。
  • InspectJobConfig 对象,包含已触发作业的配置信息。
  • Status 枚举,指示触发器当前是否处于活动状态。
  • 表示创建、更新和上次运行时间的时间戳字段。
  • 一系列 Error 对象(如果在激活触发器时遇到过任何此类对象)。

作业触发器方法

每个 JobTrigger 对象还包括几种内置方法。使用这些方法,您可以执行以下操作:

作业延迟时间

对于作业和作业触发器,无法保证服务等级目标 (SLO)。延迟时间受多种因素影响,包括要扫描的数据量、要扫描的存储代码库、要扫描的 infoType 的类型和数量、处理作业的区域,以及该区域中可用的计算资源。因此,无法提前确定检查作业的延迟时间。

如需帮助减少作业延迟时间,您可以尝试以下方法:

  • 如果作业或作业触发器可以使用采样,请启用它。
  • 避免启用不需要的 infoType。虽然以下请求在某些情况下很有用,但与不包含这些 infoType 的请求相比,这些 infoType 的运行速度可能会慢得多:

    • PERSON_NAME
    • FEMALE_NAME
    • MALE_NAME
    • FIRST_NAME
    • LAST_NAME
    • DATE_OF_BIRTH
    • LOCATION
    • STREET_ADDRESS
    • ORGANIZATION_NAME
  • 始终明确指定 infoType。请勿使用空的 infoType 列表。

  • 如果可能,请使用其他处理区域。

如果您在尝试这些方法后仍然遇到作业的延迟问题,请考虑使用 content.inspectcontent.deidentify 请求,而不是作业。这些方法在《服务等级协议》涵盖范围内。如需了解详情,请参阅敏感数据保护服务等级协议

仅扫描新内容

您可以将作业触发器配置为自动设置 Cloud StorageBigQuery 中存储的文件的时间范围日期。如果您将 TimespanConfig 对象设置为自动填充,敏感数据保护将仅扫描自触发器上次运行以来添加或修改的数据:

...
  timespan_config {
        enable_auto_population_of_timespan_config: true
      }
...

在文件上传时触发作业

除了内置于敏感数据保护中的作业触发器支持之外,Google Cloud 还提供了各种其他组件,可供您用来集成或触发敏感数据保护作业。例如,每次有文件上传到 Cloud Storage 时,您都可以使用 Cloud Functions 函数触发敏感数据保护扫描。

如需了解如何设置此操作,请参阅对上传到 Cloud Storage 的数据进行自动分类