作业是指敏感数据保护为扫描内容中的敏感数据或计算重标识的风险而执行的操作。只要您让敏感数据保护检查您的数据,它就会创建并运行作业资源。
目前有两种类型的敏感数据保护作业:
- 检查作业 - 根据您的标准检查内容中的敏感数据,并生成有关敏感数据的位置和类型的摘要报告。
- 风险分析作业 - 对已经去标识化的数据进行分析,返回有关数据重标识可能性的指标。
您可以通过创建作业触发器来安排敏感数据保护运行作业的时间。作业触发器是一种自动创建敏感数据保护作业以扫描 Google Cloud 存储区(包括 Cloud Storage 存储分区、BigQuery 表和 Datastore 种类)的事件。
利用作业触发器,您可以通过设置每个触发器关闭的时间间隔来安排扫描作业。作业触发器可以配置为查找自上次扫描运行以来的新发现结果,以帮助监控内容的更改或添加,或生成最新的发现结果报告。安排好的触发器会按您设置的间隔(从 1 天到 60 天)运行。
后续步骤
如需详细了解如何创建、修改以及运行作业和作业触发器,请参阅下列主题:
- 创建敏感数据保护检查作业和作业触发器
- 衡量重标识和披露风险(涵盖风险分析作业)
此外,您也可以参考下列快速入门指南:
JobTrigger
对象
在 DLP API 中,作业触发器用 JobTrigger
对象来表示。
作业触发器配置字段
每个 JobTrigger
都包含多个配置字段,包括:
- 触发器的名称、显示名称和说明。
- 一系列
Trigger
对象,每个对象都包含一个Schedule
对象,用于定义扫描周期(以秒为单位)。 InspectJobConfig
对象,包含已触发作业的配置信息。Status
枚举,指示触发器当前是否处于活动状态。- 表示创建、更新和上次运行时间的时间戳字段。
- 一系列
Error
对象(如果在激活触发器时遇到过任何此类对象)。
作业触发器方法
每个 JobTrigger
对象还包括几种内置方法。使用这些方法,您可以执行以下操作:
- 创建新的作业触发器:
projects.jobTriggers.create
- 更新现有作业触发器:
projects.jobTriggers.patch
- 删除现有作业触发器:
projects.jobTriggers.delete
- 检索现有作业触发器,包括其配置和状态:
projects.jobTriggers.get
- 列出所有现有作业触发器:
projects.jobTriggers.list
作业延迟时间
对于作业和作业触发器,无法保证服务等级目标 (SLO)。延迟时间受多种因素影响,包括要扫描的数据量、要扫描的存储代码库、要扫描的 infoType 的类型和数量、处理作业的区域,以及该区域中可用的计算资源。因此,无法提前确定检查作业的延迟时间。
如需帮助减少作业延迟时间,您可以尝试以下方法:
- 如果作业或作业触发器可以使用采样,请启用它。
避免启用不需要的 infoType。虽然以下请求在某些情况下很有用,但与不包含这些 infoType 的请求相比,这些 infoType 的运行速度可能会慢得多:
PERSON_NAME
FEMALE_NAME
MALE_NAME
FIRST_NAME
LAST_NAME
DATE_OF_BIRTH
LOCATION
STREET_ADDRESS
ORGANIZATION_NAME
始终明确指定 infoType。请勿使用空的 infoType 列表。
如果可能,请使用其他处理区域。
如果您在尝试这些方法后仍然遇到作业的延迟问题,请考虑使用 content.inspect
或 content.deidentify
请求,而不是作业。这些方法在《服务等级协议》涵盖范围内。如需了解详情,请参阅敏感数据保护服务等级协议。
仅扫描新内容
您可以将作业触发器配置为自动设置 Cloud Storage 或 BigQuery 中存储的文件的时间范围日期。如果您将 TimespanConfig
对象设置为自动填充,敏感数据保护将仅扫描自触发器上次运行以来添加或修改的数据:
...
timespan_config {
enable_auto_population_of_timespan_config: true
}
...
在文件上传时触发作业
除了内置于敏感数据保护中的作业触发器支持之外,Google Cloud 还提供了各种其他组件,可供您用来集成或触发敏感数据保护作业。例如,每次有文件上传到 Cloud Storage 时,您都可以使用 Cloud Functions 函数触发敏感数据保护扫描。
如需了解如何设置此操作,请参阅对上传到 Cloud Storage 的数据进行自动分类。