本主题介绍了如何使用混合作业和混合作业触发器检查外部数据是否包含敏感信息。如需详细了解混合作业和混合作业触发器(包括混合环境示例),请参阅混合作业和混合作业触发器。
混合作业和混合作业触发器简介
借助混合作业和混合作业触发器,您可以将敏感数据保护功能提供的保护范围扩大到简单的内容检查请求和 Google Cloud Storage 代码库扫描之外。借助混合作业和混合作业触发器,您可以将来自几乎任何来源(包括 Google Cloud 之外的来源)的数据直接流式传输到敏感数据保护,并让敏感数据保护检查数据是否包含敏感信息。敏感数据保护功能会自动保存和汇总扫描结果,以供进一步分析。
混合作业和混合作业触发器的比较
创建混合作业后,它们会一直运行,直到您停止它们。只要数据的路由和格式正确,它们就会接受所有传入数据。
混合作业触发器的运作方式与混合作业类似,但您无需在混合作业触发器中明确停止作业。敏感数据保护功能会在每天结束时自动停止混合作业触发器中的作业。
此外,借助混合作业触发器,您可以在触发器中停止和启动新作业,而无需重新配置 hybridInspect
请求。例如,您可以向混合作业触发器发送数据,然后停止正在运行的作业、更改其配置、在该触发器中启动新作业,然后继续向同一触发器发送数据。
如需有关哪种选项适合您的用例的更多指导,请参阅本页中的典型的混合检查场景。
术语定义
本主题使用以下术语:
外部数据:存储在 Google Cloud 之外的数据,或 Sensitive Data Protection 不原生支持的数据。
混合作业:配置为扫描来自几乎任何来源的数据的检查作业。
混合作业触发器:配置为扫描几乎任何来源的数据的作业触发器。
hybridInspect
请求:包含您要检查的外部数据的请求。发送此请求时,您需要指定要将请求发送到的混合作业或混合作业触发器。
如需了解有关作业和作业触发器的一般信息,请参阅作业和作业触发器。
混合检查流程
混合检查流程分为三个步骤。
选择要发送到敏感数据保护功能的数据。
数据可以来自 Google Cloud 内部或外部。例如,您可以配置自定义脚本或应用,将数据发送到敏感数据保护,以便检查来自其他云服务、本地数据仓库或几乎任何其他数据源的传输中的数据。
从头开始或使用检查模板在 Sensitive Data Protection 中设置混合作业或混合作业触发器。
设置混合作业或混合作业触发器后,Sensitive Data Protection 会主动监听发送到它的数据。当您的自定义脚本或应用向此混合作业或混合作业触发器发送数据时,系统会根据配置检查数据并存储其结果。
设置混合作业或混合作业触发器时,您可以指定要将发现保存或发布到何处。选项包括保存到 BigQuery 以及向 Pub/Sub、Cloud Monitoring 或电子邮件地址发布通知。
向混合作业或混合作业触发器发送
hybridInspect
请求。hybridInspect
请求包含要扫描的数据。在请求中,添加元数据(也称为标签和表标识符),用于描述内容并让敏感数据保护功能识别您要跟踪的信息。例如,如果您要跨多个请求扫描相关数据(例如同一数据库表中的行),则可以在这些相关请求中使用相同的元数据。然后,您可以收集、汇总和分析该数据库表的发现结果。
混合作业运行并检查请求时,在敏感数据保护生成检查结果时,您就可以使用这些结果。相比之下,在应用结束混合作业之前,不会发生 Pub/Sub 通知等操作。
注意事项
使用混合作业和作业触发器时,请考虑以下几点:
- 混合作业和混合作业触发器不支持过滤和抽样。
- 作业和作业触发器不受服务等级目标 (SLO) 的约束,但您可以采取一些措施来缩短延迟时间。如需了解详情,请参阅作业延迟时间。
准备工作
在设置和使用混合作业或混合作业触发器之前,请确保您已完成以下操作:
创建新项目、启用结算功能并启用敏感数据保护
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Sensitive Data Protection API.
配置数据源
在敏感数据保护功能可以检查您的数据之前,您必须将数据发送到敏感数据保护功能。无论您使用哪种方法配置混合作业或混合作业触发器,都必须设置外部来源以将数据发送到 DLP API。
如需了解混合内容项的格式设置,请参阅混合内容项格式设置。如需了解可在请求中与数据一起添加哪些类型的元数据,请参阅您可以提供的元数据类型。
创建混合作业或混合作业触发器
若要让 Sensitive Data Protection 检查您发送给它的数据,您必须先设置混合作业或混合作业触发器。如需了解应创建哪种报告,请参阅本页中的典型的混合检查场景。
控制台
在 Google Cloud 控制台中,前往创建作业或作业触发器页面:
以下部分介绍了如何填写创建作业或作业触发器页面中与混合检查操作相关的部分。
选择输入数据
在本部分中,您将指定要供敏感数据保护功能检查的输入数据。
- 可选:对于名称,请在作业 ID 字段中输入值,为作业命名。如果将此字段留空,Sensitive Data Protection 会自动生成标识符。
- 可选:从资源位置菜单中,选择要存储混合作业或混合作业触发器的区域。如需了解详情,请参阅指定处理位置。
对于存储类型,请选择混合。
可选:在说明中,描述您要创建的混合作业或混合作业触发器。例如,您可以添加有关要检查的数据来源的信息。
可选:对于必需的标签,请点击添加标签,然后输入您希望
hybridInspect
请求必须提供的标签。如果hybridInspect
请求未指定此标签,则此混合作业或混合作业触发器不会处理该请求。您最多可以添加 10 个必填标签。如需了解详情,请参阅本页中的要求hybridInspect
请求包含标签。可选:对于可选标签,输入要附加到发送到此作业或作业触发器的所有
hybridInspect
请求结果的任何键值对。您最多可以添加 10 个可选标签。如需了解详情,请参阅可选标签。可选:对于表格数据选项,如果您打算在
hybridInspect
请求中发送表格数据,请输入主键列的字段名称。如需了解详情,请参阅表格数据选项。点击继续。
配置检测
在本部分中,您可以指定敏感数据保护功能将检查输入数据的敏感数据类型。您可以选择以下选项:
- 模板:如果您已在当前项目中创建了模板,并希望使用该模板来定义敏感数据保护检测参数,请点击模板名称字段,然后从随即显示的列表中选择该模板。
- InfoTypes:敏感数据保护会选择最常见的内置 infoType 进行检测。如需更改 infoType 或选择要使用的自定义 infoType,请点击管理 infoType。您还可以在“检查规则集”和“置信度阈值”部分中微调检测条件。如需了解详情,请参阅配置检测。
配置检测参数后,点击继续。
添加操作
在本部分中,您可以指定要将每次检查扫描的发现结果保存到何处,以及在每次扫描完成时通过电子邮件或 Pub/Sub 通知消息接收通知。如果您未将发现结果保存到 BigQuery,扫描结果将仅包含有关发现结果的数量和 infoType 的统计信息。
- 保存到 BigQuery:每次运行扫描时,敏感数据保护都会将扫描结果保存到您在此处指定的 BigQuery 表中。如果您未指定表 ID,BigQuery 会在首次运行扫描时为新表分配默认名称。如果您指定的是现有的表格,则 Sensitive Data Protection 会将扫描结果附加到其中。
发布到 Pub/Sub:作业完成后,系统会发出 Pub/Sub 消息。
通过电子邮件发送通知:作业完成后,系统会发送电子邮件。
发布到 Cloud Monitoring:作业完成后,其发现结果将发布到 Monitoring。
选择操作后,点击继续。
时间表
在此部分中,您可以指定是创建一个立即运行的作业,还是创建一个作业触发器,以便在 Sensitive Data Protection 收到正确路由和格式的数据时运行。
执行下列其中一项操作:
如需立即运行混合作业,请选择无(在创建后立即运行一次性作业)。
如需配置作业,以便从来源收到的数据触发作业,请选择创建一个触发器来定期运行作业。
混合作业触发器会汇总 API 调用,让您可以查看发现结果和趋势随时间的变化情况。
如需了解详情,请参阅混合作业和混合作业触发器的比较。
审核
您可以在此处查看扫描的 JSON 摘要。请务必记下混合作业或混合作业触发器的名称;在将数据发送到敏感数据保护服务进行检查时,您需要此信息。
查看 JSON 摘要后,点击创建。
Sensitive Data Protection 会立即启动混合作业或混合作业触发器。当您向此混合作业或混合作业触发器发送 hybridInspect
请求时,系统会启动检查扫描。
API
在 DLP API 中,作业用 DlpJobs
资源来表示。如需创建混合作业,您可以调用 projects.locations.dlpJobs.create
方法。
在 DLP API 中,作业触发器用 JobTrigger
资源来表示。如需创建混合作业触发器,请调用 projects.locations.jobTriggers.create
方法。
您创建的 DlpJobs
或 JobTrigger
对象必须具有以下设置:
- 在
inspectJob
字段中,设置InspectJobConfig
对象。 - 在
InspectJobConfig
对象的storageConfig
字段中,设置StorageConfig
对象。 - 在
StorageConfig
对象的hybridOptions
字段中,设置HybridOptions
对象。此对象包含有关您要检查的数据的元数据。 在
InspectJobConfig
对象的actions
字段中,添加您希望敏感数据保护在每项作业结束时执行的任何操作 (Action
)。此操作不支持
publishSummaryToCscc
和publishFindingsToCloudDataCatalog
操作。如需详细了解操作,请参阅操作。通过执行以下一项或两项操作,指定要扫描的内容和扫描方式:
将
inspectTemplateName
字段设置为您要使用的检查模板(如果有)的完整资源名称。设置
inspectConfig
字段。
如果您同时设置了
inspectTemplateName
和inspectConfig
字段,系统会合并其设置。
JSON 示例简介
以下标签页包含 JSON 示例,您可以将这些示例发送到 Sensitive Data Protection 以创建混合作业或混合作业触发器。以下混合作业和混合作业触发器示例配置为执行以下操作:
- 如果请求带有标签
appointment-bookings-comments
,则处理任何hybridInspect
请求。 - 扫描
hybridInspect
请求中是否包含电子邮件地址。 - 将
"env": "prod"
标签附加到发现结果。 - 对于表格数据,获取与找到敏感数据的单元格位于同一行的
booking_id
列(主键)中的单元格的值。Sensitive Data Protection 会将此标识符附加到相应发现结果,以便您可以将发现结果追溯到其来源的具体行。 - 在作业停止时发送电子邮件。该电子邮件会发送给 IAM 项目所有者和技术重要联系人。
- 在作业停止时将发现结果发送到 Cloud Monitoring。
如需查看 JSON 示例,请参阅以下标签页。
混合作业
此标签页包含一个 JSON 示例,您可以使用该示例创建混合作业。
如需创建混合作业,请向以下端点发送 POST
请求。
HTTP 方法和网址
POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/dlpJobs
替换以下内容:
JSON 输入
{
"jobId": "postgresql-table-comments",
"inspectJob": {
"actions": [
{
"jobNotificationEmails": {}
},
{
"publishToStackdriver": {}
}
],
"inspectConfig": {
"infoTypes": [
{
"name": "EMAIL_ADDRESS"
}
],
"minLikelihood": "POSSIBLE",
"includeQuote": true
},
"storageConfig": {
"hybridOptions": {
"description": "Hybrid job for data from the comments field of a table that contains customer appointment bookings",
"requiredFindingLabelKeys": [
"appointment-bookings-comments"
],
"labels": {
"env": "prod"
},
"tableOptions": {
"identifyingFields": [
{
"name": "booking_id"
}
]
}
}
}
}
}
JSON 输出
{ "name": "projects/PROJECT_ID/locations/REGION/dlpJobs/i-postgresql-table-comments", "type": "INSPECT_JOB", "state": "ACTIVE", "inspectDetails": { "requestedOptions": { "snapshotInspectTemplate": {}, "jobConfig": { "storageConfig": { "hybridOptions": { "description": "Hybrid job for data from the comments field of a table that contains customer appointment bookings", "requiredFindingLabelKeys": [ "appointment-bookings-comments" ], "labels": { "env": "prod" }, "tableOptions": { "identifyingFields": [ { "name": "booking_id" } ] } } }, "inspectConfig": { "infoTypes": [ { "name": "EMAIL_ADDRESS" } ], "minLikelihood": "POSSIBLE", "limits": {}, "includeQuote": true }, "actions": [ { "jobNotificationEmails": {} }, { "publishToStackdriver": {} } ] } }, "result": { "hybridStats": {} } }, "createTime": "JOB_CREATION_DATETIME", "startTime": "JOB_START_DATETIME" }
Sensitive Data Protection 会创建混合作业并生成作业 ID。在此示例中,作业 ID 为 i-postgresql-table-comments
。记下作业 ID。
您需要在 hybridInspect
请求中使用该值。
如需停止混合作业,您必须显式调用 projects.locations.dlpJobs.finish
方法。DLP API 不会自动停止混合作业。与之相反,DLP API 会在每天结束时自动停止混合作业触发器中的作业。
混合作业触发器
此标签页包含一个 JSON 示例,您可以使用该示例创建混合作业触发器。
如需创建混合作业触发器,请向以下端点发送 POST
请求。
HTTP 方法和网址
POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/jobTriggers
替换以下内容:
JSON 输入
{
"triggerId": "postgresql-table-comments",
"jobTrigger": {
"triggers": [
{
"manual": {}
}
],
"inspectJob": {
"actions": [
{
"jobNotificationEmails": {}
},
{
"publishToStackdriver": {}
}
],
"inspectConfig": {
"infoTypes": [
{
"name": "EMAIL_ADDRESS"
}
],
"minLikelihood": "POSSIBLE",
"limits": {},
"includeQuote": true
},
"storageConfig": {
"hybridOptions": {
"description": "Hybrid job trigger for data from the comments field of a table that contains customer appointment bookings",
"requiredFindingLabelKeys": [
"appointment-bookings-comments"
],
"labels": {
"env": "prod"
},
"tableOptions": {
"identifyingFields": [
{
"name": "booking_id"
}
]
}
}
}
}
}
}
JSON 输出
{ "name": "projects/PROJECT_ID/locations/REGION/jobTriggers/postgresql-table-comments", "inspectJob": { "storageConfig": { "hybridOptions": { "description": "Hybrid job trigger for data from the comments field of a table that contains customer appointment bookings", "requiredFindingLabelKeys": [ "appointment-bookings-comments" ], "labels": { "env": "prod" }, "tableOptions": { "identifyingFields": [ { "name": "booking_id" } ] } } }, "inspectConfig": { "infoTypes": [ { "name": "EMAIL_ADDRESS" } ], "minLikelihood": "POSSIBLE", "limits": {}, "includeQuote": true }, "actions": [ { "jobNotificationEmails": {} }, { "publishToStackdriver": {} } ] }, "triggers": [ { "manual": {} } ], "createTime": ""JOB_CREATION_DATETIME", "updateTime": "TRIGGER_UPDATE_DATETIME", "status": "HEALTHY" }
Sensitive Data Protection 会创建混合作业触发器。输出包含混合作业触发器的名称。在此示例中,该网址为 postgresql-table-comments
。记下该名称。您需要在 hybridInspect
请求中使用该值。
与混合作业不同,DLP API 会在每天结束时自动停止混合作业触发器中的作业。因此,您无需显式调用 projects.locations.dlpJobs.finish
方法。
创建混合作业或混合作业触发器时,您可以分别在以下 API 参考文档页面上使用 API Explorer:
在请求参数字段中,输入 projects/PROJECT_ID/locations/REGION
。然后,在 Request body 字段中,粘贴您尝试创建的对象的 JSON 示例。
如果请求成功(即使是在 API Explorer 中创建的请求),系统就会创建一个混合作业或混合作业触发器。
如需了解有关如何使用 JSON 将请求发送到 DLP API 的常规信息,请参阅 JSON 快速入门。
将数据发送到混合作业或混合作业触发器
如需检查数据,您必须以正确的格式向混合作业或混合作业触发器发送 hybridInspect
请求。
混合内容项格式设置
以下是一个简单的示例,展示了发送到 Sensitive Data Protection 以供混合作业或混合作业触发器处理的 hybridInspect
请求。请注意 JSON 对象的结构,包括 hybridItem
字段,其中包含以下字段:
item
:包含要检查的实际内容。findingDetails
:包含要与内容相关联的元数据。
{
"hybridItem": {
"item": {
"value": "My email is test@example.org"
},
"findingDetails": {
"containerDetails": {
"fullPath": "10.0.0.2:logs1:app1",
"relativePath": "app1",
"rootPath": "10.0.0.2:logs1",
"type": "logging_sys",
"version": "1.2"
},
"labels": {
"env": "prod",
"appointment-bookings-comments": ""
}
}
}
}
如需全面了解混合检查项的内容,请参阅 HybridContentItem
对象的 API 参考文档内容。
混合检查端点
如需使用混合作业或混合作业触发器检查数据,您必须向正确的端点发送 hybridInspect
请求。
混合作业的 HTTP 方法和网址
POST https://dlp.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/dlpJobs/JOB_ID:hybridInspect
如需详细了解此端点,请参阅 projects.locations.dlpJobs.hybridInspect
方法的 API 参考文档页面。
混合作业触发器的 HTTP 方法和网址
https://dlp.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/jobTriggers/TRIGGER_NAME:hybridInspect
如需详细了解此端点,请参阅 projects.locations.jobTriggers.hybridInspect
方法的 API 参考文档页面。
替换以下内容:
- PROJECT_ID:您的项目标识符。
- REGION:您要存储
hybridInspect
请求的地理区域。此区域必须与混合作业的区域相同。 JOB_ID:您为混合作业指定的 ID,前缀为
i-
。如需查找作业 ID,请在敏感数据保护中,依次点击检查 > 检查作业。
TRIGGER_NAME:您为混合作业触发器指定的名称。
如需查找作业触发器的名称,请在敏感数据保护中,依次点击检查 > 作业触发器。
要求 hybridInspect
请求包含标签
如果您想控制混合作业或混合作业触发器可以处理哪些 hybridInspect
请求,可以设置所需的标签。系统会拒绝针对该混合作业或混合作业触发器的任何 hybridInspect
请求,如果该请求不包含这些必需的标签。
如需设置必填标签,请执行以下操作:
创建混合作业或混合作业触发器时,请将
requiredFindingLabelKeys
字段设置为必需标签的列表。以下示例将
appointment-bookings-comments
设置为混合作业或混合作业触发器中的必需标签。"hybridOptions": { ... "requiredFindingLabelKeys": [ "appointment-bookings-comments" ], "labels": { "env": "prod" }, ... }
在
hybridInspect
请求的labels
字段中,将每个必需的标签添加为键值对中的键。相应的值可以是空字符串。以下示例在
hybridInspect
请求中设置了必需的标签appointment-bookings-comments
。{ "hybridItem": { "item": { "value": "My email is test@example.org" }, "findingDetails": { "containerDetails": {...}, "labels": { "appointment-bookings-comments": "" } } } }
如果您未在 hybridInspect
请求中添加所需的标签,则会收到如下错误:
{ "error": { "code": 400, "message": "Trigger required labels that were not included: [appointment-bookings-comments]", "status": "INVALID_ARGUMENT" } }
代码示例:创建混合作业触发器并向其发送数据
C#
如需了解如何安装和使用敏感数据保护客户端库,请参阅 敏感数据保护客户端库。
如需向 Sensitive Data Protection 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Go
如需了解如何安装和使用敏感数据保护客户端库,请参阅 敏感数据保护客户端库。
如需向 Sensitive Data Protection 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Java
如需了解如何安装和使用敏感数据保护客户端库,请参阅 敏感数据保护客户端库。
如需向 Sensitive Data Protection 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Node.js
如需了解如何安装和使用敏感数据保护客户端库,请参阅 敏感数据保护客户端库。
如需向 Sensitive Data Protection 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
PHP
如需了解如何安装和使用敏感数据保护客户端库,请参阅 敏感数据保护客户端库。
如需向 Sensitive Data Protection 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
Python
如需了解如何安装和使用敏感数据保护客户端库,请参阅 敏感数据保护客户端库。
如需向 Sensitive Data Protection 进行身份验证,请设置应用默认凭据。 如需了解详情,请参阅为本地开发环境设置身份验证。
典型混合检查场景
以下部分介绍了混合检查的典型用法及其对应的工作流。
执行一次性扫描
在执行数据库的季度检查时,对 Google Cloud 外部的数据库执行一次性扫描。
使用 Google Cloud 控制台或 DLP API 创建混合作业。
通过调用
projects.locations.dlpJobs.hybridInspect
将数据发送到作业。如果您想检查更多数据,请根据需要重复此步骤。发送数据以供检查后,调用
projects.locations.dlpJobs.finish
方法。Sensitive Data Protection 会执行
projects.locations.dlpJobs.create
请求中指定的操作。
配置持续监控
监控每天添加到敏感数据保护本身不支持的数据库中的所有新内容。
使用 Google Cloud 控制台或 DLP API 创建混合作业触发器。
通过调用
projects.locations.jobTriggers.activate
方法激活作业触发器。通过调用
projects.locations.jobTriggers.hybridInspect
将数据发送到作业触发器。如果您想检查更多数据,请根据需要重复此步骤。
在这种情况下,您无需调用 projects.locations.dlpJobs.finish
方法。Sensitive Data Protection 会自动对您发送的数据进行分区。只要作业触发器处于活动状态,Sensitive Data Protection 就会在每天结束时执行您在创建混合作业触发器时指定的操作。
扫描传入数据库的数据
扫描传入数据库的数据,同时控制数据的分区方式。作业触发器中的每个作业都是单个分区。
使用 Google Cloud 控制台或 DLP API 创建混合作业触发器。
通过调用
projects.locations.jobTriggers.activate
方法激活作业触发器。系统会返回单个作业的作业 ID。您需要在下一步中使用此作业 ID。
通过调用
projects.locations.dlpJobs.hybridInspect
将数据发送到作业。在这种情况下,您需要将数据发送到作业,而不是作业触发器。通过这种方法,您可以控制要发送以供检查的数据的分区方式。如果您想在当前分区中添加更多数据以供检查,请重复此步骤。
将数据发送到作业后,调用
projects.locations.dlpJobs.finish
方法。Sensitive Data Protection 会执行
projects.locations.jobTriggers.create
请求中指定的操作。如果您想为下一个分区创建另一个作业,请再次激活作业触发器,然后将数据发送到生成的作业。
监控来自代理的流量
监控安装在两个自定义应用之间的代理的流量。
使用 Google Cloud 控制台或 DLP API 创建混合作业触发器。
通过调用
projects.locations.jobTriggers.activate
方法激活作业触发器。通过调用
projects.locations.jobTriggers.hybridInspect
将数据发送到作业触发器。如果您想检查更多数据,请根据需要重复此步骤。您可以针对所有网络流量无限期地调用此请求。请务必在每个请求中添加元数据。
在这种情况下,您无需调用 projects.locations.dlpJobs.finish
方法。Sensitive Data Protection 会自动对您发送的数据进行分区。只要作业触发器处于活跃状态,Sensitive Data Protection 就会在每天结束时执行您在创建混合作业触发器时指定的操作。
后续步骤
- 详细了解混合作业和混合作业触发器的运作方式。