本指南介绍如何使用敏感数据保护检查 BigQuery 表以及如何将检查结果发送到 Data Catalog。
您还可以执行与检查操作不同的数据分析。您还可以将数据分析文件发送到 Dataplex。如需了解详情,请参阅根据数据分析中的数据洞见标记 Dataplex 中的表。
Data Catalog 是一项可扩缩的元数据管理服务,可帮助您快速发现、管理和了解您在 Google Cloud 中的所有数据。
敏感数据保护内置了与 Data Catalog 的集成。如果您使用敏感数据保护操作来检查 BigQuery 表是否存在敏感数据,它可以以标记模板的形式直接将结果发送到 Data Catalog。
通过执行本指南中的步骤,您将完成以下操作:
- 启用 Data Catalog 和敏感数据保护。
- 设置敏感数据保护,以检查 BigQuery 表。
- 配置敏感数据保护检查,以将检查结果发送到 Data Catalog。
如需详细了解 Data Catalog,请参阅 Data Catalog 文档。
如果要将数据分析操作(而非检查作业)的结果发送到 Dataplex,请改为参阅有关对组织、文件夹或项目进行性能剖析的文档。
费用
在本文档中,您将使用 Google Cloud 的以下收费组件:
- 敏感数据保护
- BigQuery
您可使用价格计算器根据您的预计使用情况来估算费用。
准备工作
在将敏感数据保护检查结果发送到 Data Catalog 之前,请执行以下操作:
- 第 1 步:设置结算功能。
- 第 2 步:创建新项目并填充新的 BigQuery 表。(可选)
- 第 3 步:启用 Data Catalog。
- 第 4 步:启用敏感数据保护。
下面各小节将详细介绍每个步骤。
第 1 步:设置结算功能
如果您还没有结算账号,必须先设置一个。
第 2 步:创建新项目并填充新的 BigQuery 表(可选)
如果您要为生产工作设置此功能,或者已经有要检查的 BigQuery 表,请打开包含该表的 Google Cloud 项目并跳到第 3 步。
如果您要试用此功能并希望检查测试数据,请创建一个新项目。要完成此步骤,您必须拥有 IAM 的 Project Creator 角色。详细了解 IAM 角色。
- 前往 Google Cloud 控制台中的新建项目页面。
- 在结算账号下拉列表中,选择项目的结算账号。
- 在组织下拉列表中,选择要在其中创建项目的组织。
- 在位置下拉列表中,选择要在其中创建项目的组织或文件夹。
- 点击创建以创建项目。
接下来,下载并存储样本数据:
- 转到 GitHub 上的 Cloud Functions 教程存储区。
- 选择一个包含示例数据的 CSV 文件,然后下载该文件。
- 接下来,前往 Google Cloud 控制台中的 BigQuery。
- 选择您的项目。
- 点击创建数据集。
- 点击创建表。
- 点击上传,然后选择您要上传的文件。
- 为表命名,然后点击创建表。
第 3 步:启用 Data Catalog
接下来,为包含要使用敏感数据保护检查的 BigQuery 表的项目启用 Data Catalog。
如需使用 Google Cloud 控制台启用 Data Catalog,请执行以下操作:
- 注册应用以使用 Data Catalog。
- 在注册页面上的创建项目下拉列表中,选择要用于 Data Catalog 的项目。
- 选择项目后,点击继续。
您的项目现已启用 Data Catalog。
第 4 步:启用敏感数据保护
为启用 Data Catalog 的同一项目启用敏感数据保护。
如需使用 Google Cloud 控制台启用敏感数据保护,请执行以下操作:
- 注册应用以使用敏感数据保护。
- 在注册页面上的创建项目下拉列表中,选择您在上一步中选择的那个项目。
- 选择项目后,点击继续。
您的项目现已启用敏感数据保护。
配置并运行敏感数据保护检查作业
您可以使用 Google Cloud 控制台或 DLP API 配置并运行敏感数据保护检查作业。
Data Catalog 标记模板存储在与 BigQuery 表相同的项目和区域中。如果您要检查其他项目中的表,则必须将 Data Catalog TagTemplate Owner (roles/datacatalog.tagTemplateOwner
) 角色授予 BigQuery 表所在项目中的敏感数据保护服务代理。
Google Cloud 控制台
如需使用敏感数据保护设置 BigQuery 表的检查作业,请执行以下操作:
在 Google Cloud 控制台的“敏感数据保护”部分中,前往创建作业或作业触发器页面。
输入敏感数据保护作业信息,然后点击继续以完成各个步骤:
在第 1 步:选择输入数据中,请于名称字段内输入值,为作业命名。在位置中,从存储类型菜单中选择 BigQuery,然后输入要检查的表的信息。系统已预先配置采样部分,以便针对您的数据运行示例检查。如果您有大量数据,可以调整限制行数的依据和最大行数字段以节省资源。如需了解详情,请参阅选择输入数据。
(可选)在第 2 步:配置检测中,配置要查找的数据类型(称为“infoTypes”)。在本演示中,请保留选中的默认 infoType。如需了解详情,请参阅配置检测。
在第 3 步:添加操作中,请启用保存到 Data Catalog。
(可选)对于第 4 步:时间安排,出于本演示的目的,请将菜单设置为无,以便检查仅运行一次。如需详细了解如何安排重复的检查作业,请参阅安排。
点击创建。作业会立即运行。
DLP API
在本部分中,您将配置并运行敏感数据保护检查作业。
您在此处配置的检查作业会指示敏感数据保护检查上文第 2 步中所述的示例 BigQuery 数据或您自己的 BigQuery 数据。您指定的作业配置也是您指示敏感数据保护将其检查结果保存到 Data Catalog 的位置。
第 1 步:记下您的项目标识符
前往 Google Cloud 控制台。
点击选择。
在请选择:下拉列表中,选择您已为其启用 Data Catalog 的组织。
在 ID 下,复制您要检查的数据所在项目的项目 ID。也就是上文设置存储区步骤中所述的项目。
在名称下方,点击项目以将其选中。
第 2 步:打开 API Explorer 并配置作业
在
dlpJobs.create
方法的参考页面上转到 API Explorer。为继续参考这些说明,请右键点击以下链接,然后在新标签页或窗口中打开:在parent (parent) 框中输入以下内容,其中的 project-id 是指您在上一步中记下的项目 ID:
projects/project-id
接下来,复制以下 JSON。在 API Explorer 中选择请求正文 (Request body) 字段的内容,然后粘贴 JSON 以替换相应内容。请务必将
project-id
、bigquery-dataset-name
和bigquery-table-name
占位符分别替换为实际的项目 ID、BigQuery 数据集和表名称。{ "inspectJob": { "storageConfig": { "bigQueryOptions": { "tableReference": { "projectId": "project-id", "datasetId": "bigquery-dataset-name", "tableId": "bigquery-table-name" } } }, "inspectConfig": { "infoTypes": [ { "name": "EMAIL_ADDRESS" }, { "name": "PERSON_NAME" }, { "name": "US_SOCIAL_SECURITY_NUMBER" }, { "name": "PHONE_NUMBER" } ], "includeQuote": true, "minLikelihood": "UNLIKELY", "limits": { "maxFindingsPerRequest": 100 } }, "actions": [ { "publishFindingsToCloudDataCatalog": {} } ] } }
如需详细了解可用的检查选项,请参阅检查存储空间和数据库中是否存在敏感数据。如需查看敏感数据保护可以检查的信息类型的完整列表,请参阅 InfoType 参考文档。
第 3 步:执行启动检查作业的请求
按照上述步骤配置作业后,点击执行 (Execute) 以发送请求。如果请求成功,系统会显示一个响应,其中包含一个成功代码和 JSON 对象,该对象指示您刚刚创建的敏感数据保护作业的状态。
对检查请求的响应包含检查作业 ID 作为 "name"
键,以及检查作业的当前状态作为 "state"
键。由于您刚刚提交了请求,因此作业在此刻的状态为 "PENDING"
。
查看敏感数据保护检查作业的状态
提交检查请求后,检查作业会立即开始。
Google Cloud 控制台
如需检查检查作业的状态,请执行以下操作:
在 Google Cloud 控制台中,打开“敏感数据保护”。
点击作业和作业触发器标签页,然后点击所有作业。
您刚刚运行的作业可能显示在列表顶部。查看状态列,确保其状态为完成。
您可以点击作业的作业 ID 以查看其结果。作业详情页面上列出的每个 infoType 检测器后面都会显示在内容中找到的匹配项数量。
DLP API
如需检查检查作业的状态,请执行以下操作:
点击以下按钮,在
dlpJobs.get
方法的参考页面上转到 API Explorer:在名称框中,输入检查请求的 JSON 响应中的作业名称,格式如下:
作业 ID 的格式为projects/project-id/dlpJobs/job-id
i-1234567890123456789
。如需提交请求,请点击执行。
如果响应 JSON 对象的 "state"
键指示作业为 "DONE"
,则表示检查作业已完成。
如需查看响应 JSON 的其余部分,请向下滚动页面。在 "result"
> "infoTypeStats"
下,列出的每种信息类型都应有相应的 "count"
。如果没有,请确保您输入的 JSON 准确无误,且数据的路径或位置正确无误。
检查作业完成后,您可以继续执行本指南的下一部分,在 Security Command Center 中查看检查结果。
在 Data Catalog 中查看敏感数据保护检查结果
您已指示敏感数据保护将其检查作业结果发送到 Data Catalog,因此您现在可以在 Data Catalog 界面中查看自动创建的标记和标记模板:
- 转到 Google Cloud 控制台中的 Data Catalog 页面。
- 搜索您检查过的表。
- 点击与您的表匹配的结果以查看该表的元数据。
下面的屏幕截图显示了示例表的 Data Catalog 元数据视图:
检查摘要
敏感数据保护的发现结果会包含在您检查的表的摘要表单中。此摘要包含 infoType 总数,以及有关检查作业的摘要数据(包括日期和作业资源 ID)。
系统会列出已检查的所有 infoTypes
。有结果的 infoType 显示的计数大于零。
清理
为避免系统因本主题中使用的资源而向您的 Google Cloud 账号收取费用,请根据您使用的是样本数据还是您自己的数据,执行下列操作之一:
- 样本数据:删除您创建的项目。
- 您自己的数据:删除您创建的敏感数据保护作业。
删除项目
为避免支付费用,最简单的方法是按照本主题中提供的说明删除您创建的项目。
如需删除项目,请执行以下操作:
- 在 Google Cloud 控制台中,转到“项目”页面。
- 在项目列表中,选择要删除的项目,然后点击删除项目。
- 在对话框中输入项目 ID,然后点击关停以删除项目。
使用此方法删除项目时,您创建的敏感数据保护作业和 Cloud Storage 存储桶也会一并删除,且大功告成。您不用再按照以下部分中的说明操作。
删除敏感数据保护作业或作业触发器
如果您检查了自己的数据,请删除刚刚创建的检查作业或作业触发器。
Google Cloud 控制台
在 Google Cloud 控制台中,打开“敏感数据保护”。
点击作业和作业触发器标签页,然后点击作业触发器标签页。
在要删除的作业触发器的操作列中,点击更多操作菜单(显示为纵向排列的三个点)
,然后点击删除。
(可选)您还可以删除运行过的作业的作业详情。 点击所有作业标签页,然后在要删除的作业的操作列中,点击更多操作菜单(显示为纵向排列的三个点)
,然后点击删除。DLP API
点击以下按钮,在
dlpJobs.delete
方法的参考页面上转到 API Explorer:在名称框中,输入检查请求的 JSON 响应中的作业名称,其格式如下:
作业 ID 的格式为projects/project-id/dlpJobs/job-id
i-1234567890123456789
。
如果您创建了其他检查作业,或者想确保已成功删除作业,可以列出所有现有作业:
点击以下按钮,在
dlpJobs.list
方法的参考页面上转到 API Explorer:在parent框中,按以下格式输入项目标识符,其中 project-id 是指您的项目标识符:
projects/project-id
点击执行。
如果响应中未列出任何作业,则表明您已删除所有作业。如果响应中列出了作业,请对这些作业重复上述删除步骤。
后续步骤
- 详细了解敏感数据保护中的
publishFindingsToCloudDataCatalog
操作。 - 详细了解如何根据敏感数据保护结果在 Data Catalog 中创建自定义标记或列级标记。
- 详细了解如何使用敏感数据保护检查存储库中是否存在敏感数据。
- 了解如何使用 Data Catalog。