本页介绍了如何在 Google Cloud 控制台中使用 Sensitive Data Protection 检查 Cloud Storage 目录并创建受支持文件的去标识化副本。
此操作有助于确保您在业务流程中使用的文件不包含敏感数据,例如个人身份信息 (PII)。敏感数据保护功能可以检查 Cloud Storage 存储桶中的文件是否包含敏感数据,并在单独的存储桶中创建这些文件的去标识化副本。然后,您可以在业务流程中使用去标识化副本。
如需详细了解在存储空间中对数据进行去标识化后会出现什么情况,请参阅存储空间中敏感数据的去标识化。
准备工作
本页面假定您满足以下条件:
您已启用结算功能。
您已启用敏感数据保护。
您有一个 Cloud Storage 存储桶,其中包含要去标识化的数据。
了解此操作的限制和注意事项。
存储空间检查需要以下 OAuth 范围:https://www.googleapis.com/auth/cloud-platform
。如需了解详情,请参阅对 DLP API 进行身份验证。
所需 IAM 角色
如果此操作的所有资源都在同一项目中,则服务代理上的 DLP API Service Agent 角色 (roles/dlp.serviceAgent
) 就足够了。拥有该角色后,您可以执行以下操作:
- 创建检查作业
- 读取输入目录中的文件
- 将去标识化文件写入输出目录
- 将转换详细信息写入 BigQuery 表
相关资源包括检查作业、去标识化模板、输入存储桶、输出存储桶和转换详情表。
如果您必须在单独的项目中拥有资源,请确保您项目的服务代理还具有以下角色:
- 输入存储桶或包含该存储桶的项目上的 Storage Object Viewer 角色 (
roles/storage.objectViewer
)。 - 输出存储桶或包含该存储桶的项目的 Storage Object Creator 角色 (
roles/storage.objectCreator
)。 - 转换详情表或包含该表的项目上的 BigQuery Data Editor 角色 (
roles/bigquery.dataEditor
)。
如需向服务代理授予角色,请参阅授予单个角色。您还可以在以下级别控制访问权限:
概览
如需创建 Cloud Storage 文件的去标识化副本,您可以配置一个检查作业,以便根据您指定的条件查找敏感数据。然后,在检查作业中,启用创建去标识化副本操作。您可以设置去标识化模板,以指定 Sensitive Data Protection 必须如何转换发现结果。如果您未提供任何去标识化模板,Sensitive Data Protection 会按照默认的去标识化行为中所述的方式转换发现结果。
如果您启用创建去标识化副本操作,默认情况下,敏感数据保护功能会转换扫描中包含的所有受支持的文件类型。不过,您可以将作业配置为仅转换部分受支持的文件类型。
可选:创建去标识化模板
如果您想控制发现结果的转换方式,请创建以下模板。这些模板提供了有关如何转换结构化文件、非结构化文件和图片中的发现结果的说明。
去标识化模板:用于非结构化文件(例如自由格式文本文件)的默认去标识化模板。此类去标识化模板不能包含记录转换,因为只有结构化内容支持此类转换。如果不存在此模板,敏感数据保护功能会使用 infoType 替换方法来转换非结构化文件。
结构化的去标识化模板:用于结构化文件(例如 CSV 文件)的去标识化模板。此去标识化模板可以包含记录转换。如果不存在此模板,Sensitive Data Protection 会使用您创建的默认去标识化模板。如果也未找到,敏感数据保护功能会使用 infoType 替换方法来转换结构化文件。
图片隐去模板:用于图片的去标识化模板。如果不存在此模板,敏感数据保护功能会使用黑盒来隐去图片中的所有发现结果。
了解如何创建去标识化模板。
创建包含去标识化操作的检查作业
在 Google Cloud 控制台中,前往创建作业或作业触发器页面。
输入敏感数据保护作业信息,然后点击继续以完成各个步骤。
以下部分介绍了如何填写该页面的相关部分。
选择输入数据
在选择输入数据部分,执行以下操作:
- 可选:在名称中,输入检查作业的标识符。
- 对于资源位置,选择全球或要存储检查作业的区域。
- 在 Location 中,选择 Google Cloud Storage。
- 在 网址(网址)部分,输入输入目录的路径。输入目录包含您要扫描的数据,例如
gs://input-bucket/folder1/folder1a
。如果您想以递归方式扫描输入目录,请在网址后面添加尾随斜杠,然后选择以递归方式扫描。 在抽样部分的抽样方法列表中,选择不抽样。
使用去标识配置的作业和作业触发器不支持抽样。
配置检测
在配置检测部分中,选择要检查的敏感数据类型。这些信息类型称为 infoTypes。您可以从预定义的 infoType 列表中进行选择,也可以选择已有的模板(如有)。如需了解详情,请参阅配置检测。
添加操作
在添加操作部分中,执行以下操作:
- 开启制作去标识化副本。
- 可选:对于去标识化模板,请输入默认去标识化模板的完整资源名称(如果您创建了此模板)。
- 可选:对于结构化的去标识化模板,请输入结构化文件去标识化模板的完整资源名称(如果您创建了此模板)。如果您未创建模板,Sensitive Data Protection 会使用您创建的默认模板。
- 可选:对于图片隐去模板,请输入图片隐去模板的完整资源名称(如果您创建了此模板)。
可选:如果您希望敏感数据保护功能将转换详情存储在 BigQuery 表中,请选择将转换详情导出到 BigQuery,然后填写以下信息:
- 项目 ID:包含 BigQuery 表的项目。
- 数据集 ID:包含 BigQuery 表的数据集。
- 表 ID:Sensitive Data Protection 必须将每个转换的详细信息存储在此表中。Sensitive Data Protection 会使用您提供的表 ID 创建此表。如果您未提供表 ID,系统会自动创建一个。
此表不会存储实际的去标识化内容。
将数据写入 BigQuery 表时,结算和配额用量将应用于包含目标表的项目。
在 Cloud Storage 输出位置中,输入您希望用于存储去标识化文件的 Cloud Storage 目录的网址。此目录不得与输入目录位于同一 Cloud Storage 存储桶中。
可选:在 File types 部分,选择要转换的文件类型。
如需详细了解您可以添加的其他操作,请参阅添加操作。
时间表
在时间表部分,指定您是否要将此作业设为周期性作业:
- 如需仅运行一次扫描,请将该字段设置为无。
- 如需安排定期运行扫描,请点击创建一个触发器来定期运行作业。
如需了解详情,请参阅时间安排。
审核
在时间表部分,查看作业配置,并根据需要修改作业。
点击创建。
如果您选择不安排作业,敏感数据保护功能会立即开始运行该作业。作业完成后,系统会将您重定向到作业详情页面,您可以在该页面查看检查和去标识化操作的结果。
如果您选择将转换详情导出到 BigQuery 表,系统会填充该表。其中包含 Sensitive Data Protection 进行的每项转换对应的一行。对于每个转换,详细信息包括说明、成功或错误代码、所有错误详情、转换的字节数、转换内容的位置,以及敏感数据保护功能进行转换的检查作业的名称。此表不包含实际的去标识化内容。
确认文件已去标识化
- 在作业详情页面上,点击配置标签页。
- 如需在输出目录中查看去标识化文件,请点击用于存储去标识化 Cloud Storage 数据的输出存储桶字段中的链接。
如需查看包含转换详情的 BigQuery 表,请点击转换详情字段中的链接。
如需了解如何查询 BigQuery 表,请参阅运行交互式查询。
后续步骤
- 详细了解存储中数据的去标识化流程。
- 了解如何使用 DLP API 对存储在 Cloud Storage 中的敏感数据进行去标识化。
- 完成 Creating a De-identified Copy of Data in Cloud Storage Codelab。
- 详细了解去标识化转换。
- 了解如何创建和安排检查作业。