使用 Google Cloud 控制台为 Cloud Storage 中存储的数据创建去标识化的副本

本页面介绍如何检查 Cloud Storage 目录,以及如何使用 Google Cloud 控制台中的敏感数据保护功能创建受支持文件的去标识化副本。

此操作有助于确保您在业务流程中使用的文件不包含个人身份信息 (PII) 等敏感数据。敏感数据保护可以检查 Cloud Storage 存储桶中的文件是否存在敏感数据,并在单独的存储桶中创建这些文件的去标识化副本。然后,您可以在业务流程中使用去标识化副本。

如需详细了解对存储空间中的数据进行去标识化处理时发生的情况,请参阅对存储空间中的敏感数据进行去标识化

准备工作

本页面假定您满足以下条件:

了解此操作的限制和注意事项

存储空间检查需要以下 OAuth 范围:https://www.googleapis.com/auth/cloud-platform。如需了解详情,请参阅向 DLP API 进行身份验证

所需 IAM 角色

如果此操作的所有资源都位于同一项目中,则服务代理的 DLP API Service Agent 角色 (roles/dlp.serviceAgent) 就足够了。利用该角色,您可以执行以下操作:

  • 创建检查作业
  • 读取输入目录中的文件
  • 将去标识化文件写入输出目录中
  • 在 BigQuery 表中写入转换详情

相关资源包括检查作业、去标识化模板、输入存储桶、输出存储桶和转换详情表。

如果这些资源必须位于不同的项目中,请确保您项目的服务代理还具有以下角色:

  • 输入存储桶或包含该角色的项目的 Storage Object Viewer 角色 (roles/storage.objectViewer)。
  • 输出存储桶或包含该存储桶的项目的 Storage Object Creator 角色 (roles/storage.objectCreator)。
  • 转换详情表或包含该表的项目的 BigQuery Data Editor 角色 (roles/bigquery.dataEditor)。

如需向服务代理(即由 Google 代管式服务帐号)授予角色,请参阅授予单个角色。您还可以在以下级别控制访问权限:

概览

如需创建 Cloud Storage 文件的去标识化副本,请配置一个检查作业,以根据您指定的条件查找敏感数据。然后,在检查作业中启用制作去标识化副本操作。您可以设置去标识化模板,指示敏感数据保护必须如何转换发现结果。如果您未提供任何去标识化模板,敏感数据保护会转换发现结果,如默认去标识化行为中所述。

如果您启用创建去标识化的副本操作,默认情况下,敏感数据保护会转换扫描中包含的所有受支持文件类型。不过,您可以将作业配置为仅转换一部分受支持的文件类型。

可选:创建去标识化模板

如果要控制发现结果的转换方式,请创建以下模板。这些模板提供了有关如何转换结构化文件、非结构化文件和图片中的发现结果的说明。

  • 去标识化模板:用于非结构化文件(例如自由格式的文本文件)的默认去标识化模板。此类去标识化模板不能包含记录转换,只有结构化内容支持这种转换。如果此模板不存在,敏感数据保护会使用 infoType 替换方法来转换非结构化文件。

  • 结构化去标识化模板:用于结构化文件(如 CSV 文件)的去标识化模板。此去标识化模板可以包含记录转换。如果此模板不存在,敏感数据保护会使用您创建的默认去标识化模板。如果这也不存在,敏感数据保护会使用 infoType 替换方法来转换结构化文件。

  • 图片隐去模板:要用于图片的去标识化模板。 如果此模板不存在,敏感数据保护会使用黑框遮盖图片中的所有发现结果。

了解如何创建去标识化模板

创建具有去标识化操作的检查作业

  1. 在 Google Cloud 控制台中,转到创建作业或作业触发器页面。

    转到“创建作业或作业触发器”

  2. 输入敏感数据保护作业信息,然后点击继续以完成每个步骤。

下面几部分将介绍如何填写页面的相关部分。

选择输入数据

选择输入数据部分,执行以下操作:

  1. 可选:在名称部分,输入检查作业的标识符。
  2. 对于资源位置,选择全球或您要存储检查作业的区域。
  3. 位置部分,选择 Google Cloud Storage
  4. 对于 网址,输入输入目录的路径。输入目录包含您要扫描的数据,例如 gs://input-bucket/folder1/folder1a。如果要以递归方式扫描输入目录,请在网址中添加尾部斜杠,然后选择递归扫描
  5. 采样部分的采样方法列表中,选择不采样

    配置了去标识化的作业和作业触发器不支持采样。

配置检测

配置检测部分中,选择要检查的敏感数据类型。这些信息称为 infoTypes。您可以从预定义 infoType 列表中进行选择,也可以选择已有的模板(如果有)。如需了解详情,请参阅配置检测

添加操作

添加操作部分中,执行以下操作:

  1. 开启制作去标识化的副本
  2. 可选:在去标识化模板部分,输入默认去标识化模板的完整资源名称(如果您已创建该模板)。
  3. 可选:在结构化去标识化模板部分,输入结构化文件的去标识化模板的完整资源名称(如果您已创建)。否则,敏感数据保护会使用您默认模板(如果您已创建)。
  4. 可选:对于图片隐去模板,输入图片隐去模板(如果您已创建)的完整资源名称。
  5. 可选:如果您希望敏感数据保护将转换详细信息存储在 BigQuery 表中,请选择将转换详细信息导出到 BigQuery,然后填写以下内容:

    • 项目 ID:包含 BigQuery 表的项目。
    • 数据集 ID:包含 BigQuery 表的数据集。
    • Table ID:敏感数据保护必须在该表中存储有关每个转换的详细信息。敏感数据保护会使用您提供的表 ID 创建此表。如果您未提供表 ID,系统会自动创建一个。

    此表不会存储实际的去标识化内容。

    将数据写入 BigQuery 表时,结算和配额用量将应用于目标表所属的项目。

  6. Cloud Storage 输出位置部分,输入要存储去标识化文件的 Cloud Storage 目录的网址。此目录不得与输入目录位于同一 Cloud Storage 存储桶中。

  7. 可选:在文件类型部分,选择要转换的文件类型。

如需详细了解您可以添加的其他操作,请参阅添加操作

安排

时间表部分中,指定是否要将此作业设为周期性作业:

  • 如果仅运行一次扫描,请将该字段设置为 None(无)。
  • 如需安排定期运行扫描,请点击创建一个触发器来定期运行作业

如需了解详情,请参阅时间安排

回顾

  1. 时间表部分中,查看作业配置,并根据需要修改作业。

  2. 点击创建

如果您选择不安排作业,敏感数据保护会立即开始运行该作业。作业完成后,系统会将您重定向到作业详情页面,您可以在其中查看检查和去标识化操作的结果。

如果您选择将转换详细信息导出到 BigQuery 表,则系统会填充该表。敏感数据保护所做的每项转换都会有一行数据在该文件中列出。对于每个转换,详细信息包括以下内容:说明、成功或错误代码、任何错误详情、转换的字节数、转换后的内容的位置以及敏感数据保护执行转换的检查作业的名称。此表不包含实际的去标识化内容。

确认文件已去标识化

  1. 作业详情页面上,点击配置标签页。
  2. 如需查看输出目录中的去标识化文件,请点击去标识化 Cloud Storage 数据的输出存储桶字段中的链接。
  3. 如需查看包含转换详情的 BigQuery 表,请点击转换详情字段中的链接。

    如需了解如何查询 BigQuery 表,请参阅运行交互式查询

后续步骤