对敏感 Cloud Storage 数据进行去标识化处理

本页面介绍敏感数据保护如何创建去标识化的 Cloud Storage 中存储的数据的副本。该指南还列出了 此操作以及您在开始操作前应考虑的要点。

如需了解如何使用 Sensitive Data Protection 创建 Cloud Storage 数据的去标识化副本,请参阅以下内容:

去标识化简介

去标识化是从中移除身份信息的过程。 数据。其目标是在满足隐私权要求的同时,使用和共享个人信息(例如健康、财务或受众特征信息)。如需详细了解去标识化,请参阅对敏感数据进行去标识化

如需详细了解敏感数据保护中的去标识化转换,请参阅转换参考文档。如需详细了解敏感数据保护功能如何隐去图片中的敏感数据,请参阅图片检查和隐去

何时使用此功能

如果您在 Google 文档、 您的业务操作包含敏感数据,例如 个人身份信息 (PII)。借助此功能,你可以使用和 在业务流程中共享信息,同时确保敏感信息 数据块被遮盖

去标识化过程

本部分介绍了敏感数据保护功能中针对 Cloud Storage 中内容的去标识化流程。

要使用此功能,您需要创建 检查作业 (DlpJob),配置为进行去标识化处理 Cloud Storage 文件的副本。 Sensitive Data Protection 会扫描指定位置中的文件,并根据您的配置对其进行检查。在检查每个文件时,敏感数据保护功能会去标识与您的敏感数据条件匹配的所有数据,然后将内容写入新文件。新文件始终包含 与原始文件相同的文件名。 它会将此新文件存储在您指定的输出目录中。如果扫描范围内包含某个文件,但没有任何数据符合去标识化条件,并且在处理过程中没有出现错误,则系统会将该文件原封不动地复制到输出目录。

您设置的输出目录必须位于与包含输入文件的存储桶不同的 Cloud Storage 存储桶中。在输出目录中 敏感数据保护服务会创建一个镜像文件结构的文件结构 创建目录

例如,假设您设置了以下输入和输出目录:

  • 输入目录:gs://input-bucket/folder1/folder1a
  • 输出目录:gs://output-bucket/output-directory

在去标识化期间,Sensitive Data Protection 会存储已去标识化的文件 在 gs://output-bucket/output-directory/folder1/folder1a 中。

如果输出目录中存在与 去标识化文件,该文件会被覆盖。如果您不希望覆盖现有文件,请先更改输出目录,然后再运行此操作。或者,您也可以考虑在输出存储桶上启用对象版本控制

原始文件的文件级访问权限控制列表 (ACL) 会复制到 新文件,而无论其是否发现敏感数据并对其进行了去标识化处理。 不过,如果输出存储桶仅配置了统一存储桶级权限,而未配置精细(对象级)权限,则 ACL 不会复制到去标识化文件。

下图显示了四个文件的去标识化过程 存储在 Cloud Storage 存储桶中无论敏感数据保护功能是否检测到任何敏感数据,系统都会复制每个文件。每个复制的文件都与原始文件同名。

对存储在 Cloud Storage 中的文件进行去标识化处理。
对存储在 Cloud Storage 中的文件进行去标识化(点击可放大)。

价格

有关价格信息,请参阅 检查和转换存储空间中的数据

支持的文件类型

Sensitive Data Protection 可以对以下文件类型群组进行去标识化处理:

  • CSV
  • 映像
  • 文本
  • TSV

默认去标识化行为

如果您想定义 Sensitive Data Protection 如何转换发现结果,可以为以下类型的文件提供去标识化模板

  • 非结构化文件,例如包含自由格式文本的文本文件
  • 结构化文件,例如 CSV 文件
  • 图片

如果您未提供任何去标识化模板,敏感数据保护功能会按如下方式转换发现结果:

  • 在非结构化和结构化文件中,Sensitive Data Protection 替换所有 及其对应的 infoType,如 InfoType 替换
  • 在图片中,敏感数据保护功能会用黑色方框遮盖所有发现结果。

限制和注意事项

在创建 Cloud Storage 数据的去标识化副本之前,请考虑以下几点。

磁盘空间

此操作仅支持存储在 Cloud Storage 中的内容。

此操作会在敏感数据保护检查每个文件的过程中创建一个副本。 但不会修改或移除原始内容。复制的数据将占用 与原始数据大致相同的额外磁盘空间。

对存储空间的写入权限

由于敏感数据保护功能会创建原始文件的副本,因此项目的服务代理必须对 Cloud Storage 输出存储桶拥有写入权限。

抽样和设置发现结果限制

此操作不支持抽样。具体而言,您无法限制 Sensitive Data Protection 对每个文件进行扫描和去标识化处理的范围。也就是说,如果您使用的是 Cloud Data Loss Prevention API,则无法在 DlpJobCloudStorageOptions 对象中使用 bytesLimitPerFilebytesLimitPerFilePercent

此外,您也无法控制要返回的最大发现结果数量。 如果您使用的是 DLP API,则无法在 DlpJob 中设置 FindingLimits 对象。

检查数据的要求

运行检查作业时,Sensitive Data Protection 首先会检查 数据,然后再执行 去标识化。无法跳过检查流程。

使用文件扩展名的相关要求

敏感数据保护依靠文件扩展名来识别文件类型 文件的名称。它可能无法对 具有文件扩展名,即使这些文件属于受支持的类型。

跳过的文件

在对存储空间中的文件进行去标识化处理时,敏感数据保护功能会跳过以下文件:

  • 文件大小超过 60,000 KB。如果您 包含超过此限制的大文件,请考虑将其拆分为较小的 数据块。
  • 文件类型不受支持。有关支持的文件类型的列表,请参阅 本页面上支持的文件类型
  • 您有意从去标识化配置中排除的文件类型。如果您使用的是 DLP API,则文件 从file_types_to_transform中排除的类型 DlpJobDeidentify 操作的 Deidentify 字段会被跳过。
  • 遇到转换错误的文件。

去标识化表中输出行的顺序

我们无法保证去标识化表格中的行顺序与原始表中的行顺序一致。如果您想比较 原始表转换为去标识化的表,那么您不能依赖行号来 识别相应的行。如果您打算比较表中的行, 必须使用唯一标识符标识每条记录。

瞬态密钥

如果您选择加密方法作为转换方法, 首先,使用 Cloud Key Management Service 创建封装密钥。然后,在去标识化模板中提供该密钥。不支持暂时性(原始)键。

后续步骤