对敏感 Cloud Storage 数据进行去标识化处理

本页介绍了敏感数据保护功能如何创建存储在 Cloud Storage 中的数据的去标识化副本。其中还列出了此操作的限制以及您在开始之前应考虑的事项。

如需了解如何使用 Sensitive Data Protection 创建 Cloud Storage 数据的去标识化副本,请参阅以下内容:

去标识化简介

去标识化是从数据中移除标识信息的过程。其目标是在满足隐私权要求的同时,使用和共享个人信息(例如健康、财务或受众特征信息)。如需详细了解去标识化,请参阅对敏感数据进行去标识化

如需详细了解敏感数据保护中的去标识化转换,请参阅转换参考文档。如需详细了解敏感数据保护功能如何隐去图片中的敏感数据,请参阅图片检查和隐去

何时使用此功能

如果您在业务运营中使用的文件包含敏感数据(例如个人身份信息 [PII]),此功能会非常有用。借助此功能,您可以在业务流程中使用和共享信息,同时隐去敏感数据。

去标识化流程

本部分介绍了敏感数据保护功能中针对 Cloud Storage 中内容的去标识化流程。

如需使用此功能,您需要创建一个检查作业 (DlpJob),并将其配置为创建 Cloud Storage 文件的去标识化副本。Sensitive Data Protection 会扫描指定位置中的文件,并根据您的配置对其进行检查。在检查每个文件时,Sensitive Data Protection 会去标识化与您的敏感数据条件匹配的所有数据,然后将内容写入新文件。新文件的文件名始终与原始文件相同。它会将此新文件存储在您指定的输出目录中。如果扫描范围内包含某个文件,但没有任何数据符合去标识化条件,并且在处理过程中没有出现错误,则系统会将该文件原封不动地复制到输出目录。

您设置的输出目录必须位于与包含输入文件的存储桶不同的 Cloud Storage 存储桶中。在输出目录中,敏感数据保护功能会创建一个镜像输入目录文件结构的文件结构。

例如,假设您设置了以下输入和输出目录:

  • 输入目录:gs://input-bucket/folder1/folder1a
  • 输出目录:gs://output-bucket/output-directory

在去标识化过程中,敏感数据保护会将去标识化文件存储在 gs://output-bucket/output-directory/folder1/folder1a 中。

如果输出目录中存在与去标识化文件同名的文件,系统会覆盖该文件。如果您不希望覆盖现有文件,请先更改输出目录,然后再运行此操作。或者,您也可以考虑在输出存储桶上启用对象版本控制

无论是否找到了敏感数据并进行了去标识化处理,系统都会将原始文件的文件级访问权限控制列表 (ACL) 复制到新文件。不过,如果输出存储桶仅配置了统一存储桶级权限,而未配置精细(对象级)权限,则 ACL 不会复制到去标识化文件。

下图展示了对存储在 Cloud Storage 存储桶中的四个文件进行去标识化的过程。无论敏感数据保护功能是否检测到任何敏感数据,系统都会复制每个文件。每个复制的文件都与原始文件同名。

对存储在 Cloud Storage 中的文件进行去标识化处理。
对存储在 Cloud Storage 中的文件进行去标识化处理(点击可放大)。

价格

如需了解价格信息,请参阅对存储中的数据进行检查和转换

支持的文件类型

Sensitive Data Protection 可以对以下文件类型群组进行去标识化处理:

  • CSV
  • Image
  • 文本
  • TSV

默认去标识化行为

如果您想定义 Sensitive Data Protection 如何转换发现结果,可以为以下类型的文件提供去标识化模板

  • 非结构化文件,例如包含自由格式文本的文本文件
  • 结构化文件,例如 CSV 文件
  • 图片

如果您未提供任何去标识化模板,Sensitive Data Protection 会按如下方式转换发现结果:

  • 在非结构化和结构化文件中,敏感数据保护功能会将所有发现结果替换为相应的 infoType,如InfoType 替换中所述。
  • 在图片中,敏感数据保护功能会用黑色方框遮盖所有发现结果。

限制和注意事项

在创建 Cloud Storage 数据的去标识化副本之前,请考虑以下几点。

磁盘空间

此操作仅支持存储在 Cloud Storage 中的内容。

此操作会在敏感数据保护功能检查每个文件时为其创建副本。它不会修改或移除原始内容。复制的数据将占用与原始数据大致相同的额外磁盘空间。

对存储空间的写入权限

由于敏感数据保护功能会创建原始文件的副本,因此项目的服务代理必须对 Cloud Storage 输出存储桶拥有写入权限。

抽样和设置发现限制

此操作不支持抽样。具体而言,您无法限制 Sensitive Data Protection 对每个文件进行扫描和去标识化处理的范围。也就是说,如果您使用的是 Cloud Data Loss Prevention API,则无法在 DlpJobCloudStorageOptions 对象中使用 bytesLimitPerFilebytesLimitPerFilePercent

此外,您无法控制返回的发现数量上限。如果您使用的是 DLP API,则无法在 DlpJob 中设置 FindingLimits 对象。

数据检查要求

运行检查作业时,Sensitive Data Protection 会先根据您的检查配置检查数据,然后再执行去标识化操作。无法跳过检查流程。

使用文件扩展名的相关要求

Sensitive Data Protection 依赖于文件扩展名来识别输入目录中文件的文件类型。它可能无法去标识不含文件扩展名的文件,即使这些文件属于受支持的类型也是如此。

跳过的文件

在对存储空间中的文件进行去标识化处理时,敏感数据保护功能会跳过以下文件:

  • 文件大小超过 60,000 KB。如果您有超出此限制的大型文件,请考虑将其拆分为较小的数据块。
  • 文件类型不受支持。如需查看支持的文件类型列表,请参阅此页面上的支持的文件类型
  • 您有意从去标识化配置中排除的文件类型。如果您使用的是 DLP API,系统会跳过您从 DlpJobDeidentify 操作的 file_types_to_transform 字段中排除的文件类型。
  • 遇到转换错误的文件。

去标识化表中的输出行顺序

我们无法保证去标识化表格中的行顺序与原始表中的行顺序一致。如果您想将原始表与去标识化表进行比较,则无法依赖行号来识别相应行。如果您打算比较表中的行,则必须使用唯一标识符来标识每个记录。

暂时性密钥

如果您选择加密方法作为转换方法,则必须先使用 Cloud Key Management Service 创建封装密钥。然后,在去标识化模板中提供该密钥。不支持暂时性(原始)键。

后续步骤