对敏感 Cloud Storage 数据进行去标识化处理

本页介绍了敏感数据保护功能如何创建存储在 Cloud Storage 中的数据的去标识化副本。其中还列出了此操作的限制以及您在开始之前应考虑的事项。

如需了解如何使用 Sensitive Data Protection 创建 Cloud Storage 数据的去标识化副本,请参阅以下内容:

去标识化简介

去标识化是从数据中移除标识信息的过程。其目标是在满足隐私权要求的同时,使用和共享个人信息(例如健康、财务或受众特征信息)。如需详细了解去标识化,请参阅对敏感数据进行去标识化

如需详细了解敏感数据保护中的去标识化转换,请参阅转换参考文档。如需详细了解敏感数据保护功能如何隐去图片中的敏感数据,请参阅图片检查和隐去

何时使用此功能

如果您在业务运营中使用的文件包含敏感数据(例如个人身份信息 [PII]),此功能会非常有用。借助此功能,您可以在业务流程中使用和共享信息,同时隐去敏感数据。

去标识化流程

本部分介绍了敏感数据保护功能中针对 Cloud Storage 中内容的去标识化流程。

如需使用此功能,您需要创建一个检查作业 (DlpJob),并将其配置为创建 Cloud Storage 文件的去标识化副本。Sensitive Data Protection 会扫描指定位置中的文件,并根据您的配置对其进行检查。在检查每个文件时,Sensitive Data Protection 会去标识化与您的敏感数据条件匹配的所有数据,然后将内容写入新文件。新文件的文件名始终与原始文件相同。它会将此新文件存储在您指定的输出目录中。如果扫描范围内包含某个文件,但没有任何数据符合去标识化条件,并且在处理过程中没有出现错误,则系统会将该文件原封不动地复制到输出目录。

您设置的输出目录必须位于与包含输入文件的存储桶不同的 Cloud Storage 存储桶中。在输出目录中,敏感数据保护功能会创建一个镜像输入目录文件结构的文件结构。

例如,假设您设置了以下输入和输出目录:

  • 输入目录:gs://input-bucket/folder1/folder1a
  • 输出目录:gs://output-bucket/output-directory

在去标识化过程中,敏感数据保护会将去标识化文件存储在 gs://output-bucket/output-directory/folder1/folder1a 中。

如果输出目录中存在与去标识化文件同名的文件,系统会覆盖该文件。如果您不希望覆盖现有文件,请先更改输出目录,然后再运行此操作。或者,您也可以考虑在输出存储桶上启用对象版本控制

无论是否发现了敏感数据并进行了去标识化处理,系统都会将原始文件的文件级访问权限控制列表 (ACL) 复制到新文件。不过,如果输出存储桶仅配置了统一存储桶级权限,而未配置精细(对象级)权限,则 ACL 不会复制到去标识化文件。

下图展示了对存储在 Cloud Storage 存储桶中的四个文件进行去标识化的过程。无论敏感数据保护功能是否检测到任何敏感数据,系统都会复制每个文件。每个复制的文件都与原始文件同名。

对存储在 Cloud Storage 中的文件进行去标识化处理。
对存储在 Cloud Storage 中的文件进行去标识化处理(点击可放大)。

价格

如需了解价格信息,请参阅对存储中的数据进行检查和转换

支持的文件类型

Sensitive Data Protection 可以对以下文件类型群组进行去标识化处理:

  • CSV
  • Image
  • 文本
  • TSV

默认去标识化行为

如果您想定义 Sensitive Data Protection 如何转换发现结果,可以为以下类型的文件提供去标识化模板

  • 非结构化文件,例如包含自由格式文本的文本文件
  • 结构化文件,例如 CSV 文件
  • 图片

如果您未提供任何去标识化模板,Sensitive Data Protection 会按如下方式转换发现结果:

  • 在非结构化和结构化文件中,敏感数据保护功能会将所有发现结果替换为相应的 infoType,如InfoType 替换中所述。
  • 在图片中,敏感数据保护功能会用黑色方框遮盖所有发现结果。

限制和注意事项

在创建 Cloud Storage 数据的去标识化副本之前,请考虑以下几点。

磁盘空间

此操作仅支持存储在 Cloud Storage 中的内容。

此操作会在敏感数据保护功能检查每个文件时为其创建副本。它不会修改或移除原始内容。复制的数据将占用与原始数据大致相同的额外磁盘空间。

对存储空间的写入权限

由于敏感数据保护功能会创建原始文件的副本,因此项目的服务代理必须对 Cloud Storage 输出存储桶拥有写入权限。

抽样和设置发现限制

此操作不支持抽样。具体而言,您无法限制 Sensitive Data Protection 对每个文件进行扫描和去标识化处理的范围。也就是说,如果您使用的是 Cloud Data Loss Prevention API,则无法在 DlpJobCloudStorageOptions 对象中使用 bytesLimitPerFilebytesLimitPerFilePercent

此外,您无法控制返回的发现数量上限。如果您使用的是 DLP API,则无法在 DlpJob 中设置 FindingLimits 对象。

数据检查要求

运行检查作业时,敏感数据保护功能会先根据您的检查配置检查数据,然后再执行去标识化操作。无法跳过检查流程。

使用文件扩展名的相关要求

Sensitive Data Protection 依赖于文件扩展名来识别输入目录中文件的文件类型。它可能无法去标识不含文件扩展名的文件,即使这些文件属于受支持的类型也是如此。

跳过的文件

在对存储空间中的文件进行去标识化处理时,敏感数据保护功能会跳过以下文件:

  • 文件大小超过 60,000 KB。如果您有超出此限制的大型文件,请考虑将其拆分为较小的数据块。
  • 文件类型不受支持。如需查看支持的文件类型列表,请参阅此页面上的支持的文件类型
  • 您有意从去标识化配置中排除的文件类型。如果您使用的是 DLP API,系统会跳过您从 DlpJobDeidentify 操作的 file_types_to_transform 字段中排除的文件类型。
  • 遇到转换错误的文件。

去标识化表中的输出行顺序

我们无法保证去标识化表格中的行顺序与原始表中的行顺序一致。如果您想将原始表与去标识化表进行比较,则无法依赖行号来识别相应行。如果您打算比较表中的行,则必须使用唯一标识符来标识每个记录。

暂时性密钥

如果您选择加密方法作为转换方法,则必须先使用 Cloud Key Management Service 创建封装密钥。然后,在去标识化模板中提供该密钥。不支持暂时性(原始)键。

后续步骤