本页面介绍敏感数据保护如何创建存储在 Cloud Storage 中的数据的去标识化副本。文中还列出了此操作的限制以及您在开始之前应该考虑的要点。
如需了解如何使用敏感数据保护创建 Cloud Storage 数据的去标识化副本,请参阅以下内容:
去标识化简介
去标识化是从数据中移除标识信息的过程。其目标是让用户能够在满足隐私权要求的同时,使用和分享个人信息(例如健康、财务或受众特征信息)。如需详细了解去标识化,请参阅对敏感数据进行去标识化。
如需深入了解敏感数据保护中的去标识化转换,请参阅转换参考文档。如需详细了解敏感数据保护如何遮盖图片中的敏感数据,请参阅图片检查和遮盖。
何时使用该功能
如果您在业务运营中使用的文件包含敏感数据(例如个人身份信息 [PII]),则此功能非常有用。借助此功能,您可以在业务流程中使用和共享信息,同时对敏感数据进行加密。
去标识化流程
本部分介绍了敏感数据保护在 Cloud Storage 中如何对内容进行去标识化的过程。
如需使用此功能,请创建检查作业 (DlpJob
),该作业配置为生成 Cloud Storage 文件的去标识化副本。敏感数据保护会扫描指定位置中的文件,并根据您的配置对其进行检查。在检查每个文件时,敏感数据保护会对符合敏感数据标准的任何数据进行去标识化,然后将内容写入新文件。新文件始终与原始文件具有相同的文件名。
它会将此新文件存储在您指定的输出目录中。如果您的扫描中包含文件,但没有数据符合您的去标识化条件,并且处理过程中没有错误,则系统会将该文件原封不动地复制到输出目录。
您设置的输出目录必须位于与包含输入文件的存储桶不同的 Cloud Storage 存储桶中。敏感数据保护会在输出目录中创建一个镜像输入目录的文件结构的文件结构。
例如,假设您设置了以下输入和输出目录:
- 输入目录:
gs://input-bucket/folder1/folder1a
- 输出目录:
gs://output-bucket/output-directory
在去标识化过程中,敏感数据保护会将去标识化的文件存储在 gs://output-bucket/output-directory/folder1/folder1a
中。
如果输出目录中存在与去标识化文件相同的文件名,则该文件会被覆盖。如果您不希望覆盖现有文件,请在执行此操作之前更改输出目录。 或者,您也可以考虑对输出存储桶启用对象版本控制。
无论是否发现敏感数据并对其进行了去标识化,原始文件的文件级访问权限控制列表 (ACL) 都会复制到新文件中。但是,如果输出存储桶仅针对统一存储桶级权限进行配置,而非精细(对象级)权限,则 ACL 不会复制到去标识化文件中。
下图显示了对存储在 Cloud Storage 存储桶中的四个文件的去标识化过程。无论敏感数据保护是否检测到任何敏感数据,系统都会复制每个文件。每个复制的文件的名称都与原始文件相同。
价格
如需了解价格信息,请参阅检查和转换存储空间中的数据。
支持的文件类型
敏感数据保护可以对以下文件类型组进行去标识化处理:
- CSV
- 映像
- 文本
- TSV
默认去标识化行为
如果您要定义敏感数据保护如何转换发现结果,则可以为以下类型的文件提供去标识化模板:
- 非结构化文件,例如包含自由格式文本的文本文件
- 结构化文件,例如 CSV 文件
- 图片
如果您未提供任何去标识化模板,敏感数据保护会按如下方式转换发现结果:
- 在非结构化和结构化文件中,敏感数据保护会将所有发现结果替换为相应的 infoType,如 InfoType 替换中所述。
- 在图片中,敏感数据保护使用黑盒覆盖所有发现结果。
限制和注意事项
在创建 Cloud Storage 数据的去标识化副本之前,请考虑以下几点。
磁盘空间
此操作仅支持存储在 Cloud Storage 中的内容。
此操作会在敏感数据保护检查每个文件时为其创建一个副本。而不会修改或移除原始内容。复制的数据将占用与原始数据大致相同的额外磁盘空间。
对存储空间的写入权限
由于敏感数据保护会创建原始文件的副本,因此项目的服务代理必须具有 Cloud Storage 输出存储桶的写入权限。
采样和设置发现结果限制
此操作不支持采样。具体而言,您无法限制敏感数据保护扫描和去标识化每个文件的数量。也就是说,如果您使用的是 Cloud Data Loss Prevention API,则无法在 DlpJob
的 CloudStorageOptions
对象中使用 bytesLimitPerFile
和 bytesLimitPerFilePercent
。
此外,您无法控制要返回的最大发现结果数量。如果您使用的是 DLP API,则无法在 DlpJob
中设置 FindingLimits
对象。
检查数据的要求
运行检查作业时,敏感数据保护首先会根据您的检查配置检查数据,然后再执行去标识化。它无法跳过检查过程。
使用文件扩展名的要求
敏感数据保护依靠文件扩展名来识别输入目录中文件的文件类型。它可能无法对没有文件扩展名的文件进行去标识化处理,即使这些文件属于受支持的类型也是如此。
跳过的文件
对存储空间中的文件进行去标识化时,敏感数据保护会跳过以下文件:
- 超过 60,000 KB 的文件。如果您的大型文件超出了此限制,请考虑将其拆分为较小的分块。
- 类型不受支持的文件。如需查看支持的文件类型的列表,请参阅本页面中的支持的文件类型。
- 您有意从去标识化配置中排除的文件类型。如果您使用的是 DLP API,则系统会跳过从
DlpJob
的Deidentify
操作的file_types_to_transform
字段中排除的文件类型。 - 遇到转换错误的文件。
去标识化表中输出行的顺序
无法保证去标识化表中的行顺序与原始表中的行顺序一致。如果要将原始表与去标识化表进行比较,则不能依赖行号来识别相应的行。如果要比较表的行,必须使用唯一标识符来标识每条记录。
瞬态键
如果您选择加密方法作为转换方法,则必须先使用 Cloud Key Management Service 创建封装密钥。然后,在去标识化模板中提供该密钥。不支持暂时(原始)密钥。
后续步骤
- 了解如何使用 DLP API 对存储在 Cloud Storage 中的敏感数据进行去标识化。
- 了解如何使用 Google Cloud 控制台对 Cloud Storage 中存储的敏感数据进行去标识化。
- 完成在 Cloud Storage 中创建数据的去标识化副本 Codelab。
- 了解如何检查存储空间中是否存在敏感数据。