本页面介绍敏感数据保护如何创建去标识化的 Cloud Storage 中存储的数据的副本。该指南还列出了 此操作以及您在开始操作前应考虑的要点。
如需了解如何使用 Sensitive Data Protection 创建 Cloud Storage 数据的去标识化副本,请参阅以下内容:
去标识化简介
去标识化是从中移除身份信息的过程。 数据。其目标是在满足隐私权要求的同时,使用和共享个人信息(例如健康、财务或受众特征信息)。如需详细了解去标识化,请参阅对敏感数据进行去标识化。
如需详细了解敏感数据保护中的去标识化转换,请参阅转换参考文档。如需详细了解敏感数据保护功能如何隐去图片中的敏感数据,请参阅图片检查和隐去。
何时使用此功能
如果您在 Google 文档、 您的业务操作包含敏感数据,例如 个人身份信息 (PII)。借助此功能,你可以使用和 在业务流程中共享信息,同时确保敏感信息 数据块被遮盖
去标识化过程
本部分介绍了敏感数据保护功能中针对 Cloud Storage 中内容的去标识化流程。
要使用此功能,您需要创建
检查作业 (DlpJob
),配置为进行去标识化处理
Cloud Storage 文件的副本。
Sensitive Data Protection 会扫描指定位置中的文件,并根据您的配置对其进行检查。在检查每个文件时,敏感数据保护功能会去标识与您的敏感数据条件匹配的所有数据,然后将内容写入新文件。新文件始终包含
与原始文件相同的文件名。
它会将此新文件存储在您指定的输出目录中。如果扫描范围内包含某个文件,但没有任何数据符合去标识化条件,并且在处理过程中没有出现错误,则系统会将该文件原封不动地复制到输出目录。
您设置的输出目录必须位于与包含输入文件的存储桶不同的 Cloud Storage 存储桶中。在输出目录中 敏感数据保护服务会创建一个镜像文件结构的文件结构 创建目录
例如,假设您设置了以下输入和输出目录:
- 输入目录:
gs://input-bucket/folder1/folder1a
- 输出目录:
gs://output-bucket/output-directory
在去标识化期间,Sensitive Data Protection 会存储已去标识化的文件
在 gs://output-bucket/output-directory/folder1/folder1a
中。
如果输出目录中存在与 去标识化文件,该文件会被覆盖。如果您不希望覆盖现有文件,请先更改输出目录,然后再运行此操作。或者,您也可以考虑在输出存储桶上启用对象版本控制。
原始文件的文件级访问权限控制列表 (ACL) 会复制到 新文件,而无论其是否发现敏感数据并对其进行了去标识化处理。 不过,如果输出存储桶仅配置了统一存储桶级权限,而未配置精细(对象级)权限,则 ACL 不会复制到去标识化文件。
下图显示了四个文件的去标识化过程 存储在 Cloud Storage 存储桶中无论敏感数据保护功能是否检测到任何敏感数据,系统都会复制每个文件。每个复制的文件都与原始文件同名。
价格
有关价格信息,请参阅 检查和转换存储空间中的数据。
支持的文件类型
Sensitive Data Protection 可以对以下文件类型群组进行去标识化处理:
- CSV
- 映像
- 文本
- TSV
默认去标识化行为
如果您想定义 Sensitive Data Protection 如何转换发现结果,可以为以下类型的文件提供去标识化模板:
- 非结构化文件,例如包含自由格式文本的文本文件
- 结构化文件,例如 CSV 文件
- 图片
如果您未提供任何去标识化模板,敏感数据保护功能会按如下方式转换发现结果:
- 在非结构化和结构化文件中,Sensitive Data Protection 替换所有 及其对应的 infoType,如 InfoType 替换。
- 在图片中,敏感数据保护功能会用黑色方框遮盖所有发现结果。
限制和注意事项
在创建 Cloud Storage 数据的去标识化副本之前,请考虑以下几点。
磁盘空间
此操作仅支持存储在 Cloud Storage 中的内容。
此操作会在敏感数据保护检查每个文件的过程中创建一个副本。 但不会修改或移除原始内容。复制的数据将占用 与原始数据大致相同的额外磁盘空间。
对存储空间的写入权限
由于敏感数据保护功能会创建原始文件的副本,因此项目的服务代理必须对 Cloud Storage 输出存储桶拥有写入权限。
抽样和设置发现结果限制
此操作不支持抽样。具体而言,您无法限制 Sensitive Data Protection 对每个文件进行扫描和去标识化处理的范围。也就是说,如果您使用的是 Cloud Data Loss Prevention API,则无法在 DlpJob
的 CloudStorageOptions
对象中使用 bytesLimitPerFile
和 bytesLimitPerFilePercent
。
此外,您也无法控制要返回的最大发现结果数量。
如果您使用的是 DLP API,则无法在 DlpJob
中设置 FindingLimits
对象。
检查数据的要求
运行检查作业时,Sensitive Data Protection 首先会检查 数据,然后再执行 去标识化。无法跳过检查流程。
使用文件扩展名的相关要求
敏感数据保护依靠文件扩展名来识别文件类型 文件的名称。它可能无法对 具有文件扩展名,即使这些文件属于受支持的类型。
跳过的文件
在对存储空间中的文件进行去标识化处理时,敏感数据保护功能会跳过以下文件:
- 文件大小超过 60,000 KB。如果您 包含超过此限制的大文件,请考虑将其拆分为较小的 数据块。
- 文件类型不受支持。有关支持的文件类型的列表,请参阅 本页面上支持的文件类型。
- 您有意从去标识化配置中排除的文件类型。如果您使用的是 DLP API,则文件
从
file_types_to_transform
中排除的类型DlpJob
的Deidentify
操作的Deidentify
字段会被跳过。 - 遇到转换错误的文件。
去标识化表中输出行的顺序
我们无法保证去标识化表格中的行顺序与原始表中的行顺序一致。如果您想比较 原始表转换为去标识化的表,那么您不能依赖行号来 识别相应的行。如果您打算比较表中的行, 必须使用唯一标识符标识每条记录。
瞬态密钥
如果您选择加密方法作为转换方法, 首先,使用 Cloud Key Management Service 创建封装密钥。然后,在去标识化模板中提供该密钥。不支持暂时性(原始)键。
后续步骤
- 了解如何使用 DLP API 对存储在 Cloud Storage 中的敏感数据进行去标识化。
- 了解如何使用 Google Cloud 控制台对存储在 Cloud Storage 中的敏感数据进行去标识化处理。
- 完成 Creating a De-identified Copy of Data in Cloud Storage Codelab。
- 了解如何检查存储空间是否存在敏感数据。