Cloud Data Loss Prevention (Cloud DLP) 现已成为敏感数据保护功能的一部分。API 名称保持不变：Cloud Data Loss Prevention API (DLP API)。如需了解构成敏感数据保护的服务，请参阅敏感数据保护概览。

此页面由 Cloud Translation API 翻译。

使用 Google Cloud 控制台创建存储在 Cloud Storage 中的数据的去标识化副本

本页介绍了如何在控制台中使用 Sensitive Data Protection 检查 Cloud Storage 目录，并创建受支持文件的去标识化副本。 Google Cloud

此操作有助于确保您在业务流程中使用的文件不包含敏感数据，例如个人身份信息 (PII)。敏感数据保护功能可以检查 Cloud Storage 存储分区中的文件是否包含敏感数据，并在单独的存储分区中创建这些文件的去标识化副本。然后，您可以在业务流程中使用去标识化副本。

如需详细了解在存储空间中对数据进行去标识化后会出现什么情况，请参阅存储空间中敏感数据的去标识化。

准备工作

本页面假定您满足以下条件：

您已启用结算功能。

了解如何启用结算功能
您已启用敏感数据保护。

启用敏感数据保护
您有一个 Cloud Storage 存储桶，其中包含要去标识化的数据。

了解此操作的限制和注意事项。

存储空间检查需要以下 OAuth 范围：https://www.googleapis.com/auth/cloud-platform。如需了解详情，请参阅对 DLP API 进行身份验证。

所需 IAM 角色

如果此操作的所有资源都在同一项目中，则服务代理上的 DLP API Service Agent 角色 (roles/dlp.serviceAgent) 就足够了。拥有该角色后，您可以执行以下操作：

创建检查作业
读取输入目录中的文件
将去标识化文件写入输出目录
将转换详细信息写入 BigQuery 表

相关资源包括检查作业、去标识化模板、输入存储分区、输出存储分区和转换详情表。

如果您必须在单独的项目中拥有资源，请确保您项目的服务代理还具有以下角色：

输入存储桶或包含该存储桶的项目上的 Storage Object Viewer 角色 (roles/storage.objectViewer)。
输出存储分区或包含该存储分区的项目的 Storage Object Creator 角色 (roles/storage.objectCreator)。
转换详情表或包含该表的项目上的 BigQuery Data Editor 角色 (roles/bigquery.dataEditor)。

如需向服务代理授予角色，请参阅授予单个角色。您还可以在以下级别控制访问权限：

概览

如需创建 Cloud Storage 文件的去标识化副本，您可以配置一个检查作业，以便根据您指定的条件查找敏感数据。然后，在检查作业中，启用创建去标识化副本操作。您可以设置去标识化模板，以指定 Sensitive Data Protection 必须如何转换发现结果。如果您未提供任何去标识化模板，Sensitive Data Protection 会按照默认的去标识化行为中所述的方式转换发现结果。

如果您启用创建去标识化副本操作，则默认情况下，敏感数据保护功能会转换扫描中包含的所有受支持的文件类型。不过，您可以将作业配置为仅转换部分受支持的文件类型。

可选：创建去标识化模板

如果您想控制发现结果的转换方式，请创建以下模板。这些模板提供了有关如何转换结构化文件、非结构化文件和图片中的发现结果的说明。

去标识化模板：用于非结构化文件（例如自由格式文本文件）的默认去标识化模板。此类去标识化模板不能包含记录转换，因为只有结构化内容支持此类转换。如果不存在此模板，敏感数据保护功能会使用 infoType 替换方法来转换非结构化文件。
结构化的去标识化模板：适用于结构化文件（例如 CSV 文件）的去标识化模板。此去标识化模板可以包含记录转换。如果不存在此模板，Sensitive Data Protection 会使用您创建的默认去标识化模板。如果也未找到，敏感数据保护功能会使用 infoType 替换方法来转换结构化文件。
图片隐去模板：用于图片的去标识化模板。如果未提供此模板，敏感数据保护功能会使用黑盒来隐去图片中的所有发现结果。

了解如何创建去标识化模板。

创建包含去标识化操作的检查作业

在 Google Cloud 控制台中，前往创建作业或作业触发器页面。

转到“创建作业或作业触发器”
输入敏感数据保护作业信息，然后点击继续以完成各个步骤。

以下部分介绍了如何填写该页面的相关部分。

选择输入数据

在选择输入数据部分，执行以下操作：

可选：在名称中，输入检查作业的标识符。
对于资源位置，选择全球或要存储检查作业的区域。
在 Location 中，选择 Google Cloud Storage。
在网址（网址）部分，输入输入目录的路径。输入目录包含您要扫描的数据，例如 gs://input-bucket/folder1/folder1a。如果您想以递归方式扫描输入目录，请在网址后面添加尾随斜杠，然后选择以递归方式扫描。
在抽样部分的抽样方法列表中，选择不抽样。

使用去标识配置的作业和作业触发器不支持抽样。

配置检测

在配置检测部分中，选择要检查的敏感数据类型。这些信息类型称为 infoTypes。您可以从预定义的 infoType 列表中进行选择，也可以选择已有的模板（如有）。如需了解详情，请参阅配置检测。

添加操作

在添加操作部分中，执行以下操作：

开启制作去标识化副本。
可选：对于去标识化模板，请输入默认去标识化模板的完整资源名称（如果您创建了此模板）。
可选：对于结构化的去标识化模板，请输入结构化文件的去标识化模板的完整资源名称（如果您创建了此模板）。如果您未创建模板，Sensitive Data Protection 会使用您创建的默认模板。
可选：对于图片隐去模板，请输入图片隐去模板的完整资源名称（如果您创建了此模板）。
可选：如果您希望敏感数据保护功能将转换详情存储在 BigQuery 表中，请选择将转换详情导出到 BigQuery，然后填写以下信息：
- 项目 ID：包含 BigQuery 表的项目。
- 数据集 ID：包含 BigQuery 表的数据集。
- 表 ID：Sensitive Data Protection 必须将每个转换的详细信息存储在此表中。Sensitive Data Protection 会使用您提供的表 ID 创建此表。如果您未提供表 ID，系统会自动创建一个。
此表不会存储实际的去标识化内容。

将数据写入 BigQuery 表时，结算和配额用量将应用于包含目标表的项目。
在 Cloud Storage 输出位置中，输入您希望存储去标识化文件的 Cloud Storage 目录的网址。此目录不得与输入目录位于同一 Cloud Storage 存储分区中。
可选：在 File types 部分，选择要转换的文件类型。

如需详细了解您可以添加的其他操作，请参阅添加操作。

时间表

在时间表部分，指定您是否要将此作业设为周期性作业：

如需仅运行一次扫描，请将该字段设置为无。
如需安排定期运行扫描，请点击创建一个触发器来定期运行作业。

如需了解详情，请参阅时间安排。

审核

在时间表部分，查看作业配置，并根据需要修改作业。
点击创建。

如果您选择不安排作业，敏感数据保护功能会立即开始运行该作业。作业完成后，系统会将您重定向到作业详情页面，您可以在该页面查看检查和去标识化操作的结果。

如果您选择将转换详情导出到 BigQuery 表，系统会填充该表。其中，每行对应 Sensitive Data Protection 进行的一次转换。对于每个转换，详细信息包括说明、成功或错误代码、所有错误详情、转换的字节数、转换内容的位置，以及敏感数据保护功能进行转换的检查作业的名称。此表不包含实际的去标识化内容。

确认文件已去标识化

在作业详情页面上，点击配置标签页。
如需在输出目录中查看去标识化文件，请点击用于存储去标识化 Cloud Storage 数据的输出存储分区字段中的链接。
如需查看包含转换详情的 BigQuery 表，请点击转换详情字段中的链接。

如需了解如何查询 BigQuery 表，请参阅运行交互式查询。

后续步骤

详细了解存储中数据的去标识化流程。
了解如何使用 DLP API 对存储在 Cloud Storage 中的敏感数据进行去标识化。
完成 Creating a De-identified Copy of Data in Cloud Storage Codelab。
详细了解去标识化转换。
了解如何创建和安排检查作业。