使用 Sensitive Data Protection 扫描 BigQuery 数据

为了保证您的敏感数据得到妥善保护和管理，第一步往往是了解数据位于何处。了解这些信息有助于降低敏感信息泄露的风险，如信用卡号、医疗信息、社会保障号、驾照编号、地址、全名和公司特定的机密信息。定期扫描数据也有助于满足合规性要求，并确保当您的数据在使用中不断增长和变化时，始终遵循最佳做法。为帮助满足合规性要求，请使用 Sensitive Data Protection 检查 BigQuery 表，帮助保护您的敏感数据。

您可以通过以下两种方式扫描 BigQuery 数据：

敏感数据分析。Sensitive Data Protection 可以跨组织、文件夹或项目生成有关 BigQuery 数据的分析文件。数据分析文件包含有关表的指标和元数据，可帮助您确定敏感数据和高风险数据所在的位置。Sensitive Data Protection 会在项目、表和列级报告这些指标。如需了解详情，请参阅 BigQuery 数据的数据分析文件。
按需检查。Sensitive Data Protection 可以对单个表或列的子集执行深入检查，并将其发现结果报告到单元级。这种检查可以帮助您识别特定数据类型的各个实例，例如信用卡号码在表内单元格的精确位置。您可以通过Google Cloud 控制台中的 Sensitive Data Protection 页面、 Google Cloud 控制台中的 BigQuery 页面或通过 DLP API 以编程方式进行按需检查。

本页面介绍了如何通过 Google Cloud 控制台中的 BigQuery 页面进行按需检查。

Sensitive Data Protection 是一项全托管式服务，可让 Google Cloud 客户大规模地识别和保护敏感数据。Sensitive Data Protection 使用 150 多个预定义检测器来识别模式、格式和校验和。 Sensitive Data Protection 还提供一组工具，对数据进行去标识化处理，包括遮盖、词元化、假名化、日期偏移等，而且所有处理都不需要复制客户数据。

如需详细了解 Sensitive Data Protection，请参阅 Sensitive Data Protection 文档。

须知事项

熟悉 Sensitive Data Protection 价格以及如何控制 Sensitive Data Protection 费用。
启用 DLP API。

启用 API
确保创建 Sensitive Data Protection 作业的用户拥有适当的预定义 Sensitive Data Protection IAM 角色或足够的权限，能够运行 Sensitive Data Protection 作业。

使用 Google Cloud 控制台扫描 BigQuery 数据

如需扫描 BigQuery 数据，请创建用于分析表格的 Sensitive Data Protection 作业。您可以在 BigQuery Google Cloud 控制台中通过使用 Sensitive Data Protection 进行扫描选项快速扫描 BigQuery 表。

如需使用 Sensitive Data Protection 扫描 BigQuery 表，请执行以下操作：

在 Google Cloud 控制台中，前往 BigQuery 页面。

转到 BigQuery
在探索器面板中，展开您的项目和数据集，然后选择表。
点击导出 > 使用 Sensitive Data Protection 进行扫描。系统会在新的标签页中打开 Sensitive Data Protection 作业创建页面。
对于第 1 步：选择输入数据，输入作业 ID。位置部分的值会自动生成。系统还会自动配置采样部分，以便针对您的数据运行示例扫描，但您可以根据需要调整设置。
点击继续。
可选：对于第 2 步：配置检测，您可以配置要查找的数据类型，称为 infoTypes。

执行下列其中一项操作：
- 如需从预定义的 infoTypes 列表中进行选择，请点击管理 infoType。然后，选择要搜索的 infoType。
- 要使用现有的检查模板，请在模板名称字段中，输入模板的完整资源名称。
如需详细了解 infoTypes，请参阅 Sensitive Data Protection 文档中的 infoType 和 infoType 检测器。
点击继续。
可选：对于第 3 步：添加操作，启用保存到 BigQuery 以将 Sensitive Data Protection 发现结果发布到 BigQuery 表。如果未存储发现结果，完成的作业将仅包含有关发现结果的数量及其 infoTypes 的统计信息。将发现结果保存到 BigQuery 可以保存有关每一项发现结果的准确位置和置信度的详细信息。
可选：如果您在保存到 BigQuery 部分中启用了保存到 BigQuery，请输入以下信息：
- 项目 ID：用于存储结果的项目的 ID。
- 数据集 ID：用于存储结果的数据集的名称。
- 可选：表格 ID：用于存储结果的表格的名称。如果未指定表格 ID，系统会为新表格分配类似于 dlp_googleapis_date_1234567890 这样的默认名称。如果指定现有的表，系统会将结果附加到其中。
要包含检测到的实际内容，请启用包含引用。
点击继续。
可选：对于第 4 步：时间安排，您可以选择指定时间范围或创建一个触发器来定期运行作业以配置时间范围或时间安排。
点击继续。
可选：在审核页面上，检查您的作业的详细信息。如果需要，请调整以前的设置。
点击创建。
Sensitive Data Protection 作业完成后，系统会将您重定向至作业详情页面，并向您发送邮件通知。如需查看扫描结果，您可以直接前往作业详情页面，也可以在作业完成邮件中点击指向 Sensitive Data Protection 作业详情页面的链接。
如果您选择将 Sensitive Data Protection 发现结果发布到 BigQuery，请在作业详情页面上点击在 BigQuery 中查看发现结果，以便在 Google Cloud 控制台中打开表。您可以随后对表格执行查询，并分析发现结果。如需详细了解如何在 BigQuery 中查询结果，请参阅 Sensitive Data Protection 文档中的在 BigQuery 中查询 Sensitive Data Protection 发现结果。

后续步骤

详细了解如何使用 Sensitive Data Protection 检查 BigQuery 和其他存储库中的敏感数据。
详细了解如何对组织、文件夹或项目中的数据进行剖析。
阅读身份验证和安全博文掌管数据：使用 Sensitive Data Protection 对敏感信息进行去标识化和模糊化处理。

如果要对 Sensitive Data Protection 扫描发现的敏感数据执行遮盖或其他去标识化处理，请参阅以下内容：

检查文本以对敏感信息进行去标识化
Sensitive Data Protection 文档中的对敏感数据进行去标识化处理
GoogleSQL 中的 AEAD 加密概念，了解如何加密表中的个别值
使用 Cloud KMS 密钥保护数据，了解如何在 Cloud KMS 中创建和管理自己的加密密钥以加密 BigQuery 表格