使用 Cloud DLP 扫描 BigQuery 数据

为了保证您的敏感数据得到妥善保护和管理,第一步往往是了解数据位于何处。了解这些信息有助于降低敏感信息泄露的风险,如信用卡号、医疗信息、社会保障号、驾照编号、地址、全名和公司特定的机密信息。定期扫描数据也有助于满足合规性要求,并确保当您的数据在使用中不断增长和变化时,始终遵循最佳做法。为帮助满足合规性要求,您可以使用 Cloud Data Loss Prevention (Cloud DLP) 扫描 BigQuery 表格,保护您的敏感数据。

Cloud DLP 是一项完全托管式服务,让 Google Cloud 客户能够大规模地识别和保护敏感数据。Cloud DLP 使用 100 多个预定义检测器来识别模式、格式和校验和。它还提供一组工具,对数据进行去标识化处理,包括遮盖、令牌化、假名化、日期偏移等,而且所有处理都不需要复制客户数据。

如需详细了解 Cloud DLP,请参阅 Cloud DLP 文档。

准备工作

  1. 熟悉 Cloud DLP 价格以及如何控制 Cloud DLP 费用
  2. 启用 Cloud DLP API

    启用该 API

  3. 对于创建 Cloud DLP 作业的用户,请务必为其授予适当的预定义 Cloud DLP Cloud IAM 角色或足够的权限,以保证这些用户能够顺利运行 Cloud DLP 作业。

使用 Cloud Console 扫描 BigQuery 数据

如需扫描 BigQuery 数据,请创建执行表格分析的 Cloud DLP 作业。您可以在 BigQuery Cloud Console 中通过使用 DLP 进行扫描选项快速扫描 BigQuery 表格。

如需使用 Cloud DLP 扫描 BigQuery 表格,请执行以下操作:

  1. 在 Cloud Console 中打开 BigQuery 网页界面。
    转到 Cloud Console

  2. 资源部分中,展开项目和数据集,然后选择要扫描的 BigQuery 表格。

  3. 点击导出>使用 DLP 进行扫描(测试版)。此时 Cloud DLP 作业创建页面将在新标签页中打开。

  4. 对于第 1 步:选择输入数据,系统会自动生成名称和位置部分中的值。系统还会自动配置采样部分,以便针对您的数据运行示例扫描。您可以在限制行数的依据字段中选择行数百分比,从而调整样本中的行数。您还可以通过调整最大行数字段中的值来更改所采样的行数。

  5. 点击继续

  6. (可选)对于第 2 步:配置检测,您可以配置要查找的数据类型,称为 infoTypes。您可以从预定义的 infoTypes 列表中进行选择,也可以选择已有的模板(如有)。如需详细了解 infoTypes,请参阅 Cloud DLP 文档中的 InfoType 和 infoType 检测器

  7. 点击继续

  8. (可选)对于第 3 步:添加操作,启用保存到 BigQuery以将 Cloud DLP 发现结果发布到 BigQuery 表格。如果未存储发现结果,完成的作业将仅包含有关发现结果的数量及其 infoTypes 的统计信息。将发现结果保存到 BigQuery 可以保存有关每一次发现操作的准确位置和置信度的详细信息。

  9. (可选)如果您在保存到 BigQuery 部分中启用了保存到 BigQuery,请执行以下操作:

    • 对于项目 ID,请输入用于存储结果的项目的 ID。
    • 对于数据集 ID,请输入用于存储结果的数据集的名称。
    • (可选)对于表格 ID,请输入用于存储结果的表格的名称。如果未指定表格 ID,系统会为新表格分配类似于 dlp_googleapis_date_1234567890 这样的默认名称。如果您指定的是现有的表格,则系统会将发现结果附加到其中。
  10. 点击继续

  11. (可选)对于第 4 步:时间安排,您可以选择指定时间范围或创建一个触发器来定期运行作业以配置时间范围或时间安排。

  12. 点击继续

  13. (可选)在审核页面上,检查您的作业的详细信息。

  14. 点击创建

  15. Cloud DLP 作业完成后,您将被重定向到作业详情页面,系统会向您发送一封通知电子邮件。如需查看扫描结果,您可以直接前往作业详情页面,也可以在作业完成电子邮件中点击指向 Cloud DLP 作业详情页面的链接。

  16. 如果您选择将 Cloud DLP 发现结果发布到 BigQuery,请在作业详情页面上点击在 BigQuery 中查看发现结果,以便在 BigQuery 网页界面中打开相应表格。您可以随后对表格执行查询,并分析发现结果。如需详细了解如何在 BigQuery 中查询结果,请参阅 Cloud DLP 文档中的在 BigQuery 中查询 Cloud DLP 发现结果

后续步骤

如需详细了解如何使用 Cloud DLP 检查 BigQuery 和其他存储区中的敏感数据,请参阅 Cloud DLP 文档中的以下主题:

如果要对 Cloud DLP 扫描发现的敏感数据执行遮盖或其他去标识化处理,请参阅:

其他资源