此页面由 Cloud Translation API 翻译。

在单个项目中分析 BigQuery 数据

本页面介绍如何在项目级配置 BigQuery 数据发现。如果要分析组织或文件夹，请参阅分析组织或文件夹中的 BigQuery 数据。

如需详细了解发现服务，请参阅数据配置文件。

如需开始分析数据，您需要创建扫描配置。

准备工作

确保您的项目已启用 Cloud Data Loss Prevention API：
1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
  
  Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.
  
  Go to project selector
2. Make sure that billing is enabled for your Google Cloud project.
3. Enable the required API.
  Enable the API
确认您拥有在项目级别配置数据配置文件所需的 IAM 权限。
在要分析数据的每个区域中，都必须有一个检查模板。如果要为多个区域使用同一个模板，可以使用存储在 global 区域的模板。如果组织政策阻止您创建 global 检查模板，您必须为每个区域设置一个专用检查模板。如需了解详情，请参阅数据驻留注意事项。

此任务仅允许在 global 区域中创建检查模板。如果您需要一个或多个区域专用的检查模板，则必须在执行此任务之前创建这些模板。
您可以将敏感数据保护配置为在发生特定事件时向 Pub/Sub 发送通知，例如，当敏感数据保护分析新表时。如果要使用此功能，您必须先创建 Pub/Sub 主题。

创建扫描配置

转到创建扫描配置页面。

转到“创建扫描配置”
转到您的项目。在工具栏中，点击项目选择器并选择您的项目。

以下部分详细介绍了创建扫描配置页面中的步骤。每部分末尾，点击继续。

选择发现类型

选择 BigQuery。

选择范围

执行下列其中一项操作：

如果要在测试模式下扫描单个表，请选择扫描一个表（测试模式）。

系统会显示可用的可用表扫描数。免费表扫描仅适用于大小不超过 1 TB 的表。对于每个表，您只能有一个表级扫描配置。如需了解详情，请参阅在测试模式下对表进行性能分析。

填写要分析的表的详细信息。
如果要执行标准项目级性能剖析，请选择扫描整个项目。

管理时间表

如果默认分析频率符合您的需求，您可以跳过创建扫描配置页面的此部分。如果您想对所有数据或某些数据子集的分析频率进行精细调整，此部分会非常有用。如果您不希望对某些表进行分析，或者希望只对表进行一次分析，以后不再进行分析，这样做也很有用。

在本部分中，您将创建过滤条件，以指定您感兴趣的特定数据子集。对于这些子集，您可以定义敏感数据保护是否应分析表以及分析频率。此外，您还可以指定哪些更改类型会导致表重新进行分析。最后，指定子集中的每个表必须满足的任何条件，敏感数据保护功能才能开始对表进行分析。

如需对分析频率进行精细调整，请按以下步骤操作：

点击添加时间表。
在过滤条件部分中，您定义一个或多个过滤条件，用于指定时间表范围内的表。

请至少指定以下其中一项：
- 项目 ID 或用于指定一个或多个项目的正则表达式。
- 数据集 ID 或用于指定一个或多个数据集的正则表达式。
- 表格 ID 或用于指定一个或多个表的正则表达式。
正则表达式必须遵循 RE2 语法。

例如，如果您希望在过滤条件中包含某个数据集内的所有表，请指定该数据集的 ID，并将其他两个字段留空。

如果您想添加更多过滤条件，请点击添加过滤条件，然后重复此步骤。
点击频率。
在频率部分，指定敏感数据保护是否应分析您在过滤器中定义的表；如果需要分析，指定的频率：
- 如果您不希望对表进行性能分析，请关闭对表进行性能分析。
- 如果您希望至少对表进行一次分析，请使对表进行性能分析保持启用状态。
  
  在本部分的后续字段中，您可以指定系统是否应重新分析数据，以及哪些事件应触发重新分析操作。如需了解详情，请参阅生成数据分析文件的频率。
  1. 对于架构更改时，指定敏感数据保护在上次分析后检查所选表是否具有架构更改的频率。系统只会对存在架构更改的表重新进行分析。
  2. 对于架构更改的类型，指定哪些类型的架构更改应触发重新分析操作。选择以下选项之一：
    - 新列：重新分析获得新列的表。
    - 已移除列：重新分析已移除列的表。
    例如，假设您的一些表每天都有新列，并且每次都需要分析其内容。您可以将架构更改时设置为每日重新分析，并将架构更改类型设置为新列。
  3. 对于当表更改时，指定敏感数据保护应以什么样的频率检查所选表在上次分析后是否发生任何更改。系统只会对发生更改的表重新进行分析。表更改的示例包括行删除和架构更改。
    您选择的值必须与您在架构更改时字段中设置的值相同或小于该值。
  4. 对于当检查模板更改时，指定您是否希望在关联的检查模板更新时重新分析数据，以及如果需要，多久重新对其进行分析。
    注意：您可以在本页面的选择检查模板步骤中指定要使用的检查模板。
    
    发生以下任一情况时，系统都会检测到检查模板更改：
    - 检查模板的名称会在扫描配置中发生变化。
    - 检查模板的 updateTime 会发生变化。
点击条件。
在条件部分中，指定过滤条件中定义的表必须满足哪些条件才能进行敏感数据保护分析。如果您设置了最低条件和时间条件，则 Sensitive Data Protection 仅会分析同时满足这两种类型条件的表。
- 最低条件：如果您希望延迟对表进行分析，直到表具有足够多的行或达到特定的存在时间，则这些条件非常有用。启用要应用的条件，并指定最小行数或时长。
- 时间条件：如果您不想分析旧表，则此条件非常有用。开启时间条件，然后选择日期和时间。在该日期当天或之前创建的任何表都不会进行分析。
假设您具有以下配置：
- 最低条件
  - 行数下限：10 行
  - 时长下限：24 小时
- 时间条件
  - 时间戳：2022 年 5 月 4 日晚上 11:59
在这种情况下，敏感数据保护会排除 2022 年 5 月 4 日晚上 11:59 当天或之前创建的任何表。在此日期和时间之后创建的表中，敏感数据保护仅分析具有 10 行或存在时间至少 24 小时的表。
在要分析的表部分中，根据您要分析的表类型，选择以下选项之一：
- 分析所有表：如果您希望敏感数据保护分析与您的过滤条件和条件匹配的所有类型的表，请选择此选项。
  
  对于不受支持的表类型，敏感数据保护功能仅会生成部分填充的配置文件。此类配置文件会显示错误，指明它们所属的表不受支持。如果您希望在看到错误消息后仍看到部分性能剖析文件，请选择此选项。
  
  当 Sensitive Data Protection 添加对新表类型的支持时，它会在下一次预定的运行期间完全重新分析该类型的表。
- 分析支持的表：如果您希望敏感数据保护仅分析与您的过滤条件和条件匹配的受支持表，请选择此选项。不受支持的表不会包含部分分析。
- 分析特定表类型：如果您希望敏感数据保护仅分析您选择的表类型，请选择此选项。在随即显示的列表中，选择一种或多种类型。
  
  当 Sensitive Data Protection 添加对新表类型的支持时，它不会自动分析该类型的表。如需分析新支持的表类型，您必须修改扫描配置并选择这些类型。
如果您没有选择任何选项，敏感数据保护将仅分析 BigQuery 表并显示不受支持的表的错误。

数据分析的价格因要分析的表类型而异。如需了解详情，请参阅数据分析价格。
点击完成。
如果要添加更多时间表，请点击添加时间表，然后重复上述步骤。
如需根据优先级对时间表重新排序，请使用向上箭头和向下箭头。例如，如果两个不同时间表中的过滤条件与表 A 匹配，则优先级列表中较高的时间表优先级更高。

列表中的最后一个时间表始终是标记为默认时间表的时间表。此默认时间表涵盖项目中与您创建的任何时间表都不匹配的表。此默认时间表遵循系统默认性能分析频率。
如果您要调整默认时间表，请点击 修改时间表，然后根据需要调整设置。

选择检查模板

根据您希望提供检查配置的方式，选择以下选项之一。无论您选择哪个选项，敏感数据保护都会在存储该数据的区域扫描您的数据。也就是说，您的数据不会离开其来源区域。

方法 1：创建检查模板

如果您要在 global 区域中创建新的检查模板，请选择此选项。

点击创建新的检查模板。
可选：如需修改默认的 infoType 选择，请点击管理 infoType。

如需详细了解如何管理内置和自定义 infoType，请参阅通过 Google Cloud 控制台管理 infoType。

您必须至少选择一个 infoType 才能继续。
可选：通过添加规则集并设置置信度阈值，进一步配置检查模板。如需了解详情，请参阅配置检测。

当敏感数据保护功能创建扫描配置时，它会将这个新的检查模板存储在 global 区域中。

方法 2：使用现有检查模板

如果您想使用现有检查模板，请选择此选项。

点击选择现有的检查模板。
输入要使用的检查模板的完整资源名称。区域字段会自动填充存储检查模板的区域的名称。

您输入的检查模板必须与要分析的数据位于同一区域。为了遵循数据驻留，敏感数据保护不会在其自己的区域之外使用检查模板。

要查找检查模板的完整资源名称，请按以下步骤操作：
1. 转到检查模板列表。系统会在另一个标签页中打开此页面。
  
  转到检查模板
2. 切换到包含您要使用的检查模板的项目。
3. 在模板标签页上，点击要使用的模板的 ID。
4. 在打开的页面上，复制模板的完整资源名称。完整资源名称采用以下格式：
```
projects/PROJECT_ID/locations/REGION/inspectTemplates/TEMPLATE_ID
```
5. 在创建扫描配置页面的模板名称字段中，粘贴模板的完整资源名称。
如果您的数据位于其他区域，并且您有一个要用于该区域的检查模板，请按以下步骤操作：
1. 点击添加检查模板。
2. 输入检查模板的完整资源名称。
针对具有专用检查模板的每个区域重复上述步骤。
可选：添加存储在 global 区域的检查模板。对于您没有专用检查模板的区域中的数据，敏感数据保护功能会自动使用该模板。

注意：如果您不添加存储在 global 区域的检查模板，敏感数据保护功能将无法分析没有专用检查模板的区域中的数据。如需了解详情，请参阅数据驻留注意事项。

添加操作

在以下部分中，您将指定希望敏感数据保护在生成数据分析文件后执行的操作。

如需了解其他 Google Cloud 服务可能会因配置操作而向您收费，请参阅导出数据配置文件的价格。

发布到 Security Command Center

通过此操作，您可以将表数据分析文件经过计算的数据风险和敏感度级别发送到 Security Command Center。

Security Command Center 是 Google Cloud 的集中式漏洞和威胁报告服务。在 Security Command Center 中为漏洞和威胁发现结果分类并制定响应计划时，您可以使用数据分析结果中的数据分析。

您必须在组织级别激活 Security Command Center，然后才能执行此操作。在组织级别启用 Security Command Center，即可从集成服务（如敏感数据保护）中流出发现结果。敏感数据保护可与 Security Command Center 标准方案和高级方案搭配使用。

如果未在组织级层激活 Security Command Center，则 Sensitive Data Protection 发现结果不会显示在 Security Command Center 中。如需了解详情，请参阅检查 Security Command Center 的激活级别。

如需将数据分析文件结果发送到 Security Command Center，请确保启用发布到 Security Command Center 选项。

如需了解详情，请参阅将数据配置文件发布到 Security Command Center。

将数据配置文件副本保存到 BigQuery

开启将数据分析副本保存到 BigQuery 可以保留生成的所有配置文件的已保存副本或历史记录。这样做对于创建审核报告和直观呈现数据分析文件非常有用。您也可以将这些信息加载到其他系统中。

此外，无论数据位于哪个区域，此选项都允许您在一个视图中查看所有数据分析文件。如果您关闭此选项，仍然可以在信息中心内查看数据分析文件。但是，在信息中心内，您一次只能选择一个区域，并且只能查看该区域的数据分析文件。

如需将数据分析文件的副本导出到 BigQuery 表，请按以下步骤操作：

开启将数据配置文件副本保存到 BigQuery。
输入要保存数据配置文件的 BigQuery 表的详细信息：
- 对于项目 ID，输入要将数据分析文件导出到的目标现有项目的 ID。
- 对于数据集 ID，输入要导出到的项目中的现有数据集的名称。
- 在 Table ID 部分，输入要将数据配置文件导出到的 BigQuery 表的名称。如果您尚未创建此表，敏感数据保护功能会使用您提供的名称自动为您创建该表。

敏感数据保护会在您开启此选项之后开始导出配置文件。在启用导出功能之前生成的配置文件不会保存到 BigQuery。

发布到 Pub/Sub

启用发布到 Pub/Sub 后，您可以根据分析结果执行程序化操作。您可以使用 Pub/Sub 通知来开发工作流，以捕获并修复具有重大数据风险或敏感度的发现结果。

如需向 Pub/Sub 主题发送通知，请按以下步骤操作：

启用发布到 Pub/Sub。

系统会显示一个选项列表。每个选项都描述了一个导致敏感数据保护向 Pub/Sub 发送通知的事件。
选择应触发 Pub/Sub 通知的事件。

如果您选择每次更新配置文件时都发送 Pub/Sub 通知，敏感数据保护会在以下表级指标发生更改时发送通知：
- 数据风险
- 敏感度
- 预测的 infoType
- 其他 infoType
- 公有云
- 加密
对于您选择的每个事件，请按以下步骤操作：
1. 输入主题的名称。名称必须采用以下格式：
```
projects/PROJECT_ID/topics/TOPIC_ID
```
  替换以下内容：
  - PROJECT_ID：与 Pub/Sub 主题关联的项目的 ID。
  - TOPIC_ID：Pub/Sub 主题的 ID。
2. 指定是在通知中包含完整的表分析，还是仅包含要分析的表的完整资源名称。
3. 设置敏感数据保护功能发送通知所必须满足的最低数据风险和敏感度级别。
4. 指定是只需满足数据风险和敏感度条件中的一个还是同时满足这两个条件。例如，如果您选择 AND，则在敏感数据保护功能发送通知之前，必须同时满足数据风险和敏感度条件。

注意：与您的项目关联的服务代理必须具有 Pub/Sub 主题的发布权限。例如，Pub/Sub Publisher 角色 (roles/pubsub.publisher) 就是具有发布访问权限的角色。如果 Pub/Sub 主题存在配置或权限问题，敏感数据保护会在最多两周内重新尝试发送 Pub/Sub 通知。两周后，通知将会被舍弃。

以标记形式发送到 Dataplex

通过此操作，您可以根据数据分析文件中的数据分析在 Dataplex 中创建标记。此操作仅适用于新的和更新后的商家资料。未更新的现有配置文件不会发送到 Dataplex。

Dataplex 是一项 Google Cloud 服务，它可以统一分布式数据，并自动对该数据进行数据管理和治理。启用此操作后，系统会根据从数据分析中收集的数据分析在 Dataplex 中自动标记您分析的表。然后，您可以在组织和项目中搜索包含特定标记值的表。

如需将数据分析文件发送到 Dataplex，请确保已启用以标记形式发送到 Dataplex 选项。

如需了解详情，请参阅根据数据分析文件中的数据分析标记 Dataplex 中的表。

设置用于存储配置的位置

点击资源位置列表，然后选择要存储此扫描配置的区域。您稍后创建的所有扫描配置也将存储在此位置。

您选择存储扫描配置的位置不会影响要扫描的数据。此外，它也不会影响数据分析文件的存储位置。系统会在存储该数据的区域扫描您的数据。如需了解详情，请参阅数据驻留注意事项。

检查并创建

如果您希望确保在创建扫描配置后不会自动启动分析，请选择在暂停模式下创建扫描。

此选项在以下情况下很有用：
- 您已选择将数据配置文件保存到 BigQuery，并希望确保服务代理拥有对输出表的写入权限。
- 您配置了 Pub/Sub 通知，并希望向服务代理授予发布权限。
检查设置，然后点击创建。

敏感数据保护会创建扫描配置，并将其添加到发现扫描配置列表中。

如需查看或管理扫描配置，请参阅管理扫描配置。

如果您的服务代理具有访问和分析您的数据所需的角色，那么在您创建扫描配置或恢复已暂停的配置后，敏感数据保护会很快开始扫描您的数据。否则，当您查看扫描配置详细信息时，敏感数据保护功能会显示错误。

后续步骤

了解如何估算单个项目中性能剖析数据的费用。

了解如何查看数据分析文件。

了解如何管理扫描配置。

了解如何接收和解析由数据分析器发布的 Pub/Sub 消息。

了解如何排查数据分析文件的问题。