Cloud Data Loss Prevention (Cloud DLP) 现已成为敏感数据保护功能的一部分。API 名称保持不变：Cloud Data Loss Prevention API (DLP API)。如需了解构成敏感数据保护的服务，请参阅敏感数据保护概览。

检查 Google Cloud 存储空间和数据库是否存在敏感数据

如需正确管理存储区中存储的敏感数据，首先需要进行存储分类：确定存储区中敏感数据的位置、敏感数据的类型以及敏感数据的使用方法。这些信息可以帮助您正确设置访问控制和共享权限，并且可以作为持续监控计划的一部分。

敏感数据保护可以检测存储在 Cloud Storage 位置、Datastore 种类或 BigQuery 表中的敏感数据并对其进行分类。扫描 Cloud Storage 位置中的文件时，敏感数据保护支持扫描二进制文件、文本、图片、Microsoft Word、Microsoft Excel、Microsoft Powerpoint、PDF 和 Apache Avro 文件。无法识别类型的文件将作为二进制文件进行扫描。如需详细了解支持的文件类型，请参阅支持的文件类型。

如需检查存储空间和数据库中是否存在敏感数据，请指定数据的位置以及敏感数据保护应查找的敏感数据类型。敏感数据保护会启动一个作业，以检查给定位置的数据，然后提供在内容中找到的 infoTypes 的详细信息、可能性值等。

您可以通过以下两种方式设置存储空间和数据库检查：在 Google Cloud 控制台中使用敏感数据保护功能，通过 RESTful DLP API 进行检查，或以编程方式使用采用多种语言的敏感数据保护客户端库进行检查。

本主题包含以下内容：

设置 Google Cloud 存储区和数据库扫描的最佳做法。
有关使用 Google Cloud 控制台中的敏感数据保护设置检查扫描以及（可选）安排定期重复检查扫描的说明。
每种 Google Cloud 存储代码库类型的 JSON 和代码示例：（Cloud Storage、Datastore 模式的 Firestore (Datastore) 和 BigQuery）。
扫描作业配置选项的详细概览。
有关如何对每个成功的请求生成的扫描结果进行检索以及创建的扫描作业进行管理的说明。

最佳做法

确定扫描范围和优先级

请务必先评估您的资源并指定哪些资源的扫描优先级最高。刚开始时，可能有大量积压的数据需要分类，而且无法立即扫描所有数据。首先选择潜在风险最高的数据，例如经常访问、广泛访问或未知的数据。

确保敏感数据保护可以访问您的数据

敏感数据保护必须能够访问要扫描的数据。请确保敏感数据保护服务帐号有权读取您的资源。

限制首次扫描的范围

为达到最佳效果，请限制前几项作业的范围，而不是扫描所有数据。从一个表、一个存储桶或几个文件开始，同时使用抽样。通过限制首次扫描的范围，您可以更好地确定要启用哪些检测器以及可能需要哪些排除规则来减少假正例，让您的发现更有意义。如果您不需要所有 infoType，请避免启用所有 infoType，因为误报或无法使用的结果可能会让评估风险变得更加困难。虽然在某些情况下很有用，但像 DATE、TIME、DOMAIN_NAME 和 URL 这样的 infoType 会匹配广泛的结果，可能不适用于大型数据扫描。

对结构化文件（例如 CSV、TSV 或 Avro 文件）进行采样时，请确保样本大小足够大，以覆盖文件的完整标题和一行数据。如需了解详情，请参阅在结构化解析模式下扫描结构化文件。

安排扫描时间

使用敏感数据保护作业触发器每天、每周或每季度自动运行扫描并生成发现结果。这些扫描还可以配置为仅检查自上次扫描以来发生更改的数据，从而节省时间并降低费用。定期运行扫描可帮助您识别扫描结果中的趋势或异常值。

作业延迟时间

对于作业和作业触发器，无法保证服务等级目标 (SLO)。延迟时间受多种因素影响，包括要扫描的数据量、要扫描的存储代码库、要扫描的 infoType 的类型和数量、处理作业的区域，以及该区域中可用的计算资源。因此，无法提前确定检查作业的延迟时间。

如需帮助减少作业延迟时间，您可以尝试以下方法：

如果作业或作业触发器可以使用采样，请启用它。
避免启用不需要的 infoType。虽然以下请求在某些情况下很有用，但与不包含这些 infoType 的请求相比，这些 infoType 的运行速度可能会慢得多：
- PERSON_NAME
- FEMALE_NAME
- MALE_NAME
- FIRST_NAME
- LAST_NAME
- DATE_OF_BIRTH
- LOCATION
- STREET_ADDRESS
- ORGANIZATION_NAME
始终明确指定 infoType。请勿使用空的 infoType 列表。
如果可能，请使用其他处理区域。

如果您在尝试这些方法后仍然遇到作业的延迟问题，请考虑使用 content.inspect 或 content.deidentify 请求，而不是作业。这些方法在《服务等级协议》涵盖范围内。如需了解详情，请参阅敏感数据保护服务等级协议。

准备工作

本主题提供的说明做了以下假设：

您已启用结算功能。

了解如何启用结算功能
您已启用敏感数据保护。

启用敏感数据保护

存储分类需要以下 OAuth 范围：https://www.googleapis.com/auth/cloud-platform。如需了解详情，请参阅向 DLP API 进行身份验证。

检查 Cloud Storage 位置

您可以使用 Google Cloud 控制台、 DLP API（通过 REST 或 RPC 请求）或采用多种语言以编程方式使用客户端库对 Cloud Storage 位置设置敏感数据保护检查。如需了解以下 JSON 和代码示例中包含的参数，请参阅本主题后面的配置存储空间检查。

敏感数据保护依靠文件扩展名和媒体 (MIME) 类型来识别要扫描的文件类型和要应用的扫描模式。例如，敏感数据保护会以纯文本模式扫描 .txt 文件，即使该文件采用 CSV 格式（通常在结构化解析模式下进行扫描）也是如此。

如需设置使用敏感数据保护的 Cloud Storage 存储桶扫描作业，请执行以下操作：

控制台

本部分介绍如何检查 Cloud Storage 存储桶或文件夹。如果您还希望敏感数据保护创建数据的去标识化副本，请参阅使用 Google Cloud 控制台对 Cloud Storage 中存储的敏感数据进行去标识化。

在 Google Cloud 控制台的“敏感数据保护”部分中，前往创建作业或作业触发器页面。

转到“创建作业或作业触发器”

注意：您还可以直接从 Cloud Storage 浏览器启动敏感数据保护扫描。在要扫描的存储桶最右侧的列中，点击更多操作菜单（显示为纵向排列的三个点），然后点击使用敏感数据保护进行扫描。系统会在单独的标签页中打开敏感数据保护作业创建页面。
输入敏感数据保护作业信息，然后点击继续以完成每个步骤：
- 对于第 1 步：选择输入数据，请在名称字段中输入值，为作业命名。在位置中，从存储类型菜单中选择 Cloud Storage，然后输入要扫描的数据的位置。系统已预先配置采样部分，以便针对您的数据运行示例扫描。如果您有大量数据，则可以调整存储分区内要扫描的对象百分比字段以节省资源。如需了解详情，请参阅选择输入数据。
- （可选）对于第 2 步：配置检测，您可以配置要查找的数据类型，称为 infoTypes。您可以从预定义的 infoType 列表中进行选择，也可以选择已有的模板（如有）。如需了解详情，请参阅配置检测。
- （可选）对于第 3 步：添加操作，确保通过电子邮件发送通知已启用。
  
  启用保存到 BigQuery 以将敏感数据保护发现结果发布到 BigQuery 表。提供以下信息：
  - 对于项目 ID，请输入用于存储结果的项目的 ID。
  - 对于数据集 ID，请输入用于存储结果的数据集的名称。
  - （可选）对于表格 ID，请输入用于存储结果的表格的名称。如果未指定表格 ID，系统会为新表格分配类似于 dlp_googleapis_[DATE]_1234567890 这样的默认名称，其中 [DATE] 表示运行扫描的日期。如果您指定的是现有的表格，则系统会将发现结果附加到其中。
  - （可选）启用包含引用以包含与 infoType 检测器匹配的字符串。引号可能属于敏感数据，因此默认情况下，敏感数据保护不会将其包含在发现结果中。
  将数据写入 BigQuery 表时，结算和配额用量将应用于目标表所属的项目。
  
  如果您想要创建数据的去标识化副本，请启用制作去标识化副本。如需了解详情，请参阅使用 Google Cloud 控制台对存储在 Cloud Storage 中的敏感数据进行去标识化。
  
  您还可以将结果保存到 Pub/Sub、Security Command Center、Data Catalog 和 Cloud Monitoring。如需了解详情，请参阅添加操作。
- （可选）对于第 4 步：时间安排，如需仅运行一次扫描，请将菜单设置为无。如需安排定期运行扫描，请点击创建一个触发器来定期运行作业。如需了解详情，请参阅时间安排。
点击创建。
敏感数据保护作业完成后，您将被重定向到作业详情页面，并通过电子邮件通知您。您可以在作业详情页面上查看检查结果。
（可选）如果您选择将敏感数据保护发现结果发布到 BigQuery，请在作业详情页面上点击在 BigQuery 中查看发现结果，以在 BigQuery 网页界面中打开相应表格。然后，您可以查询该表并分析发现结果。如需详细了解如何在 BigQuery 中查询结果，请参阅在 BigQuery 中查询敏感数据保护发现结果。

协议

以下是可以通过 POST 请求发送到指定的敏感数据保护 REST 端点的 JSON 示例。此 JSON 示例演示了如何使用 DLP API 检查 Cloud Storage 存储分区。如需了解请求中包含的参数，请参阅本主题后面的配置存储空间检查。

您可以在 API Explorer 的 content.inspect 参考页面上快速尝试此操作：

转到 API Explorer

请注意，如果请求成功（即使是在 APIs Explorer 中），就会创建一个新的扫描作业。如需了解如何控制扫描作业，请参阅本主题后面的检索检查结果。如需了解有关如何使用 JSON 将请求发送到 DLP API 的一般信息，请参阅 JSON 快速入门。

JSON 输入：

POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/dlpJobs?key={YOUR_API_KEY}

{
  "inspectJob":{
    "storageConfig":{
      "cloudStorageOptions":{
        "fileSet":{
          "url":"gs://[BUCKET-NAME]/*"
        },
        "bytesLimitPerFile":"1073741824"
      },
      "timespanConfig":{
        "startTime":"2017-11-13T12:34:29.965633345Z",
        "endTime":"2018-01-05T04:45:04.240912125Z"
      }
    },
    "inspectConfig":{
      "infoTypes":[
        {
          "name":"PHONE_NUMBER"
        }
      ],
      "excludeInfoTypes":false,
      "includeQuote":true,
      "minLikelihood":"LIKELY"
    },
    "actions":[
      {
        "saveFindings":{
          "outputConfig":{
            "table":{
              "projectId":"[PROJECT-ID]",
              "datasetId":"[DATASET-ID]"
            }
          }
        }
      }
    ]
  }
}

JSON 输出：

{
  "name":"projects/[PROJECT-ID]/dlpJobs/[JOB-ID]",
  "type":"INSPECT_JOB",
  "state":"PENDING",
  "inspectDetails":{
    "requestedOptions":{
      "snapshotInspectTemplate":{

      },
      "jobConfig":{
        "storageConfig":{
          "cloudStorageOptions":{
            "fileSet":{
              "url":"gs://[BUCKET-NAME]/*"
            },
            "bytesLimitPerFile":"1073741824"
          },
          "timespanConfig":{
            "startTime":"2017-11-13T12:34:29.965633345Z",
            "endTime":"2018-01-05T04:45:04.240912125Z"
          }
        },
        "inspectConfig":{
          "infoTypes":[
            {
              "name":"PHONE_NUMBER"
            }
          ],
          "minLikelihood":"LIKELY",
          "limits":{

          },
          "includeQuote":true
        },
        "actions":[
          {
            "saveFindings":{
              "outputConfig":{
                "table":{
                  "projectId":"[PROJECT-ID]",
                  "datasetId":"[DATASET-ID]",
                  "tableId":"[NEW-TABLE-ID]"
                }
              }
            }
          }
        ]
      }
    }
  },
  "createTime":"2018-11-07T18:01:14.225Z"
}

Java

如需了解如何安装和使用用于敏感数据保护的客户端库，请参阅敏感数据保护客户端库。

如需向敏感数据保护服务进行身份验证，请设置应用默认凭据。如需了解详情，请参阅为本地开发环境设置身份验证。

检查 Google Cloud 存储空间和数据库是否存在敏感数据

最佳做法

确定扫描范围和优先级

确保敏感数据保护可以访问您的数据

限制首次扫描的范围

安排扫描时间

作业延迟时间

准备工作

检查 Cloud Storage 位置

控制台

协议

Java

Node.js

Python

Go

PHP

C#

检查 Datastore 种类

控制台

协议

Java

Node.js

Python

Go

PHP

C#

检查 BigQuery 表格

控制台

协议

Java

Node.js

Python

Go

PHP

C#

配置存储空间检查

限制检查的内容量

限制 Cloud Storage 扫描

C#

Go

Java

Node.js

PHP

Python

REST

限制 BigQuery 扫描

Go

Java

Node.js

PHP

Python

C#

REST

检索检查结果

后续步骤