已知问题

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

本页面列出了 Cloud DLP 的已知问题,以及可以避免或解决以下问题的方法。

BigQuery 扫描

本部分介绍您在检查分析 BigQuery 数据时可能遇到的问题。

检查和剖析操作常见问题

以下问题适用于 BigQuery 检查和分析操作。

无法扫描具有行级安全性的行

行级安全政策可能会阻止 Cloud DLP 检查和剖析受保护的 BigQuery 表。如果您对 BigQuery 表应用了行级安全政策,我们建议您设置 TRUE 过滤条件并在被授权方列表中包含服务代理:

重复行

将数据写入 BigQuery 表时,Cloud DLP 可能会写入重复的行。

最近流式传输的数据

Cloud DLP 不会扫描最近流式传输的数据(以前称为流式缓冲区)。如需了解详情,请参阅 BigQuery 文档中的流式数据可用性

BigQuery 检查问题

以下问题仅适用于对 BigQuery 数据执行检查操作的情况。它们不会影响数据剖析文件。

导出的发现结果中 row_number 字段没有值

当您配置 Cloud DLP 以将发现结果保存到 BigQuery 时,系统会在扫描输入表时推断生成的 BigQuery 表中的 location.content_locations.record_location.record_key.big_query_key.row_number 字段。其值是不确定的,无法查询,并且对于检查作业可以为 null。

如果需要标识存在发现结果的特定行,请在创建作业时指定 inspectJob.storageConfig.bigQueryOptions.identifyingFields

在生成的 BigQuery 表的 location.content_locations.record_location.record_key.id_values 字段中可以找到标识字段。

仅限扫描新的 BigQuery 内容

如果您仅扫描新内容,并且使用 BigQuery Storage Write API 填充输入表,则 Cloud DLP 可能会跳过扫描某些行。

为了缓解此问题,在检查作业中,请确保 TimespanConfig 对象的 timestampField 是 BigQuery 自动生成的提交时间戳。但是,仍无法保证没有跳过任何行,因为 Cloud DLP 不会从最近流式传输的数据中读取。

如果要为列自动生成提交时间戳,并且使用旧版流式传输 API 填充输入表,请执行以下操作:

  1. 在输入表的架构中,确保时间戳列的类型为 TIMESTAMP

    架构示例

    以下示例定义了 commit_time_stamp 字段,并将其类型设置为 TIMESTAMP

    ...
    {
     "name": "commit_time_stamp",
     "type": "TIMESTAMP"
    }
    ...
    
  2. tabledata.insertAll 方法的 rows[].json 字段中,确保时间戳列中的值设置为 AUTO

    JSON 示例

    以下示例将 commit_time_stamp 字段的值设置为 AUTO

    {
      ...
      "commit_time_stamp": "AUTO",
      ...
    }
    

BigQuery 性能剖析问题

以下问题仅适用于对 BigQuery 数据进行性能分析的操作。如需了解详情,请参阅 BigQuery 数据的数据配置文件

拥有超过 5 亿个表的组织或项目

如果您尝试对拥有超过 5 亿个表的组织或项目进行数据分析,Cloud DLP 将返回错误。如果遇到此错误,您可以通过电子邮件将反馈发送至 cloud-dlp-feedback@google.com

如果您的组织拥有超过 5 亿个表,但您有些项目的表数量较少,则请尝试执行项目级层扫描。

如需了解表和列的限制,请参阅数据剖析限制

检查模板

检查模板必须与要分析的数据位于同一区域。如果您的数据遍布多个区域,请使用多个检查模板(每个具有数据的区域都有一个)。您还可以使用存储在 global 区域的检查模板。如果您在 global 区域添加模板,Cloud DLP 会使用该模板来处理不含区域特定模板的任何数据。如需了解详情,请参阅数据驻留注意事项

存储的 InfoType

检查模板中引用的存储的 infoType(也称为存储的自定义字典检测器)必须存储在以下任一位置:

  • global 区域。
  • 与检查模板位于同一区域。

否则,分析操作会失败并显示错误 Resource not found

VPC Service Controls

在 VPC Service Controls 可用区使用此功能不受官方支持。如果您尝试扫描 VPC Service Controls 可用区内的数据,请发送电子邮件至 cloud-dlp-feedback@google.com 告知我们您遇到了哪些问题。

智能文档解析

本部分包含与文档解析相关的已知问题。

DocumentLocation 对象未填充

对于智能文档解析扫描模式,系统不会填充 location.content_locations.document_location.file_offset 字段。