Cloud Data Loss Prevention (Cloud DLP) 现已成为敏感数据保护功能的一部分。API 名称保持不变：Cloud Data Loss Prevention API (DLP API)。如需了解构成敏感数据保护的服务，请参阅敏感数据保护概览。

已知问题

本页面列出了敏感数据保护的已知问题，以及可以避免以下问题或在发生以下问题时恢复服务的方法。

常见问题

将结果存储到 BigQuery

当作业或发现扫描将结果存储到 BigQuery 时，日志中会显示 Already exists 错误。此错误并不表示存在问题；系统会按预期存储您的结果。

BigQuery 扫描

本部分介绍了您在inspecting或分析 BigQuery 数据时可能遇到的问题。

检查和性能分析操作的常见问题

以下问题在 BigQuery 检查和性能分析操作中均会出现。

以下问题也适用于 BigQuery（预览版）中的去标识化操作。

无法扫描具有行级安全性的行

行级安全政策可以防止敏感数据保护检查和分析受保护的 BigQuery 表。如果您对 BigQuery 表应用了行级安全政策，我们建议您设置 TRUE 过滤条件并将服务代理添加到受助人列表中：

如果您要在组织或文件夹级层分析数据，请在受助人列表中添加容器项目的服务代理。
如果您要在项目级层分析数据或对表运行检查作业，请在受助人列表中添加项目的服务代理。

重复行

将数据写入 BigQuery 表时，敏感数据保护可能会写入重复的行。

最近流式传输的数据

敏感数据保护不会扫描最近流式传输的数据（以前称为“流式传输缓冲区”）。如需了解详情，请参阅 BigQuery 文档中的流式数据可用性。

BigQuery 检查问题

以下问题仅适用于针对 BigQuery 数据的检查操作。它们不会影响数据分析文件。

导出的发现结果中 row_number 字段没有值

如果您配置敏感数据保护以将发现结果保存到 BigQuery，则系统会在扫描输入表时推断生成的 BigQuery 表中的 location.content_locations.record_location.record_key.big_query_key.row_number 字段。其值是不确定的，无法查询，并且对于检查作业可以为 null。

如果需要标识存在发现结果的特定行，请在创建作业时指定 inspectJob.storageConfig.bigQueryOptions.identifyingFields。

在生成的 BigQuery 表的 location.content_locations.record_location.record_key.id_values 字段中可以找到标识字段。

将扫描限制为新的 BigQuery 内容

此问题也适用于 BigQuery（预览版）中的去标识化操作。

如果您将扫描限制为仅扫描新内容，并且使用 BigQuery Storage Write API 填充输入表，敏感数据保护可能会跳过扫描某些行。

为了缓解此问题，请在检查作业中确保 TimespanConfig 对象的 timestampField 是 BigQuery 自动生成的提交时间戳。但是，由于敏感数据保护不会从最近流式传输的数据中读取数据，因此仍无法保证不会跳过任何行。

如果要为列自动生成提交时间戳，并使用旧版流式传输 API 填充输入表，请执行以下操作：

在输入表的架构中，确保时间戳列的类型为 TIMESTAMP。

示例架构

以下示例定义了 commit_time_stamp 字段并将其类型设置为 TIMESTAMP：
```
...
{
 "name": "commit_time_stamp",
 "type": "TIMESTAMP"
}
...
```
在 tabledata.insertAll 方法的 rows[].json 字段中，确保时间戳列中的值设置为 AUTO。

示例 JSON

以下示例将 commit_time_stamp 字段的值设置为 AUTO：
```
{
  ...
  "commit_time_stamp": "AUTO",
  ...
}
```

了解如何手动移除重复项。

通过设置最大百分比或行数来限制扫描

当您根据占表总行数 (rowsLimitPercent) 的百分比来设置抽样限制时，敏感数据保护可以检查的行数超出预期。如果您需要对要扫描的行数设置硬性限制，我们建议您改为设置最大行数 (rowsLimit)。

BigQuery 性能分析问题

以下问题仅适用于针对 BigQuery 数据的分析操作。如需了解详情，请参阅 BigQuery 数据的数据分析文件。

拥有超过 5 亿个表的组织或项目

如果您尝试分析具有超过 5 亿个表的组织或项目，敏感数据保护功能会返回错误。如果遇到此错误，您可以通过电子邮件将反馈发送至 cloud-dlp-feedback@google.com。

如果您的组织拥有超过 5 亿个表，但您有些项目的表数量较少，则请尝试执行项目级层扫描。

如需了解表和列的限制，请参阅数据剖析限制。

检查模板

检查模板必须与要分析的数据位于同一区域。如果您的数据分布在多个区域，请使用多个检查模板，每个模板对应您拥有数据的区域。您还可以使用存储在 global 区域中的检查模板。如果您在 global 区域中添加了模板，敏感数据保护会将该模板用于没有区域专用模板的任何数据。如需了解详情，请参阅数据驻留注意事项。

存储的 InfoType

检查模板中引用的存储的 infoType（也称为存储的自定义字典检测器）必须存储在以下任一位置中：

global 区域。
与检查模板相同的区域。

否则，分析操作将失败，并显示错误 Resource not found。

VPC Service Controls

在 VPC Service Controls 可用区使用此功能不受官方支持。如果您尝试扫描 VPC Service Controls 区域内的数据，请发送电子邮件至 cloud-dlp-feedback@google.com，告诉我们您遇到了什么问题。

Cloud Storage 扫描

本部分介绍了您在inspecting数据或进行去标识化数据时可能遇到的问题。

使用大型自定义字典检测器检查 XLSX 文件

如果您使用大型自定义字典检测器（也称为存储的自定义字典检测器）来检查 Microsoft Excel .xlsx 文件，检查作业可能会运行缓慢、看起来卡住不动，并引发大量 Cloud Storage B 类操作。这是因为敏感数据保护可能会针对 .xlsx 文件中的每个单元格读取一次大型自定义字典的来源字词列表。读取操作量过大可能会导致敏感数据保护检查作业显示进展不大，并似乎卡住。

如需详细了解相关的 Cloud Storage 结算费用，请参阅操作费用中的 B 类操作费用。

正在以二进制模式扫描的结构化文件

在某些情况下，通常在结构化解析模式下扫描的文件可能会以二进制模式进行扫描，该模式不包括结构化解析模式的增强功能。如需了解详情，请参阅在结构化解析模式下扫描结构化文件。

智能文档解析

本部分包含与文档解析相关的已知问题。

`DocumentLocation` 对象未填充

对于智能文档解析扫描模式，系统不会填充 location.content_locations.document_location.file_offset 字段。

检测

如果字典字词包含 Unicode 标准的补充多语言平面中的字符，可能会产生意外结果。此类字符的示例包括中文、日语、韩语和表情符号。

已知问题

常见问题

将结果存储到 BigQuery

BigQuery 扫描

检查和性能分析操作的常见问题

无法扫描具有行级安全性的行

重复行

最近流式传输的数据

BigQuery 检查问题

导出的发现结果中 row_number 字段没有值

将扫描限制为新的 BigQuery 内容

通过设置最大百分比或行数来限制扫描

BigQuery 性能分析问题

拥有超过 5 亿个表的组织或项目

检查模板

存储的 InfoType

VPC Service Controls

Cloud Storage 扫描

使用大型自定义字典检测器检查 XLSX 文件

正在以二进制模式扫描的结构化文件

智能文档解析

DocumentLocation 对象未填充

检测

`DocumentLocation` 对象未填充