匹配可能性

扫描结果根据它们表示匹配项的可能性进行分类。敏感数据保护使用可能性的分区化表示法,旨在指示一段数据与给定 infoType 匹配的可能性。

可能性的工作原理

配置敏感数据保护扫描时,请设置您希望敏感数据保护扫描的 infoType。如需缩小扫描结果的范围,您可以在请求中设置最低可能性级别

对于在扫描期间检测到的每个潜在匹配(发现结果),敏感数据保护会分配一个可能性级别。发现结果的可能性级别描述了发现结果与您要扫描的 infoType 匹配的可能性。例如,敏感数据保护可能会将 LIKELY 的可能性分配给类似电子邮件地址的发现结果。

当敏感数据保护返回结果时,它会过滤掉可能性低于您在请求中设置的最低可能性级别的所有发现结果。例如,如果将最小可能性设置为 POSSIBLE,则只能获得评估为 POSSIBLELIKELYVERY_LIKELY 的结果。如果将最小可能性设置为 VERY_LIKELY,则获得的发现结果数量最少。

可能性级别

下表列出了敏感数据保护可以为发现结果分配的可能性值。

ENUM 说明
VERY_UNLIKELY 特征如下:
  • 信号较弱。
  • 缺少上下文线索。
  • 给定 infoType 的负面信号。
UNLIKELY 特征如下:
  • 存在一个或多个微弱信号。
  • 其他 infoType 的信号更强。
POSSIBLE 特征如下:
  • 指向给定 infoType 的一个或多个信号。信号可能包括通过校验和。
  • 缺乏强有力的上下文线索,并且格式独特。
LIKELY 特征为给定 infoType 的一个或多个强信号。 信号可能包括传递校验和、强上下文线索以及唯一的特定格式。
VERY_LIKELY 其特征为具有给定 infoType 的许多强信号。 信号可能包括传递校验和、强上下文线索以及唯一的特定格式。

为扫描结果选择最低可能性级别

一般来说,如果您在敏感数据保护请求中设置较高的最低可能性级别,结果的假正例(有时称为“噪声”)会较少。不过,结果也可以排除更多真正例。选择最低可能性等级时,需要在召回率和精确率之间找到适当的平衡。

例如,假设某文档中有 10 个街道地址,且敏感数据保护识别了 5 个街道地址。然而,在敏感数据保护发现的发现结果中,实际上只有 4 个街道地址。

  • 召回率是指相关实例总数中真正例的数量。在本例中,召回率为 4/10。
  • 精确率是指敏感数据保护识别的实例总数中真正例的数量。在此示例中,精确度为 4/5。

在此示例中,精确率较高,但召回率相对较低。

您设置的最低可能性级别会影响扫描结果中获得的召回率和精确率。下表介绍了每个最低可能性等级何时有用,以及召回率和精确率在每个等级有何不同。

最低可能性等级 说明
LIKELIHOOD_UNSPECIFIED 默认值;与 POSSIBLE 相同。
VERY_UNLIKELY 如果您需要最高的召回率,此类型很有用。这个最小可能性等级产生的噪声最多。
UNLIKELY 如果您需要更高的回想率,这会非常有用。这种最小可能性级别会产生一些噪声。
POSSIBLE 如果您希望在精确率和召回率之间取得平衡,这会非常有用。
LIKELY 如果您需要以较高的召回率为代价获得更高的精确率,则该选项很有用。
VERY_LIKELY 如果您希望以最高召回率为代价获得最高精确率,这会非常有用。

默认最小可能性

如果您未在请求中设置最低可能性,或者将它设置为 LIKELIHOOD_UNSPECIFIED,敏感数据保护将仅返回可能性为 POSSIBLE 及更高的发现结果。