扫描结果根据它们表示匹配项的可能性进行分类。敏感数据保护使用 表示概率的概率,用于表示概率的 确认一条数据与给定 infoType 匹配。
可能性的运作方式
配置敏感数据保护扫描时,需要设置 infoType 请求 Sensitive Data Protection 扫描。缩小扫描范围 结果,您可以在您的报告中设置最低可能性级别 请求。
对于扫描期间检测到的每个可能匹配项(发现结果),敏感数据保护都会分配一个可能性级别。发现结果的可能性级别描述了该发现结果与您要扫描的 infoType 匹配的可能性。例如,敏感数据保护可能会为
LIKELY
的发现结果类似电子邮件地址的概率。
当敏感数据保护返回结果时,它会过滤掉
您找到的可能性低于您给出的最低可能性
。例如,如果您将最小可能性设为
POSSIBLE
,您将只能获得评估为 POSSIBLE
的发现结果,
LIKELY
和VERY_LIKELY
。如果您将最低可能性设置为 VERY_LIKELY
,则会获得最少的发现结果。
可能性级别
下表列出了敏感数据保护功能可为发现结果分配的可能概率值。
ENUM | 说明 |
---|---|
VERY_UNLIKELY |
具有以下特征:
|
UNLIKELY |
特征如下:
|
POSSIBLE |
具有以下特征:
|
LIKELY |
由给定 infoType 的一个或多个强信号来表示。 信号可包括传递的校验和、强的上下文线索以及 唯一且具体的格式 |
VERY_LIKELY |
其特征是针对给定 infoType 具有多个强烈信号。信号可包括传递的校验和、强的上下文线索以及 唯一且具体的格式 |
为扫描结果选择最低可能性级别
一般来说,如果您在敏感数据保护请求中设置的最低概率级别较高,则结果中的假正例(有时称为噪声)数量会较少。不过,结果还会排除更多 真正例。选择最低可能性级别涉及寻找合适的 召回率和 精确率。
例如,假设某个文档中有 10 个街道地址, 敏感数据保护服务识别了 5 个街道地址。不过,在敏感数据保护功能发现的结果中,实际上只有 4 个街道地址。
- 召回率是指真正例实例数占相关实例总数的比例。在此示例中,召回率为 4/10。
- 精度是指敏感数据保护功能识别出的实例总数中的真正正例实例数。在此示例中,精确度为 4/5。
在此示例中,精确率很高,但召回率相对较低。
您设置的最低可能性级别会影响扫描结果中的召回率和精确率。下表介绍了每个最小似然度级别的适用场景,以及每个级别的召回率和准确率的变化情况。
最低可能性级别 | 说明 |
---|---|
LIKELIHOOD_UNSPECIFIED |
默认值;与 POSSIBLE 相同。 |
VERY_UNLIKELY |
如果您需要最高的召回率,则此方法非常有用。此最低可能性级别会产生最多的噪声。 |
UNLIKELY |
如果您需要更高的召回率,则此参数很有用。这个最低可能性级别 会生成一些噪声。 |
POSSIBLE |
如果您希望平衡精确率和召回率,则此参数很有用。 |
LIKELY |
如果您需要提高精确率,但不想降低召回率,此方法非常有用。 |
VERY_LIKELY |
如果您想以最高精度 召回率。 |
默认的最小可能性
如果您未在请求中设置最低可能性,或者您已将其设置为
LIKELIHOOD_UNSPECIFIED
,敏感数据保护仅返回具有
概率为 POSSIBLE
及以上。