自定义 infoType 检测器

敏感数据保护包含许多内置的 infoType 检测器,但您也可自行创建。您可以通过定义自己的自定义 infoType 检测器来自定义检测行为,以便敏感数据保护对与您指定的模式匹配的敏感数据进行检查或去标识化。以下是自定义 infoType 检测器的类型:

  • 常规自定义字典检测器是敏感数据保护匹配的简单字词和短语列表。如果您的字词数最多几十万,请使用常规自定义字典检测器。
  • 大型自定义字典检测器由敏感数据保护使用存储在 Cloud Storage 或 BigQuery 中的大量字词或短语生成。如果您拥有一个包含高达数千万个字词或短语的庞大列表,请使用大型自定义字典检测器。
  • 正则表达式 (regex) 检测器 - 敏感数据保护可以根据正则表达式模式检测匹配项
  • 代理 infoType 检测器 - 检测敏感数据保护去标识化转换 CryptoReplaceFfxFpeConfig 的输出。 此自定义 infoType 检测器仅与 content:reidentify 方法搭配使用,以便在 FFX 模式下通过保留格式加密 (FPE) 逆转去标识化。因此,在这些主题中并未详细描述代理。如需详细了解如何以及何时使用代理自定义 infoType 检测器,请参阅假名化

此外,敏感数据保护包含检查规则的概念,可让您通过以下方式对扫描结果进行微调:

  • 通过排除规则,您可以通过向内置或自定义 infoType 检测器添加规则来排除错误或不需要的结果
  • 通过热词规则,您可以通过向内置或自定义 infoType 检测器添加规则来增加返回结果的数量或提高准确率

如需详细了解自定义 infoType 检测器,请参阅 InfoType 和 InfoType 检测器概念页面。如需您可以根据需要使用或更改的几个示例,请参阅自定义 infoType 检测器示例。本主题的其余部分介绍了如何使用敏感数据保护功能创建自己的自定义 infoType 检测器。

自定义 infoType 检测器的使用范围

自定义 infoType 检测器在 CustomInfoType 对象中定义的。配置以下内容时,请在 InspectConfig 对象中指定 CustomInfoType

API 概览

借助 CustomInfoType 对象,您可以为新内容创建自定义 infoType 检测器或微调由预定义的 infoType 检测器返回的结果。

CustomInfoType 对象由按照上述内容设置的下列字段构成:

  • "infotype"InfoType 对象中包含的自定义 infoType 检测器的名称。
  • "likelihood":要为此自定义 infoType 检测器返回的默认 Likelihood 值。您可以在 "detectionRules" 中指定 Likelihood 备用值;如果结果符合规则指定的条件,它将取代这个 Likelihood 基本值。如果不包含 "likelihood" 字段,则自定义 infoType 检测器默认为 VERY_LIKELY。如需详细了解可能性,请参阅可能性概念页面。
  • "detectionRules":一组 DetectionRule 对象,它们可额外应用于此自定义 infoType 检测器的所有结果。您可以在此处将热词规则指定为 HotwordRule 对象。规则按照指定顺序进行应用。此字段不适用于 SurrogateType 对象。
  • "sensitivityScore":要为此自定义 infoType 检测器返回的 SensitivityScore 值。如果不包含 "sensitivityScore" 字段,则自定义 infoType 检测器默认为 VERY_LIKELY

    敏感度得分用于数据分析文件。剖析数据时,敏感数据保护使用 infoType 的敏感度分数计算敏感度级别

  • 下列字段之一,具体取决于您要创建的自定义 infoType 检测器的种类:

    • "dictionary"Dictionary 对象,其中包含要搜索的字词或短语的列表。
    • "regex"Regex 对象,其中包含定义正则表达式的单个模式。
    • "surrogateType"SurrogateType 对象;如果存在,则表示自定义 infoType 检测器是一个代理。要详细了解如何使用代理自定义 infoType 检测器,请参阅假名化
    • "storedType":对现有 StoredInfoType 对象的引用。创建大型自定义字典检测器时,此字段为必填字段。虽然您可以通过定义此字段来创建正则表达式检测器或正则表达式检测器,但分别定义 dictionary 字段或 regex 字段会更容易创建。

后续步骤

通过下列主题详细了解如何创建自定义 infoType: