创建自定义 InfoType 检测器

Cloud Data Loss Prevention (DLP) 包含许多内置的 infoType 检测器,但您也可自行创建。您可以通过定义自己的自定义 infoType 检测器来自定义检测行为,以便 Cloud DLP 检查与您指定的模式相匹配的敏感数据或对其进行去标识化。自定义 infoType 检测器有三种:

  • 常规自定义字典检测器 - Cloud DLP 匹配的简单字词和短语列表。如果您的字词数最多几十万,请使用常规自定义字典检测器。
  • 存储的自定义字典检测器 - 由 Cloud DLP 使用 Cloud Storage 或 BigQuery 中存储的大量字词或短语生成。当您拥有一个包含高达数千万个字词或短语的庞大列表时,请使用存储的自定义字典检测器。
  • 正则表达式 (regex) 检测器 - 使 Cloud DLP 能够基于正则表达式模式检测匹配项

此外,Cloud DLP 还包含检查规则的概念,因此您可使用以下规则微调扫描结果:

  • 通过排除规则,您可以通过向内置或自定义 infoType 检测器添加规则来排除错误或不需要的结果
  • 通过热词规则,您可以通过向内置或自定义 infoType 检测器添加规则来增加返回结果的数量或提高准确率

如需详细了解自定义 infoType 检测器,请参阅 InfoType 和 InfoType 检测器概念页面。如需您可以根据需要使用或更改的几个示例,请参阅自定义 infoType 检测器示例。本主题的其余部分介绍了如何使用 Cloud DLP 自行创建自定义 infoType 检测器。

自定义 infoType 检测器的使用范围

自定义 infoType 检测器在 CustomInfoType 对象中定义的。配置以下内容时,请在 InspectConfig 对象中指定 CustomInfoType

API 概览

借助 CustomInfoType 对象,您可以为新内容创建自定义 infoType 检测器或微调由预定义的 infoType 检测器返回的结果。

CustomInfoType 对象由按照上述内容设置的下列字段构成:

  • "infotype"InfoType 对象中包含的自定义 infoType 检测器的名称。
  • "likelihood":要为此自定义 infoType 检测器返回的默认 Likelihood 值。您可以在 "detectionRules" 中指定 Likelihood 备用值;如果结果符合规则指定的条件,它将取代这个 Likelihood 基本值。如果不包含 "likelihood" 字段,则自定义 infoType 检测器默认为 VERY_LIKELY。如需详细了解可能性,请参阅可能性概念页面。
  • "detectionRules":一组 DetectionRule 对象,它们可额外应用于此自定义 infoType 检测器的所有结果。您可以在此处将热词规则指定为 HotwordRule 对象。规则按照指定顺序进行应用。此字段不适用于 SurrogateType 对象。
  • 下列字段之一,具体取决于您要创建的自定义 infoType 检测器的种类:

    • "dictionary"Dictionary 对象,其中包含要搜索的字词或短语的列表。
    • "regex"Regex 对象,其中包含定义正则表达式的单个模式。
    • "surrogateType"SurrogateType 对象;如果存在,则表示自定义 infoType 检测器是一个代理。要详细了解如何使用代理自定义 infoType 检测器,请参阅假名化

后续步骤

通过下列主题详细了解如何创建自定义 infoType: