图片检查和隐去

敏感数据保护功能可以根据您指定的条件检查并隐去图片中的敏感文本。

借助 infoType 检测器和光学字符识别 (OCR),敏感数据保护功能可检查 base64 编码图片中的文本,并检测文本中是否存在敏感数据。然后返回有关图片内敏感数据位置的信息,或使用不透明的矩形遮盖发现的敏感数据,将其隐去。

检查和隐去是两项不同的操作:

  • 检查:敏感数据保护功能会检查所提交的 base64 编码的图片中是否存在指定的 infoType。它会返回检测到的 InfoType,以及一组或多组像素坐标和维度。 每组像素坐标和维度值分别表示边界框的左下角和维度。每个边界框对应全部或部分的敏感数据保护发现结果。
  • 隐去:敏感数据保护功能会检查所提交的 base64 编码的图片中是否存在指定的 infoType。敏感数据保护功能会使用不透明的矩形遮盖发现的所有敏感数据以将其隐去。它会返回隐去了敏感数据的 base64 编码的图片,采用与原始图片相同的格式。您还可以在请求中配置隐去框的颜色。

检查简介

敏感数据保护功能的图片检查功能会检查所提交的 base64 编码的图片,识别图片中的任何文本,然后在文本中搜索匹配其检查条件的任何数据。最后,Sensitive Data Protection 会返回其检测到的所有敏感数据的位置。

请参考以下图片。此图片是通过扫描纸质文档生成的典型图片文件示例。

未经隐去处理的原始图片。
未进行隐去处理的原始图片(点击可放大)。

如果您指示敏感数据保护功能检查图片中是否存在美国社会保障号,它将执行下图所示的流程。

图片检查流程。
图片检查流程(点击可放大)。
  1. 使用 content.inspect 方法将 base64 编码的图片流式传输到敏感数据保护。
  2. 敏感数据保护功能通过使用光学字符识别 (OCR) 识别文档中的文本。
  3. Sensitive Data Protection 使用您之前设置的敏感数据检测配置扫描识别出的文本,识别出所有匹配项。
  4. Sensitive Data Protection 会返回根据检测标准找到的图片中敏感数据的区域坐标和维度。

返回的坐标指示找到敏感数据的位置。请注意,Sensitive Data Protection 通常使用多个框来指示图片内单个敏感数据实例的位置。对于手写文本尤其如此,如本例所示。

如果敏感数据保护功能未在图片中找到与您的检测标准相匹配的任何数据,则返回空的 HTTP 200 响应。

遮盖简介

图片隐去比图片检查多了一个步骤。敏感数据保护功能识别出图片中敏感数据的位置后,会填充图片的相应区域,并返回已进行隐去处理的 base64 编码的图片,而不是返回数据所在位置的坐标。

再次参考上一部分中的原始图片。如果您指示敏感数据保护功能隐去图片中的所有美国社会保障号,它将执行下图所示的流程。

图片隐去流程。
图片隐去流程(点击可放大)。
  1. 使用 image.redact 方法将 base64 编码的图片流式传输到敏感数据保护。
  2. 敏感数据保护功能通过使用光学字符识别 (OCR) 识别文档中的文本。
  3. Sensitive Data Protection 使用您之前设置的敏感数据检测配置扫描识别出的文本,识别出所有匹配项。
  4. 敏感数据保护功能会使用不透明的矩形隐去检测到的所有敏感数据。然后对图片进行 base64 编码并在请求响应中返回。

如果 Sensitive Data Protection 未在图片中找到与您的检测标准相匹配的任何数据,则会返回 base64 编码的相同图片。

后续步骤