图片检查和隐去

敏感数据保护可以根据您指定的条件检查和隐去图片中的敏感文本。

敏感数据保护使用 infoType 检测器和光学字符识别 (OCR) 功能来检查 base64 编码图片中的文本,并检测文本中的敏感数据。然后返回有关图片内敏感数据位置的信息,或使用不透明的矩形遮盖发现的敏感数据,将其隐去。

检查和隐去是两项不同的操作:

  • 检查:敏感数据保护会检查所提交的 base64 编码的图片中是否存在指定的 intoTypes。它会返回检测到的 InfoType,以及一组或多组像素坐标和维度。 每组像素坐标和维度值分别表示边界框的左下角和维度。每个边界框对应于敏感数据保护发现结果的全部或部分内容。
  • 隐去:敏感数据保护会检查所提交的 base64 编码的图片中是否存在指定的 infoType。敏感数据保护使用不透明的矩形遮盖发现的任何敏感数据,从而遮盖这些数据。它会返回隐去了敏感数据的 base64 编码的图片,采用与原始图片相同的格式。您还可以在请求中配置隐去框的颜色。

检查简介

敏感数据保护的图片检查功能会获取采用 base64 编码的图片,识别图片中的任何文本,然后在文本中搜索符合其检查条件的任何数据。最后,敏感数据保护会返回它检测到的任何敏感数据的位置。

请参考以下图片。此图片是通过扫描纸质文档生成的典型图片文件示例。

未隐去内容的原始图片。
未隐去处理的原始图片(点击可放大)。

如果您指示敏感数据保护检查此图片是否存在美国社会保障号,它会执行下图所示的流程。

图片检查流程。
图片检查流程(点击可放大)。
  1. 系统会使用 content.inspect 方法将 base64 编码的图片流式传输到敏感数据保护。
  2. 敏感数据保护使用光学字符识别 (OCR) 识别文档中的文本。
  3. 敏感数据保护使用您之前设置的敏感数据检测配置扫描识别出的文本,并识别所有匹配项。
  4. 敏感数据保护会根据您的检测标准,返回图片中敏感数据所在区域的坐标和尺寸。

返回的坐标指示找到敏感数据的位置。请注意,敏感数据保护通常使用多个框来指示图片中单个敏感数据实例的位置。对于手写文本尤其如此,如本例所示。

如果敏感数据保护未在图片中找到与您的检测标准匹配的任何数据,则会返回空的 HTTP 200 响应。

遮盖简介

图片隐去比图片检查多了一个步骤。敏感数据保护在图片中识别出敏感数据的位置后,会填充图片上的这些区域,而不是返回包含这些数据的区域的坐标,并返回经过遮盖的 base64 编码的图片。

再次参考上一部分中的原始图片。如果您指示敏感数据保护从图片中隐去所有美国社会保障号,则系统会执行下图所示的流程。

图片隐去过程。
图片隐去流程(点击可放大)。
  1. 系统会使用 image.redact 方法将 base64 编码的图片流式传输到敏感数据保护。
  2. 敏感数据保护使用光学字符识别 (OCR) 识别文档中的文本。
  3. 敏感数据保护使用您之前设置的敏感数据检测配置扫描识别出的文本,并识别所有匹配项。
  4. 敏感数据保护使用不透明的矩形遮盖检测到的所有敏感数据。然后对图片进行 base64 编码并在请求响应中返回。

如果敏感数据保护未在图片中找到与您的检测标准相符的任何数据,则会返回 base64 编码的图片。

后续步骤