分类、隐去和去标识化

敏感数据保护功能可帮助您了解、管理和保护敏感数据。借助敏感数据保护,您可以轻松分类和隐去基于文本的内容和图片中包含的敏感数据,包括存储在 Google Cloud 存储代码库中的内容。

文本分类

假设存在以下文本输入:

Please update my records with the following information:
Email address: foo@example.com

National Provider Identifier: 1245319599

Driver's license: AC333991

输出是一个结果列表,分为以下几类:

下表中显示了示例输出。

InfoType Likelihood Offset
US_HEALTHCARE_NPI VERY_LIKELY 122
EMAIL_ADDRESS LIKELY 72
US_DRIVERS_LICENSE_NUMBER LIKELY 155
CANADA_BC_PHN VERY_UNLIKELY 122
UK_TAXPAYER_REFERENCE VERY_UNLIKELY 122
CANADA_PASSPORT VERY_UNLIKELY 155

自动遮盖文本

自动遮盖会生成一个输出,其中并未提供结果列表,而是移除了敏感数据匹配项。

自动遮盖输入的示例:

Please update my records with the following information:
Email address: foo@example.com

National Provider Identifier: 1245319599

Driver's license: AC333991

使用占位符“***”输出的示例:

Please update my records with the following information:
Email address: ***

National Provider Identifier: ***

Driver's license: ***

图片分类

敏感数据保护使用光学字符识别 (OCR) 技术在分类之前识别文本。与文本分类类似,它会返回结果,但它还会在找到文本的位置添加边界框。

存储分类

存储分类扫描存储在 Cloud Storage、Datastore 模式 Firestore (Datastore) 和 BigQuery 中的数据。您可以在请求中指定您希望敏感数据保护扫描的 Cloud Storage 存储桶、Datastore 种类或 BigQuery 表的存储位置,而不是将数据流式传输到敏感数据保护中。

扫描 Cloud Storage 位置中的文件时,敏感数据保护支持扫描二进制文件、文本、图片、Microsoft Word、Microsoft Excel、Microsoft Powerpoint、PDF 和 Apache Avro 文件。如需敏感数据保护可以在 Cloud Storage 中扫描的文件类型的文件扩展名列表,请参阅 FileType 的 API 参考文档页面。无法识别类型的文件将作为二进制文件进行扫描。

扫描结果可以保存到新的 BigQuery 表格中,也可以发布到 Pub/Sub 主题。然后,您可以使用内置的 BigQuery 工具运行丰富的 SQL 分析,或使用 Looker Studio 等工具生成报告。

如需详细了解如何使用敏感数据保护扫描存储代码库中的敏感数据,请参阅检查存储空间和数据库中是否存在敏感数据

如需详细了解如何使用其他 Google Cloud 工具直观呈现扫描结果,请参阅分析和报告敏感数据保护发现结果

后续步骤