本页面提供了有关识别和防范组织中数据风险的建议策略。
如要保护您的数据,首先需要了解您在处理哪些数据、敏感数据位于何处,以及如何保护和使用这些数据。全面了解数据及其安全状况后,您可以采取适当措施来保护数据,并持续监控合规性和风险。
本页面假定您熟悉发现和检查服务及其差异。
启用敏感数据发现
如需确定贵组织中敏感数据的位置,请在组织、文件夹或项目级别配置发现。该服务会生成数据分析文件,其中包含有关您数据的指标和数据分析,包括数据的敏感度级别和数据风险级别。
作为一项服务,发现功能可作为数据资产的可靠来源,并可自动报告审核报告的指标。此外,发现功能还可以连接到 Security Command Center、Google Security Operations 和 Dataplex 等其他 Google Cloud 服务,以丰富安全运维和数据管理。
发现服务会持续运行,并在您的组织运营和发展过程中检测新数据。例如,如果贵组织中的某位用户创建了一个新项目并上传了大量新数据,发现服务可以自动发现、分类和生成新数据报告。
Sensitive Data Protection 提供预先创建的多页 Looker 报告,可让您大致了解数据,包括按风险、infoType 和位置进行细分。在以下示例中,报告显示低敏感度数据和高敏感度数据分布在世界多个国家/地区。
根据发现结果采取行动
全面了解数据安全状况后,您可以解决发现的所有问题。通常,发现结果会属于以下某种情况:
- 场景 1:在预期位置的某个工作负载中发现了敏感数据,并且这些数据得到了妥善保护。
- 场景 2:在预期不存在敏感数据或未实施适当控制措施的工作负载中发现了敏感数据。
- 场景 3:发现了敏感数据,但需要进一步调查。
场景 1:发现了敏感数据并进行了适当保护
虽然此情形不需要采取具体措施,但您应在审核报告和安全分析工作流中添加数据配置文件,并继续监控可能导致数据面临风险的更改。
我们建议您采取以下做法:
将数据配置文件发布到用于监控安全状况和调查网络威胁的工具。数据分析文件可帮助您确定可能危及敏感数据的安全威胁或漏洞的严重程度。您可以将数据配置文件自动导出到以下位置:
将数据集发布到 Dataplex 或商品目录系统,以跟踪数据集指标以及任何其他适当的业务元数据。如需了解如何自动将数据分析导出到 Dataplex,请参阅根据数据分析中的洞见在 Dataplex 中标记表。
场景 2:发现了敏感数据,但未得到适当保护
如果发现工具在资源中发现了未通过访问控制机制妥善保护的敏感数据,请考虑本部分中所述的建议。
为数据建立正确的控制机制和数据安全状况后,请监控可能导致数据面临风险的任何更改。请参阅场景 1 中的建议。
一般建议
请考虑执行以下操作:
创建去标识化的数据副本,以遮盖或标记敏感列,这样数据分析师和工程师仍然可以处理您的数据,而不会泄露个人身份信息 (PII) 等原始敏感标识符。
对于 Cloud Storage 数据,您可以使用 Sensitive Data Protection 中的内置功能创建去标识化副本。
如果您不需要这些数据,请考虑将其删除。
关于保护 BigQuery 数据的建议
- 使用 IAM 调整表级权限。
使用 BigQuery 政策标记设置精细的列级访问权限控制,以限制对敏感列和高风险列的访问权限。借助此功能,您可以保护这些列,同时允许访问表的其余部分。
您还可以使用政策标记启用自动数据遮盖,以向用户提供经过部分混淆处理的数据。
您可以使用 BigQuery 的行级安全性功能,根据用户或群组是否在许可名单中,隐藏或显示某些数据行。
关于保护 Cloud Storage 数据的建议
场景 3:发现了敏感数据,但需要进一步调查
在某些情况下,您可能会收到需要进一步调查的结果。例如,数据配置文件可能会指明某个列的自由文本得分较高,并且有敏感数据的证据。自由文本得分较高表示数据没有可预测的结构,并且可能包含间歇性敏感数据实例。这可能是一个备注列,其中某些行包含个人身份信息(例如姓名、详细联系信息或政府签发的身份识别码)。在这种情况下,我们建议您对表设置额外的访问权限控制,并执行场景 2 中所述的其他补救措施。此外,我们建议您开展更深入的定向检查,以确定风险程度。
借助检查服务,您可以对单个资源(例如单个 BigQuery 表或 Cloud Storage 存储桶)进行彻底扫描。对于检查服务不直接支持的数据源,您可以将数据导出到 Cloud Storage 存储桶或 BigQuery 表,然后对该资源运行检查作业。例如,如果您有需要在 Cloud SQL 数据库中检查的数据,可以将这些数据导出到 Cloud Storage 中的 CSV 或 AVRO 文件,然后运行检查作业。
检查作业会定位敏感数据的各个实例,例如表格单元格中句子中间的信用卡号。此级别的详细信息有助于您了解非结构化列或数据对象中包含哪些类型的数据,包括文本文件、PDF 文件、图片和其他富文档格式。然后,您可以按照场景 2 中所述的任何建议来解决问题。
除了在场景 2 中建议的步骤之外,不妨考虑采取措施来防止敏感信息进入后端数据存储空间。Cloud Data Loss Prevention API 的 content
方法可以接受来自任何工作负载或应用的数据,以便进行动态数据检查和屏蔽。例如,您的应用可以执行以下操作:
- 接受用户提供的评论。
- 运行
content.deidentify
可对该字符串中的所有敏感数据进行去标识化处理。 - 将去标识化字符串保存到后端存储空间,而不是原始字符串。
最佳做法摘要
下表总结了本文档中建议的最佳实践:
挑战 | 操作 |
---|---|
您想了解贵组织存储了哪些类型的数据。 | 在组织、文件夹或项目级运行发现。 |
您在已保护的资源中发现了敏感数据。 | 通过运行发现功能并将配置文件自动导出到 Security Command Center、Google SecOps 和 Dataplex,持续监控该资源。 |
您在未受保护的资源中发现了敏感数据。 | 根据查看者隐藏或显示数据;使用 IAM、列级安全性或行级安全性。您还可以使用 Sensitive Data Protection 的去标识化工具来转换或移除敏感元素。 |
您发现了敏感数据,需要进一步调查以了解数据风险程度。 | 在资源上运行检查作业。您还可以使用 DLP API 的同步 content 方法(可近乎实时处理数据)主动阻止敏感数据进入后端存储空间。 |