本指南介绍了如何将 Sensitive Data Protection 与 Cloud Data Fusion 搭配使用。
Cloud Data Fusion 提供了一个 Sensitive Data Protection 插件,该插件提供三种可过滤、遮盖或解密敏感数据的转换:
使用“PII 过滤条件”转换,您可以过滤数据输入流中的敏感记录。
使用“遮盖”转换,您可以转换敏感数据,例如遮盖数据或加密数据。
使用“解密”转换,您可以对之前使用“遮盖”转换进行加密的敏感数据进行解密。
费用
在本文档中,您将使用 Google Cloud 的以下收费组件:
您可使用价格计算器根据您的预计使用情况来估算费用。
准备工作
在 Google Cloud 控制台中,前往项目选择器页面,然后选择或 创建项目。
为项目启用 Cloud Data Fusion API。
为您的项目启用 DLP API(敏感数据保护的一部分)。
授予敏感数据保护权限
在 Google Cloud 控制台中,转到 IAM 页面。
在权限表的主账号列中,选择以下任一服务账号:
如需在运行时获得对资源的权限,请选择 Dataproc 集群使用的服务账号。默认为 Compute Engine 服务账号,出于安全考虑,我们不建议使用
如需在 Cloud Data Fusion 中使用 Wrangler 或预览(而非在运行时)时获得对资源的权限,请改为选择与以下格式匹配的服务账号:
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
。
点击服务账号右侧的铅笔图标。
点击添加其他角色。
点击显示的下拉列表。
使用搜索栏进行搜索,然后选择DLP 管理员。
点击保存。检查 DLP 管理员是否显示在角色列中。
部署 Sensitive Data Protection 插件
转到您的实例:
在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。
在 Cloud Data Fusion 网页界面的右上角,点击 Hub。
点击 Data Loss Prevention 插件。
点击部署。
点击完成。
点击创建流水线。
使用 PII 过滤条件转换
此转换会将敏感记录与非敏感记录分开。与您在 Sensitive Data Protection 模板中定义的条件匹配的记录被视为敏感记录。例如,在创建模板时,您可以将敏感数据定义为信用卡信息或社会保障号。
在 Cloud Data Fusion 中打开您的流水线,然后点击 Studio > 转换。
点击 PII 过滤条件转换。
将鼠标指针放在 PII 过滤条件节点上,然后点击属性。
在过滤条件下,选择要过滤记录还是字段。
根据 Sensitive Data Protection 限制,如果记录超过 0.5 MB,您的 Cloud Data Fusion 流水线将会失败。 为避免发生此类失败,请按字段而非记录进行过滤。
在模板 ID 下,输入您创建的 Sensitive Data Protection 模板的模板 ID。
在错误处理下,定义当流水线遇到敏感数据时如何进行后续操作。选择以下一种错误处理选项:
- 停止流水线:在遇到错误时立即停止流水线。
- 跳过记录:跳过导致错误的记录。流水线继续运行,且不会报告错误。
- 发送到错误:将错误发送到错误端口。流水线继续运行。
点击 X 按钮。
使用遮盖转换
此转换可识别输入流中的敏感记录,并将您定义的转换应用于这些记录。将记录视为 敏感数据(如果与您选择的预定义敏感数据保护过滤条件匹配) 或您定义的自定义模板
在 Cloud Data Fusion 网页界面的 Studio 页面中,点击以展开转换菜单。
点击遮盖转换。
将鼠标指针放在遮盖节点上,然后点击属性。
选择是要对预定义过滤器应用转换,还是要 您想要创建自己的属性。
不能将这两个选项结合使用。您可以使用预定义的过滤条件,也可以创建自定义模板。
预定义过滤器
要为预定义过滤器应用转换,请保留自定义 模板设置为否,然后在匹配下定义一条规则:
点击应用后,点击下拉列表并选择一种转换。 如需详细了解可用的转换,请参阅插件的文档标签页的说明部分。
在开启之后,点击下拉列表,然后选择一个类别,类别是一组按类型分组在一起的预定义敏感数据保护过滤条件。如需查看所提供类别的完整列表以及类别包含的过滤条件,请参阅插件的文档标签页中的 DLP 过滤条件映射部分。
要设置多条匹配规则,请点击 + 按钮。
自定义模板
要根据自定义模板应用转换,请将自定义模板设置为是。
返回到 Cloud Data Fusion 网页界面,在遮盖属性菜单的模板 ID 下,输入您创建的自定义模板的模板 ID。
点击 X 按钮。
使用“解密”转换
此转换可识别使用 Sensitive Data Protection 加密的记录 然后应用解密。系统只能对使用可逆算法(如保留格式加密或确定性加密)加密的记录进行解密。
在 Cloud Data Fusion 网页界面的 Studio 页面中,点击以展开转换菜单。
点击解密转换。
将鼠标指针放在解密节点上,然后点击属性。
输入用于配置 Redact 插件的 加密了这些数据。此插件的属性与 Redact 插件。
点击 X 按钮。
后续步骤
- 学习遮盖敏感用户数据教程。
- 详细了解敏感数据保护。