本教程介绍了如何使用适用于 Cloud DLP 的 Cloud Data Fusion 插件遮盖敏感数据。
场景
考虑以下使用场景,其中的某些敏感客户信息必须遮盖:
您的支持团队会在支持服务工单中记录他们处理的每个支持案例的详细信息。支持服务工单中的所有信息都会被拉取到 CSV 文件中。支持技术人员不应记录任何被视为敏感信息的客户信息,但有时他们会错误地记录这些信息。您会发现 CSV 文件中显示了一些客户的电话号码。
您想查看 CSV 文件并隐藏所有电话号码。您可以使用 Cloud DLP 插件创建一个 Cloud Data Fusion 流水线,以遮盖敏感客户数据。
在本教程中,您将创建一个执行以下操作的流水线:
- 使用
#
字符遮盖客户电话号码。 - 将经过遮盖的敏感数据和非敏感数据存储在 Cloud Storage 存储分区中。
目标
- 将 Cloud Data Fusion 连接到 Cloud Storage 来源。
- 部署 Cloud DLP 插件。
- 创建自定义 Cloud DLP 模板。
- 使用遮盖转换插件来遮盖敏感客户数据。
- 将输出数据写入 Cloud Storage。
费用
在本文档中,您将使用 Google Cloud 的以下收费组件:
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.
- 创建 Cloud Data Fusion 实例。
获取 Cloud DLP 权限
在 Google Cloud 控制台中,转到 IAM 页面。
在权限表的主账号列中,找到与
service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com
格式匹配的服务账号。点击 edit 修改。
点击添加其他角色。
使用搜索栏进行搜索,然后选择DLP 管理员。
点击保存。
检查 DLP 管理员是否显示在角色列中。
导航到 Cloud Data Fusion 界面
使用 Cloud Data Fusion 时,您将同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 界面。在 Google Cloud 控制台中,您可以创建 Google Cloud 控制台项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以通过各种页面(例如 Studio 或 Wrangler)来使用 Cloud Data Fusion 功能。
在 Google Cloud 控制台中,打开实例页面。
在实例的操作列中,点击查看实例链接。Cloud Data Fusion 界面将在新的浏览器标签页中打开。
创建流水线
创建流水线以遮盖敏感客户数据。您构建的流水线将执行以下操作:
- 使用 Cloud Storage 源插件读取输入数据。
- 从 Hub 部署 Cloud DLP 插件。
- 使用 Cloud Storage 接收器插件写入输出数据。
加载客户数据
本教程使用在公开提供的 Cloud Storage 存储分区中提供的输入数据集 CallCenterRecords.csv
。
打开您的 Cloud Data Fusion 实例,然后依次点击 menu 菜单 > Studio。
在来源菜单中,点击 Cloud Storage 插件。
在 Cloud Storage 节点上,点击属性。
在参考名称字段中,输入名称。
在路径字段中,输入
gs://datafusion-sample-datasets/CallCenterRecords.csv
。在格式字段中,选择
CSV
。对于输出架构,请删除偏移和正文字段。点击
Add(添加),然后在以下字段中输入相应信息:- 日期
- 银行
- 州
- Zip
- 备注
点击验证以检查是否存在错误。
点击
关闭。
隐去敏感数据
Cloud DLP 隐去插件可识别数据输入流中的敏感记录,并将您定义的转换应用于这些记录。与您选择的预定义 Cloud DLP 过滤条件或您定义的自定义模板匹配的数据记录,被视为敏感记录。
在本教程中,您希望遮盖您团队中的一些支持技术人员意外记录的客户电话号码。他们在支持服务工单的备注部分(在 CSV 文件中显示为备注列)中输入了敏感信息。创建自定义 Cloud DLP 模板,然后在该插件的属性菜单中提供模板 ID。
部署 Cloud DLP 插件
在 Cloud Data Fusion 实例中,点击 Hub。
点击 Cloud DLP 插件。
点击部署。
点击 Finish。
点击
Close 以退出 Cloud DLP 对话框。点击
Close 退出 Hub。
创建自定义模板
在 Google Cloud 控制台中,前往 Cloud DLP 页面。
从创建菜单中,选择模板。
在模板 ID 字段中,输入模板的 ID。
点击继续。
在配置检测字段中,点击管理信息类型。
在内置标签页中,使用过滤条件搜索“电话号码”。
选择电话号码。
依次点击完成 > 创建。
详细了解如何创建 Cloud DLP 模板。
应用 Cloud DLP 隐去转换
前往 Cloud Data Fusion 的 Studio 页面,然后点击以展开转换菜单。
点击 Cloud DLP Redact 插件。
将连接箭头从 Cloud Storage 节点拖动到 Redact 节点。
将鼠标指针放在遮盖节点上,然后点击属性。
将自定义模板设置为
Yes
。在模板 ID 字段中,输入您创建的自定义模板的模板 ID。
在匹配字段中,对备注中的自定义模板应用遮盖。
在遮盖字符字段中,输入
#
。点击验证以检查是否存在错误。
点击
关闭。
存储输出数据
将流水线的结果存储在 Cloud Storage 文件中。
在 Studio 页面中,点击以展开 Sink 菜单。
点击 Cloud Storage。
将连接箭头从隐去节点拖动到 Cloud Storage2 节点。
将鼠标指针悬停在 Cloud Storage2 节点上,然后点击属性。
在参考名称字段中,输入名称。
在路径字段中,输入用于存储流水线结果的 Cloud Storage 存储分区的路径。Cloud Data Fusion 会为您创建存储分区。请务必遵循存储分区命名准则。
在格式字段中,选择 CSV。
点击验证以确保没有错误。
点击
关闭。
在预览模式下运行流水线
在部署流水线之前,请以预览模式运行流水线。
点击预览,然后点击运行。
点击运行会显示流水线状态,从正在启动开始,依次转换为停止、运行。
预览运行完成后,在遮盖节点上,点击预览数据以查看输入和输出数据的并排比较。检查是否已使用
#
字符遮盖电话号码。
遮盖其他数据类型
在检查预览运行结果时,您发现备注列中仍然显示敏感信息:电子邮件地址。您返回修改 Cloud DLP 模板以遮盖电子邮件地址。
在 Google Cloud 控制台中,前往 Cloud DLP 页面。
在配置标签页中,选择您的模板。
点击修改。
点击管理信息类型。
在内置标签页中,使用过滤条件搜索“或”“电子邮件地址”。
全选然后点击完成。
点击保存。
再次在预览模式下运行流水线。 Cloud Data Fusion 将自动使用更新后的 Cloud DLP 模板。
检查是否已使用
#
字符遮盖电话号码和电子邮件地址。
部署并运行流水线
确保未选中预览模式。
点击保存。点击保存之后,系统会提示您为流水线命名。然后点击确定。
点击部署。
部署完成后,点击运行。运行流水线可能需要几分钟时间。在等待期间,您可以观察到流水线的状态从正在预配依次转换为正在启动、正在运行、正在取消预配、成功。
查看结果
在 Google Cloud 控制台中,转到 Cloud Storage 页面。
在 Cloud Storage 浏览器中,导航到您在接收器 Cloud Storage 插件属性中指定的接收器 Cloud Storage 存储分区。
在链接网址中,点击相应链接以下载包含结果的 CSV 文件。 检查是否已使用
#
字符遮盖了电话号码和电子邮件地址。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。
删除 Cloud Data Fusion 实例
请按照以下说明删除 Cloud Data Fusion 实例。
删除项目
为了避免产生费用,最简单的方法是删除您为本教程创建的项目。
如需删除项目,请执行以下操作:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
后续步骤
- 详细了解 Cloud Data Fusion。
- 了解如何使用 Cloud Data Fusion 插件,该插件提供了遮盖转换插件和过滤条件 PII 转换插件。