隐去机密数据

本教程介绍了如何使用适用于 Cloud DLP 的 Cloud Data Fusion 插件遮盖敏感数据。

使用场景

考虑以下使用场景,其中的某些敏感客户信息需要遮盖:

您的支持团队会在支持服务工单中记录他们处理的每个支持案例的详细信息。支持服务工单中的所有信息都会被拉取到 CSV 文件中。支持技术人员不应记录任何被视为敏感信息的客户信息,但有时他们会错误地记录这些信息。您会发现 CSV 文件中显示了一些客户的电话号码。

您想查看 CSV 文件并隐藏所有电话号码。您可以使用 Cloud DLP 插件创建一个 Cloud Data Fusion 流水线,以遮盖敏感客户数据。

在本教程中,您将创建一个执行以下操作的流水线:

  • 使用 # 字符遮盖客户电话号码。
  • 将经过遮盖的敏感数据和非敏感数据存储在 Cloud Storage 存储分区中。

目标

  • 将 Cloud Data Fusion 连接到 Cloud Storage 来源。
  • 部署 Cloud DLP 插件。
  • 创建自定义 Cloud DLP 模板。
  • 使用遮盖转换插件来遮盖敏感客户数据。
  • 将输出数据写入 Cloud Storage。

费用

本教程使用 Google Cloud 的以下收费组件:

请使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

  1. 登录您的 Google Cloud 帐号。如果您是 Google Cloud 新手,请创建一个帐号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到“项目选择器”

  3. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  4. 启用 Cloud Data Fusion, Cloud Storage, BigQuery, and Cloud Dataproc API。

    启用 API

  5. 创建 Cloud Data Fusion 实例

获取 Cloud DLP 权限

  1. 在 Cloud Console 中,转到 IAM 页面。

    打开 IAM 页面

  2. 在权限表的成员列中,找到与 service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com 格式匹配的服务帐号。

  3. 点击服务帐号右侧的“修改” 按钮。

  4. 点击添加其他角色

  5. 点击显示的下拉列表。

  6. 使用搜索栏进行搜索,然后选择DLP 管理员

  7. 点击保存

  8. 检查 DLP Administrator 是否显示在角色列中。

使用 Cloud Data Fusion 时,您将同时使用 Cloud Console 和单独的 Cloud Data Fusion 界面。在 Cloud Console 中,您可以创建 Cloud Console 项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以通过各种页面(例如 StudioWrangler)来使用 Cloud Data Fusion 功能。

  1. 在 Cloud Console 中,打开实例页面。

    打开“实例”页面

  2. 在实例的操作列中,点击查看实例链接。Cloud Data Fusion 界面将在新的浏览器标签页中打开。

创建流水线

创建流水线以遮盖敏感客户数据。您构建的流水线将执行以下操作:

  • 使用 Cloud Storage 源插件读取输入数据。
  • 从 Hub 部署 Cloud DLP 插件并应用遮盖转换插件。
  • 使用 Cloud Storage 接收器插件写入输出数据。

加载客户数据

本教程使用在公开提供的 Cloud Storage 存储分区中提供的输入数据集 CallCenterRecords.csv

  1. 在 Cloud Data Fusion 界面中,点击菜单并转到 Studio 页面。

  2. 来源菜单中,点击 GCS 插件。

    图片

  3. 将指针放在显示的 GCS 节点上,然后点击属性

  4. 参考名称下,输入参考名称。

  5. 路径下,输入 gs://datafusion-sample-datasets/CallCenterRecords.csv

  6. 格式下,选择 CSV

  7. 输出架构名称下,针对每种数据类型点击添加 按钮,输入以下内容:

    • 日期
    • 银行
    • Zip
    • 备注
  8. 确保所有数据类型均为字符串类型。要更改类型,请点击类型,然后从下拉菜单中选择字符串

  9. 选中每种数据类型对应的 Null 复选框。这可确保在流水线遇到 null(空)值时不会失败。

    图片

  10. 点击验证以确保没有错误。

  11. 点击对话框右上角的 X 按钮。

遮盖敏感数据

遮盖转换插件可识别数据输入流中的敏感记录,并将您定义的转换应用于这些记录。与您选择的预定义 Cloud DLP 过滤条件或您定义的自定义模板匹配的数据记录,被视为敏感记录。

在本教程中,您希望遮盖您团队中的一些支持技术人员意外记录的客户电话号码。他们在支持服务工单的备注部分(在 CSV 文件中显示为备注列)中输入了敏感信息。创建自定义 Cloud DLP 模板,然后在遮盖转换插件的属性菜单中提供模板 ID。

部署 Cloud DLP 插件

  1. 在 Cloud Data Fusion 界面的右上角,点击 Hub

  2. 点击 Data Loss Prevention 插件。

  3. 点击部署

  4. 点击完成

  5. 点击 Cloud DLP | 部署对话框右上角的 X 按钮。

  6. 点击 X 按钮退出 Hub。

创建自定义模板

  1. 在 Cloud Console 中,打开 Cloud DLP。

    打开 Cloud DLP 页面

  2. 创建菜单中,选择模板图片

  3. 定义模板下的模板 ID 字段中,输入模板的 ID。在本教程的后面部分,您将需要该模板 ID。

  4. 点击继续

  5. 配置检测下,点击管理信息类型

  6. 内置标签页中,使用过滤条件搜索“电话号码”。

    图片

  7. 选择电话号码

  8. 点击完成

  9. 点击创建

详细了解如何创建 Cloud DLP 模板

应用遮盖转换

  1. 回到 Cloud Data Fusion 界面,在 Studio 页面上,点击以展开转换菜单。

  2. 点击遮盖转换插件。

    图片

  3. 将连接箭头从 GCS 节点拖动到隐去节点。

    图片

  4. 将鼠标指针放在隐去节点上,然后点击属性

    1. 自定义模板设置为

    2. 模板 ID 下,输入您创建的自定义模板的模板 ID。

    3. 匹配下的备注中,对自定义模板应用遮盖

    4. 遮盖字符下,输入 #

      图片

    5. 点击验证以确保没有错误。

    6. 点击对话框右上角的 X 按钮。

存储输出数据

将流水线的结果存储在 Cloud Storage 文件中。

  1. 在 Cloud Data Fusion 界面的 Studio 页面上,点击以展开接收器菜单。

  2. 点击 GCS

  3. 将连接箭头从隐去节点拖动到 GCS2 节点。

    图片

  4. 将鼠标指针放在 GCS2 节点上,然后点击属性

    1. 参考名称下,输入参考名称。

    2. 路径下,输入用于存储流水线结果的 Cloud Storage 存储分区的路径。Cloud Data Fusion 会为您创建 Cloud Storage 存储分区。请务必遵循存储分区命名准则

    3. 格式下,选择 CSV

      图片

    4. 点击验证以确保没有错误。

    5. 点击对话框右上角的 X 按钮。

在预览模式下运行流水线

在部署流水线之前,请以预览模式运行流水线。

  1. 点击预览,然后点击运行

    图片

    运行按钮会显示流水线状态,从正在启动开始,依次转换为停止运行

  2. 预览运行完成后,在隐去节点上,点击预览数据以查看输入和输出数据的并排比较。检查是否已使用 # 字符遮盖电话号码。

    图片

遮盖其他数据类型

在检查预览运行结果时,您发现备注列中仍然显示敏感信息:电子邮件地址。您返回修改 Cloud DLP 模板以遮盖电子邮件地址。

  1. 在 Cloud Console 中,转到 Cloud DLP 页面。

    打开 Cloud DLP 页面

  2. 配置标签页中,选择您的模板。

  3. 点击修改

  4. 点击管理信息类型

  5. 内置标签页中,使用过滤条件搜索“或”“电子邮件地址”。

    图片

  6. 全选然后点击完成

  7. 点击保存

  8. 再次在预览模式下运行流水线。 Cloud Data Fusion 将自动使用更新后的 Cloud DLP 模板。

  9. 检查是否已使用 # 字符遮盖电话号码电子邮件地址。

    图片

部署并运行流水线

  1. 确保未选中预览模式。

  2. 点击保存。点击保存之后,系统会提示您为流水线命名。然后点击确定

    图片

  3. 点击部署

  4. 部署完成后,点击运行。运行流水线可能需要几分钟时间。在等待期间,您可以观察到流水线的状态正在预配依次转换为正在启动正在运行正在取消预配成功

查看结果

  1. 在 Cloud Console 中,转到 Cloud Storage 页面。

    打开 Cloud Storage 页面

  2. Cloud Storage 浏览器中,导航到您在接收器 Cloud Storage 插件属性中指定的接收器 Cloud Storage 存储分区。

  3. 链接网址中,点击相应链接以下载包含结果的 CSV 文件。 检查是否已使用 # 字符遮盖了电话号码和电子邮件地址。

    图片

清除数据

为避免因本教程中使用的资源导致您的 Google Cloud 帐号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

删除 Cloud Data Fusion 实例

请按照以下说明删除 Cloud Data Fusion 实例

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

如需删除项目,请执行以下操作:

  1. 在 Cloud Console 中,转到管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

后续步骤