隐去机密数据


本教程介绍了如何使用适用于 Cloud DLP 的 Cloud Data Fusion plugin遮盖敏感数据。

场景

请考虑以下场景,在该场景中,必须遮盖一些敏感的客户信息:

您的支持团队会在支持服务工单中记录他们处理的每个支持案例的详细信息。支持服务工单中的所有信息都会被拉取到 CSV 文件中。支持技术人员不应记录任何被视为敏感信息的客户信息,但有时他们会错误地记录这些信息。您会发现 CSV 文件中显示了一些客户的电话号码。

您想查看 CSV 文件并隐藏所有电话号码。您可以使用 Cloud DLP 插件创建一个 Cloud Data Fusion 流水线,以遮盖敏感客户数据。

在本教程中,您将创建一个执行以下操作的流水线:

  • 使用 # 字符遮盖客户手机号码,从而隐去相应手机号码。
  • 将经过遮盖的敏感数据和非敏感数据存储在 Cloud Storage 存储桶中。

目标

  • 将 Cloud Data Fusion 连接到 Cloud Storage 来源。
  • 部署 Cloud DLP 插件。
  • 创建自定义 Cloud DLP 模板。
  • 使用遮盖转换插件来遮盖敏感客户数据。
  • 将输出数据写入 Cloud Storage。

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  5. 确保您的 Google Cloud 项目已启用结算功能

  6. 启用 Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc API。

    启用 API

  7. 创建 Cloud Data Fusion 实例

获取 Cloud DLP 权限

  1. 在 Google Cloud 控制台中,转到 IAM 页面。

    打开 IAM 页面

  2. 在权限表的主账号列中,找到与 service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com 格式匹配的服务账号。

  3. 点击 修改

  4. 点击添加其他角色

  5. 使用搜索栏进行搜索,然后选择DLP 管理员

  6. 点击保存

  7. 检查 DLP 管理员是否显示在角色列中。

使用 Cloud Data Fusion 时,您可以同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 界面。在 Google Cloud 控制台中,您可以创建 Google Cloud 控制台项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以通过各种页面(例如 StudioWrangler)来使用 Cloud Data Fusion 功能。

  1. 在 Google Cloud 控制台中,打开实例页面。

    打开“实例”页面

  2. 在实例的操作列中,点击查看实例链接。Cloud Data Fusion 界面将在新的浏览器标签页中打开。

创建流水线

创建流水线以遮盖敏感客户数据。您构建的流水线将执行以下操作:

  • 使用 Cloud Storage 源插件读取输入数据。
  • 从 Hub 部署 Cloud DLP 插件。
  • 使用 Cloud Storage 接收器插件写入输出数据。

加载客户数据

本教程使用在公开提供的 Cloud Storage 存储桶中提供的输入数据集 CallCenterRecords.csv

  1. 打开 Cloud Data Fusion 实例,然后点击 菜单 > Studio

  2. 来源菜单中,点击 Cloud Storage 插件。

    选择该插件。

  3. Cloud Storage 节点上,点击属性

  4. 参考名称字段中,输入名称。

  5. 路径字段中,输入 gs://datafusion-sample-datasets/CallCenterRecords.csv

  6. 格式字段中,选择 CSV

  7. 对于输出架构,请删除 offsetbody 字段。点击 Add(添加),然后输入以下字段:

    • 日期
    • 银行
    • 状态
    • Zip
    • Notes

    输入来源媒体资源。

  8. 点击验证以检查错误。

  9. 点击 关闭

隐去敏感数据

Cloud DLP 隐去插件可识别输入数据流中的敏感记录,并将您定义的转换应用于这些记录。如果数据记录与您选择的预定义 Cloud DLP 过滤条件或您定义的自定义模板匹配,则会被视为敏感数据。

在本教程中,您希望遮盖您团队中的一些支持技术人员意外记录的客户电话号码。他们在支持服务工单的备注部分(在 CSV 文件中显示为备注列)中输入了敏感信息。您可以创建自定义 Cloud DLP 模板,然后在插件的属性菜单中提供模板 ID。

部署 Cloud DLP 插件

  1. 在您的 Cloud Data Fusion 实例中,点击中心

  2. 点击 Cloud DLP 插件。

  3. 点击部署

  4. 点击完成

  5. 点击 关闭以退出 Cloud DLP 对话框。

  6. 点击 Close 以退出 Hub。

创建自定义模板

  1. 在 Google Cloud 控制台中,转到 Cloud DLP 页面。

    转到 Cloud DLP

  2. 创建菜单中,选择模板图片

  3. 模板 ID 字段中,输入模板的 ID。

  4. 点击继续

  5. 配置检测字段中,点击管理 infotype

  6. 内置标签页中,使用过滤条件搜索“电话号码”。

    过滤。

  7. 选择PHONE_NUMBER

  8. 依次点击完成 > 创建

详细了解如何创建 Cloud DLP 模板

应用 Cloud DLP 隐去转换

  1. 转到 Cloud Data Fusion Studio 页面,然后点击展开转换菜单。

  2. 点击 Cloud DLP 隐去插件。

    点击该插件,将其添加到您的流水线。

  3. 将连接箭头从 Cloud Storage 节点拖动到隐去节点。

    连接两个节点。

  4. 将鼠标指针放在遮盖节点上,然后点击属性

    1. 自定义模板设置为 Yes

    2. 模板 ID 字段中,输入您创建的自定义模板的模板 ID。

    3. 匹配字段中,对备注中的自定义模板应用遮盖

    4. 遮盖字符字段中,输入 #

      戴口罩的脸。

    5. 点击验证以检查错误。

    6. 点击 关闭

存储输出数据

将流水线的结果存储在 Cloud Storage 文件中。

  1. 工作室页面中,点击以展开接收器菜单。

  2. 点击 Cloud Storage

  3. 将连接箭头从隐去节点拖动到 Cloud Storage2 节点。

    将隐去节点连接到第二个 Cloud Storage 节点。

  4. 将指针悬停在 Cloud Storage2 节点上,然后点击属性

    1. 参考名称字段中,输入名称。

    2. 路径字段中,输入要存储流水线结果的 Cloud Storage 存储桶的路径。Cloud Data Fusion 会为您创建存储桶。请务必遵循存储桶命名准则

    3. 格式字段中,选择 CSV

    4. 点击验证以确保没有错误。

    5. 点击 关闭

在预览模式下运行流水线

在部署流水线之前,请以预览模式运行流水线。

  1. 点击预览,然后点击运行

    运行流水线。

    点击运行会显示流水线状态,状态从启动开始,然后变为停止,接着变为运行

  2. 预览运行完成后,在遮盖节点上,点击预览数据以查看输入和输出数据的并排比较。检查手机号码是否已使用 # 字符进行遮盖。

    检查手机号码是否已经过遮盖。

遮盖其他数据类型

在检查预览运行结果时,您发现备注列中仍然显示敏感信息:电子邮件地址。您返回修改 Cloud DLP 模板以遮盖电子邮件地址。

  1. 在 Google Cloud 控制台中,转到 Cloud DLP 页面。

    打开 Cloud DLP 页面

  2. 配置标签页上,选择您的模板。

  3. 点击修改

  4. 点击管理信息类型

  5. 内置标签页中,使用过滤条件搜索“或”“电子邮件地址”。

    过滤。

  6. 全选然后点击完成

  7. 点击保存

  8. 再次在预览模式下运行流水线。 Cloud Data Fusion 将自动使用更新后的 Cloud DLP 模板。

  9. 检查手机号码和电子邮件地址是否已使用 # 字符遮盖。

    检查数据是否已遮盖。

部署并运行流水线

  1. 确保未选中预览模式。

  2. 点击保存。点击保存之后,系统会提示您为流水线命名。然后点击确定

  3. 点击部署

  4. 部署完成后,点击运行。运行流水线可能需要几分钟时间。在等待期间,您可以观察到流水线的状态正在预配依次转换为正在启动正在运行正在取消预配成功

查看结果

  1. 在 Google Cloud 控制台中,转到 Cloud Storage 页面。

    转到 Cloud Storage

  2. Cloud Storage 浏览器中,导航到您在接收器 Cloud Storage 插件属性中指定的接收器 Cloud Storage 存储桶。

  3. 链接网址中,点击相应链接以下载包含结果的 CSV 文件。 检查手机号码和电子邮件地址是否已使用 # 字符进行了遮盖。

    检查数据是否已遮盖。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

删除 Cloud Data Fusion 实例

请按照以下说明删除 Cloud Data Fusion 实例

删除项目

若要避免产生费用,最简单的方法是删除您为本教程创建的项目。

如需删除项目,请执行以下操作:

  1. 在 Google Cloud 控制台中,进入管理资源页面。

    转到“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击关闭以删除项目。

后续步骤