隐去机密数据


本教程介绍了如何使用适用于 Cloud DLP 的 Cloud Data Fusion 插件遮盖敏感数据。

场景

请考虑以下场景:其中一些敏感的客户信息 必须隐去的数据:

您的支持团队会在支持服务工单中记录他们处理的每个支持案例的详细信息。支持服务工单中的所有信息都会被拉取到 CSV 文件中。支持技术人员不应记录任何被视为敏感信息的客户信息,但有时他们会错误地记录这些信息。您会发现 CSV 文件中显示了一些客户的电话号码。

您想查看 CSV 文件并隐藏所有电话号码。您可以使用 Cloud DLP 插件创建一个 Cloud Data Fusion 流水线,以遮盖敏感客户数据。

在本教程中,您将创建一个执行以下操作的流水线:

  • 使用 # 字符遮盖客户电话号码。
  • 将经过遮盖的敏感数据和非敏感数据存储在 Cloud Storage 存储分区中。

目标

  • 将 Cloud Data Fusion 连接到 Cloud Storage 来源。
  • 部署 Cloud DLP 插件。
  • 创建自定义 Cloud DLP 模板。
  • 使用遮盖转换插件来遮盖敏感客户数据。
  • 将输出数据写入 Cloud Storage。

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. 创建 Cloud Data Fusion 实例

获取 Cloud DLP 权限

  1. 在 Google Cloud 控制台中,转到 IAM 页面。

    打开 IAM 页面

  2. 在权限表的主账号列中,找到与 service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com 格式匹配的服务账号。

  3. 点击 修改

  4. 点击添加其他角色

  5. 使用搜索栏进行搜索,然后选择DLP 管理员

  6. 点击保存

  7. 检查 DLP 管理员是否显示在角色列中。

使用 Cloud Data Fusion 时,您会同时使用 Google Cloud 控制台和 和单独的 Cloud Data Fusion 界面。在 Google Cloud 控制台中 创建 Google Cloud 控制台项目以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以通过各种页面(例如 StudioWrangler)来使用 Cloud Data Fusion 功能。

  1. 在 Google Cloud 控制台中,打开实例页面。

    打开“实例”页面

  2. 在实例的操作列中,点击查看实例链接。Cloud Data Fusion 界面将在新的浏览器标签页中打开。

创建流水线

创建流水线以遮盖敏感客户数据。您构建的流水线将执行以下操作:

  • 使用 Cloud Storage 源插件读取输入数据。
  • 从中心部署 Cloud DLP 插件。
  • 使用 Cloud Storage 接收器插件写入输出数据。

加载客户数据

本教程使用在公开提供的 Cloud Storage 存储分区中提供的输入数据集 CallCenterRecords.csv

  1. 打开您的 Cloud Data Fusion 实例,然后依次点击 菜单 > Studio

  2. 来源菜单中,点击 Cloud Storage 插件。

    选择插件。

  3. Cloud Storage 节点上,点击属性

  4. 参考名称字段中,输入名称。

  5. 路径字段中,输入 gs://datafusion-sample-datasets/CallCenterRecords.csv

  6. 格式字段中,选择 CSV

  7. 对于输出架构,请删除 offsetbody 字段。 点击 Add(添加),然后输入以下字段:

    • 日期
    • 银行
    • Zip
    • 备注

    输入来源媒体资源。

  8. 点击验证以检查是否存在错误。

  9. 点击 关闭

隐去敏感数据

Cloud DLP Redact 插件可识别 数据,并将您定义的转换应用于这些记录。A 记录 如果数据与预定义的 Cloud DLP 匹配,则会被视为敏感数据 您选择的过滤条件或您定义的自定义模板。

在本教程中,您希望遮盖您团队中的一些支持技术人员意外记录的客户电话号码。他们在支持服务工单的备注部分(在 CSV 文件中显示为备注列)中输入了敏感信息。创建自定义 Cloud DLP 模板,然后在插件的属性菜单中提供模板 ID。

部署 Cloud DLP 插件

  1. 在您的 Cloud Data Fusion 实例中,点击 Hub

  2. 点击 Cloud DLP 插件。

  3. 点击部署

  4. 点击完成

  5. 点击 关闭以退出 Cloud DLP 对话框。

  6. 点击 关闭以退出 Hub。

创建自定义模板

  1. 在 Google Cloud 控制台中,转到 Cloud DLP 页面。

    转到 Cloud DLP

  2. 创建菜单中,选择模板图片

  3. 模板 ID 字段中,输入模板的 ID。

  4. 点击继续

  5. 配置检测字段中,点击管理 infoType

  6. 内置标签页中,使用过滤条件搜索“电话号码”。

    过滤条件。

  7. 选择电话号码

  8. 依次点击完成 > 创建

详细了解如何创建 Cloud DLP 模板

应用 Cloud DLP Redact 转换

  1. 转到 Cloud Data Fusion Studio 页面,然后点击 展开转换菜单。

  2. 点击 Cloud DLP Redact 插件。

    点击该插件将其添加到您的流水线。

  3. 将连接箭头从 Cloud Storage 节点拖动到 Redact 节点。

    连接这两个节点。

  4. 将鼠标指针放在遮盖节点上,然后点击属性

    1. 自定义模板设置为 Yes

    2. 模板 ID 字段中,输入您要创建的自定义模板的模板 ID 已创建

    3. Matching(匹配)字段中,对 Notes(备注)中的 Custom template(自定义模板)应用 Masking(遮盖)。

    4. 遮盖字符字段中,输入 #

      戴口罩、

    5. 点击验证以检查是否存在错误。

    6. 点击 关闭

存储输出数据

将流水线的结果存储在 Cloud Storage 文件中。

  1. Studio 页面中,点击以展开接收器菜单。

  2. 点击 Cloud Storage

  3. 将连接箭头从隐去节点拖动到 Cloud Storage2 节点。

    将隐去节点连接到第二个 Cloud Storage 节点。

  4. 将指针悬停在 Cloud Storage2 节点上,然后点击属性

    1. 参考名称字段中,输入名称。

    2. 路径字段中,输入用于存储流水线结果的 Cloud Storage 存储桶的路径。Cloud Data Fusion 会创建 存储桶请务必遵循 存储桶命名准则

    3. 格式字段中,选择 CSV

    4. 点击验证以确保没有错误。

    5. 点击 关闭

在预览模式下运行流水线

在部署流水线之前,请以预览模式运行流水线。

  1. 点击预览,然后点击运行

    运行流水线。

    点击运行会显示流水线状态,以 开始,然后转为停止,接着转为运行

  2. 预览运行完成后,在遮盖节点上,点击预览数据以查看输入和输出数据的并排比较。查看 手机号码已使用 # 字符遮盖。

    检查手机号码是否已遮盖。

遮盖其他数据类型

在检查预览运行结果时,您发现备注列中仍然显示敏感信息:电子邮件地址。您返回修改 Cloud DLP 模板以遮盖电子邮件地址。

  1. 在 Google Cloud 控制台中,转到 Cloud DLP 页面。

    打开 Cloud DLP 页面

  2. 配置标签页上,选择您的模板。

  3. 点击修改

  4. 点击管理信息类型

  5. 内置标签页中,使用过滤条件搜索“或”“电子邮件地址”。

    过滤条件。

  6. 全选然后点击完成

  7. 点击保存

  8. 再次在预览模式下运行流水线。 Cloud Data Fusion 将自动使用更新后的 Cloud DLP 模板。

  9. 检查手机号码和电子邮件地址是否已遮盖 包含 # 字符。

    检查数据是否已遮盖。

部署并运行流水线

  1. 确保未选中预览模式。

  2. 点击保存。点击保存之后,系统会提示您为流水线命名。然后点击确定

  3. 点击部署

  4. 部署完成后,点击运行。运行流水线可能需要几分钟时间。在等待期间,您可以观察到流水线的状态正在预配依次转换为正在启动正在运行正在取消预配成功

查看结果

  1. 在 Google Cloud 控制台中,转到 Cloud Storage 页面。

    转到 Cloud Storage

  2. Cloud Storage 浏览器中,导航到您在接收器 Cloud Storage 插件属性中指定的接收器 Cloud Storage 存储分区。

  3. 链接网址中,点击相应链接以下载包含结果的 CSV 文件。 检查手机号码和电子邮件地址是否已被使用 # 字符。

    检查数据是否已遮盖。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。

删除 Cloud Data Fusion 实例

请按照以下说明删除 Cloud Data Fusion 实例

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

如需删除项目,请执行以下操作:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

后续步骤