将 Sensitive Data Protection 与 Cloud Data Fusion 搭配使用

本指南介绍了如何将 Sensitive Data Protection 与 Cloud Data Fusion 搭配使用。

Cloud Data Fusion 提供了一个 Sensitive Data Protection 插件,该插件提供三种可过滤、遮盖或解密敏感数据的转换:

  • 使用“PII 过滤条件”转换,您可以过滤数据输入流中的敏感记录。

  • 使用“遮盖”转换,您可以转换敏感数据,例如遮盖数据或加密数据。

  • 使用“解密”转换,您可以对之前使用“遮盖”转换进行加密的敏感数据进行解密。

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

  1. 在 Google Cloud 控制台中,前往项目选择器页面,然后选择或 创建项目。

    前往项目选择器

  2. 为项目启用 Cloud Data Fusion API。

    启用 Cloud Data Fusion API

  3. 为您的项目启用 DLP API(敏感数据保护的一部分)。

    启用 DLP API

  4. 创建 Cloud Data Fusion 实例

授予敏感数据保护权限

  1. 在 Google Cloud 控制台中,转到 IAM 页面。

    转到 IAM

  2. 在权限表的主账号列中,选择以下任一服务账号:

    1. 如需在运行时获得对资源的权限,请选择 Dataproc 集群使用的服务账号。默认为 Compute Engine 服务账号,出于安全考虑,我们不建议使用

    2. 如需在 Cloud Data Fusion 中使用 Wrangler 或预览(而非在运行时)时获得对资源的权限,请改为选择与以下格式匹配的服务账号:service-project-number@gcp-sa-datafusion.iam.gserviceaccount.com

  3. 点击服务账号右侧的铅笔图标。

  4. 点击添加其他角色

  5. 点击显示的下拉列表。

  6. 使用搜索栏进行搜索,然后选择DLP 管理员

  7. 点击保存。检查 DLP 管理员是否显示在角色列中。

部署 Sensitive Data Protection 插件

  1. 转到您的实例:

    1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

    2. 如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例

      转到实例

  2. 在 Cloud Data Fusion 网页界面的右上角,点击 Hub

  3. 点击 Data Loss Prevention 插件。

  4. 点击部署

  5. 点击完成

  6. 点击创建流水线

使用 PII 过滤条件转换

此转换会将敏感记录与非敏感记录分开。与您在 Sensitive Data Protection 模板中定义的条件匹配的记录被视为敏感记录。例如,在创建模板时,您可以将敏感数据定义为信用卡信息或社会保障号。

  1. 创建敏感数据保护检查模板

  2. 在 Cloud Data Fusion 中打开您的流水线,然后点击 Studio > 转换

  3. 点击 PII 过滤条件转换。

  4. 将鼠标指针放在 PII 过滤条件节点上,然后点击属性

  5. 过滤条件下,选择要过滤记录还是字段。

    根据 Sensitive Data Protection 限制,如果记录超过 0.5 MB,您的 Cloud Data Fusion 流水线将会失败。 为避免发生此类失败,请按字段而非记录进行过滤。

  6. 模板 ID 下,输入您创建的 Sensitive Data Protection 模板的模板 ID。

  7. 错误处理下,定义当流水线遇到敏感数据时如何进行后续操作。选择以下一种错误处理选项:

    • 停止流水线:在遇到错误时立即停止流水线。
    • 跳过记录:跳过导致错误的记录。流水线继续运行,且不会报告错误。
    • 发送到错误:将错误发送到错误端口。流水线继续运行。
  8. 点击 X 按钮。

使用遮盖转换

此转换可识别输入流中的敏感记录,并将您定义的转换应用于这些记录。将记录视为 敏感数据(如果与您选择的预定义敏感数据保护过滤条件匹配) 或您定义的自定义模板

  1. 在 Cloud Data Fusion 网页界面的 Studio 页面中,点击以展开转换菜单。

  2. 点击遮盖转换。

  3. 将鼠标指针放在遮盖节点上,然后点击属性

  4. 选择是要对预定义过滤器应用转换,还是要 您想要创建自己的属性。

    不能将这两个选项结合使用。您可以使用预定义的过滤条件,也可以创建自定义模板。

    预定义过滤器

    要为预定义过滤器应用转换,请保留自定义 模板设置为,然后在匹配下定义一条规则:

    1. 点击应用后,点击下拉列表并选择一种转换。 如需详细了解可用的转换,请参阅插件的文档标签页的说明部分。

    2. 开启之后,点击下拉列表,然后选择一个类别,类别是一组按类型分组在一起的预定义敏感数据保护过滤条件。如需查看所提供类别的完整列表以及类别包含的过滤条件,请参阅插件的文档标签页中的 DLP 过滤条件映射部分。

    要设置多条匹配规则,请点击 + 按钮。

    自定义模板

    要根据自定义模板应用转换,请将自定义模板设置为

    1. 创建自定义敏感数据保护模板

    2. 返回到 Cloud Data Fusion 网页界面,在遮盖属性菜单的模板 ID 下,输入您创建的自定义模板的模板 ID。

  5. 点击 X 按钮。

使用“解密”转换

此转换可识别使用 Sensitive Data Protection 加密的记录 然后应用解密。系统只能对使用可逆算法(如保留格式加密或确定性加密)加密的记录进行解密。

  1. 在 Cloud Data Fusion 网页界面的 Studio 页面中,点击以展开转换菜单。

  2. 点击解密转换。

  3. 将鼠标指针放在解密节点上,然后点击属性

  4. 输入用于配置 Redact 插件的 加密了这些数据。此插件的属性与 Redact 插件。

  5. 点击 X 按钮。

后续步骤